抽樣框誤差
1.什么是抽樣框誤差
抽樣框是指對(duì)可以選擇作為樣本的總體單位列出名冊(cè)或排序編號(hào),以確定總體的抽樣范圍和結(jié)構(gòu)。
所謂抽樣框誤差,是指目標(biāo)總體和抽樣總體不一致時(shí)產(chǎn)生的誤差。理想的抽樣框需要滿足以下要求,就是所有的抽樣單位必須覆蓋目標(biāo)總體,對(duì)于較為簡單的單階段抽樣,抽樣框要求每個(gè)目標(biāo)總體單位都應(yīng)該對(duì)應(yīng)著一個(gè)抽樣單位,抽樣單位必須相互獨(dú)立,互不重疊,并且唯一地與目標(biāo)總體相連接。如果目標(biāo)總體與抽樣總體不一致時(shí)就產(chǎn)生了抽樣框誤差。
抽樣框誤差在簡單抽樣框和復(fù)雜抽樣框中都會(huì)出現(xiàn)。所謂的簡單抽樣框主要適用于簡單隨機(jī)抽樣,就是抽樣框沒有任何輔助信息,只是對(duì)樣框內(nèi)的數(shù)據(jù)按原樣隨機(jī)排列。復(fù)雜抽樣框指抽樣框附加了一些輔助信息。這些信息將使抽樣更符合總體的特征值。舉一個(gè)簡單的例子,比如要抽查上海市所有零售企業(yè)的銷售狀況,假如事先知道上海市零售企業(yè)規(guī)模的分布情況,就可以根據(jù)這個(gè)分布比例采用分層抽樣的方法。如果分布比例是正確的,那么分層抽樣的精度要高于簡單隨機(jī)抽樣,而如果比例不正確,那么誤差更大。這里的分布比例就是所謂的輔助信息。
2.抽樣框誤差的來源
抽樣框誤差有五個(gè)來源,分別是:
1、不能覆蓋目標(biāo)總體單位
所謂的不能覆蓋目標(biāo)總體單位,指的是目標(biāo)總體單位沒有出現(xiàn)在抽樣樣本中,那么他們就不可能在隨后的抽樣過程中被選中,導(dǎo)致數(shù)據(jù)丟失。
2、與不能覆蓋相對(duì)應(yīng)的就是,抽樣樣本包含了非目標(biāo)總體單位
包含非目標(biāo)總體單位主要是由于目標(biāo)總體的變化產(chǎn)生的誤差。相對(duì)于不能覆蓋的誤差而言,包含非目標(biāo)總體單位誤差比較容易被發(fā)現(xiàn)。
3、復(fù)合聯(lián)接
復(fù)合聯(lián)接的意思就是一個(gè)目標(biāo)總體單位聯(lián)接著一個(gè)以上的抽樣單位。比如,有的家庭擁有兩個(gè)住所、兩個(gè)地址,那么他們被選中的概率就是一般家庭的兩倍。復(fù)合聯(lián)接的對(duì)象如果具有某些特征值就會(huì)使樣本失真,導(dǎo)致均值發(fā)生偏差。
4、抽樣框老化
統(tǒng)計(jì)數(shù)據(jù)有很強(qiáng)的即時(shí)性,隨著時(shí)間的推移,抽樣框必須更新,否則就會(huì)老化不符合實(shí)際情況使抽樣不精確。最典型的例子,就是隨著城市建設(shè)的大規(guī)模展開,許多地區(qū)已經(jīng)被改造,地址發(fā)生了完全的變化,如果依舊按以前的抽樣框去抽樣,那么精度就會(huì)非常難以控制。
5、輔助信息不正確
前面四種抽樣框誤差會(huì)發(fā)生在簡單抽樣框也會(huì)發(fā)生在復(fù)雜抽樣框,而輔助信息不正確只可能出現(xiàn)在復(fù)雜抽樣框內(nèi)。一般,較大規(guī)模和較復(fù)雜的抽樣必須采用復(fù)雜抽樣框,就是必須要有輔助信息。如果輔助信息不準(zhǔn)確,就會(huì)導(dǎo)致復(fù)雜抽樣的效果反而不及簡單隨機(jī)抽樣。
建立一個(gè)準(zhǔn)確、及時(shí)的抽樣框是減少誤差的基礎(chǔ),在現(xiàn)實(shí)生活中,有缺陷的抽樣框并非不能用,關(guān)鍵看如何去彌補(bǔ)和彌補(bǔ)的成本有多高。
3.抽樣框誤差的減少方法
減少抽樣框誤差一般有以下一些方法:
1、聯(lián)接丟失單位
這種方法主要適用于不能覆蓋總體單位而引起的誤差。所謂聯(lián)接丟失單位的意思就是把抽樣樣本丟失的個(gè)體和抽樣樣本中某個(gè)值相聯(lián)結(jié),比如說上海最近興建了某幾個(gè)小區(qū),而事先在抽樣的過程中并不知曉,那么可以把這幾個(gè)小區(qū)與最相近小區(qū)相聯(lián)接,如果最近小區(qū)被抽中,那么就可以視為新建小區(qū)被抽中并接受相應(yīng)的調(diào)查。聯(lián)接丟失單位最重要的基礎(chǔ)是在抽樣的過程中能發(fā)現(xiàn)被丟失的單位,如果不能發(fā)現(xiàn),那么聯(lián)接丟失單位也就無從談起。
2、采用輔助樣框
有許多時(shí)候,一個(gè)樣框不能含蓋抽樣的總體,比如進(jìn)行商業(yè)調(diào)查時(shí),商委系統(tǒng)的名錄一般只包括國有和集體企業(yè)的情況,而對(duì)于一般私營或有外資介入經(jīng)營的商業(yè)網(wǎng)點(diǎn)的情況不太了解,那么如果對(duì)全上海的商業(yè)網(wǎng)點(diǎn)進(jìn)行調(diào)查,就必須要采用輔助樣框,即在國有集體企業(yè)的樣框之外,增加一個(gè)私營和外資商業(yè)網(wǎng)點(diǎn)的樣框,把兩個(gè)樣框合在一起進(jìn)行抽樣。輔助樣框最大的問題是抽樣目標(biāo)會(huì)重疊,他可能既隸屬于主樣框又隸屬于輔助樣框,該目標(biāo)總體被選中的可能性就增大。
3、及時(shí)更新樣框
這是解決樣框老化和輔助信息不準(zhǔn)確最有效的方法。當(dāng)然樣框更新需要較大的資金投入。所以一般樣框更新可以采用分批更新,一年更新樣框的20%,分5年更新樣框的方式。
4、對(duì)復(fù)合聯(lián)接的處理
復(fù)合連接一般又可以分為兩種情況:
1)所謂的多對(duì)一,就是一個(gè)目標(biāo)單位與一個(gè)以上的抽樣單位相連接,一對(duì)多的情況則相反。多對(duì)一的錯(cuò)誤在抽樣調(diào)查中對(duì)數(shù)據(jù)精確性的影響更大,所以這里主要討論如何解決多對(duì)一的復(fù)合聯(lián)接誤差。最簡單的方式就是利用復(fù)合聯(lián)接的調(diào)查數(shù)據(jù)對(duì)目標(biāo)總體單位數(shù)以及目標(biāo)總體總量和均值進(jìn)行估計(jì)。
2)確定唯一的聯(lián)接規(guī)則,讓多個(gè)抽樣單位只有一個(gè)進(jìn)入到抽樣總體中,比如對(duì)擁有多戶地址的家庭可以確定其最近一次居住的地址為抽樣對(duì)象。