登錄

輔助變量

百科 > 輔助變量

1.什么是輔助變量

抽樣調(diào)查中,變量按具體作用可分為調(diào)查變量和輔助變量?jī)煞N。

調(diào)查變量是指要估計(jì)的變量,如在農(nóng)村經(jīng)濟(jì)抽樣調(diào)查中,要估計(jì)糧食總產(chǎn)量,農(nóng)村住戶總收入等指標(biāo),這里糧食產(chǎn)量和農(nóng)村住戶收入就是調(diào)查變量。輔助變量指為提高調(diào)查的估計(jì)精度在抽樣調(diào)查或估計(jì)階段引入的其他變量,比如,以農(nóng)村住戶作為抽樣單元,通過住戶的人均收入和總?cè)丝趤砉烙?jì)農(nóng)村住戶的總收入,人口數(shù)就是輔助變量。

輔助變量是相對(duì)于調(diào)查變量而言的,在多目標(biāo)抽樣調(diào)查中如果需要,一個(gè)調(diào)查變量還可以作為另一個(gè)調(diào)查變量的輔助變量。輔助變量可以是表示抽樣單元規(guī)模大小的量。例如,在以群作抽樣單位時(shí),群的個(gè)體數(shù)目或是能間接反映群規(guī)模大小的群內(nèi)個(gè)體標(biāo)志都可以作為輔助變量。輔助變量也可以是調(diào)查目標(biāo)量的前期歷史資料。例如,要調(diào)查全省的糧食總產(chǎn)量時(shí),可以以全省各縣前一期的糧食產(chǎn)量作為輔助變量。輔助變量可以是抽樣單位的數(shù)量標(biāo)志,也可以是抽樣單位的品質(zhì)標(biāo)志。如以工業(yè)企業(yè)作為抽樣單元,估計(jì)全省工業(yè)企業(yè)產(chǎn)值時(shí),該省工業(yè)企業(yè)數(shù)目、企業(yè)大小、企業(yè)類型、以及各行業(yè)相關(guān)屬性都可以作為輔助變量。

2.輔助變量的分類

輔助變量就其性質(zhì)而言可分為以下幾類:

1、反映總體結(jié)構(gòu)的信息。如總體抽樣單元按調(diào)查指標(biāo)取值差異程度可分為若干層,各層的構(gòu)成及其在總體中所占比重等信息就是反映總體結(jié)構(gòu)的。

2、規(guī)模的信息。如在總體分為不同級(jí)別的抽樣單元時(shí),要知道某一級(jí)別抽樣單元數(shù)目,就可以用它所包含的下一級(jí)別抽樣單元的數(shù)目或其它度量值來表示這一抽樣單元的規(guī)?;虼笮?。

3、是與所調(diào)查指標(biāo)有密切關(guān)系的輔助指標(biāo)的信息。例如在對(duì)居民消費(fèi)支出情況進(jìn)行調(diào)查時(shí),居民可支配收入就是一個(gè)與支出有著高度相關(guān)性的輔助指標(biāo),這種輔助指標(biāo)的信息可以是總體的,也可以是抽樣單元和樣本的。

4、調(diào)查指標(biāo)的相關(guān)歷史信息。例如, 在一些經(jīng)常性的抽樣調(diào)查中,常取上期調(diào)查指標(biāo)作為現(xiàn)期調(diào)查指標(biāo)的輔助指標(biāo),有時(shí)也可用同一調(diào)查項(xiàng)目的近期普查指標(biāo)作為現(xiàn)期抽樣調(diào)查指標(biāo)的輔助指標(biāo),這時(shí)輔助指標(biāo)提供的信息就是調(diào)查指標(biāo)的歷史信息。

3.輔助變量的作用

輔助變量的作用主要體現(xiàn)在兩個(gè)方面:一是改進(jìn)抽樣方法, 提高樣本對(duì)總體的代表性。二是改進(jìn)估計(jì)方法,縮小估計(jì)誤差,提高估計(jì)精度。對(duì)于第一個(gè)方面主要有以下三種作用方式。

1、輔助變量在分層抽樣中的作用。

分層抽樣是在實(shí)際工作中使用頻率較高的一種抽樣方法,分層抽樣的效率主要取決于總體層內(nèi)的方差與層間的方差。利用輔助變量對(duì)總體進(jìn)行分層可以有效地縮小層內(nèi)的方差,擴(kuò)大層間方差。降低總體層內(nèi)方差與層問方差的比值,從而大大提高抽樣估計(jì)的效率。

2、輔助變量在系統(tǒng)抽樣中的作用。

對(duì)稱等距抽樣適用于對(duì)線性趨勢(shì)總體的抽樣設(shè)計(jì),但我們?cè)趯?shí)際工作中所面對(duì)的總體大多是非線性的,利用輔助變量對(duì)研究總體排序,可以把非線性的總體線性趨勢(shì)化,在此基礎(chǔ)上實(shí)施對(duì)稱等距抽樣是提高抽樣效率的一種有效方法。

3、利用輔助變量比例作為抽樣單元的抽取概率,實(shí)施不等概率抽樣。

特別是以群作為抽樣單位的不等概率抽樣,可以有效的消除等概率整群抽樣的“數(shù)水平效應(yīng)”和“比率數(shù)變異度效應(yīng)”,提高整群抽樣的效率。利用輔助變量可以實(shí)施不等概率抽樣,以改進(jìn)抽樣設(shè)計(jì)。

對(duì)于第二個(gè)方面也有較常見的應(yīng)用,例如,利用輔助變量建立比率估計(jì)量和回歸估計(jì)量。對(duì)總體均值或總值構(gòu)造比率或回歸估計(jì)量,是從估計(jì)環(huán)節(jié)改善抽樣設(shè)計(jì)的重要手段 ,但這兩種估計(jì)方法都需要有相應(yīng)的輔助變量,并且需要獲得輔助變量的總體均值或總值。此外,除了以上兩種輔助變量作用以外,有時(shí)還可以利用輔助變量對(duì)抽樣調(diào)查中的缺失數(shù)據(jù)進(jìn)行處理。

利用輔助變量進(jìn)行抽樣設(shè)計(jì)可以大大提高估計(jì)的精度,所以在抽樣設(shè)計(jì)之初,應(yīng)著重考察有沒有輔助變量的資料可供選擇利用,并進(jìn)一步考慮怎樣利用效果更好。

4.輔助變量的使用

利用輔助變量進(jìn)行抽樣設(shè)計(jì)有兩種目的:一是用于改進(jìn)抽樣方法,二是用于改進(jìn)估計(jì)量。那么在抽樣調(diào)查中,由于估計(jì)量和抽樣方法的不同,對(duì)輔助變量就要分情況進(jìn)行使用。

1、利用輔助變量對(duì)總體進(jìn)行分層

分層抽樣是實(shí)際工作中使用頻率較高的一種抽樣方法,適用于輔助變量有兩個(gè)或兩個(gè)以上的情形。分層抽樣的效率主要取決于總體層內(nèi)方差與層間方差的比值。利用輔助變量對(duì)總體進(jìn)行分層,可以有效的縮小層內(nèi)方差,擴(kuò)大層間方差,降低總體層內(nèi)方差與層間方差的比值,從而大大提高抽樣估計(jì)的效率。利用這種方法可以確定最優(yōu)分層的分點(diǎn),使得在同樣情況下目標(biāo)量估計(jì)的方差最小。

2、利用輔助變量對(duì)總體單元排隊(duì),然后進(jìn)行系統(tǒng)抽樣

這是按有關(guān)標(biāo)識(shí)排隊(duì)的系統(tǒng)抽樣。由于系統(tǒng)抽樣的精度取決于樣本內(nèi)方差,系統(tǒng)樣本內(nèi)方差愈大,則目標(biāo)量估計(jì)的方差愈小。而按輔助變量排隊(duì)可把非線性總體線性趨勢(shì)化,在此基礎(chǔ)上實(shí)施系統(tǒng)抽樣可以提高所獲得系統(tǒng)樣本內(nèi)方差,從而提高精度。這種方法的操作簡(jiǎn)單、方便,效果一般比較理想,缺點(diǎn)是估計(jì)量的方差估計(jì)比較困難,而且由于排隊(duì)只是利用了輔助變量大小順序的信息,因此信息利用并不很充分。

3、利用輔助變量進(jìn)行不等概率抽樣

不等概率抽樣,特別是以群?jiǎn)挝蛔鳛槌闃訂挝坏牟坏雀怕食闃?,可以有效地提高整群抽樣的效率。在利用輔助變量進(jìn)行不等概率抽樣時(shí),實(shí)際工作者常采用以下兩種方法:放回PPS抽樣與PPS系統(tǒng)抽樣。前者抽樣、估計(jì)量及其方差估計(jì)都極其簡(jiǎn)單,但精度稍差;而后者作為一種系統(tǒng)抽樣,方差估計(jì)較為困難。

4、利用輔助變量建立比率估計(jì)量、回歸估計(jì)量對(duì)總體均值或總值構(gòu)造比率或回歸估計(jì)量,是從估計(jì)環(huán)節(jié)改善抽樣設(shè)計(jì)的重要手段。

但這兩種估計(jì)方法都需要有相應(yīng)的輔助變量,并獲得輔助變量的總體均值或總值。比估計(jì)與回歸估計(jì)通常都是極為有效的,當(dāng)輔助變量與調(diào)查指標(biāo)高度相關(guān)時(shí).尤其如此。它的一個(gè)很大優(yōu)點(diǎn)是可用于多指標(biāo)情形,在此情況下不同指標(biāo)值常采用不同的輔助變量。比估計(jì)或回歸估計(jì)的缺點(diǎn)主要是計(jì)算較為復(fù)雜,而且估計(jì)量是有偏的。不過當(dāng)樣本量比較大時(shí),估計(jì)量的偏倚并不大。在大樣本情形下,偏倚在總的機(jī)樣誤差中相對(duì)于方差只占其中很小一部分。

5、利用輔助變量進(jìn)行事后分層。

有時(shí)侯事先分層有困難,缺乏層的抽樣框,就不能進(jìn)行分層抽樣,得不到分層樣本。如果此時(shí)又想利用分層抽樣在提高精度上的好處以及可以得到每個(gè)子總體的估計(jì),就必須采用事后分層技術(shù)。采用事后分層的前提之一是層權(quán)可以通過某種途徑獲得,從而是已知的。事后分層對(duì)輔助信息的需求較小,它不需掌握總體每一單位的信息,只需了解某種匯總信息;因此費(fèi)用較低而效果較差,并且如果事后分層分得過多,就不再有效了。

5.輔助變量的選擇

在抽樣設(shè)計(jì)之初,應(yīng)著重考察有沒有輔助變量的資料可以利用,并進(jìn)一步考慮什么變量可以作為輔助變量,哪些輔助變量較好,如何從眾多的變量中選擇合適的輔助變量。

1、獲取輔助變量的途徑

1)歷史資料

統(tǒng)計(jì)調(diào)查一般都采用周期性的普查與經(jīng)常性的抽樣調(diào)查相結(jié)合的方法。周期性的普查為兩次普查期間的抽樣調(diào)查提供了大量的歷史資料,它包括調(diào)查變量本身的歷史資料和與調(diào)查變量相關(guān)的其他變量的歷史資料,這些資料一般具有獲取成本低、數(shù)據(jù)準(zhǔn)確度高,與研究變量具有較高的相關(guān)關(guān)系等優(yōu)點(diǎn)。

2)現(xiàn)期相關(guān)資料

有的研究變量具有同一時(shí)期的相關(guān)資料。比如,派出所一般有管轄區(qū)域內(nèi)比較齊全的人口統(tǒng)計(jì)資料;工商行政管理部門有管轄區(qū)域內(nèi)比較齊全的企業(yè)注冊(cè)登記資料等。這些資料與許多變量之間有相關(guān)關(guān)系,可以作為抽樣設(shè)計(jì)中研究變量的輔助變量。

3)試驗(yàn)性調(diào)查

如果沒有總體資料可供利用,可以考慮采用試驗(yàn)性調(diào)查,以取得抽樣設(shè)計(jì)所需要的輔助變量數(shù)據(jù)。試驗(yàn)性調(diào)查的樣本既可以用概率抽樣方法抽取,也可以用非概率抽樣方法抽取。

4)二重抽樣

如果沒有方便的輔助變量,也可考慮利用二重抽樣技術(shù)。先從總體中抽取一個(gè)相對(duì)比較大的簡(jiǎn)單隨機(jī)樣本,用以估計(jì)輔助變量。然后,把這個(gè)樣本作為一個(gè)小總體,在進(jìn)行需要的輔助變量的抽樣設(shè)計(jì)。在總的調(diào)查費(fèi)用一定的情況下,抽取并調(diào)查第一重樣本當(dāng)然要耗費(fèi)一部分費(fèi)用,于是便不得不減少第二重樣本的樣本量。第一重樣本耗費(fèi)費(fèi)用的目的在于獲取輔助變量的信息以便提高第二重樣本的估計(jì)精度;第二重樣本由于不得不減少樣本量也會(huì)造成估計(jì)精度的損失。二者相比較,只有前者在提高精度上的得益超過了后者在降低精度上的損失,采用二重抽樣技術(shù)才是有意義的。

2、選擇輔助變量的原則:最佳效果原則

抽樣調(diào)查有一個(gè)投入產(chǎn)出問題,投入的是調(diào)查經(jīng)費(fèi),產(chǎn)出的是總體指標(biāo)的估計(jì)值,并用抽樣精度來衡量。這樣,最佳效果原則就可分解為最高抽樣精度原則和最低調(diào)查經(jīng)費(fèi)原則兩個(gè)方面。

前者要求在選擇輔助變量時(shí),要考慮使選擇的輔助變量與抽樣和估計(jì)方法的要求相適應(yīng),以便能達(dá)到最高抽樣精度。這是因?yàn)椴煌某闃雍凸烙?jì)方法對(duì)輔助變量與研究變量之間的關(guān)系有不同的要求,比如,用于分層、回歸估計(jì)的輔助變量要與研究的變量之間具有較高的線性相關(guān)關(guān)系;用于PPS抽樣、比率估計(jì)的輔助變量要與研究變量之間具有比例關(guān)系。后者要求在選擇輔助變量時(shí),要考慮在給定的抽樣精度條件下使所需的經(jīng)費(fèi)最低。這是因?yàn)椴煌妮o助變量,其數(shù)值的獲取成本存在很大差異,有的輔助變量可能只要較少的費(fèi)用就可以得到,有的輔助變量值卻可能需要花費(fèi)相當(dāng)大的費(fèi)用才能取得。而輔助變量是為提高估計(jì)精度而引入的變量,在調(diào)查經(jīng)費(fèi)一定的情況下,在輔助變量的調(diào)查上占用的費(fèi)用越多,留給樣本的調(diào)查費(fèi)用就必然越少,這將會(huì)影響到樣本容量。

評(píng)論  |   0條評(píng)論