《抽樣調(diào)查課件ch》由會員分享,可在線閱讀,更多相關(guān)《抽樣調(diào)查課件ch(63頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,第四章 分層隨機抽樣,4.1 概述,分層抽樣,(stratified sampling)、,分層隨機抽樣,(stratified random sampling):,分層抽樣,:將容量為N的總體分成L個不相重疊的子總體,子總體的大小分別為N,1,、 N,2,、,N,L,,皆已知,且,每個子總體就稱為,層。,從每層中獨立地進行抽樣,這樣的抽樣方法稱為,分層抽樣,。,分層隨機抽樣,:在分層抽樣中,如果每層中的抽樣都是簡單隨機抽樣,則這樣的分層抽樣稱為分層隨機抽樣。,分層抽樣的適用場合,:,(1)不僅需要估計總體
2、參數(shù),也需要估計各層參數(shù)。,(2)便于管理,按現(xiàn)成的地理分布或行政劃分來分層。,(3)希望樣本中能包含各個部分,以增加代表性。,(4)把一個內(nèi)部差異很大的總體分成幾個內(nèi)部比較相似的子總體(層)進行分層抽樣,可以提高估計量的精度。如果有極端值,也可以把它們分離出來形成一層。,即“層間方差大,層內(nèi)方差小”。,4.2 簡單估計量及其性質(zhì),對總體均值或總值的估計:,一、分層抽樣中,例4.:調(diào)查某地區(qū)的居民奶制品年消費支出,以居民戶為抽樣單元,根據(jù)經(jīng)濟及收入水平將居民戶分為層,每層按簡單隨機抽樣抽取戶,調(diào)查數(shù)據(jù)如下,估計該地區(qū)居民奶制品年消費總支出及估計的標(biāo)準(zhǔn)差。,表:樣本戶奶制品年消費支出,層,居民戶
3、總數(shù),樣本戶奶制品年消費支出,1,2,3,4,5,6,7,8,9,10,1,200,10,40,0,110,15,10,40,80,90,0,2,400,50,130,60,80,100,55,160,85,160,170,3,750,180,260,110,0,140,60,200,180,300,220,4,1500,50,35,15,0,20,30,25,10,30,25,解:,(3)該地區(qū)居民奶制品年消費總支出的置信度為95%的置信區(qū)間為,例4.3:某市進行家庭收入調(diào)查,分城鎮(zhèn)居民及農(nóng)村居民兩部分抽樣,在全部城鎮(zhèn)居民23560戶中隨機抽取300戶,在全部農(nóng)村居民148420戶中隨機抽取
4、250戶,調(diào)查結(jié)果是城鎮(zhèn)年平均戶收入為15180元,標(biāo)準(zhǔn)差為2972元;農(nóng)村年平均戶收入為9856元,標(biāo)準(zhǔn)差為2546元。求全市年平均戶收入的置信度為90%的置信區(qū)間。,解:,3、分層隨機抽樣中,總體比例P的簡單估計,估計的性質(zhì),(1),(2),例:在某行業(yè)技術(shù)人員中,按年齡分層,調(diào)查會使用計算機者所占的比例。數(shù)據(jù)如下:,試估計總體中會計算機者占的比例。,層,人數(shù),入樣人數(shù),樣本中會使用計算機的人數(shù),30歲以下,7781,71,24,3035歲,7497,68,12,3640歲,9779,89,22,4145歲,4627,42,11,45歲以上,5366,50,4,總計,35050,320,解
5、:,4.3 各層樣本量的分配,在分層隨機抽樣中,假設(shè)樣本量n固定,1.比例分配:指按各層層權(quán)(各層單元數(shù)占總體單元數(shù)的比例)進行分配。,例:假設(shè)某公司欲估計某類產(chǎn)品的用戶的每年平均支出。企劃人員擬就整個潛在用戶的名單,共8000戶。,采用分層隨機抽樣抽取樣本200戶,求按比例分配時各層樣本量。,層,每層中的潛在用戶,少用,2000,中等,4000,多用,2000,總和,N=8000,例.,某電視臺要在某地區(qū)的住戶中,調(diào)查該臺的晚間新聞的收視率。該地區(qū)包括,3,個縣,共有67401家住戶。假定該電視臺采用等比例分層隨機抽樣分別從三個縣抽取住戶,樣本量為1500。每個縣的總戶數(shù)以及抽樣數(shù)據(jù)列表如下
6、:,求該地區(qū)新聞收視率的95%的置信區(qū)間。,縣,i,每個縣的戶數(shù),N,i,每個縣被抽出的戶數(shù),n,i,每個縣的樣本收視率,p,i,1,2,3,48107,12419,6875,1071,276,153,0.27,0.18,0.17,合計,N=67401,n=,1500,解:分層隨機抽樣時,收視率P的估計為:,收視率P的置信度為95%的近似置信區(qū)間為:,即有95%的把握可以認(rèn)為,該地區(qū)的新聞收視率在22.1%26.5%之間。,2.最優(yōu)分配:,例.在例4.3中,樣本量仍為n=550。,城鎮(zhèn)居民23560戶,農(nóng)村居民148420戶。,城鎮(zhèn)居民與農(nóng)村居民的年收入的標(biāo)準(zhǔn)差分別為S,1,=3000元,S,
7、2,=2500元。,對城鎮(zhèn)居民與農(nóng)村居民抽樣平均每戶的費用比為1:2,,試求城鎮(zhèn)與農(nóng)村兩層比例分配與最優(yōu)分配的樣本量。,又若不考慮費用因素,那么最優(yōu)分配的結(jié)果如何?,例3.:調(diào)查某地區(qū)的居民奶制品年消費支出,以居民戶為抽樣單元,根據(jù)經(jīng)濟及收入水平將居民戶分為層,每層按簡單隨機抽樣抽取戶,調(diào)查數(shù)據(jù)如下,估計該地區(qū)居民奶制品年消費總支出及估計的標(biāo)準(zhǔn)差。,表:樣本戶奶制品年消費支出,層,居民戶總數(shù),樣本戶奶制品年消費支出,1,2,3,4,5,6,7,8,9,10,1,200,10,40,0,110,15,10,40,80,90,0,2,400,50,130,60,80,100,55,160,85,1
8、60,170,3,750,180,260,110,0,140,60,200,180,300,220,4,1500,50,35,15,0,20,30,25,10,30,25,解:按比例分配時,,對于Neyman分配,,例:在例3.3中,樣本量仍為n=550,城鎮(zhèn)居民與農(nóng)村居民年收入的標(biāo)準(zhǔn)差估計分別為3000元和2500元,對城鎮(zhèn)居民與農(nóng)村居民抽樣品均每戶的費用比為1:2,試求(1)城鎮(zhèn)與農(nóng)村兩層比例分配樣本量;(2)最優(yōu)分配的樣本量。,解,: (1),按比例分配時,,(2)對于Neyman分配,,4.4 樣本總量的確定,1.在分層隨機抽樣中,影響樣本總量n的因素:,(1)只討論對總體參數(shù)的精度要
9、求;,(2)樣本量的分配形式。,2.在估計總體均值時,,若精度要求給定,,樣本總量n的確定公式:,證明:,*,例:某流水線生產(chǎn)了1500件產(chǎn)品,為估計產(chǎn)品的合格率,將產(chǎn)品按早、中、晚班分成三層。各班產(chǎn)量分別為:早班550件,中班500件,晚班450件。根據(jù)以往的情況,每班合格率均在95%左右。若要求以95%的把握使估計量的絕對誤差不超過2%,分別確定按比例配置和按Neyman配置時總樣本量和各層樣本量。,解:,例: (續(xù)例3.2)如果要求在,置信度95%下,相對誤差不超過10%,,則按,比例分配,和Neyman分配時,總樣本量分別為多少?,解:,3.在估計總體均值時,,若總費用給定,,精度最高
10、時,樣本總量n的確定公式:,4.5 分層時的若干問題,1.抽樣效果分析:,(1)分層隨機抽樣與簡單隨機抽樣的比較:,在相同的樣本量下,比較二者的估計量的方差的大小。分層隨機抽樣以比例分配為代表。,(2)最優(yōu)分配(以Neyman為例)與比例分配在精度上的比較:,理論上講,最優(yōu)分配的精度應(yīng)高于相同樣本量的任何其他分配。,當(dāng)然,也高于比例分配的精度。,但最優(yōu)分配在精度上的改進有多大呢?,*最優(yōu)分配對于估計總體比例P的情形較少使用。,(除非特別小或特別大),2.層的劃分:,()層的劃分原則:,a. 一種原則是僅為滿足估計部分(即子總體)參數(shù)的需要或為了組織實施的便利。,b.另一種原則是盡可能提高抽樣精
11、度,減少估計量的方差。需要選擇恰當(dāng)?shù)淖兞孔兞孔鳛榉謱訕?biāo)志。,分層標(biāo)志的選擇:可以是調(diào)查指標(biāo)的前期值,可以是與調(diào)查指標(biāo)有較大線性相關(guān)的指標(biāo)。例如交通運輸量的調(diào)查中,車輛的噸位是與其兩個主要指標(biāo):運量與周轉(zhuǎn)量密切相關(guān)的。,(2)層權(quán)對估計量的影響:,(3)最優(yōu)分層如何確定各層的分點:,下面介紹一種確定層界的快速近似法累積平方根法。,它是由Dalenius和Hodges提出的。,其做法:將分層變量的分布的累積平方根進行等分來獲得最優(yōu)分層,所以成為,累積平方根法,。,例:某地區(qū)電信部門在對利用電話上網(wǎng)的居民家庭安裝ADSL意愿進行調(diào)查時,以轄區(qū)內(nèi)最近三個月有電話上網(wǎng)支出的居民用戶為總體(上網(wǎng)電話費為0
12、.02元/分鐘),并準(zhǔn)備按上網(wǎng)電話費支出(記為x)進行分層,試確定各層的分點。,居民家庭上網(wǎng)電話費支出分布,范圍x,頻數(shù)f,累積,05,65328,255.5934,255.5934,510,89240,298.7306,554.3241,1015,36128,190.0737,744.3977,1520,77525,278.4331,1022.831,2025,62407,249.8139,1272.645,2530,24591,156.8152,1429.46,3040,24586,221.7476,1651.208,4050,9582,138.4341,1789.642,5060,157
13、61,177.5444,1967.186,6070,8099,127.2714,2094.457,7080,5676,106.5458,2201.003,8090,3453,83.10235,2284.106,90100,4256,92.2605,2376.366,100150,1246,111.6244,2487.99,150200,800,89.44272,2577.433,200250,365,60.41523,2637.848,250300,90,30,2667.848,300350,35,18.70829,2686.557,350400,5,7.071068,2693.628,400
14、450,12,10.95445,2704.582,450,7,8.3666,2712.949,*計算累積頻數(shù)時,應(yīng)注意x的取值區(qū)間不是等長的。,30元以下,以5元為間距,計算時,按 累積;,30100元,以10元為間距,計算時,按 累積;,100元以上,以50元為間距,計算時,按 累積。,解:若取層數(shù)為4,則應(yīng)每隔2712.949/4=678.237分一層。,分點應(yīng)使得累積 最接近678.237,,2* 678.237 =1356.474,,3* 678.237 =2034.712。,所以較合理的分層為:,(4)層數(shù)的確定:,一般地,每層至少有2個樣本單元,,以不超過6層為宜。,3.事后分層,:(poststratification),是用,簡單隨機抽樣方法,或,按其他標(biāo)識分層的嚴(yán)格按比例分配分層隨機抽樣,,從總體中抽取一個樣本量為n的樣本。然后對每個樣本單元按分層原則進行分層。,