《東北林業(yè)大學(xué)《抽樣技術(shù)》第二章抽樣調(diào)查基本原理.ppt》由會員分享,可在線閱讀,更多相關(guān)《東北林業(yè)大學(xué)《抽樣技術(shù)》第二章抽樣調(diào)查基本原理.ppt(32頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、第二章抽樣調(diào)查基本原理,目錄第一節(jié)有關(guān)基本概念第二節(jié)樣本統(tǒng)計量的抽樣分布第三節(jié)抽樣誤差第四節(jié)抽樣估計,第一節(jié)有關(guān)基本概念,一、總體總體也叫母體,它是所要認識對象的全體,是具有同一性質(zhì)的許多單位的集合。組成總體的每個個體叫做單位。目標總體是所需研究說明的全體單位的集合,它是抽樣推斷的目標,各項推論信息的主體。作業(yè)總體是按某一標志排列的全體單位組合,并以一定形式可供從中抽取樣本單位,所以,它是抽樣調(diào)查的依據(jù)。作業(yè)總體與目標總體的關(guān)系具體表現(xiàn)在這兩種總體單位的聯(lián)系上。它們的關(guān)系在實踐中主要有下列幾種形式:,(1)作業(yè)總體單位與目標總體單位是一一對應(yīng)的。這是最常見的形式。例如,要調(diào)查某地區(qū)的住戶總體,
2、以該地區(qū)的住戶名冊為抽樣框,那么,從抽樣框中抽中的住戶即作為估計總體的單位。(2)多個作業(yè)總體單位對應(yīng)著一個目標總體單位。例如,要調(diào)查某學(xué)校學(xué)生家庭情況,以該學(xué)校學(xué)生名單為抽樣框,而在這份學(xué)生名單中可能有二個或更多個學(xué)生同屬于一個家庭。(3)一個作業(yè)總體單位對應(yīng)著多個目標總體單位。例如,人口調(diào)查中以各居(村)民委員會的順序排列表為抽樣框,這時,所抽中的每個居(村)民委員會內(nèi)就包含許多人口。,確定抽樣框必須著重考慮的問題:第一,要能反映出作業(yè)總體與目標總體的關(guān)系,表明這二個總體單位屬于哪種對應(yīng)形式。第二,要能達到對目標總體進行有效的抽樣估計的目的。這一方面要求抽樣框應(yīng)盡可能地包括被用于估計目標總
3、體的單位,另一方面要求在抽樣框單位中能獲得估計總體的信息。第三,設(shè)計和編制抽樣框要有利于實施抽樣調(diào)查和節(jié)省各項費用開支。,在抽樣調(diào)查實踐中,表現(xiàn)作業(yè)總體的抽樣框通??蔀橄铝袔追N形式:(抽樣框是在抽樣前,為便于抽樣工作的組織,在可能條件下編制的用來進行抽樣的、記錄或表明總體所有抽樣單元的框架,在抽樣框中,每個抽樣單元都被編上號碼。)(1)名單抽樣框。這是以名單一覽表形式列出總體的所有單位。例如,居民住戶調(diào)查中按住戶地址編碼的順序列出全部住戶的名單表;再如,我國目前的農(nóng)產(chǎn)量抽樣中,按糧食平均畝產(chǎn)量的大小順序列出總體單位(縣、鄉(xiāng)、村)。,(2)區(qū)域抽樣框。這是按自然地理區(qū)域劃分并排列出總體的所有單位
4、。例如森林資源調(diào)查中按航測圖或地理區(qū)域圖,將該片森林劃分為若干區(qū)域單位。(3)時間表抽樣框。這是按時間先后順序排列總體單位,它通常適用于與時間有關(guān)的調(diào)查,如流水線生產(chǎn)的產(chǎn)品檢驗,交通運輸流量的抽樣調(diào)查等。作為抽樣推斷的總體是目標總體。進行抽樣調(diào)查其目的在于調(diào)查觀測總體中部分單位,從而對總體的某些數(shù)量特征作出推斷估計。這些總體數(shù)量特征又稱為總體的參數(shù),包括總體總數(shù)、總體平均數(shù)、總體成數(shù)、總體方差和標準差,等等。,總體參數(shù):總體總值:總體均值:總體方差:總體標準差:總體比例。如全部產(chǎn)品中合格品所占比例,贊成某項政策的人所占比例等。數(shù)學(xué)表達式為:當?shù)趩卧哂心硞€特定的特征時,否則總體比率。它是兩個總
5、體總量或總體均值之比。如固定資產(chǎn)利用率,人均可支配收入變動率等。數(shù)學(xué)表達式為:,,,,,二、樣本樣本是由從總體中所抽選出來的若干個抽樣單元組成的集合體。抽樣前,樣本是一個n維隨機變量,屬樣本空間;抽樣后,樣本是一個n元數(shù)組,是樣本空間的一個點。影響樣本代表性的因素有以下幾個方面:(1)總體標志值分布的離散程度。(2)抽樣單元數(shù)的多少(或稱樣本容量的大小)。(3)抽樣方法。,從總體中抽取樣本有許多不同的形式,從而構(gòu)成許多不同的抽樣方法。樣本中的個單位可以從總體中逐個抽取,也可以一次抽取個單位,后者稱為全樣本方法。在逐個抽取中,每次被抽中的單位,即入樣單位可以放回總體中去,也可以不放回總體中去,前
6、者稱為放回抽樣(samplingwithreplacement)或回置抽樣;后者稱為不放回抽樣(samplingwithoutreplacement)或不回置抽樣。在放回抽樣中,一個單位有可能被抽到兩次或兩次以上,故有人也稱它為重復(fù)抽樣。而在不放回抽樣中,一個單位至多只能被抽到一次,不可能重復(fù)被抽到。全樣本抽樣也是一種不放回抽樣。在樣本抽取過程中,總體(有時也指子總體)中的每個單位被抽中的概率即入樣概率可能相等也可能不相等,前者稱為等概率抽樣(samplingwithequalprobabilities),后者稱為不等概率抽樣(samplingwithunequalprobabilities)
7、。,,,一般將反映樣本數(shù)量特征的綜合指標稱之為統(tǒng)計量。統(tǒng)計量是n元樣本的一個實值函數(shù),是一個隨機變量,統(tǒng)計量的一個具體取值即為統(tǒng)計值。主要的樣本統(tǒng)計量有:樣本總和y樣本均值樣本方差樣本標準差樣本比率r樣本比例,,三、必要樣本容量和樣本可能數(shù)目樣本中包含的抽樣單元個數(shù)稱為樣本容量,又稱樣本含量或樣本大小。樣本可能數(shù)目則是在容量為N的總體中抽取容量為n的樣本時,所有可能被抽中的不同樣本的個數(shù)。用A表示。當N和n一定時,A的多少與抽樣方法有關(guān),其計算方法列表如下:,第二節(jié)樣本統(tǒng)計量的抽樣分布,一、正態(tài)分布如果總體各個體的標志值以總體平均數(shù)為中心,形成鐘型對稱分布,其分布曲線向兩側(cè)擴展,逐漸向橫軸逼近
8、,無限延伸出去,但不接觸橫軸,則這種分布就叫做正態(tài)分布,或高斯分布、常態(tài)分布。服從正態(tài)分布的總體稱為正態(tài)總體。,如果一個隨機變量X服從正態(tài)分布,則其分布的密度函數(shù)(分布曲線方程)為:,,當=0,=1時,稱該分布為標準正態(tài)分布。標準正態(tài)分布的密度函數(shù)為:,,,,任何正態(tài)分布,它的樣本落在任意區(qū)間(a,b)內(nèi)的概率等于直線x=a,x=b,橫坐標和曲線f(x)所夾的面積(可由正態(tài)分布概率積分表查得)。經(jīng)計算,正態(tài)總體的樣本落在:(-,+)概率是68.27;(-2,+2)概率是95.45;(-3,+3)概率是99.73;(-1.96,+1.96)概率是95;,二、抽樣分布,抽樣分布是根據(jù)所有可能樣本計
9、算出來的某一統(tǒng)計量的數(shù)值分布。抽樣分布有極限分布和精確分布兩類。極限分布也叫做大樣本分布,它只有正態(tài)分布一種形式;精確分布又叫做小樣本分布,其前提是總體服從正態(tài)分布,它是正態(tài)分布的導(dǎo)出分布,包括有t分布、F分布和分布等形式。,2,一般地,可以證明如果總體服從正態(tài)分布,且總體均值和方差均為已知,即,YN(,2),則不論樣本量大小如何,樣本均值均圍繞總體均值而服從正態(tài)分布,并且其抽樣分布的方差等于總體方差的n分之一,即,,N(,2/n),,而對于非正態(tài)總體,若均值和2有限,則根據(jù)中心極限定理,當樣本量n充分大時,樣本均值仍然圍繞著總體均值而近似地服從正態(tài)分布,即,,N(,2/n),(一)樣本統(tǒng)計量
10、的極限分布,例:總體N=5,Y=40,50,60,70,80,則其次數(shù)分布圖為,若取n=2,用放回抽樣,可抽25個簡單隨機樣本,整理后,即可得出關(guān)于樣本均值的次數(shù)分布情況為:,,用圖形表示,則為:,如果總體容量較大,則當樣本容量逐步擴大時,樣本平均數(shù)的分布趨于正態(tài)分布的趨勢更加明顯。,(二)樣本統(tǒng)計量的精確分布,1、2分布,設(shè)隨機變量YiN(0,1)(i=1,2,,n),且相互獨立,則Y=服從自由度為n的2分布,記作Y2(n)。,2分布的概率密度函數(shù)為,,主要性質(zhì)有:f(y)恒為正;2分布呈右偏形態(tài);2分布隨n的不斷增大而逐漸趨于正態(tài)分布。,2分布2(n)的數(shù)學(xué)期望和方差分別為EY=n,DY=
11、2n.,2、t分布,若XN(0,1),Y2(n),且X與Y相互獨立,則稱隨機變量,,服從自由度為n的t分布,記作:Tt(n)。,推論:若XN(,2),2未知,則,,服從自由度為n-1的t分布,記作:Tt(n-1),t分布t(n)的概率密度函數(shù)為,t分布具有如下性質(zhì):t分布對稱于縱軸,與N(0,1)相似;在n30(小樣本)時,t分布的方差大于N(0,1)的方差;在n30(大樣本)時,t分布隨n的增大而趨于N(0,1)。,t分布t(n)的數(shù)學(xué)期望與方差分別為ET=0,DT=n/(n-2).(n2),若X2(n1),Y2(n2),且X與Y相互獨立,則稱隨機變量,3、F分布,,服從第一自由度為n1,第
12、二自由度為n2的F分布,記作:FF(n1,n2)。,其概率密度函數(shù)為,,F分布的主要性質(zhì)有:F分布呈右偏態(tài);f(x)恒為正;,在,,隨n1,n2的不斷增大,F(xiàn)分布的右偏程度逐漸減弱,但不會趨向正態(tài);具有倒數(shù)性質(zhì),即若XF(n1,n2),則1/XF(n2,n1);若tt(n),則(n)F(1,n)。,處取最大值(n12,f01);,其數(shù)學(xué)期望和方差分別為,,第三節(jié)抽樣誤差,一、抽樣調(diào)查中的誤差來源誤差就是調(diào)查結(jié)果與現(xiàn)象的實際結(jié)果之間的偏差,它幾乎在所有的統(tǒng)計調(diào)查中都或大或小的存在著。在抽樣調(diào)查中,按照形成原因的不同,一般可將誤差分成抽樣誤差和非抽樣誤差兩大類。抽樣誤差是用樣本統(tǒng)計量推斷總體參數(shù)時
13、的誤差,它屬于一種代表性誤差。在抽樣調(diào)查中抽樣誤差是不可避免的。但同非抽樣誤差不同的是,抽樣誤差可以計算,并且可以被控制在任意小的范圍內(nèi),影響抽樣誤差的因素:1.抽樣誤差通常會隨樣本量的大小而增減。2.所研究現(xiàn)象總體變異程度的大小。3.抽樣的方式方法。非抽樣誤差不是由于抽樣引起的。它又包括:調(diào)查誤差;無回答誤差;抽樣框誤差;登記性誤差。同抽樣誤差相反,非抽樣誤差是隨著樣本量的增加而增大的。由于抽樣調(diào)查的訪問和資料整理都比普查更便于進行,因此非抽樣誤差也遠遠小于普查。有時,普查中的非抽樣誤差甚至大于抽樣調(diào)查中抽樣誤差與非抽樣誤差的總和。,二、均方誤差、方差與偏差抽樣誤差的計算,是建立在誤差分布理
14、論基礎(chǔ)上,從統(tǒng)計平均意義角度來考慮的。抽樣誤差用所有可能的實際誤差的均方誤差表示設(shè)總體某個待估計的參數(shù)為,用樣本數(shù)據(jù)計算的一個統(tǒng)計量作為的估計,也稱為的一個估計量(estimator),簡稱估計。用估計的實際誤差是-,由于是未知的,因此-也是未知的,這說明根據(jù)一個樣本,實際誤差是不可知的?,F(xiàn)在我們考慮按一種抽樣方法所能得到的所有可能樣本,對每個樣本計算一個估計值,計算這些估計值的平均實際誤差,也即實際誤差-的均值即期望E(-),則由于誤差的正負抵消也不能反映誤差的大小。因此我們轉(zhuǎn)而考慮平均平方誤差,即實際誤差平方的均值:,,,,,,,,,,,,,,,,,,,,式中:第一項是估計量,的方差,記作
15、,第二項是估計量,的偏倚,的平方。,無偏估計時,的方差就等于它的均方誤差。,,,MSE()稱為均方誤差(meansquareerror)。由于未知,在通常情況下,它仍然是未知的。但均方誤差可以分解成以下兩個部分:,說明:上面所給出的估計量方差公式,仍然屬于一個理論公式,實際中是依據(jù)調(diào)查變量的總體方差進行計算的,當未知時,一般用樣本方差代替以對估計量的方差做出估計。有偏的估計并非都是不可用的,有時有偏估計量在某些方面反而比無偏估計量更好。有研究認為,在實踐中當偏倚小于標準誤的十分之一時,偏倚對估計量準確度的影響可以忽略不計。,第四節(jié)抽樣估計,一、抽樣估計的特點第一,抽樣估計在邏輯上運用的是歸納推
16、理而不是演繹推理。第二,抽樣估計在方法上運用不確定的概率估計法而不是運用確定的數(shù)學(xué)分析法。第三,抽樣估計的結(jié)論存在著一定程度的抽樣誤差。二、抽樣估計的方法抽樣估計的方法多種多樣。如果以估計中所依據(jù)的資料不同來區(qū)分,一般可以有簡單估計、比估計和回歸估計等三種方法。簡單估計是單純依靠樣本調(diào)查變量的資料估計總體參數(shù),其估計結(jié)果稱為簡單估計量;比估計和回歸估計是同時依據(jù)樣本調(diào)查變量以及已知的有關(guān)輔助變量的資料來對總體參數(shù)做出估計,其結(jié)果分別稱為比估計量和回歸估計量。如果以估計結(jié)果的表示方式來區(qū)分,則抽樣估計可以有兩種形式,即定值估計和區(qū)間估計。,三、置信區(qū)間,一般地說,若估計量,是無偏的,且呈正態(tài)分布,則參數(shù),當調(diào)查變量的總體方差2已知時,上述置信區(qū)間可表示為:,的置信度為1-的置信區(qū)間可以寫成:,,,當調(diào)查變量的總體方差2未知時,則用相應(yīng)的樣本方差s2代替。然而,這時有可能會使誤差產(chǎn)生一個增量,特別是當樣本較小時,更容易影響估計的精度。因此,為了保持1-的置信度,就應(yīng)該適當加寬置信區(qū)間,即用較大的t/2值來代替Z/2。此時,置信區(qū)間就可以表示成:,,四、估計量的優(yōu)良標準,1、無偏性,2、一致性,3、有效性,