《統(tǒng)計(jì)學(xué)原理》第5章:抽樣推斷.ppt
第五章 抽樣推斷,學(xué)習(xí)目標(biāo),理解抽樣推斷的特點(diǎn)、作用及基本概念 掌握抽樣推斷的抽樣平均誤差、極限誤差的計(jì)算方法 運(yùn)用抽樣推斷的一般原理,對全及總體的指標(biāo)值作出具有一定概率保證程度的推斷 正確進(jìn)行相應(yīng)的假設(shè)檢驗(yàn)。,第一節(jié) 抽樣推斷的一般問題,抽樣推斷的一般問題,抽樣推斷的概念,抽樣推斷是建立在概率論基礎(chǔ)上的一種科學(xué)的統(tǒng)計(jì)分析方法。它是指按照隨機(jī)原則,從全及總體中抽取一部分單位作為樣本進(jìn)行實(shí)際調(diào)查,然后根據(jù)調(diào)查所得的樣本數(shù)據(jù),對總體的特征值做出具有一定可靠程度的推斷,以反映總體的數(shù)量特征或數(shù)量關(guān)系。,統(tǒng)計(jì)推斷,全及總體指標(biāo):參數(shù)(未知量),樣本總體指標(biāo):統(tǒng)計(jì)量(已知量),抽樣推斷的一般問題,按隨機(jī)原則抽取樣本 運(yùn)用概率論的理論和方法,用樣本指標(biāo)來推斷總體指標(biāo)。 推斷的誤差可以事先計(jì)算和控制。,抽樣推斷的一般問題,抽樣推斷的特點(diǎn),無法或 很難進(jìn)行全面調(diào)查而又需要了解其全面情況時(shí) 某些可以采用全面調(diào)查的社會(huì)經(jīng)濟(jì)現(xiàn)象,也可采用抽樣推斷。 可用于生產(chǎn)過程的質(zhì)量控制 進(jìn)行假設(shè)檢驗(yàn),抽樣推斷的一般問題,抽樣推斷的應(yīng)用,全及總體與樣本總體 全及指標(biāo)與樣本指標(biāo) 抽樣方法與抽樣組織方式 樣本的可能數(shù)目 抽樣誤差,抽樣推斷的一般問題,抽樣推斷的幾對基本概念,我們把研究對象的總體叫做全及總體,簡稱總體。 把按隨機(jī)抽樣方法從總體中抽出的部分單位所組成的集合體稱為樣本總體或抽樣總體,簡稱樣本。,抽樣推斷的一般問題,全及總體與樣本總體,全及指標(biāo)與樣本指標(biāo),根據(jù)全及總體中各單位的標(biāo)志值或標(biāo)志屬性計(jì)算得來,反映總體某種特征的指標(biāo) 根據(jù)樣本總體中各單位的標(biāo)志值或標(biāo)志屬性計(jì)算得來的綜合指標(biāo).,重復(fù)抽樣和不重復(fù)抽樣,考慮順序的抽樣和不考慮順序的抽樣,抽樣推斷的一般問題,抽樣方法,從總體N個(gè)單位中隨機(jī)抽取一個(gè)容量為n的樣本,每次抽取一個(gè)單位,把結(jié)果登記后再放回到總體中,重新參加下一次的抽取.,抽出個(gè)體,登記特征,放回總體,繼續(xù)抽取,抽樣推斷的一般問題,抽樣方法重復(fù)抽樣,從總體N個(gè)單位中隨機(jī)抽取一個(gè)容量為n的樣本,每次抽取一個(gè)單位,把結(jié)果登記后不再放回到總體參加下一次的抽取.,抽出個(gè)體,登記特征,繼續(xù)抽取,抽樣推斷的一般問題,抽樣方法不重復(fù)抽樣,從總體N個(gè)單位中抽取n個(gè)單位構(gòu)成樣本,不但考慮樣本各單位成分的不同,而且還要考慮樣本各單位的中選順序.,即中選成分相同但中選順序不同的視為不同樣本,抽樣推斷的一般問題,抽樣方法考慮順序的抽樣,從總體N個(gè)單位中抽取n個(gè)單位構(gòu)成樣本,只考慮樣本各單位成分的不同,不管樣本各單位的中選順序.,即中選成分相同但中選順序不同的視為同一樣本,抽樣推斷的一般問題,抽樣方法不考慮順序的抽樣,簡單隨機(jī)抽樣 類型抽樣 整群抽樣 等距抽樣 多階段抽樣 多重抽樣,抽樣推斷的一般問題,抽樣組織方式,按照一定的抽樣方法和組織方式,從總體N中抽取n個(gè)單位構(gòu)成樣本,一共可以抽出的不同樣本的數(shù)量,一般用M表示.,抽樣推斷的一般問題,樣本可能數(shù)目,考慮順序的不重復(fù)抽樣 考慮順序的重復(fù)抽樣 不考慮順序的不重復(fù)抽樣 不考慮順序的重復(fù)抽樣,樣本指標(biāo)與總體指標(biāo)之差,即抽樣估計(jì)值與被估計(jì)的未知的真實(shí)總體參數(shù)之差。,抽樣推斷的一般問題,抽樣誤差,通過合理的組織和調(diào)整抽樣方式可消除,不可消除,但可以進(jìn)行計(jì)算加以控制,抽樣誤差,樣本容量的大小,容量大,抽樣誤差小,總體的變異程度,變異大,抽樣誤差大,抽樣方法和抽樣組織方式,不同的方式方法產(chǎn)生的抽樣誤差大小也不一樣,抽樣推斷的一般問題,抽樣誤差的影響因素,第二節(jié) 抽樣推斷的基本原理,統(tǒng)計(jì)推斷的理論基礎(chǔ)大數(shù)法則,如果變量總體存在著有限的平均數(shù)和方差,則對于充分大的抽樣單位數(shù),可以幾乎為1的概率來期望,樣本平均數(shù)和總體平均數(shù)的絕對離差任意?。ǘ邘缀跸嗟龋?抽樣推斷的基本原理,按一定方法隨機(jī)抽取樣本時(shí),所有可能樣本的特征值及其所對應(yīng)的概率分布情況,統(tǒng)計(jì)推斷的理論基礎(chǔ)樣本的概率分布,抽樣推斷的基本原理,學(xué)生 成績 30 40 50 60 70 80 90,按隨機(jī)原則考慮順序重復(fù)抽樣抽選出名學(xué)生。,樣本 均值 樣本 均值 樣本 均值,上述樣本平均數(shù)的概率分布列表如下,二者均值相等,實(shí)踐中不可能將所有樣本一一列舉 對于樣本的概率分布只能進(jìn)行推算 推算的理論依據(jù)是中心極限定理,抽樣分布定理,抽樣推斷的基本原理,全部可能樣本平均數(shù)的均值等于總體均值,即: 從非正態(tài)總體中抽取的樣本平均數(shù)當(dāng)n足夠大時(shí)其分布接近正態(tài)分布。 從正態(tài)總體中抽取的樣本平均數(shù)不論容量大小其分布均為正態(tài)分布。樣本均值的標(biāo)準(zhǔn)差為總體標(biāo)準(zhǔn)差的 。,抽樣分布定理中心極限定理,抽樣推斷的基本原理,我們可以利用標(biāo)準(zhǔn)正態(tài)分布函數(shù)來計(jì)算任何一個(gè)樣本平均值落入某一區(qū)間的概率,及估計(jì)樣本的概率分布。,抽樣誤差是樣本統(tǒng)計(jì)量與總體參數(shù)之間的絕對差異,抽樣誤差是一個(gè)隨樣本不同而不同的隨機(jī)變量。,因?yàn)榭傮w指標(biāo)未知,對于任何一個(gè)樣本,其抽樣誤差都不可能測量出來,抽樣平均誤差,抽樣推斷的基本原理,抽樣平均誤差即全部可能樣本的樣本平均值或樣本成數(shù)計(jì)算的標(biāo)準(zhǔn)差。又稱抽樣標(biāo)準(zhǔn)誤差、抽樣標(biāo)準(zhǔn)誤,也就是樣本的均值與總體均值離差的平均數(shù),抽樣平均誤差計(jì)算公式,抽樣推斷的基本原理,總體方差,若總體方差未知: 用樣本方差2 代替 用歷史資料代替,總體方差已知,總體方差未知,用樣本方差代替總體的,在抽樣推斷中,在一定概率保證下,允許樣本統(tǒng)計(jì)量偏離總體統(tǒng)計(jì)量的最大幅度。(可允許的誤差范圍),從實(shí)際抽樣角度來看,抽樣極限誤差就是實(shí)際樣本指標(biāo)與總體指標(biāo)之間存在抽樣誤差的可能范圍.,抽樣極限誤差,抽樣推斷的基本原理,樣本統(tǒng)計(jì)量的抽樣分布,總體中心值,N(總體中心值, ),抽樣極限誤差,抽樣推斷的基本原理,和樣本均值一起構(gòu)造總體指標(biāo)的區(qū)間估計(jì),抽樣極限誤差,抽樣推斷的基本原理,和樣本均值一起構(gòu)造總體指標(biāo)的區(qū)間估計(jì),抽樣極限誤差,抽樣推斷的基本原理,所謂抽樣推斷的可靠程度,就是指總體指標(biāo)和樣本指標(biāo)之間的誤差不超過一定范圍的概率保證程度,或者說是總體指標(biāo)落入?yún)^(qū)間 或 的概率保證程度.,抽樣推斷的可靠程度,抽樣推斷的基本原理,估計(jì)區(qū)間是一定可靠程度下的估計(jì)區(qū)間,可靠程度是一定估計(jì)精度(誤差范圍)下的可靠程度.,樣本統(tǒng)計(jì)量的抽樣分布,總體中心值,N(總體中心值, ),抽樣極限誤差可以以抽樣平均誤差為標(biāo)準(zhǔn)單位來衡量.,抽樣推斷可靠程度的計(jì)算,抽樣推斷的基本原理,t稱為概率度。又稱為置信度。,抽樣推斷可靠程度的計(jì)算,抽樣推斷的基本原理,總體中心值,0.6827,0.9545,0.9973,從總體中抽取一個(gè)樣本,該樣本的指標(biāo)落入?yún)^(qū)間的概率可用占曲線面積的比例表示.,抽樣推斷的基本原理,抽樣推斷可靠程度的計(jì)算,樣本統(tǒng)計(jì)量的抽樣分布,N(總體中心值, ),設(shè)為待估計(jì)的總體參數(shù),為樣本統(tǒng)計(jì)量,則的優(yōu)良標(biāo)準(zhǔn)為:,若,則稱為比更有效的估計(jì)量(有效性),若,則稱為的無偏估計(jì)量(無偏性),若越大越小,則稱為的一致估計(jì)量(一致性),抽樣推斷的基本原理,抽樣推斷的優(yōu)良標(biāo)準(zhǔn),學(xué)生 成績 30 40 50 60 70 80 90,按隨機(jī)原則抽選出名學(xué)生,并計(jì)算平均分?jǐn)?shù)和中位分?jǐn)?shù)。,抽樣推斷的基本原理,抽樣推斷的優(yōu)良標(biāo)準(zhǔn)有效性,中位數(shù)的抽樣分布,平均數(shù)的抽樣分布,抽樣推斷的基本原理,抽樣推斷的優(yōu)良標(biāo)準(zhǔn)有效性,有偏,無偏,抽樣推斷的優(yōu)良標(biāo)準(zhǔn)無偏性,抽樣推斷的基本原理,學(xué)生 成績 30 40 50 60 70 80 90,按隨機(jī)原則抽選出5名學(xué)生,并計(jì)算平均分?jǐn)?shù)。,n=4時(shí) 的抽樣分布,n=5時(shí) 的抽樣分布,抽樣推斷的優(yōu)良標(biāo)準(zhǔn)一致性,抽樣推斷的基本原理,為的無偏、有效、一致估計(jì)量; 為 的無偏、有效、一致估計(jì)量; 為 的無偏、有效、一致估計(jì)量。,抽樣推斷的優(yōu)良標(biāo)準(zhǔn),抽樣推斷的基本原理,樣本容量,調(diào)查誤差,調(diào)查費(fèi)用,小樣本容量節(jié)省費(fèi)用但調(diào)查誤差大,大樣本容量調(diào)查精度高但費(fèi)用較大,找出在規(guī)定誤差范圍內(nèi)的最小樣本容量,找出在限定費(fèi)用范圍內(nèi)的最大樣本容量,抽樣推斷的樣本容量,抽樣推斷的基本原理,總體各單位的標(biāo)志變異的程度 允許的誤差范圍 要求的概率保證程度 抽樣方法和抽樣組織方式,抽樣推斷樣本容量的影響因素,抽樣推斷的基本原理, 若未知。一般按以下方法確定其估計(jì)值: 以前類似樣本的 試驗(yàn)調(diào)查樣本的S,計(jì)算結(jié)果通常向上進(jìn)位,抽樣推斷樣本容量的計(jì)算,抽樣推斷的基本原理,重復(fù)抽樣,例:某地碩士研究生畢業(yè)第一年年薪的標(biāo)準(zhǔn)差大約為2000元人民幣。如果以95%的置信度估計(jì)其平均年薪,并且希望抽樣極限誤差分別不超過500元和100元,樣本容量應(yīng)為多少?,抽樣推斷的基本原理,抽樣推斷樣本容量的計(jì)算,不重復(fù)抽樣,抽樣推斷樣本容量的計(jì)算,抽樣推斷的基本原理,P 或 p 必須事先知道,但通常未知。一般按以下方法確定其估計(jì)值: a 以前類似樣本的p; b 試驗(yàn)調(diào)查樣本的p ;,計(jì)算結(jié)果通常向上進(jìn)位,抽樣推斷樣本容量的計(jì)算,抽樣推斷的基本原理,重復(fù)抽樣,某網(wǎng)站一個(gè)由400名使用者組成的樣本表明,該網(wǎng)站的使用者中26的使用者為女性。在95的置信度下,若希望將抽樣極限誤差控制在3,則樣本容量應(yīng)當(dāng)為:,抽樣推斷樣本容量的計(jì)算,抽樣推斷的基本原理,重復(fù)抽樣,抽樣推斷樣本容量的計(jì)算,抽樣推斷的基本原理,不重復(fù)抽樣,第三節(jié) 參數(shù)估計(jì),參數(shù)估計(jì)的兩種方法,點(diǎn)估計(jì) 區(qū)間估計(jì),參數(shù)估計(jì)用得到的樣本指標(biāo)來推斷總體指標(biāo)。 三要素估計(jì)值、估計(jì)的誤差范圍、概率保證程度,參數(shù)估計(jì)的方法,在參數(shù)估計(jì)中,直接以樣本統(tǒng)計(jì)量的值作為待估計(jì)的總體參數(shù)的值,稱為點(diǎn)估計(jì)。,點(diǎn)估計(jì)的概念,同時(shí)給出極限誤差和概率保證程度。,參數(shù)估計(jì)的方法,以樣本統(tǒng)計(jì)量為中心,以抽樣平均誤差為距離單位,可以構(gòu)造一個(gè)區(qū)間,并可以一定的概率保證待估計(jì)的總體參數(shù)落在這個(gè)區(qū)間之中。區(qū)間越大,則概率保證程度越高。,區(qū)間估計(jì)的概念,參數(shù)估計(jì)的方法,同時(shí)給出概率保證程度,總體指標(biāo)進(jìn)行推斷需要三個(gè)要素,且三者密切相連。,參數(shù)估計(jì)的模式,已知可靠性要求,其他量需要計(jì)算。 已知極限誤差,其他量需要計(jì)算。,由532名商業(yè)周刊訂閱者組成的樣本表明,其每周使用因特網(wǎng)的平均時(shí)間為6.7小時(shí)。如果總體標(biāo)準(zhǔn)差為5.8小時(shí),求該周刊訂閱者總體每周平均花費(fèi)在因特網(wǎng)上時(shí)間的95置信區(qū)間。,則:該置信區(qū)間為:,參數(shù)估計(jì)的模式,已知可靠性要求,已知可靠性要求,某證券市場由10只股票組成的一個(gè)樣本其市盈率分別為: 5 7 9 10 14 23 20 15 3 26 試求該市場全部股票總體市盈率均值的95置信區(qū)間。,查表,總體均值95置信區(qū)間為:,即:,參數(shù)估計(jì)的模式,參數(shù)估計(jì)的模式,已知可靠性要求,某校一個(gè)由413名大學(xué)生組成的樣本中,277名學(xué)生沒有宗教信仰。試估計(jì)該校學(xué)生總體中無宗教信仰比率的95置信區(qū)間。,于是:總體比率估計(jì)區(qū)間為:,第四節(jié) 抽樣的組織方式,抽選樣本的方法,滾球法 抽簽法 隨機(jī)數(shù)碼表法 計(jì)算機(jī)模擬法,抽樣的組織方式,純隨機(jī)抽樣,純隨機(jī)抽樣也叫簡單隨機(jī)抽樣。它是按照隨機(jī)原則直接從總體N個(gè)單位中抽取n個(gè)單位作為樣本,然后通過對樣本單位的調(diào)查觀測,計(jì)算出樣本指標(biāo),據(jù)以對相應(yīng)的總體指標(biāo)作出推斷,。,重復(fù)抽樣:,不重復(fù)抽樣:,抽樣的組織方式,純隨機(jī)抽樣,設(shè)總體由N個(gè)單位構(gòu)成,把總體劃分為K層(組),使 ,然后從每類中隨機(jī)抽取個(gè) 單位,構(gòu)成容量為n的樣本,使得,抽樣的組織方式,分層抽樣,可以提高樣本的代表性 可以縮小總體變異程度對抽樣誤差的影響,只受組內(nèi)方差影響,不受組間方差影響.,抽樣的組織方式,分層抽樣,抽樣方法,等比例類型抽樣,不等比例抽樣,先將總體各單位按某一標(biāo)志排隊(duì),然后按固定的順序和間隔來抽取調(diào)查單位的一種組織方式.,抽樣的組織方式,等距抽樣,從12個(gè)中抽取3個(gè),無關(guān)標(biāo)志排隊(duì)的等距抽樣近似于簡單隨機(jī)抽樣,因此,可以按簡單隨機(jī)抽樣的方法計(jì)算抽樣誤差。,有關(guān)標(biāo)志排隊(duì)的等距抽樣相當(dāng)于等比例類型抽樣,因此可用等比例類型抽樣的公式計(jì)算抽樣誤差。并用不重復(fù)抽樣的公式。,按有關(guān)標(biāo)志排隊(duì)等距抽樣,按無關(guān)標(biāo)志排隊(duì)等距抽樣,抽樣的組織方式,等距抽樣,隨機(jī)起點(diǎn)等距抽樣,確定抽樣距離(間隔) 隨機(jī)抽取第一個(gè)單位 依次抽取其他單位,抽樣的組織方式,等距抽樣,中點(diǎn)等距抽樣,確定抽樣距離(間隔) 隨機(jī)抽取第一個(gè)單位 依次抽取其他單位,抽樣的組織方式,等距抽樣,隨機(jī)性差,各單位中選機(jī)會(huì)不等; 只能抽取一個(gè)樣本,抽樣框利用率低,對稱等距抽樣,確定抽樣距離(間隔) 隨機(jī)抽取第一個(gè)單位 依次抽取其他單位,抽樣的組織方式,等距抽樣,每隔一個(gè)為等距,保留了中點(diǎn)等距抽樣的優(yōu)點(diǎn),保證了樣本的均勻分布 克服了中點(diǎn)等距抽樣的缺點(diǎn),保持了較好的隨機(jī)性,整群抽樣是將總體劃分為由總體單位所組成的若干個(gè)群,然后,以群為單位,從總體中抽取若干個(gè)群作為樣本,而對中選群內(nèi)的所有單位進(jìn)行全面調(diào)查的調(diào)查方式。,抽樣的組織方式,整群抽樣,比較方便和節(jié)約費(fèi)用。 由于影響了樣本單位在總體中的均勻分布誤差較其他方式大,直接抽取的不是總體單位,而是群,總體群數(shù)用表示,樣本群數(shù)用r表示 只有群間方差影響抽樣誤差 一般采用不重復(fù)抽樣,抽樣的組織方式,整群抽樣,