人民大學(xué)統(tǒng)計學(xué)在職題庫統(tǒng)計綜述答案.doc
《人民大學(xué)統(tǒng)計學(xué)在職題庫統(tǒng)計綜述答案.doc》由會員分享,可在線閱讀,更多相關(guān)《人民大學(xué)統(tǒng)計學(xué)在職題庫統(tǒng)計綜述答案.doc(88頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1中國人民大學(xué)接受同等學(xué)歷人員申請碩士學(xué)位考試試題 招生專業(yè):統(tǒng)計學(xué) 考試科目:統(tǒng)計思想綜述 課程代碼:123201 考題卷號:1 一、 (20分) 隨機(jī)抽取20塊手機(jī)電池,測得其使用壽命數(shù)據(jù)如下(單位:小時): 1008 993 998 1007 1011 1002 1013 999 1008 995 983 995 1000 977 1015 1010 998 1005 1011 996 列出描述上述數(shù)據(jù)所適用的統(tǒng)計圖形,并說明這些圖形的用途。 直方圖:直觀的展示一組數(shù)據(jù)(電池使用壽命)的分布情況。 箱線圖:直觀反映原始數(shù)據(jù)(電池壽命)的數(shù)據(jù)分布的特征,如偏態(tài),是否有離群點。 二、 (20分)方差分析中有哪些基本假定?這些假定中對哪個假定的要求比較嚴(yán)格? 1、方差分析有3個基本假定: (1)正態(tài)性:每個總體都應(yīng)服從正態(tài)分布,即對于因子的每一個水平,其觀測值是來自正態(tài)分布總體的簡單隨機(jī)樣本; (2)方差齊性:各個總體的方差必須相同; (3)獨立性:每個樣本數(shù)據(jù)是來自因子各水平的獨立樣本 2、對獨立性要求比較嚴(yán)格,獨立性得不到滿足會對方差分析結(jié)果有較大影響,對正態(tài)性和方差齊性的要求相對比較寬松。 三、 (20分)某種食品每袋的標(biāo)準(zhǔn)重量是100克,從該批食品中抽取一個隨機(jī)樣本,檢驗假設(shè),。 (1) 如果拒絕,你的結(jié)論是什么?,如果不拒絕,你的結(jié)論是什么? (2) 能否得到一個樣本能夠證明該食品的平均重量是100克?請說明理由。 (3) 如果由該樣本得到的檢驗的,你的結(jié)論是什么?0.03這個值是犯第Ⅰ類錯誤的概率,是實際算出來的顯著性水平,你怎樣解釋這個值? (1)拒絕:該種食品每袋的平均重量不是100g 不拒絕:提供的樣本不能證明該種食品每袋的平均重量不是100g (2)不能,樣本得出的結(jié)論只能是拒絕或不拒絕原假設(shè),并不能直接確定原假設(shè)為真 (3)結(jié)論:若給定顯著性水平為0.05,則可以拒絕原假設(shè),認(rèn)為該食品每袋的平均重量不是100克;但若給定顯著性水平為0.01,則不能拒絕原假設(shè) P值: 如果該種食品每袋的平均重量是100g,樣本結(jié)果會像實際觀測那樣極端或更極端的概率僅為0.03 四、 (20分)在建立多元線性回歸模型時,通常需要對自變量進(jìn)行篩選。 (1) 請談?wù)勀銓ψ兞亢Y選的必要性的看法。 (2) 列出變量篩選的方法,請簡要說明這些方法的特點。 (1)若將所有的自變量都引入回歸模型,往往會導(dǎo)致所建立的模型不能進(jìn)行有效的解釋,也可能會導(dǎo)致多重共線性,增加自變量還會導(dǎo)致判定系數(shù)增大,從而高估模型擬合優(yōu)度。 (2)變量篩選有向前選擇、向后剔除、逐步回歸等方法。特點如下: 向前選擇:從沒有自變量開始,不停向模型中增加自變量,直到增加不能導(dǎo)致SSE顯著增加為止。 向后剔除:從所有自變量開始,不停從模型中剔除自變量,直到剔除不能導(dǎo)致SSE顯著減小為止。 逐步回歸:結(jié)合向前選擇和向后剔除,從沒有自變量開始,不停向模型中增加自變量,每增加一個自變量就對所有現(xiàn)有的自變量進(jìn)行考察,若某個自變量對模型的貢獻(xiàn)變得不顯著就剔除。如此反復(fù),直到增加變量不能導(dǎo)致SSE顯著減少為止。 五、 (20分)如果一個時間序列包含趨勢、季節(jié)成分、隨機(jī)波動,適用的預(yù)測方法有哪些?對這些方法做檢驗說明。 可以使用Winter指數(shù)平滑模型、引入季節(jié)啞變量的多元回歸和分解法等進(jìn)行預(yù)測。 (1)Winter指數(shù)平滑模型 包含三個平滑參數(shù),即α、β、γ(取值均在0~1),以及平滑值St、趨勢項更新Tt、季節(jié)項更新It、未來第k期的預(yù)測值Ft+k。 L為季節(jié)周期的長度,對于季度數(shù)據(jù),L=4,對于月份數(shù)據(jù),L=12;I為季節(jié)調(diào)節(jié)因子。平滑值消除季節(jié)變動,趨勢項更新是對趨勢值得修正,季節(jié)項更新是t期的季節(jié)調(diào)整因子,F(xiàn)t+k=(St+kTt)It-L+k是用于預(yù)測的模型。 使用Winter 模型進(jìn)行預(yù)測,要求數(shù)據(jù)至少是按季度或月份收集的,而且需要有四個以上的季節(jié)周期(4年以上的數(shù)據(jù))。 使用Winter 模型進(jìn)行預(yù)測,要求數(shù)據(jù)至少是按季度或月份收集的,而且需要有四個以上的季節(jié)周期(4年以上的數(shù)據(jù))。 (2)引入季節(jié)啞變量的多元回歸 對于以季度記錄的數(shù)據(jù),引入3個啞變量 Q2、Q3、Q4,其中Q2=1(第1季度)或0(其他季度),以此類推,則季節(jié)性多元回歸模型表示為: Y=b0+b1t+b2Q2+b3Q3+b4Q4 其中b0是常數(shù)項,b1是趨勢成分的系數(shù),表示趨勢給時間序列帶來的影響,b2、b3、b4表示每一季度與參照的第1季度的平均差值。 (3)分解預(yù)測 第1步,確定并分離季節(jié)成分。計算季節(jié)指數(shù),然后將季節(jié)成分從時間序列中分離出去,即用每一個時間序列觀測值除以相應(yīng)的季節(jié)指數(shù)以消除季節(jié)性。 第2步,建立預(yù)測模型并進(jìn)行預(yù)測。對消除了季節(jié)成分的時間序列建立適當(dāng)?shù)念A(yù)測模型,并根據(jù)這一模型進(jìn)行預(yù)測。 第3步,計算出最后的預(yù)測值。用預(yù)測值乘以相應(yīng)的季節(jié)指數(shù),得到最終的預(yù)測值。 2中國人民大學(xué)接受同等學(xué)歷人員申請碩士學(xué)位考試試題 招生專業(yè):統(tǒng)計學(xué) 考試科目:統(tǒng)計思想綜述 課程代碼:123201 考題卷號:2 一、 (20分)在某小學(xué)隨機(jī)抽取35名小學(xué)生,調(diào)查他們每周購買零食的花費情況,得到的數(shù)據(jù)如下(單位:元): 24 17 26 29 38 6 28 44 39 8 30 17 26 32 40 10 20 27 43 33 15 4 28 35 26 47 25 17 26 45 16 36 29 37 5 列出描述上述數(shù)據(jù)所適用的統(tǒng)計量,并說明這些統(tǒng)計量的用途。 平均數(shù):用于度量對象的一般水平。 中位數(shù)(分位數(shù)):用中間(某個)位置上的值代表數(shù)據(jù)水平,也用于度量對象的一般情況,且不受極值的影響具有穩(wěn)定性。 方差(標(biāo)準(zhǔn)差):用于描述一組數(shù)據(jù)的差異水平,越大說明數(shù)據(jù)的分布越分散不穩(wěn)定。 偏態(tài)系數(shù):用于描述數(shù)據(jù)分布的不對稱性,越接近0越對稱。 峰度系數(shù):用于描述數(shù)據(jù)分布峰值高低,大于0為尖峰,小于0為扁平分布。 二、 (20分)簡要說明分布和分布在推斷統(tǒng)計中應(yīng)用。 t分布:當(dāng)正態(tài)總體標(biāo)準(zhǔn)差未知時,在小樣本的條件下對總體均值的估計和檢驗要用到t分布。描述樣本均值分布,用于對兩個樣本均值差異進(jìn)行顯著性測試、估算置信區(qū)間等。 F分布:通常用于比較不同總體的方差是否有顯著差異。應(yīng)用于方差分析、協(xié)方差分析和回歸分析等,還可用于似然比檢驗。 三、 (20分)什么是值?要證明原假設(shè)不正確,如何確定合理的值? P值:犯第I類錯誤的真實概率,也稱觀察到的顯著性水平。是當(dāng)原假設(shè)為真時,得到的樣本結(jié)果會像實際觀測結(jié)果這樣極端或者更極端的概率。 若要證明原假設(shè)不正確,則由樣本得到的P值應(yīng)小于給定的顯著性水平。 四、 (20分)某企業(yè)準(zhǔn)備用三種方法組裝一種新的產(chǎn)品,為確定哪種方法每小時生產(chǎn)的產(chǎn)品數(shù)量最多,隨機(jī)抽取了30名工人,并指定每個人使用其中的一種方法。通過對每個工人生產(chǎn)的產(chǎn)品數(shù)進(jìn)行方差分析得到下面的結(jié)果: 方差分析表 差異源 SS df MS F P-value 組間 210 0.245946 組內(nèi) 3836 — — 總計 2 — — — (1) 完成上面的方差分析表。 (2) 組裝方法與組裝產(chǎn)品數(shù)量之間的關(guān)系強(qiáng)度如何? (3) 若顯著性水平,檢驗三種方法組裝的產(chǎn)品數(shù)量之間是否有顯著差異? (1) 差異源 SS df MS F P-value 組間 2*210=420 I-1=2 210 210142.07=1.478 0.245946 組內(nèi) 3836 30-3=27 383627=142.07 — — 總計 420+3836=4256 29 — — — (2) 從P值來看,組裝方法與組裝產(chǎn)品數(shù)量之間的關(guān)系強(qiáng)度較弱。 (3) 原假設(shè):三種方法每小時組裝的產(chǎn)品數(shù)量沒有差異 若顯著性水平為0.05,則P>0.05,因此不能拒絕原假設(shè),即不能證明三種方法組裝的產(chǎn)品數(shù)量之間有顯著差異。 五、 (20分)簡要說明分解預(yù)測的基本步驟。 第1步,確定并分離季節(jié)成分。計算季節(jié)指數(shù),然后將季節(jié)成分從時間序列中分離出去,即用每一個時間序列觀測值除以相應(yīng)的季節(jié)指數(shù)以消除季節(jié)性。 第2步,建立預(yù)測模型并進(jìn)行預(yù)測。對消除了季節(jié)成分的時間序列建立適當(dāng)?shù)念A(yù)測模型,并根據(jù)這一模型進(jìn)行預(yù)測。 第3步,計算出最后的預(yù)測值。用預(yù)測值乘以相應(yīng)的季節(jié)指數(shù),得到最終的預(yù)測值。 3中國人民大學(xué)接受同等學(xué)歷人員申請碩士學(xué)位考試試題 招生專業(yè):統(tǒng)計學(xué) 考試科目:統(tǒng)計思想綜述 課程代碼:123201 考題卷號:3 一、 (20分)在2008年8月10日舉行的第29屆北京奧運會女子10米氣手槍決賽中,進(jìn)入決賽的8名運動員的預(yù)賽成績和最后10槍的決賽成績?nèi)缦卤恚? 要對各名運動員進(jìn)行綜合評價,使用的統(tǒng)計量有哪些?簡要說明這些統(tǒng)計量的用途。 (1)集中趨勢:指一組數(shù)據(jù)向某一中心值靠攏的程度,它可以反映選手射擊成績中心點的位置 平均數(shù):一組數(shù)據(jù)相加后除以數(shù)據(jù)的個數(shù)得到的結(jié)果。若各組數(shù)據(jù)在組內(nèi)是平均分布的,則計算的結(jié)果還是比較準(zhǔn)確的,否則誤差會比較大。(如中國選手發(fā)揮很穩(wěn)定,適合使用平均數(shù)判斷其成績) 中位數(shù):一組數(shù)據(jù)排序后處于中間位置上的變量值,但不受極端值的影響。(如波蘭選手大多數(shù)成績比較平均,但有一槍打到8.1,會嚴(yán)重影響其平均值,但不會影響中位數(shù)) (2)離散程度:各變量值遠(yuǎn)離其中心值的程度,它可以反映選手發(fā)揮的穩(wěn)定性 標(biāo)準(zhǔn)差:方差的平方根,能夠很好的反映出數(shù)據(jù)的離散程度,若選手的平均成績差異不大,可以通過直接比較標(biāo)準(zhǔn)差的方式進(jìn)行衡量 離散系數(shù):一組數(shù)據(jù)的標(biāo)準(zhǔn)差與其相應(yīng)的平均數(shù)之比,離散系數(shù)越大則數(shù)據(jù)的離散程度也大,若選手的平均成績差異很大,則需要計算離散系數(shù)比較穩(wěn)定性 極差:一組數(shù)據(jù)的最大值與最小值之差,它容易受極端值的影響,不能反映中間數(shù)據(jù)的分散情況,但可從另一方面選手是否存在發(fā)揮異常 (3)分布形狀 峰態(tài):峰態(tài)是對數(shù)據(jù)分布平峰或尖峰程度的測度,當(dāng)K>0時為尖峰分布,數(shù)據(jù)的分布更集中;當(dāng)K<0時為扁平分布,數(shù)據(jù)的分布越分散。通過對選手的峰態(tài)分布情況分析,可看出成績分布是否平均。 偏態(tài):偏態(tài)是對數(shù)據(jù)分布對稱性的測量,若偏態(tài)系數(shù)明顯不等于0,表明分布是非對稱的,偏態(tài)系數(shù)的數(shù)值越大,表示偏斜的程度越大。通過對選手的偏態(tài)分布情況情況分析,可看出選手成績分布是否對稱,是否受比賽時長影響。 二、 (20分)為什么說假設(shè)檢驗不能證明原假設(shè)正確? (1)假設(shè)檢驗的目的主要是收集證據(jù)拒絕原假設(shè),而支持你所傾向的備擇假設(shè)。因為假設(shè)檢驗只提供不利于原假設(shè)的證據(jù)(證據(jù)的強(qiáng)弱取決于P值的大?。R虼?,當(dāng)拒絕原假設(shè)時,表明樣本提供的證據(jù)證明它是錯誤的;當(dāng)沒有拒絕原假設(shè)時,我們也沒法證明它是正確的,因為假設(shè)檢驗的程序沒有提供它正確的證據(jù)。 (2)假設(shè)檢驗得出的結(jié)論都是根據(jù)原假設(shè)進(jìn)行闡述的。我們要么拒絕原假設(shè),要么不拒絕原假設(shè)。當(dāng)不能拒絕原假設(shè)時,我們也不能說“接受原假設(shè)”,因為沒有足夠的證據(jù)拒絕原假設(shè)并不等于你已經(jīng)證明了原假設(shè)時真的,它僅僅意味著目前我們還沒有足夠的證據(jù)證明原假設(shè),只表示目前的樣本提供的證據(jù)還不足以拒絕原假設(shè)。 (3)假設(shè)檢驗通常是先確定顯著性水平α,這等于控制了第Ⅰ類錯誤的概率;但犯第Ⅱ類錯誤的概率β卻是不確定的。在拒絕H0時,犯第Ⅰ類錯誤的概率不超過給定的顯著性水平α;當(dāng)樣本結(jié)果顯示沒有充分理由拒絕原假設(shè)時,也難以確定第Ⅱ類錯誤發(fā)生的概率。因此,在假設(shè)檢驗中采用“不拒絕H0”而不采用“接受H0”的表述方法,這樣在多數(shù)場合下便避免了第Ⅱ類錯誤發(fā)生的風(fēng)險。 三、 (20分)為估計公共汽車從起點到終點平均行駛的時間,一家公交公司隨機(jī)抽取36班公共汽車,得到平均行駛的時間為26分鐘,標(biāo)準(zhǔn)差為8分鐘。 (1) 說明樣本均值服從什么分布?依據(jù)是什么? (2) 計算平均行駛時間95%的置信區(qū)間。 (3) 解釋95%的置信水平的含義。 (,,,) (1)樣本均值服從正態(tài)分布。通過中心極限定理:設(shè)從均值為μ,方差為σ2(有限)的任意一個總體中抽取樣本量為n的樣本,當(dāng)n充分大時,樣本均值的抽樣分布近似服從均值μ、方差σ2n的正態(tài)分布。一般統(tǒng)計學(xué)中的n≥30為大樣本,本題中抽取了36個樣本,因此樣本均值服從正態(tài)分布。 (2)已知n=36,x=26,s=8,置信區(qū)間95%所以zα2=z0.052=1.96 平均行駛時間95%的置信區(qū)間為: x ± zα2 sn = 26±1.96 x 836 = 26±2.61 即(23.39,28.61) (3)一般地,如果將構(gòu)造置信區(qū)間的步驟重復(fù)多次,置信區(qū)間中包含總體參數(shù)真值的次數(shù)所占的比例稱為置信水平。如果用某種方法構(gòu)造的所有區(qū)間中有95%的區(qū)間包含總體參數(shù)的真值,5%的區(qū)間不包含總體參數(shù)的真值,那么用該方法構(gòu)造的區(qū)間稱為置信水平為95%的置信區(qū)間。 四、 (20分)設(shè)單因素方差分析的數(shù)學(xué)模型為:。解釋這一模型的含義,并說明對這一模型的基本假定。 單因素方差分析指的是只有一種處理因素在影響結(jié)果,或者說只有一個自變量在影響因變量的情況。 (1)設(shè)任何一次實驗結(jié)果都可以表示成如下形式:Yi=μ+εi 其中Yi是第i次實驗的實際結(jié)果,μ是該結(jié)果的最佳估計值,其實就是總體均值,εi是均值和實際結(jié)果的偏差也就是隨機(jī)誤差(2)假定εi服從均值為0,標(biāo)準(zhǔn)差為某個定值的正態(tài)分布,把以上形式按照方差分析進(jìn)行推廣,假設(shè)我們要研究幾種水平之間的差異,每種水平抽取一定樣本并收集相關(guān)數(shù)據(jù),那么模型公式可以表示為:Yij=μi+εij 其中Yij是第i組水平的第j個樣本的實際結(jié)果,μi是第i組的均值,εij是第i組第j個樣本相對于實際結(jié)果的偏差。同樣假定εi服從均值為0,標(biāo)準(zhǔn)差為某個定值的正態(tài)分布,如果這i組水平?jīng)]有差異,則Yij應(yīng)等于總體均值加上隨機(jī)誤差項。 (3)為了方便統(tǒng)計推斷,模型公式改為如下形式:Yij=μ+αi+εij 其中μ表示不考慮分組時的總體均值,αi表示第i組的附加效應(yīng),即在第i組時的均值改變情況,例如αi=10,表示第i組的均值要比總體均值多10,如果這i組均值并無差異,那么α1=α2=α3=.....=αi,反之則不等,據(jù)此我們可以建立假設(shè): H0:i取任意值時,αi=0 H1:i取任意值時,至少有一個αi<>0 結(jié)合差異分解的方差分析思路,我們發(fā)現(xiàn)αi實際上就是處理因素導(dǎo)致的差異。 五、 (20分)在多元回歸中,判斷共線性的統(tǒng)計量有哪些?簡要解釋這些統(tǒng)計量。 (1)自變量間的相關(guān)系數(shù)矩陣:如果相關(guān)系數(shù)超過0.9的變量在分析時將會存在共線性問題。在0.8以上可能會有問題。但這種方法只能對共線性作初步的判斷,并不全面。 (2)容忍度(Tolerance):以每個自變量作為應(yīng)變量對其他自變量進(jìn)、行回歸分析時得到的殘差比例,大小用1減決定系數(shù)來表示。該指標(biāo)越小,則說明該自變量被其余變量預(yù)測的越精確,共線性可能就越嚴(yán)重。 (3)方差膨脹因子(Variance inflation factor, VIF): 其中 為 與其余(m-1)個自變量線性回歸的決定系數(shù)。值越大,多元共線程度越嚴(yán)重。 4、特征根(Eigenvalue):主要包括條件指數(shù)和方差比。條件指數(shù)是最大特征根與每個特征根之比的平方根。當(dāng)對應(yīng)的方差比大于0.5時,可認(rèn)為多元共線性嚴(yán)重存在 4中國人民大學(xué)接受同等學(xué)歷人員申請碩士學(xué)位考試試題 招生專業(yè):統(tǒng)計學(xué) 考試科目:統(tǒng)計思想綜述 課程代碼:123201 考題卷號:4 一、 (20分)在2008年8月10日舉行的第29屆北京奧運會男子10米氣手槍決賽中,最后獲得金牌和銀牌的兩名運動員10槍的決賽成績?nèi)缦卤硭荆? 運動員 決賽成績 龐 偉 9.3 10.3 10.5 10.3 10.4 10.3 10.7 10.4 10.7 9.3 秦鐘午 9.5 9.9 10.6 10.3 9.4 10.2 10.1 10.8 9.9 9.8 根據(jù)上表計算的韓國運動員秦鐘午的平均環(huán)數(shù)是10.05環(huán),標(biāo)準(zhǔn)差是0.445環(huán)。比較分析哪個運動員的發(fā)揮更穩(wěn)定。 (1)平均數(shù)、標(biāo)準(zhǔn)差:龐偉的平均環(huán)數(shù)=10.22環(huán),標(biāo)準(zhǔn)差是0.507;秦鐘午的平均環(huán)數(shù)=10.05環(huán),標(biāo)準(zhǔn)差是0.445環(huán),由于龐偉的平均環(huán)數(shù)明顯大于秦鐘午,因此只比較標(biāo)準(zhǔn)差不能說明二人的穩(wěn)定性 (2)中位數(shù):龐偉的中位數(shù)=10.35,秦鐘午的中位數(shù)=10,同樣可以看出龐偉的成績更優(yōu)秀一些 (3)極差:龐偉的極差=1.4,秦鐘午的極差=1.4,兩者極差相同 (4)離散系數(shù):龐偉的離散系數(shù)=0.0496,秦鐘午的離散系數(shù)=0.0443 綜上所述,選手龐偉的成績更優(yōu)秀,但秦鐘午的發(fā)揮更穩(wěn)定。 二、 (20分)什么是統(tǒng)計意義上的顯著性?為什么說統(tǒng)計上顯著不一定就有現(xiàn)實意義? (1)在假設(shè)檢驗中,拒絕原假設(shè)稱樣本結(jié)果在“統(tǒng)計上是顯著的”;不拒絕原假設(shè)則稱結(jié)果是“統(tǒng)計上不顯著的”。“顯著的”在這里的意思是指非偶然的,它表示這樣的樣本結(jié)果不是偶然得到的,同樣,結(jié)果是不顯著的則表明這樣的樣本結(jié)果很可能是偶然得到的。 (2)在進(jìn)行決策時,我們只能說P值越小,拒絕原假設(shè)的證據(jù)就越強(qiáng),檢驗的結(jié)果也就越顯著。當(dāng)P值很小而拒絕原假設(shè)時,并不一定意味著檢驗的結(jié)果就有實際意義。因為在假設(shè)檢驗中的“顯著”僅僅是“統(tǒng)計意義上的顯著”。P值與樣本的大小密切相關(guān),樣本量越大,檢驗統(tǒng)計量的值也就越大,P值就越小,就越可能拒絕原假設(shè)。因此,當(dāng)樣本量很大時,解釋假設(shè)檢驗的結(jié)果需要小心,因為在大樣本情況下,總能把與假設(shè)值的任何細(xì)微差別查出來,即使這種差別幾乎沒有任何實際意義。因此,在實際檢驗中,不能把“統(tǒng)計意義上的顯著性”與“實際意義上的顯著性”混同起來。 三、 (20分)簡要說明判斷一組數(shù)據(jù)是否服從正態(tài)分布的統(tǒng)計方法。 (1)圖示法 1. P-P圖 以樣本的累計頻率作為橫坐標(biāo),以按照正態(tài)分布計算的相應(yīng)累計概率作為縱坐標(biāo),以樣本值表現(xiàn)為直角坐標(biāo)系的散點。如果數(shù)據(jù)服從正態(tài)分布,則樣本點應(yīng)圍繞第一象限的對角線分布。 2. Q-Q圖 以樣本的分位數(shù)作為橫坐標(biāo),以按照正態(tài)分布計算的相應(yīng)分位點作為縱坐標(biāo),把樣本表現(xiàn)為直角坐標(biāo)系的散點。如果數(shù)據(jù)服從正太分布,則樣本點應(yīng)圍繞第一象限的對角線分布。 3. 直方圖(頻率直方圖) 判斷方法:是否以鐘型分布,同時可以選擇輸出正態(tài)性曲線。 4. 箱線圖 判斷方法:觀察矩形位置和中位數(shù),若矩形位于中間位置且中位數(shù)位于矩形的中間位置,則分布較為對稱,否則是偏態(tài)分布。 5. 莖葉圖 判斷方法:觀察圖形的分布狀態(tài),是否是對稱分布。 (2)偏度、峰度檢驗法 峰態(tài):峰態(tài)是對數(shù)據(jù)分布平峰或尖峰程度的測度,當(dāng)K>0時為尖峰分布,數(shù)據(jù)的分布更集中;當(dāng)K<0時為扁平分布,數(shù)據(jù)的分布越分散。 偏態(tài):偏態(tài)是對數(shù)據(jù)分布對稱性的測量,若偏態(tài)系數(shù)明顯不等于0,表明分布是非對稱的,偏態(tài)系數(shù)的數(shù)值越大,表示偏斜的程度越大。 (3)非參數(shù)檢驗 非參數(shù)檢驗方法包括Kolmogorov-Smirnov檢驗(D檢驗)和Shapiro- Wilk( W檢驗)。當(dāng)樣本數(shù)N<2000時,shapiro-wilk的W統(tǒng)計量檢驗正態(tài)性;當(dāng)樣本數(shù)N>2000時,Kolmogorov-Smirnov的D統(tǒng)計量檢驗正態(tài)性;檢驗時,根據(jù)樣本計算一個統(tǒng)計量即檢驗統(tǒng)計量D。它把樣本分布的形狀和正態(tài)分布相比較,比較得出一個數(shù)值p(0,0.0013<,0.0571> 故第2個回歸系數(shù)顯著,第1、3個回歸系數(shù)不顯著。 (4)多重判定系數(shù) R2=SSRSST=87803505.4697831680=0.8975 它反映了因變量變異中能用自變量解釋的比例,描述了回歸直線擬合樣本觀測值的優(yōu)劣程度。此處R2=0.8975,表明回歸擬合效果很好。 (5)估計標(biāo)準(zhǔn)誤差 sy=SSEn-p-1=MSE=626760.91=791.68 是的標(biāo)準(zhǔn)差的估計,反映了(房地產(chǎn)銷售價格)的波動程度。 (6)有用。雖然該變量的部分系數(shù)沒通過顯著性檢驗,但并不意味著該變量沒用,它在經(jīng)濟(jì)解釋上可能還是有一定意義的,方程總體顯著,說明方程包含該變量總體上是有用的。也可能是多重共線性造成了不顯著。 5中國人民大學(xué)接受同等學(xué)歷人員申請碩士學(xué)位考試試題 招生專業(yè):統(tǒng)計學(xué) 考試科目:統(tǒng)計思想綜述 課程代碼:123201 考題卷號:5 一、 (20分)為研究大學(xué)生的逃課情況。隨機(jī)抽取350名大學(xué)生進(jìn)行調(diào)查,得到的男女學(xué)生逃課情況的匯總表如下。 是否逃課 男 女 合計 逃過課 84 88 172 未逃過課 78 100 178 合計 162 188 350 (1) 這里涉及的變量有哪些?這些變量屬于什么類型? 涉及的變量有性別、是否逃課。是否逃課及性別為分類型變量,不同性別的逃課和非逃課人數(shù),為數(shù)值變量。 (2) 描述上述數(shù)據(jù)所適用的統(tǒng)計圖形有哪些? 可以用條形圖、復(fù)式條形圖, 餅圖、復(fù)式餅圖,環(huán)形圖。 二、 (20分)現(xiàn)從一批零件中隨機(jī)抽取16只,測得其長度(單位:厘米)如下: 15.1 14.5 14.8 14.6 15.2 14.8 14.9 14.6 14.8 15.1 15.3 14.7 15.0 15. 15.1 14.7 (1) 如果要使用分布構(gòu)建零件平均長度的置信區(qū)間,基本的假定條件是什么? 在小樣本(n<30)情況下 ,對鐘體均值得估計都是建立在總體服從正太分布假設(shè)前提下。當(dāng)正態(tài)總體的未知,樣本均值經(jīng)過標(biāo)準(zhǔn)化后服從自由度為n-1的t分布,用樣本方差 s2代替總體方差。 (2) 構(gòu)建該批零件平均長度的95%的置信區(qū)間。 樣本均值平均長度為=14.9,95%的置信區(qū)間為,即(14.77,15.03) (3)能否確定該批零件的實際平均長度就在你所構(gòu)建的區(qū)間內(nèi)?為什么?(注:) 不能。因為該樣本所構(gòu)造的是一個特定的區(qū)間,不再是隨機(jī)區(qū)間。只能說在95%置信水平下,該區(qū)間是大量包含真值的區(qū)間中的一個。也可能是少數(shù)幾個不包含參數(shù)真值的區(qū)間中的一個。 三、 (20分)在假設(shè)檢驗中,當(dāng)不拒絕原假設(shè)時,為什么一般不采取“接受原假設(shè)”的表示方式? 1、假設(shè)檢驗的目的主要是收集證據(jù)拒絕原假設(shè),而支持你所傾向的備擇假設(shè)。因為假設(shè)檢驗只提供不利于原假設(shè)的證據(jù) 2. 假設(shè)檢驗得出的結(jié)論都是根據(jù)原假設(shè)進(jìn)行闡述的。當(dāng)不能拒絕原假設(shè)時,我們也從來不說“接受原假設(shè)”,因為沒有證明原假設(shè)是真的。沒有足夠的證據(jù)拒絕原假設(shè)并不等于你已經(jīng)“證明”了原假設(shè)是真的,它僅僅意為著目前還沒有足夠的證據(jù)拒絕原假設(shè),只表示手頭上這個樣本提供的證據(jù)還不足以拒絕原假設(shè)?!安痪芙^”的表述方式實際上意味著沒有得出明確的結(jié)論 3. 假設(shè)檢驗中通常是先確定顯著性水平,這就等于控制了第Ι類錯誤的概率,但犯第Ⅱ類錯誤的概率卻是不確定的。 四、 (20分)簡要說明分布在統(tǒng)計中的應(yīng)用。 卡方分布應(yīng)用很廣,常用于假設(shè)檢驗和置信區(qū)間的計算,比如應(yīng)用到獨立性檢驗中,同質(zhì)性檢驗、適合性檢驗等等 獨立性檢驗:主要用于兩個或兩個以上因素多項分類的計數(shù)資料分析,也就是研究兩類變量之間的關(guān)聯(lián)性和依存性問題 擬合優(yōu)度檢驗:檢驗單個多項分類名義型變量各分類間的實際觀測次數(shù)與理論次數(shù)之間是否一致的問題 同質(zhì)性檢驗:檢驗兩個或兩個以上總體的某一特性分布,也就是各“類別”的比例是否統(tǒng)一或相近 適合性檢驗:檢驗?zāi)骋活惙诸愘Y料所在總體的分布是否符合某個假設(shè)或理論的分布 【感覺簡答題可以適當(dāng)寫多點,也可以只說檢驗名字】 五、 (20分)簡要說明解決多元回歸中共線性的方法。 1:變量的選擇方法:向前選擇、向后剔除、逐步回歸。 2:嶺回歸方法:有偏估計 3:主成分分析:降維,提取信息 4:偏最小二乘回歸法:原理與主成分方法相似 6中國人民大學(xué)接受同等學(xué)歷人員申請碩士學(xué)位考試試題 招生專業(yè):統(tǒng)計學(xué) 考試科目:統(tǒng)計思想綜述 課程代碼:123201 考題卷號:6 一、 (20分)一家電視臺為了解觀眾對某檔娛樂節(jié)目的喜歡程度,對不同年齡段的男女觀眾進(jìn)行了調(diào)查,得到喜歡該檔娛樂節(jié)目的觀眾比例(單位:%)如下: 年齡段 男性 女性 20歲以下 5 6 20—30歲 25 32 30—40歲 16 15 40—50歲 12 12 50歲以上 6 8 (1) 這里涉及的變量有哪些?這些變量屬于什么類型? 有分類變量和數(shù)量變量。分類變量有性別,年齡段。數(shù)量變量有各年齡段的男女人數(shù)。 (2) 描述上述數(shù)據(jù)所適用的統(tǒng)計圖形有哪些? 可以用條形圖和餅圖【直方圖用于連續(xù)變量的這里最好不用】 二、 (20分)假定總體共有1000個個體,均值,標(biāo)準(zhǔn)差。從中抽取容量為100的所有簡單隨機(jī)樣本。樣本均值的期望值和標(biāo)準(zhǔn)差各是多少?得出上述結(jié)論所依據(jù)的是統(tǒng)計中的哪一個定理?請簡要敘述這一定理。 樣本均值的期望值為32,標(biāo)準(zhǔn)差為0.5 是中心極限定理,定理如下 設(shè)從均值為μ、方差為σ^2;(有限)的任意一個總體中抽取樣本量為n的樣本,當(dāng)n充分大時,樣本均值的抽樣分布近似服從均值為μ、方差為σ^2/n的正態(tài)分布 三、 (20分)在假設(shè)檢驗中,利用決策與利用統(tǒng)計量決策有什么不同? P值:如果能把犯第Ⅰ類錯誤的真實概率算出來,就可以直接用這個概率做出決策。而不需要管什么事先給定的顯著性水平α,這個犯第Ⅰ類錯誤的真實概率就是P值。 統(tǒng)計量檢驗是根據(jù)事先確定的顯著性水平α圍成的拒絕域作出決策,不論檢驗統(tǒng)計量的值是大是小,只要把它落入拒絕域就拒絕原假設(shè)H。否則就不拒絕H。這樣,無論統(tǒng)計量落在拒絕域的什么位置,你也只能說犯第一錯誤的概率為α,而用P值檢驗則能把犯第Ⅰ類錯誤的真實概率算出來。P 值決策優(yōu)于統(tǒng)計量決策。 P 值決策提供了更多的信息。 四、 (20分)簡要說明方差分析的基本原理。 方差分析被解釋為檢驗多個總體均值是否相等的統(tǒng)計方法,這種解釋側(cè)重于方差分析的過程和形式。 本質(zhì)上,方差分析研究的是分類自變量對數(shù)值因變量的影響 方差分析總的思想是通過計算來比較因某一特定因素帶來的樣本值的差異與隨機(jī)偶然因素對樣本值的差異的大小,從而判斷該因素對總體是否有統(tǒng)計意義 五、 (20 分)比較說明指數(shù)曲線和直線的異同。 一、相同點:指數(shù)曲線模型和直線模型都可以對時間序列進(jìn)行擬合;都可以進(jìn)行參數(shù)估計和假設(shè)檢驗;都可以對于未來的時點進(jìn)行預(yù)測。 二、不同點: 1、直線為線性的,指數(shù)曲線為非線性的。 2、兩者適用于不同特點的時間序列; 線性趨勢是時間序列按一個固定的常數(shù)(不變的斜率)增長或下降,指數(shù)曲線是時間序列各期觀察值按一定的增長率增長或衰減; 3、兩者的模型表達(dá)式不同; 4、系數(shù)的求解方法不同。直線用最小二乘法求得。指數(shù)曲線,需先采取線性化手段將其化為對數(shù)直線形式,根據(jù)最小二乘法,求解出系數(shù)的對數(shù),再取其反對數(shù)。 5、兩者的預(yù)測方法不同,直線趨勢可以用 Holt 指數(shù)平滑和一元線性回歸法預(yù)測,指數(shù)曲線可以用指數(shù)模型來預(yù)測。 7中國人民大學(xué)接受同等學(xué)歷人員申請碩士學(xué)位考試試題 招生專業(yè):統(tǒng)計學(xué) 考試科目:統(tǒng)計思想綜述 課程代碼:123201 考題卷號:7 一、 (20分)一項關(guān)于大學(xué)生體重狀況的研究發(fā)現(xiàn),男生的平均體重為60kg,標(biāo)準(zhǔn)差為5kg;女生的平均體重為50kg,標(biāo)準(zhǔn)差為5kg。請回答下面的問題 (1) 是男生的體重差異大還是女生的體重差異大?為什么? (2) 粗略地估計一下,男生中有百分之幾的人體重在55kg到65kg之間? (3) 粗略地估計一下,女生中有百分之幾的人體重在40kg到60kg之間? (1)女生的體重差異大。 男生體重的離散系數(shù)是V1=5/60=0.083 女生體重的離散系數(shù)是V2=5/50=0.1 離散系數(shù)大的離散程度也就大,V2> V1,因此,女生的體重差異大 (2)設(shè)男生的體重為X1,X1~N(60,52) 設(shè)Z1=(X1-60) / 5 男生體重在55kg到65kg之間的概率為P,則 P()=P(-1Z11)=68% 因此,男生有68%的體重在55~65kg之間。 (3)設(shè)女生的體重為X2,則X2~N(50,52), 設(shè)Z2=(X2-50)/ 5,則Z2~N(0,1) P(40X2 60)=P(-2Z22)=95% 故女生有95%的體制在40~60kg之間。 二、 (20分)敘述評價估計量的標(biāo)準(zhǔn)。 評價估計量的標(biāo)準(zhǔn)主要有3個。 <1> 無偏性。無偏性是指估計量抽樣分布的期望值等于被估計的總體參數(shù)。設(shè)總體參數(shù)為,所選擇的估計量為,如果E()=,則稱為的無偏估計量。 <2>有效性。有效性是指估計量的方差盡可能小。一個無偏估計量并不意味著它就非常接近被估計的總體參數(shù),估計量與參數(shù)的接近程度是用估計量的方差來度量的。對同一總體參數(shù)的兩個無偏估計量,有更小方差的估計量更有效。 <3>一致性。一致性是指隨著樣本量的增大,點估計量的值越接近總體參數(shù)。一個大樣本給出的估計量要比一個小樣本給出的估計量更接近總體的參數(shù)。樣本均值的標(biāo)準(zhǔn)誤差`x=/與樣本量的大小有關(guān),樣本量越大,`x的值就越小。因此,大樣本量給出的估計量更接近總體均值u,從這個意義上來說,樣本均值是總體均值的一個一致估計量。 三、 (20分)一家房地產(chǎn)開發(fā)公司準(zhǔn)備購進(jìn)一批燈泡,公司打算在兩個供貨商之間選擇一家購買,兩家供貨商生產(chǎn)的燈泡使用壽命的方差大小基本相同,價格也很相近,房地產(chǎn)公司購進(jìn)燈泡時考慮的主要因素就是使用壽命。其中一家供貨商聲稱其生產(chǎn)的燈泡平均使用壽命在1500小時以上。如果在1500小時以上,在房地產(chǎn)公司就考慮購買。由36只燈泡組成的隨機(jī)樣本表明,平均使用壽命為1510小時,標(biāo)準(zhǔn)差為193小時。 (1) 如果是房地產(chǎn)開發(fā)公司進(jìn)行檢驗,會提出怎樣的假設(shè)?請說明理由。 (2) 如果是燈泡供應(yīng)商進(jìn)行檢驗,會提出怎樣的假設(shè),請說明理由。 (1) 設(shè)燈泡的平均使用壽命為u H0:u1500(使用壽命符合標(biāo)準(zhǔn)) H1:u<1500(使用壽命不符合標(biāo)準(zhǔn)) 房地產(chǎn)開發(fā)公司傾向于證明燈泡的使用壽命小于1500個小時。因為這會損害公司的利益(如果房地產(chǎn)公司非常相信燈泡的使用壽命在1500小時以上,也就沒有必要抽檢了)通常備擇假設(shè)用于表達(dá)研究者傾向于支持的看法,因此,備擇假設(shè)為u< 1500小時,原假設(shè)為u1500。 (2)設(shè)燈泡的平均使用壽命為u. H0: u 1500 H1: u > 1500 燈泡供應(yīng)商傾向于支持燈泡的使用壽命大于1500小時,所以備擇假設(shè)為:u > 1500;原假設(shè)為:u 1500 四、 (20分)什么是判定系數(shù)?它在回歸分析中的主要作用是什么? 1.判定系數(shù)是對估計的回歸方程擬合優(yōu)度的度量。引起y值變化的這種波動稱為變差。變差主要有兩種:一是自變量x的變化引起y變化,這部分的平方和稱為回歸平方和;二是除x以外的其他隨機(jī)因素導(dǎo)致y變化,這部分變差的平方和稱為殘差平方和。變差的平方和 = 回歸的平方和+殘差的平方和 判定系數(shù)(R2)=回歸的平方和(SSR)/ 變差的平方和(SST) 2.判定系數(shù)測度了回歸直線對觀測數(shù)據(jù)的擬合程度?;貧w直線擬合的好壞取決于SSR/SST比值的大小。各觀測點越靠近直線,值越大,直線擬合的越好;值越小,直線擬合的越差。 五、 (20分)說明分布的適用條件,如何判斷某個過程產(chǎn)生的數(shù)據(jù)滿足這一條件? 1.當(dāng)正態(tài)總體的標(biāo)準(zhǔn)差未知時,在小樣本的條件下對總體均值的估計和檢驗要用到t分布 2.正態(tài)性:可以劃出樣本數(shù)據(jù)的直方圖和莖葉圖或者P-P圖,Q-Q圖檢驗數(shù)據(jù)的正態(tài)性 小樣本:當(dāng)樣本的數(shù)量小于30個,當(dāng)成小樣本處理 8中國人民大學(xué)接受同等學(xué)歷人員申請碩士學(xué)位考試試題 招生專業(yè):統(tǒng)計學(xué) 考試科目:統(tǒng)計思想綜述 課程代碼:123201 考題卷號:8 一、 (20分)在金融證券領(lǐng)域,一項投資的的預(yù)期收益率的變化通常用該項投資的風(fēng)險來衡量。預(yù)期收益率的變化越小,投資風(fēng)險越低,預(yù)期收益率的變化越大,投資風(fēng)險就越高。下面的兩個直方圖,分別反映了200種商業(yè)類股票和200種高科技類股票的收益率分布。在股票市場上,高收益率往往伴隨著高風(fēng)險。但投資于哪類股票,往往與投資者的類型有一定關(guān)系。 (1) 你認(rèn)為該用什么樣的統(tǒng)計量來反映投資的風(fēng)險? (2) 如果選擇風(fēng)險小的股票進(jìn)行投資,應(yīng)該選擇商業(yè)類股票還是高科技類股票? (3) 如果你進(jìn)行股票投資,你會選擇商業(yè)類股票還是高科技類股票? (1)方差或標(biāo)準(zhǔn)差 (2)風(fēng)險小的股票應(yīng)選商業(yè)類股票 (3)如果選擇風(fēng)險小的股票,選擇商業(yè)類股票,如果選擇高收益的股票,選擇高科技類股票。 二、 (20分)某種感冒沖劑規(guī)定每包重量為12克,超重或過輕都是嚴(yán)重問題。從過去的生產(chǎn)數(shù)據(jù)得知克,質(zhì)檢員抽取25包沖劑稱重檢驗,平均每包的重量為11.85克。假定產(chǎn)品重量服從正態(tài)分布。 (1) 根據(jù)上述檢驗計算出的,感冒沖劑的每包重量是否符合標(biāo)準(zhǔn)要求()? (2) 說明上述檢驗中可能犯哪類錯誤?該錯誤的實際含義是什么? (1) 不符合標(biāo)準(zhǔn) P= 0.02<0.05點評人:原假設(shè)為H0:產(chǎn)品符合標(biāo)準(zhǔn)要求,由于P值小于0.05,因此拒絕原假設(shè),即,每包重量不符合標(biāo)準(zhǔn)要求?!綪為犯第一類錯誤的概率,即原假設(shè)正確,實際拒絕的概率為0.02,位于拒絕域內(nèi),推翻H0】 (2)可能犯第Ⅰ類錯誤(錯誤)。原假設(shè)是正確的,實際確拒絕了原假設(shè)。 三、 (20分)簡述方差分析的基本假定。 正態(tài)性:每種處理所對應(yīng)的總體都應(yīng)服從正態(tài)分布。 方差齊性:各個總體的方差必須相等。 獨立性:每個樣本數(shù)據(jù)都來自不同處理的獨立樣本。 方差分析對獨立性的要求比較嚴(yán)格,若該假設(shè)得不到滿足,方差分析的結(jié)果會受到較大影響。而對正態(tài)性和方差齊性的要求相對較寬松,當(dāng)正態(tài)性不滿足和方差略有不齊時,對分析的結(jié)果影響不是很大。 四、 (20分)怎樣自相關(guān)圖和偏自相關(guān)圖來識別ARIMA()模型中的參數(shù)? 第一步:將序列平穩(wěn)化。只有平穩(wěn)序列才能建立ARIMA模型,當(dāng)原始序列不平穩(wěn)時,通過差分可以將其平穩(wěn)化。 第二步:識別模型的階數(shù)。如果原始序列(或差分序列)的偏自相關(guān)系數(shù)有p個明顯的峰值,在p個值后截尾,而它的自相關(guān)函數(shù)呈現(xiàn)出指數(shù)衰減或正弦衰減,呈現(xiàn)出拖尾,為AR(p)序列,模型為ARIMA(p,0,0).如果序列的自相關(guān)函數(shù)有q個明顯的峰值,在q個值后截尾,而它的偏自相關(guān)函數(shù)呈指數(shù)或正弦衰減,呈現(xiàn)出拖尾,為MA(q)序列,模型為ARIMA(0,0,q).如果序列的自相關(guān)圖和偏自相關(guān)圖的前p個條和前q個條沒有固定規(guī)律,其后都是趨漸于0而不是突然變?yōu)?,都呈現(xiàn)出拖尾,模型為ARMA(P,Q),“I”的取值取決于差分的階數(shù)。 第三步:模型診斷。如果模型正確,模型預(yù)測產(chǎn)生的誤差是白噪聲序列,殘差序列的自相關(guān)圖沒有什么固定模式。書上245頁 五、 (20分)什么是回歸中的置信區(qū)間估計和預(yù)測區(qū)間估計?兩個區(qū)間的寬度是否一樣?取何值時兩個區(qū)間寬度最窄? 平均值的置信區(qū)間估計:是對x的一個給定值x0,求出y的平均值的估計區(qū)間。 個別值的預(yù)測區(qū)間估計:是對x的一個給定值x0,求出y的一個個別值的估計區(qū)間。 兩個區(qū)間的寬度是不一樣的。預(yù)測區(qū)間要比置信區(qū)間寬一些。 當(dāng)x=`x時,兩個區(qū)間的寬度最窄,此時,兩個區(qū)間也都是最準(zhǔn)確的。 9國人民大學(xué)接受同等學(xué)歷人員申請碩士學(xué)位考試試題 招生專業(yè):統(tǒng)計學(xué) 考試科目:統(tǒng)計思想綜述 課程代碼:123201 考題卷號:9 一、 (20分)為研究少年兒童的成長發(fā)育狀況,某研究所的一位調(diào)查人員在某城市抽取100名7~17歲的少年兒童作為樣本,另一位調(diào)查人員則抽取了1000名7~17歲的少年兒童作為樣本。請回答下面的問題,并解釋其原因。 (1) 哪一位調(diào)查研究人員在其所抽取的樣本中得到的少年兒童的平均身高較大?或者這兩組樣本的平均身高相同? (2) 哪一位調(diào)查研究人員在其所抽取的樣本中得到的少年兒童身高的標(biāo)準(zhǔn)差較大?或者這兩組樣本的標(biāo)準(zhǔn)差相同? (3) 哪一位調(diào)查研究人員有可能得到這1100名少年兒童的最高者或最低者?或者對兩位調(diào)查研究人員來說,這種機(jī)會是相同的? 解:(1)、如果抽樣是隨機(jī)的,抽樣樣本數(shù)目對樣本平均值沒有決定作用,答案是不確定的; (2)、如果抽樣是隨機(jī)的,抽樣樣本數(shù)目對樣本方差、標(biāo)準(zhǔn)差沒有決定作用,答案是不確定的; (3)、不確定,都有可能。 二、 (20分)在參數(shù)統(tǒng)計分析中,應(yīng)用分布、分布和分布的假定條件是什么? 如何判斷樣本數(shù)據(jù)是否滿足假定條件。 解:(1)分布:設(shè)X1服從標(biāo)準(zhǔn)正態(tài)分布N(0,1),X2服從自由度為n的分布,且X1與X2相互獨立,則稱變量t=服從的分布為自由度為n的分布。期望 E(T)=0 方差D(T)=n/(n-2),n>2; 分布:設(shè) X1,X2,......Xn相互獨立,都服從標(biāo)準(zhǔn)正態(tài)分布N(0,1),則稱隨機(jī)變量X2=X12+X22+....+Xn2服從自由度為n的分布。期望E(X2)=n,D(X2)=2n; 分布:設(shè)X1服從自由度為n的分布,X2服從自由度為m的分布,且X1與X2相互獨立,則稱變量F= 服從 分布。 (2)正態(tài)性檢驗及獨立性檢驗。 三、 (20分)由于時間和成本對產(chǎn)量變動的影響很大,所以在一種新的生產(chǎn)方式投入使用之前,生產(chǎn)廠家必須確信其所推薦新的生產(chǎn)方法能降低成本。目前生產(chǎn)中所用的生產(chǎn)方法成本均值為每小時200元。對某種新的生產(chǎn)方法,測量其一段樣本生產(chǎn)期的成本。 (1) 在該項研究中,建立適當(dāng)?shù)脑僭O(shè)和備擇假設(shè)。 (2) 當(dāng)不能拒絕時,試對所做的結(jié)論進(jìn)行評述。 (3) 當(dāng)可以拒絕時,試對所做的結(jié)論進(jìn)行評述。 解:(1)、原假設(shè)::新的生產(chǎn)方法成本的均值不低于200元/每小時;備擇假設(shè)::新的生產(chǎn)方法成本的均值低于200元/每小時。 (2)、當(dāng)不能拒絕時,說明并沒有把握說明新的生產(chǎn)方法能降低生產(chǎn)成本; (3)、當(dāng)可以拒絕時,說明新的生產(chǎn)方法可以降低生產(chǎn)成本,可以采用新的方法生產(chǎn)。 四、 (20分)列出度量下述測度變量間的關(guān)系所使用的統(tǒng)計量。 (1) 兩個分類變量。 (2) 兩個數(shù)值變量。 (3) 兩個順序變量。 (4) 一個分類變量與一個數(shù)值變量。 解:分類變量分為有序變量、無序變量及二分類,在差別性檢驗中二分類變量和無序變量都可以用卡方統(tǒng)計量檢驗,不過一個是四方格、一個是R×C列聯(lián)卡方,有序變量也即等級資料得用秩和檢驗。有序變量中可用多元回歸來檢驗假設(shè),對于無序變量使用logistics回歸。 (1)統(tǒng)計量;(2)、相關(guān)系數(shù);(3)、等級相關(guān)系數(shù);(4)、F統(tǒng)計量。 五、 (20分)在多元線性回歸分析中,檢驗和檢驗有何不同? 解:(1)、F檢驗是對模型整體顯著性水平的檢驗,而t檢驗只是對單獨變量的顯著性水平的檢驗。 (2)、F檢驗顯著,說明模型擬合效果顯著,但并不能說明每個變量都顯著。 10中國人民大學(xué)接受同等學(xué)歷人員申請碩士學(xué)位考試試題 招生專業(yè):統(tǒng)計學(xué) 考試科目:統(tǒng)計思想綜述 課程代碼:123201 考題卷號:10 一、 (20分)在2008年8月北京舉辦的第29屆奧林匹克運動會上,獲得金牌總數(shù)前三名的國家及獎牌數(shù)如下。要描述這一數(shù)據(jù),可以使用的圖形有哪些?說明它們在描述這一數(shù)據(jù)中的用途。 排名 國家 金 銀 銅 總 1 中國 51 21 28 100 2 美國 36 38 36 110 3 俄羅斯 23 21 28 72 列出適合展示上述數(shù)據(jù)的圖形并說明這些圖形的用途。 解:(1)、直方圖或者條形圖:能夠直觀的表明各個國家在金、銀、銅牌上的獎牌數(shù)量。 如果以國家為橫坐標(biāo),以獎牌數(shù)為縱坐標(biāo),能夠直觀的比較不同國家或得獎牌總數(shù)的情況; 如果以獎牌種類為橫坐標(biāo),以國家為縱坐標(biāo),能夠直觀的看到每個國家獲得各種獎牌的情況; (2)、餅圖或者環(huán)形圖:能夠清楚的比較各個國家獲得金、銀、銅獎牌的比例。 二、 (20分)某企業(yè)生產(chǎn)的產(chǎn)品需用紙箱進(jìn)行包裝,按規(guī)定供應(yīng)商提供的紙箱用紙的厚度不應(yīng)低于5毫米。已知用紙的厚度服從正態(tài)分布,一直穩(wěn)定在0.5毫米。企業(yè)從某供應(yīng)商提供的紙箱中隨機(jī)抽查了100個樣品,得樣本平均厚度毫米。 (1) 在的顯著顯著性水平上,是否可以接受該批紙箱?該檢驗中會犯哪類錯誤?該錯誤的含義是什么? (2) 抽查的100個樣本的平均厚度為多少時可以接收這批紙箱?此時可能會犯哪類?該錯誤的含義是什么? (注:,) 解:(1)、由題可知,紙箱的厚度服從, , n=100, 建立假設(shè):: : <, 則在時,拒絕原假設(shè)。 在該類檢驗中犯了第一類錯誤,即原假設(shè)正確,但實際上卻拒絕了原假設(shè)的錯誤。 (2)、當(dāng)時,解得,即當(dāng)紙箱的厚度在4.902毫米與5.098毫米之間時,可以接受原假設(shè),即可以接受這些紙箱。 此時,可能犯第二類錯誤,即原假設(shè)錯誤,但是實際上卻接受了原假設(shè)的錯誤。 三、(20分)簡要說明分布在統(tǒng)計中的的應(yīng)用。 解:分布常應(yīng)用于假設(shè)檢驗及置信區(qū)間的計算中,由卡方分布延伸出來皮爾森卡方檢定常用于: (1)樣本某性質(zhì)的比例分布與總體理論分布的擬合優(yōu)度;(2)同一總體的兩個隨機(jī)變量是否獨立;(3)二或多個總體同一屬性的同素性檢定即,獨立性檢驗、同質(zhì)性檢驗、適合性檢驗等。 4、 (20分)在多元線性回歸分析中,如果某個回歸系數(shù)的檢驗不顯著,是否就意味著這個自變量與因變量之間的線性回歸不顯著?為什么?當(dāng)出現(xiàn)這種情況時應(yīng)如何處理? 解:(1)、不是。因為在多元線性回歸模型中,如果多個自變量之間存在較強(qiáng)的相關(guān)性,或者因為數(shù)據(jù)收集的基礎(chǔ)不夠?qū)挘斐啥鄠€自變量之間存在相關(guān)性時,此時在進(jìn)行單個變量的t檢驗時,有可能會通不過檢驗,即該多元線性回歸模型存在多重共線性。 (2)、當(dāng)模型檢驗不顯著時,需要進(jìn)行判別(1、系數(shù)估計值的符號是否不對2、是否存在某些重要的自變量t值低,而R方不低3、是否出現(xiàn)當(dāng)一不太重要的解釋變量被刪除后,回歸結(jié)果顯著變化)、檢驗(相關(guān)性檢驗)模型中是否出現(xiàn)多重共線性,需要通過:1、增加數(shù)據(jù);2、對模型施加某些約束條件
- 1.請仔細(xì)閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
32 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該PPT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 人民大學(xué) 統(tǒng)計學(xué) 在職 題庫 統(tǒng)計 綜述 答案
鏈接地址:http://m.appdesigncorp.com/p-1547844.html