《2018年高考數(shù)學二輪復習 第1部分 重點強化專題 專題3 概率與統(tǒng)計 突破點8 獨立性檢驗與回歸分析學案 文》由會員分享,可在線閱讀,更多相關《2018年高考數(shù)學二輪復習 第1部分 重點強化專題 專題3 概率與統(tǒng)計 突破點8 獨立性檢驗與回歸分析學案 文(11頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、
突破點8 獨立性檢驗與回歸分析
[核心知識提煉]
提煉1 變量的相關性
(1)正相關:在散點圖中,點散布在從左下角到右上角的區(qū)域.
(2)負相關:在散點圖中,點散布在從左上角到右下角的區(qū)域.
(3)相關系數(shù)r:當r>0時,兩變量正相關;當r<0時,兩變量負相關;當|r|≤1且|r|越接近于1,相關程度越高,當|r|≤1且|r|越接近于0,相關程度越低.
提煉2 線性回歸方程
方程=x+稱為線性回歸方程,其中=,=-.回歸直線恒過樣本中心(,).
提煉3 獨立性檢驗
(1)確定分類變量,獲取樣本頻數(shù),得到2×2列聯(lián)表.
(2)求觀測值:k=.
(3)根據(jù)臨界值表,作
2、出正確判斷.如果k≥kα,就推斷“X與Y有關系”,這種推斷犯錯誤的概率不超過α,否則就認為在犯錯誤的概率不超過α的前提下不能推斷“X與Y有關系”.
[高考真題回訪]
回訪1 變量的相關性
1.(2015·全國卷Ⅱ)根據(jù)下面給出的2004年至2013年我國二氧化硫年排放量(單位:萬噸)柱形圖,以下結(jié)論中不正確的是( )
圖8-1
A.逐年比較,2008年減少二氧化硫排放量的效果最顯著
B.2007年我國治理二氧化硫排放顯現(xiàn)成效
C.2006年以來我國二氧化硫年排放量呈減少趨勢
D.2006年以來我國二氧化硫年排放量與年份正相關
D [對于A選項,由圖知從2007年到200
3、8年二氧化硫排放量下降得最多,故A正確.對于B選項,由圖知,由2006年到2007年矩形高度明顯下降,因此B正確.對于C選項,由圖知從2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正確.由圖知2006年以來我國二氧化硫年排放量與年份負相關,故選D.]
2.(2012·全國卷)在一組樣本數(shù)據(jù)(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散點圖中,若所有樣本點(xi,yi)(i=1,2,…,n)都在直線y=x+1上,則這組樣本數(shù)據(jù)的樣本相關系數(shù)為( )
A.-1 B.0
C. D.1
D [樣本點都在直
4、線上時,其數(shù)據(jù)的估計值與真實值是相等的,即yi=i,代入相關系數(shù)公式r==1.]
3.(2017·全國卷Ⅰ)為了監(jiān)控某種零件的一條生產(chǎn)線的生產(chǎn)過程,檢驗員每隔30 min從該生產(chǎn)線上隨機抽取一個零件,并測量其尺寸(單位:cm).下面是檢驗員在一天內(nèi)依次抽取的16個零件的尺寸:
抽取次序
1
2
3
4
5
6
7
8
零件尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸
10.26
9.91
10.13
10.02
9.
5、22
10.04
10.05
9.95
(1)求(xi,i)(i=1,2,…,16)的相關系數(shù)r,并回答是否可以認為這一天生產(chǎn)的零件尺寸不隨生產(chǎn)過程的進行而系統(tǒng)地變大或變小(若|r|<0.25,則可以認為零件的尺寸不隨生產(chǎn)過程的進行而系統(tǒng)地變大或變小).
(2)一天內(nèi)抽檢零件中,如果出現(xiàn)了尺寸在(-3s,+3s)之外的零件,就認為這條生產(chǎn)線在這一天的生產(chǎn)過程可能出現(xiàn)了異常情況,需對當天的生產(chǎn)過程進行檢查.
(ⅰ)從這一天抽檢的結(jié)果看,是否需對當天的生產(chǎn)過程進行檢查?
(ⅱ)在(-3s,+3s)之外的數(shù)據(jù)稱為離群值,試剔除離群值,估計這條生產(chǎn)線當天生產(chǎn)的零件尺寸的均值與標準
6、差.(精確到0.01)
附:樣本(xi,yi)(i=1,2,…,n)的相關系數(shù)r=
[解] (1)由樣本數(shù)據(jù)得(xi,i)(i=1,2,…,16)的相關系數(shù)
r=≈≈-0.18. 2分
由于|r|<0.25,因此可以認為這一天生產(chǎn)的零件尺寸不隨生產(chǎn)過程的進行而系統(tǒng)地變大或變?。? 4分
(2)(ⅰ)由于=9.97,s≈0.212,因此由樣本數(shù)據(jù)可以看出抽取的第13個零件的尺寸在(-3s,+3s)以外,因此需對當天的生產(chǎn)過程進行檢查. 6分
(ⅱ)剔除離群值,即第13個數(shù)據(jù),剩下數(shù)據(jù)的平均數(shù)為
(16×9.97-9.22)=10.02,
這條生產(chǎn)線當天生產(chǎn)的零件尺寸
7、的均值的估計值為10.02. 8分
x≈16×0.2122+16×9.972≈1 591.134, 10分
剔除第13個數(shù)據(jù),剩下數(shù)據(jù)的樣本方差為
(1 591.134-9.222-15×10.022)≈0.008,
這條生產(chǎn)線當天生產(chǎn)的零件尺寸的標準差的估計值為≈0.09. 12分
回訪2 獨立性檢驗
4.(2017·全國卷Ⅱ)海水養(yǎng)殖場進行某水產(chǎn)品的新、舊網(wǎng)箱養(yǎng)殖方法的產(chǎn)量對比,收獲時各隨機抽取了100個網(wǎng)箱,測量各箱水產(chǎn)品的產(chǎn)量(單位:kg),其頻率分布直方圖如下:
圖8-2
(1)記A表示事件“舊養(yǎng)殖法的箱產(chǎn)量低于50 kg”,估計A的概率;
(2)
8、填寫下面列聯(lián)表,并根據(jù)列聯(lián)表判斷是否有99%的把握認為箱產(chǎn)量與養(yǎng)殖方法有關;
箱產(chǎn)量<50 kg
箱產(chǎn)量≥50 kg
舊養(yǎng)殖法
新養(yǎng)殖法
(3)根據(jù)箱產(chǎn)量的頻率分布直方圖,對這兩種養(yǎng)殖方法的優(yōu)劣進行比較.
附:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
K2=.
[解] (1)舊養(yǎng)殖法的箱產(chǎn)量低于50 kg的頻率為
(0.012+0.014+0.024+0.034+0.040)×5=0.62.
因此,事件A的概率估計值為0.62. 3分
(2)根據(jù)箱產(chǎn)量的頻率分布直方圖得列聯(lián)
9、表
箱產(chǎn)量<50 kg
箱產(chǎn)量≥50 kg
舊養(yǎng)殖法
62
38
新養(yǎng)殖法
34
66
5分
K2的觀測值k=≈15.705.
由于15.705>6.635,故有99%的把握認為箱產(chǎn)量與養(yǎng)殖方法有關. 8分
(3)箱產(chǎn)量的頻率分布直方圖表明:新養(yǎng)殖法的箱產(chǎn)量平均值(或中位數(shù))在50 kg到55 kg之間,舊養(yǎng)殖法的箱產(chǎn)量平均值(或中位數(shù))在45 kg到50 kg之間,且新養(yǎng)殖法的箱產(chǎn)量分布集中程度較舊養(yǎng)殖法的箱產(chǎn)量分布集中程度高,因此,可以認為新養(yǎng)殖法的箱產(chǎn)量較高且穩(wěn)定,從而新養(yǎng)殖法優(yōu)于舊養(yǎng)殖法. 12分
熱點題型1 回歸分析
題型分析:高考命題常以
10、實際生活為背景,重在考查回歸分析中散點圖的作用、回歸方程的求法和應用,難度中等.
【例1】 在一次抽樣調(diào)查中測得樣本的5組數(shù)據(jù),得到一個變量y關于x的回歸方程模型,其對應的數(shù)值如下表:
x
0.25
0.5
1
2
4
y
16
12
5
2
1
(1)試作出散點圖,根據(jù)散點圖判斷,y=a+bx與y=+m哪一個適宜作為變量y關于x的回歸方程模型?(給出判斷即可,不必說明理由)
(2)根據(jù)(1)的判斷結(jié)果及表中數(shù)據(jù),建立變量y關于x的回歸方程;
(3)根據(jù)(2)中所求的變量y關于x的回歸方程預測:當x=3時,對應的y值為多少?(保留四位有效數(shù)字)
[解] (1)
11、作出變量y與x之間的散點圖,如圖所示,
2分
由圖可知變量y與x近似地呈反比例函數(shù)關系,
那么y=+m適宜作為變量y關于x的回歸方程模型. 4分
(2)由(1)知y=+m適宜作為變量y關于x的回歸方程模型,令t=,則y=kt+m,由y與x的數(shù)據(jù)表可得y與t的數(shù)據(jù)表如下:
t
4
2
1
0.5
0.25
y
16
12
5
2
1
6分
作出y與t的散點圖,如圖所示.
8分
由圖可知y與t近似地呈線性相關關系.
又=1.55,=7.2,iyi=94.25,=21.312 5,
所以k==≈4.134 4,m=-k=7.2-4.134 4×1
12、.55≈0.8,
所以y=4.134 4t+0.8,
所以y關于x的回歸方程為y=+0.8. 10分
(3)由(2)得y關于x的回歸方程是y=+0.8,
當x=3時,可得y=+0.8≈2.178. 12分
[方法指津]
1.正確理解計算,的公式和準確的計算,是求線性回歸方程的關鍵.其中回歸直線必過樣本中心(,).
2.在分析兩個變量的相關關系時,可根據(jù)樣本數(shù)據(jù)作出散點圖來確定兩個變量之間是否具有相關關系,若具有線性相關關系,則可通過線性回歸方程估計和預測變量的值.
[變式訓練1] 二手車經(jīng)銷商小王對其所經(jīng)營的A型號二手汽車的使用年數(shù)x與銷售價格y(單位:萬元/輛)進行整理,
13、得到如下數(shù)據(jù):
使用年數(shù)x
2
3
4
5
6
7
售價y
20
12
8
6.4
4.4
3
z=ln y
3.00
2.48
2.08
1.86
1.48
1.10
下面是z關于x的折線圖:
圖8-3
(1)由折線圖可以看出,可以用線性回歸模型擬合z與x的關系,請用相關系數(shù)加以說明;
(2)求y關于x的回歸方程,并預測某輛A型號二手車當使用年數(shù)為9年時售價約為多少;(,小數(shù)點后保留兩位數(shù)字)
(3)基于成本的考慮,該型號二手車的售價不得低于7 118元,請根據(jù)(2)求出的回歸方程預測在收購該型號二手車時車輛的使用年數(shù)不得超過多少年.
14、
參考公式:==,=- ,r=.
參考數(shù)據(jù):
xiyi=187.4,xizi=47.64,x=139,
=4.18,
=13.96,
=1.53,ln 1.46≈0.38,ln 0.711 8≈-0.34.
[解] (1)由題意,知=×(2+3+4+5+6+7)=4.5, 1分
=×(3.00+2.48+2.08+1.86+1.48+1.10)=2, 2分
又xizi=47.64,
=4.18,
=1.53,
∴r=
=-≈-0.99,
∴z與x的相關系數(shù)大約為-0.99,說明z與x的線性相關程度很高. 4分
(2)=
=-≈-0.36, 5分
∴
15、=- =2+0.36×4.5=3.62,
∴z與x的線性回歸方程是=-0.36x+3.62, 6分
又z=ln y,
∴y關于x的回歸方程是=e-0.36x+3.62. 7分
令x=9,
得=e-0.36×9+3.62=e0.38,∵ln 1.46≈0.38,∴=1.46,
即預測某輛A型號二手車當使用年數(shù)為9年時售價約為1.46萬元. 8分
(3)當≥0.711 8,
即e-0.36x+3.62≥0.711 8=eln 0.711 8=e-0.34時,
則有-0.36x+3.62≥-0.34,
解得x≤11,
因此,預測在收購該型號二手車時車輛的使用年數(shù)不得超過11
16、年. 12分
熱點題型2 獨立性檢驗
題型分析:盡管全國卷Ⅰ在近幾年未在該點命題,但其極易與分層抽樣、古典概型等知識交匯,是潛在的命題點之一,需引起足夠的重視.
【例2】 (2017·長沙二模)某學校的特長班有50名學生,其中有體育生20名,藝術(shù)生30名,在學校組織的一次體檢中,該班所有學生進行了心率測試,心率全部介于50次/分到75次/分之間,現(xiàn)將數(shù)據(jù)分成五組,第一組[50,55),第二組[55,60),……,第五組[70,75],按上述分組方法得到的頻率分布直方圖如圖8-4所示,已知圖中從左到右的前三組的頻率之比為a∶4∶10.
圖8-4
(1)求a的值,并求這50名學生心
17、率的平均值;
(2)因為學習專業(yè)的原因,體育生常年進行系統(tǒng)的身體鍛煉,藝術(shù)生則很少進行系統(tǒng)的身體鍛煉,若從第一組和第二組的學生中隨機抽取1名,該學生是體育生的概率為0.8,請將下面的列聯(lián)表補充完整,并判斷是否有99.5%的把握認為心率小于60次/分與常年進行系統(tǒng)的身體鍛煉有關?說明你的理由.
心率小于60次/分
心率不小于60次/分
合計
體育生
20
藝術(shù)生
30
合計
50
參考數(shù)據(jù):
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.8
18、41
5.024
6.635
7.879
10.828
參考公式:K2=,其中n=a+b+c+d.
[解] (1)因為第二組數(shù)據(jù)的頻率為0.032×5=0.16,
故第二組的頻數(shù)為0.16×50=8,
所以第一組的頻數(shù)為2a,第三組的頻數(shù)為20,第四組的頻數(shù)為16,第五組的頻數(shù)為4.
所以2a=50-20-16-8-4=2,故a=1. 3分
所以這50名學生的心率平均值為52.5×+57.5×+62.5×+67.5×+72.5×=63.7. 5分
(2)由(1)知,第一組和第二組的學生(即心率小于60次/分的學生)共10名,其中體育生有10×0.8=8(名),故列聯(lián)
19、表補充如下:
心率小于60次/分
心率不小于60次/分
合計
體育生
8
12
20
藝術(shù)生
2
28
30
合計
10
40
50
所以K2=≈8.333>7.879,
故有99.5%的把握認為心率小于60次/分與常年進行系統(tǒng)的身體鍛煉有關. 12分
[方法指津]
求解獨立性檢驗問題時要注意:一是2×2列聯(lián)表中的數(shù)據(jù)與公式中各個字母的對應,不能混淆;二是注意計算得到K2之后的結(jié)論.
[變式訓練2] (2017·蘭州三模)隨著手機的發(fā)展,“微信”逐漸成為人們交流的一種形式.某機構(gòu)對“使用微信交流”的態(tài)度進行調(diào)查,隨機抽取了50人,他們年齡的頻數(shù)分布及
20、對“使用微信交流”贊成人數(shù)如下表.
年齡
(單位:歲)
[15,25)
[25,35)
[35,45)
[45,55)
[55,65)
[65,75]
頻數(shù)
5
10
15
10
5
5
贊成人數(shù)
5
10
12
7
2
1
(1)若以“年齡45歲為分界點”,由以上統(tǒng)計數(shù)據(jù)完成下面2×2列聯(lián)表,并判斷是否有99%的把握認為“使用微信交流”的態(tài)度與人的年齡有關;
年齡不低于45歲的人數(shù)
年齡低于45歲的人數(shù)
合計
贊成
不贊成
合計
(2)若從年齡在[55,65)的被調(diào)查人中隨機選取2人進行追
21、蹤調(diào)查,求2人中至少有1人不贊成“使用微信交流”的概率.
參考數(shù)據(jù):
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
K2=,其中n=a+b+c+d.
[解] (1)2×2列聯(lián)表如下:
年齡不低于45歲的人數(shù)
年齡低于45歲的人數(shù)
合計
贊成
10
27
37
不贊成
10
3
13
合計
20
30
50
K2=≈9.98>6.635.
所以有99%的把握認為“使用微信交流”的態(tài)度與人的年齡有關. 6分
(2)設年齡在[55,65)中不贊成“使用微信交流”的人為A,B,C,贊成“使用微信交流”的人為a,b,
則從5人中隨機選取2人有AB,AC,Aa,Ab,BC,Ba,Bb,Ca,Cb,ab,共10種結(jié)果,其中2人中至少有1人不贊成“使用微信交流”的有AB,AC,Aa,Ab,BC,Ba,Bb、Ca、Cb,共9種結(jié)果,所以2人中至少有1人不贊成“使用微信交流”的概率為P=. 12分
11