高中數(shù)學《回歸分析》課件1(72張PPT)(北師大版選修1-2)
,歡迎進入數(shù)學課堂,回歸分析,5.1概述回歸分析研究變量與變量之間關系的數(shù)學方法。變量之間的關系:5.1.1確定性關系函數(shù)關系,經(jīng)反復的精確試驗或嚴格的數(shù)學推導得到。如S=vt。數(shù)學分析和物理學中的大多數(shù)公式屬于這種類型。,到方差分析,實際問題中,絕大多數(shù)情況下,變量之間的關系不那么簡單。如材料的抗拉強度與其硬度之間的關系;材料的性能與其化學成份之間等等。這些變量之間既存在著密切的關系,又不能由一個(或幾個)變量(自變量)的數(shù)值精確地求出另一個變量(因變量)的數(shù)值,而是要通過試驗和調(diào)查研究,才能確定它們之間的關系,如圖5.1所示,雖然各組數(shù)據(jù)不是準確地服從f(x)關系,但y值總還是隨x的增加而增加。我們稱這類變量之間的關系為相關關系。,5.1.2相關關系,雖然各組數(shù)據(jù)不是準確地服從f(x)關系,但y值總還是隨x的增加而變化。,5.1概述,回歸分析的主要內(nèi)容:應用數(shù)學的方法,對大量的測量數(shù)據(jù)進行處理,從而得出比較符合事物內(nèi)部規(guī)律的數(shù)學表達式(數(shù)學模型)。,(5-1),待定常數(shù),5.2最小二乘法原理假設x和y是具有某種相關關系的物理量,它們之間的關系可用下式給出:,5.2最小二乘法原理,同時測量x,y的數(shù)值,設有m對觀測結(jié)果:,利用觀測值,確定。設x,y關系的最佳形式為:,(5-2),(5-3),最佳估計值,如不存在測量誤差,則:,(5-4),由于存在測量誤差,因而式(5-3)與(5-4)不相重合,即有:,(5-5),殘差誤差的實測值,5.2最小二乘法原理,式(53)中的x變化時,y也隨之變化。如果m對觀測值中有比較多的y值落到曲線(51)上,則所得曲線就能較為滿意地反映被測物理量之間的關系,y值同時出現(xiàn)的概率最大,則曲線(53)就是曲線(51)的最佳形式。如圖5.1a所示。如果誤差服從正態(tài)分布,則概率P(e1,e2,em)為:,(57),當P最大時,求得的曲線就應當是最佳形式。從圖5-1a中可以看出,顯然,此時下式應最小:,(56),即殘差平方和最小,這就是最小二乘法原理的由來。,圖5.1a,5.2最小二乘法原理,這里假定xi無誤差。式(57)可以寫成:,(58),S最小,就應有:,(59),即要求求解如下聯(lián)立方程組:,(510),正規(guī)方程,最小二乘解。,5.3直線的回歸,5.3.1一元直線回歸分析對一元線性回歸而言,就是配直線的問題,下面通過例題加以分析說明。,例5.1研究腐蝕時間與腐蝕深度兩個變量之間的關系,可把腐蝕時間作為自變量x,把腐蝕深度作為因變量y,將試驗數(shù)據(jù)記錄在表5-1中。求出x,y之間的線性關系。,解:將表5-1中的(x,y)數(shù)據(jù),在直角坐標系中對應地做出一系列的點,可得圖5.2,這種圖稱之為散點圖。,與x的關系大致呈直線關系,但并不是確定性的關系,而是一種相關關系:,回歸系數(shù),(511),最佳估計值應使其殘差平方和最小,殘差為:,(512),圖52、表51,表5-1試驗數(shù)據(jù),.,5.3.1一元直線回歸分析,其平方和為:,(513),平方和最小,即:,(514),得正規(guī)方程組:,(515),5.3.1一元直線回歸分析,令平均值為:,(516),由511得:,(517)(518),由式(515)得:,5.3.1一元直線回歸分析,(519),式中,(520),由式(5-18)和式(5-19)可以求得回歸直線方程式中的常數(shù)a及回歸系數(shù)b。,令,5-21,便可得到回歸系數(shù)的另一種表達式:,5-52,的乘積和;,上述回歸直線的具體計算,通常都是列表進行的,本節(jié)的示例,具體計算見表5-2。,完成表5-2的計算,就可得到回歸直線方程:,5-23,1)先把數(shù)據(jù)在Excel中成列輸入到電子表格中;2)全部選擇所有數(shù)據(jù);3)點擊圖表向?qū)Э旖莅粹o,按提示一步一步建立散點圖;,5.3.2利用微軟公司的電子表格(MicrosoftExcel)在計算機中進行線性回歸的方法1,4)建立好散點圖后,用鼠標點到圖上散點的位置,單擊鼠標左鍵選中所有的散點,然后單擊鼠標右鍵,出現(xiàn)一個對話框,點擊左鍵選擇添加趨勢線,出現(xiàn)另一個對話框,在對話框中選擇某些功能,回歸直線方程就會出現(xiàn)在圖上的某一位置。,2.3.2方差分析,由x預報,精確度如何?用方差分析解決這一問題。殘差可表示如下:,試驗得到的數(shù)據(jù),回歸直線對應的數(shù)據(jù),上式可改寫成:,(524),移項得:,兩端平方求和得:,(525),可以證明此項為零,故得:,上式中三項平方和的意義如下:,代表在試驗范圍內(nèi),觀測值yi總的波動情況,稱此為總平方和。,代表x變化所引起的y值變化大小的量,即yi波動中,可以通過回歸方程計算出來的那一部分,稱之為回歸平方和。,上述三個平方和之間的關系,可以用圖5.14表示出來。總平方和可以分解成兩部分,回歸平方和與殘差平方和。,是殘差平方和,表示了回歸方程的擬合誤差,即觀測值yi偏離回歸值的大小。這一部分不能通過回歸方程計算出來,它是yi波動中與x無關的部分。,由圖中可以看出,如果殘差平方和很小,則回歸平方和總平方和將接近于1。這時,所有的觀測點都靠近或落在回歸線上,這就表明回歸直線的精度較高。,殘差平方和是排除了x對y的線性影響后的剩余部分,y值隨機波動程度的大小,用它來估計誤差。產(chǎn)生原因:包括隨機誤差、那些影響很小但尚未考慮的因素。自由度:f總=f回+f殘f總=m-1f回=1f殘=f總f回=m-2,方差:殘差平方和除以它的自由度:,標準偏差估算值:,(529),用S衡量隨機因素對y的影響。回歸方程可作如下預報:,將例5.1一元直線回歸的方差分析可歸納在表5-3中。,回歸方程可改寫為:,5.3.4相關性檢驗用一個數(shù)量性的指標,來衡量兩個變量之間線性相關關系的密切程度相關系數(shù)r。,回歸平方和,總平方和,(5-32),r,1時,說明標準誤差很小(試驗點與回歸點幾乎吻合),回歸方程才有意義。通常0r1。,r取值不同時的散點分布情況示于圖5.15中,具體分析如下:,(1)r=0時。此時b=0,即按最小二乘法確定的回歸直線平行于x軸,這說明y的變化與x無關。故x與y之間沒有線性關系。通常,散點的分布是完全不規(guī)則的,如圖5.15(a)所示。(2)0r1。這時,x與y之間存在著一定的線性關系。當r0時b0,散點分布有隨x增加y增加的趨勢,此時稱x與y是正相關,如圖5.15(b)所示。當r0時b0,散點圖呈y隨x增加而減小的趨勢,此時稱x與y為負相關,如圖5.15(c)所示。當r的絕對值比較大時,散點遠離回歸直線較為分散;當r的絕對值較大時,散點分布就靠近直線。(3)r=1。所有的點都在一條直線上,即散點都落在回歸直線上。此時,稱x與y完全性相關。實際上,此時x與y之間有確定性的線性關系。如圖5.15(d)所示。,圖5.15(a)x,圖5.15(b)x,圖5.15(c)x,圖5.15(d)x,圖5.15(e)x,從上述討論可以看出,相關系數(shù)r表示兩個隨機變量x與y之間線性相關的密切程度。r越大,愈接近于1,x與y之間的線性相關也就愈密切。但必須指出,相關系數(shù)r只表示線性相關的密切程度,當r很小,甚至等于零時,并不一定說明x與y之間就不存在其它關系。如圖515(e)所示,雖然r=0,但從散點分布看,x與y之間存在著明顯的曲線關系,只不過這種關系不是線性關系罷了。相關系數(shù)的絕對值究竟多大才能認為兩個變量是相關的呢?或回歸方程才有意義呢?F檢驗:假設:H0:b=0,F(xiàn)為:,(534),可見r檢驗與F檢驗的作用是一致的,只用一種即可。,可查表得出Fa=(1,m2),當:FF0.01特別顯著;F0.01FF0.05時,顯著;F0.05FF0.10時,較顯著;FF0.10時,不顯著。,(1)先把數(shù)據(jù)在Excel中成列輸入到電子表格中;(2)點擊下拉菜單的“工具”按鈕,鼠標箭頭移動到“數(shù)據(jù)分析”項下,點擊左鍵,出現(xiàn)數(shù)據(jù)分析對話框,在對話框中選擇“回歸”,點擊“確定”按鈕,出現(xiàn)回歸對話框,按對話框中的提示,選擇對話框中的某些功能,即可得出與直線回歸有關的很多參數(shù)。(3)利用計算出的參數(shù),即可寫出回歸方程。,5.3.5利用Excel在計算機中進行線性回歸的方法2,5.4曲線回歸,在實際問題中,變量之間常常不是直線關系。這時,通常是選配一條比較接近的曲線,通過變量變換把非線性方程加以線性化,然后對線性化的方程應用最小乘法求解回歸方程。最小二乘法的一個前提條件是函數(shù)y=f(x)的具體形式為已知,即要求首先確定x與y之間內(nèi)在關系的函數(shù)類型。函數(shù)的形式可能是各種各樣的,具體形式的確定或假設,一般有下述兩個途徑:一是根據(jù)有關的物理知識,確定兩個變量之間的函數(shù)類型;二是把觀測數(shù)據(jù)劃在坐標紙上,將散點圖與已知函數(shù)曲線對比,選取最接近散點分布的曲線公式進行試算。常見的一些非線性函數(shù)及其線性化方法如下。,5.4.1曲線回歸,(1)雙曲線,型,見圖5.23。,(2)指數(shù)曲線,見圖5.24。,(3)指數(shù)曲線,見圖5.25。,(4)冪函數(shù)曲線,見圖5.26。,圖5.23(a)雙曲線,圖5.23(b)雙曲線,圖5.24(a)指數(shù)曲線,圖5.24(b)指數(shù)曲線,圖5.25(a)指數(shù)曲線,圖5.25(b)指數(shù)曲線,圖5.26(a)冪函數(shù)曲線,0<b<1,b=1,圖5.26(b)冪函數(shù)曲線,b<1,b=1,1<b0,c>0,圖5.29(b)對數(shù)拋物線,b<0,c<0,如上所述,許多曲線都可以通過變換化為直線,可以按直線擬合的辦法來處理。必須注意!所配曲線的回歸中,r、S、F等的計算稍有不同。u、v等僅僅是為了變量變換,使曲線方程變?yōu)橹本€方程,然而要求的是所配曲線與觀測數(shù)據(jù)擬合較好,所以計算r、S、F等時,應首先根據(jù)已建立的回歸方程,用xi依次代入,得到y(tǒng)i后再計算殘差平方和及總平方和,于是:,(536),(537),(538),下面舉例說明曲線回歸的一般計算方法。例5.2煉鋼廠出鋼用鋼包在使用過程中,由于鋼液及爐渣對耐火材料的浸蝕,其容積不斷增大。鋼包的容積(用盛滿鋼水的重量kg表示)與相應的使用次數(shù)列于表5-4中。求:x、y之間的關系式:,表5-4試驗數(shù)據(jù),解:首先按實測數(shù)據(jù)做散點圖,如圖5.30所示。由圖可見,最初容積增加很快,以后減慢并趨于穩(wěn)定。根據(jù)這個特點,選用雙曲線:,(539),表示容積y與使用次數(shù)x的關系。,(5-40),對新變量u、v而言,式(5-40)是一個直線方程,因而可用最小二乘法進行擬合計算,求出回歸系數(shù)b和常數(shù)項a。計算步驟如下:(1)根據(jù)表5-4中的數(shù)據(jù),計算出v、v2、u、u2、uv和回歸系數(shù)b及常數(shù)項a列于表5-5中。,(2)得出變換后的回歸直線方程式為:,變換回原始曲線方程為:,將原始數(shù)據(jù)帶入回歸方程式(5-42)中,計算標準偏差S和相關系數(shù)R,計算結(jié)果見表5-6所示。,由表5-6得出的參數(shù)可寫出最后的回歸曲線方程式為:,本例應用最小二乘法,雖然使用雙曲線擬合,在計算過程中使殘差平方和達到了最小,但這并不足以說明,所配雙曲線是對表5-4中數(shù)據(jù)的最佳擬合曲線。因而在配曲線時,最好用不同的函數(shù)類型計算后再進行比較,選取其中最優(yōu)者,即選取相關系數(shù)R為最大的曲線。此外,在曲線擬合時也可采用分段擬合的方法,即在不同的自變量區(qū)間內(nèi)配以不同的曲線來進行擬合。下面我們采用計算機處理方法,用其它類型的函數(shù)進行回歸擬合試一試,看會得出什么樣的結(jié)果?,利用Excel對x、y的數(shù)據(jù)作散點圖,直接作出回歸曲線。第一步:在Excel電子表格中,按列(行)輸入x與y的試驗數(shù)據(jù)。第二步:對x與y的試驗數(shù)據(jù)作出散點圖。第三步:在圖中選定散點的數(shù)據(jù),做多項式的趨勢線,即得到相應的回歸曲線。,5.4.2用Excel電子表格軟件進行曲線回歸的方法,5.4.2.1方法1,5.4.2.2方法2,利用Excel對x、y的數(shù)據(jù)求出所有的回歸系數(shù)及方差分析數(shù)據(jù)。第一步:在Excel電子表格中,按列(行)輸入x與y的試驗數(shù)據(jù)。第二步:對x數(shù)據(jù)進行格式化復制x2x8。第三步:在表中選定所有xx8數(shù)據(jù),選擇“工具”下拉菜單“數(shù)據(jù)分析”,按提示進行操作,即可得出全部計算分析數(shù)據(jù)。,5.5多元回歸,5.5.1基本概念上面討論的是只有兩個變量的回歸問題,其中一個是自變量,另一個是因變量。但在大多數(shù)情況下,自變量不是一個而是多個,稱這類問題為多元回歸問題。多元回歸中最簡單且最基本的是多元線性回歸。如自變量xi(i=1,2,G),進行m次試驗,所得的數(shù)據(jù)可以寫成兩個數(shù)組,即兩個矩陣:,顯然,多元線性統(tǒng)計模型是:,(5-45),多元線性回歸分析原理,與一元線性回歸分析原理完全相同只是計算上復雜得多。但是用計算機來進行計算工作量與一元線性回歸相比,復雜程度并不大。根據(jù)最小二乘法,應使殘差:,試驗值,回歸值,最小,下面我們通過例題來說明如何進行多元線性回歸。,例5.3,某種水泥在凝固時放出的熱量y(J/g)與水泥中下列四種化學成分的含量有關:x13CaOSi2O3的含量,%x22CaOSiO2的含量,%x33CaOAl2O3的含量,%x44CaOAl2O3Fe2O3的含量,%原始試驗數(shù)據(jù)如表5-7所示:,求解步驟如下:,用Excel電子表格,點擊下拉菜單“工具”欄,點擊“數(shù)據(jù)分析”項,選擇“回歸”項,按回歸對話框中的提示,進行選擇操作,即可得出全部的回歸系數(shù)、相關系數(shù)、標準偏差等數(shù)據(jù)。,根據(jù)計算出的回歸系數(shù)寫出回歸方程。,完,5.5.3多元曲線回歸,多元線性回歸還可以擴展到更為普遍的情況。假定有:,(5-54),式中,是x的已知函數(shù),不含有未知參數(shù)c,則顯然對待定參數(shù)c而言,該式仍為線性函數(shù)。,如下面函數(shù)式的格式就是此類函數(shù)的一例:,(5-55),一般,常用的統(tǒng)計數(shù)學模型為G1階多項式:,(5-56),任何函數(shù)至少在一個比較小的范圍內(nèi)可以用多項式任意逼近。因此,在比較復雜的實際問題中,往往不管y與各因素的關系如何,而采用多項式進行回歸??梢?,多項式回歸在回歸問題中占有特殊的地位。,方法步驟如下:,將數(shù)據(jù)成列輸入到Excel電子表格中,根據(jù)x列的數(shù)據(jù)分別計算x2、lnx、1/x、(lnx)2。按順序排列于x列的右則。,點擊下拉菜單的“工具”項,點擊“數(shù)據(jù)分析”。,在數(shù)據(jù)分析對話框中,選取“回歸”項,點擊確定,出現(xiàn)回歸對話框。,按對話框中的提示進行操作,即可得出多項式回歸曲線中各項中的系數(shù)。然后按x,x2、lnx、1/x、(lnx)2的對應關系代入方程中即得出回歸曲線的多項式方程。,同學們,來學校和回家的路上要注意安全,同學們,來學校和回家的路上要注意安全,