研《回歸分析》理解簡單.ppt
回歸分析,追求,回歸分析,一元回歸 多元回歸 全部強行進(jìn)入回歸,逐步回歸,回歸:揭示出不確定數(shù)量關(guān)系的內(nèi)在數(shù)量變化規(guī)律,并通過一定的表達(dá)式描述數(shù)量之間的這種內(nèi)在關(guān)系的方法。,不確定性的函數(shù)關(guān)系,回歸的涵義,數(shù)據(jù)之間的關(guān)系 函數(shù),確定性的函數(shù)關(guān)系,回歸方程,回歸分析的任務(wù),(1)通過分析大量的樣本數(shù)據(jù),確定變量之間的統(tǒng)計關(guān)系,并以數(shù)學(xué)表達(dá)式形式給出; (2)對確定的數(shù)學(xué)關(guān)系式的可信度進(jìn)行統(tǒng)計檢驗,找出對某一特定變量影響較為顯著的變量和不顯著的變量; (3)利用確定的數(shù)學(xué)關(guān)系式,根據(jù)自變量預(yù)測或控制因變量的取值,并找出這種預(yù)測或控制的精確度。,回歸分析時變量的設(shè)定,回歸分析的被解釋變量必須是刻度級的,如果是順序級的,要用Numeric型的來表示。如果被解釋變量是名義級的,將用Logistic回歸等方法處理。 解釋變量可以是刻度級、順序級、名義級的變量,不論是什么級別的數(shù)據(jù),都必須用Numeric型的來表示。,一元線性回歸分析,高斯假設(shè),一元線性回歸模型的求解,一元線性回歸模型的SPSS實現(xiàn),一元線性回歸模型的設(shè)定,SPSS的實現(xiàn):Analyze菜單Regression項中選擇Linear命令。,Enter:強行進(jìn)入法,即所選自變量全部進(jìn)入模型。 Remove:強制剔除法,即建立回歸方程時,根據(jù)設(shè)定的條件從回歸方程中剔除部分自變量。 Backward:向后剔除法,根據(jù)Option對話框中設(shè)定的判據(jù),先建立全模型,然后根據(jù)設(shè)置的判據(jù),每次剔除一個使方差分析中的F值最小的自變量,直到回歸方程中不再含有不符合判據(jù)的自變量為止。 Forward:向前選擇法。 Stepwise:逐步進(jìn)入法,根據(jù)Option對話框中設(shè)定的判據(jù)及方差分析結(jié)果,選擇符合判據(jù)的自變量與因變量相關(guān)程度最高的進(jìn)入回歸方程。依據(jù)Forward選入自變量,依據(jù)Backward將模型中F值最小且符合剔除判據(jù)的變量剔除,重復(fù)。,Method處下拉菜單,共有5個選項:,WLS選項是存在異方差時,利用加權(quán)最小二乘法替代普通最小二乘法估計回歸模型參數(shù)。通過WLS可以選定一個變量作為加權(quán)變量。 在實際問題中,如果無法自行確定權(quán)重變量,可以用SPSS的權(quán)重估計來實現(xiàn)。,Descriptives:輸出自變量和因變量的均值、標(biāo)準(zhǔn)差相關(guān)系數(shù)矩陣及單側(cè)檢驗概率。,Estimates:輸出與回歸系數(shù)相關(guān)統(tǒng)計量。有:回歸系數(shù)、回歸系數(shù)的標(biāo)準(zhǔn)誤差、標(biāo)準(zhǔn)回歸系數(shù)、T統(tǒng)計量和相應(yīng)的相伴概率、各自變量的容忍度。,Confidence intervals:輸出每一個非標(biāo)準(zhǔn)化回歸系數(shù)95%的可信區(qū)間。,Covariance matix:輸出方程中各自變量間的相關(guān)系數(shù)矩陣及各變量的協(xié)方差矩陣。,Model fit:輸出判定系數(shù)、調(diào)整的判定系數(shù)、回歸方程的標(biāo)準(zhǔn)誤差,F(xiàn)檢驗的ANOVA方差分析表。,R squared change:當(dāng)回歸方程中引入或剔除一個自變量后,判定系數(shù)、F值產(chǎn)生的變化。,Casewise diagnostics:輸出標(biāo)準(zhǔn)化殘差絕對值3的樣本數(shù)據(jù)點的相關(guān)信息,包括:標(biāo)準(zhǔn)化殘差、觀測值預(yù)測值、最小(最大)預(yù)測值、殘差、最小(最大)殘差以及它們的均值和標(biāo)準(zhǔn)差。 Outliers outside standard devistion:設(shè)置奇異值的判據(jù),默認(rèn)3倍的標(biāo)準(zhǔn)差。 All case:輸出所有樣本數(shù)據(jù)有關(guān)殘差值。,Part and partial correlation:輸出方程中各自變量與因變量之間的簡單相關(guān)系數(shù)、偏相關(guān)系數(shù)與部分相關(guān)系數(shù)。,Collinearity diagnostics:多重共線性分析,輸出各自變量的容限度、方差膨脹因子、最小容忍度、特征值、條件指標(biāo)及方差比例等。,Durbin-Watson:輸出Durbin-watson檢驗值。,Plots對話框用來檢驗殘差序列的正態(tài)性、隨機性和是否存在異方差現(xiàn)象。,Produce all partial plots:輸出每一個自變量殘差相對于因變量殘差的散布圖。,* ZPRED選項:標(biāo)準(zhǔn)化預(yù)測值。,* ZRESID選項:標(biāo)準(zhǔn)化殘差。,* DRESID選項:剔除殘差。,* ADJPRED選項:修正后預(yù)測值。,* SRESID選項:t分析殘差。,* SDRESID選項:t分析剔除殘差。,Mahalanobis:保存Mahalanobis距離,Cooks:保存Cook距離,Leverage values:保存中心點杠桿值,Individual:保存一個觀測量上限與下限的預(yù)測區(qū)間。,Studentized:標(biāo)準(zhǔn)化殘差,Deleted:剔除殘差,Studentized deleted:標(biāo)準(zhǔn)化剔除殘差,DfBeta(s):因排除一個特定的觀察值所引起的回歸系數(shù)的變化。若該值2,則被排除的觀測值有可能是影響點。,DfFit:因排除一個特定的觀測值所引起的觀測值的變化。,Use probalitlity of F:以回歸系數(shù)顯著性檢驗中各自變量的F統(tǒng)計量的相伴概率作為自變量是否引入模型或者從模型中剔除的標(biāo)準(zhǔn)。實際應(yīng)用中,應(yīng)使Entry值小于Remove值,否則,自變量一進(jìn)入方程就會被立即剔除。,Use F value:以回歸系數(shù)顯著性檢驗中的各自變量的F統(tǒng)計量作為自變量進(jìn)入模型或者從模型中剔除的標(biāo)準(zhǔn)。,Include constant in equationF:表示回歸方程中將包含常數(shù)項。,練習(xí),某企業(yè)產(chǎn)品廣告費和銷售收入資料如下,判斷廣告費和銷售收入之間關(guān)系密切程度如何?,3 10 28 40 66 117 140 404,序號,廣告費(萬元),銷售收入(百萬元),1 2 3 4 5 6 7,3 5 7 8 11 13 14 61,1 2 4 5 6 9 10 37,9 25 49 64 121 169 196 633,1 4 16 25 36 81 100 263,合計,多元線性回歸分析,一個被解釋變量(因變量),,的線性模型,,多個解釋變量(自變量),多元回歸的高斯假設(shè),多元回歸方程為,回歸方程的顯著性檢驗,多元線性回歸的檢驗與估計,二、多元線性回歸,三、回歸系數(shù)的顯著性檢驗,四、回歸分析的置信區(qū)間,五、標(biāo)準(zhǔn)回歸系數(shù),回歸效果的檢驗,回歸系數(shù),總體均值,方程的檢驗,多元線性回歸的三大基本問題,多重共線性,序列相關(guān)問題,異方差問題,多元線性回歸的SPSS實現(xiàn),多元回歸的SPSS處理,逐步回歸,第一種方法,第二種方法,第三種方法,逐步回歸的SPSS處理,逐步回歸,從數(shù)學(xué)上看,如果變量xj可以表達(dá)為另外一些變量xt、xs 等的線性組合,則,而,會出現(xiàn)計算溢出問題。,稱變量xj、 xt、xs具有多重共線性。 多重共線性在經(jīng)濟(jì)管理問題上的表現(xiàn)是:多個變量有共同的變化趨勢。多重共線性的后果,或者說,xj與其它自變量xt、xs 等的復(fù)相關(guān)系數(shù)接近1,,多重共線性是指各個解釋變量之間存在線性相關(guān)關(guān)系的現(xiàn)象。多重共線性常常會回歸系數(shù)方差增大,從而使 t 檢驗難以通過。,,,會導(dǎo)致,趨向于1,給出虛假的回歸效果好的結(jié)論,統(tǒng)計量將普遍變小,(3),(1)計算,將溢出,,,因為,時,,,。,(2),的方差將變得很大,,,因為,,,是矩陣,的對角線元素,。,,,導(dǎo)致錯誤地刪除變量,式中,,,。,(4),,,。,因為,的溢出,,,的溢出,,,所以會導(dǎo),致,(5),仍無偏。,如果輸出的F統(tǒng)計值很大,R趨于1,同時許多t 統(tǒng)計值小(顯著性概率大于 ),估計系數(shù)的標(biāo)準(zhǔn)差大 ,則表明存在多重共線性問題。,判斷是否存在多重共線性的方法,(1)容忍度,對應(yīng)于解釋變量xj的容忍度定義為,Tolj=1-R2,R2是解釋變量xj與方程中其他所有解釋變量之間的復(fù)相關(guān)系數(shù)平方,可以衡量xj與其他解釋變量的線性相關(guān)程度。,多共線性問題的處理,逐步刪除不重要的(t 相對小的)解釋變量,可直接用逐步回歸法完成。,此外,也可以采用如下方法:,(1)用變量的比例代替原來的變量:,(2)方差膨脹因子,方差膨脹因子定義為容忍度的倒數(shù),即,VIFj=1/1-R2,一般認(rèn)為,方差膨脹因子大于10時,就認(rèn)為存在多重共線性。,例如,,在,中,,,可用如下變量替代,,,共線性問題,解決多重,。,取對數(shù)后得到如下回歸方程:,就可以消除多重共線性問題。,(2)改變模型結(jié)構(gòu)。,例如,,,用,代替,等。,很容易出現(xiàn)多重共線性問題。,(3)恰當(dāng)處理滯后變量。,回歸方程,,,由于滯后變量,的同趨勢性,,,解決的辦,法是,,,于是,同時有,于是,,,前式,后式,,,有,這就消除了解釋變量之間的多重共線性問題。,(4)增大樣本容量。,令,用SPSS處理多重共線性,是指隨著解釋變量的變化,被解釋變量的方差存在明顯的變化趨勢(不具有常數(shù)方差的特征)這也是經(jīng)濟(jì)與管理領(lǐng)域中經(jīng)常出現(xiàn)的問題之一。,高斯假設(shè)的第(3)條是:,異方差問題,對多元線性回歸模型而言,,,一是不存在序列相關(guān),即,二是具有同方差性(齊次方差性)。,按照高斯條件,被解釋的隨機性,實際上是由隨機干擾項的隨機性所決定的。因此被解釋變量的異方差性,實際上也是由隨機干擾項的異方差性決定的,即方差與下標(biāo)i有關(guān)。,回歸參數(shù)的估計值仍無偏,但是不再有最小方差所以不再有效,由于不滿足關(guān)于高斯-馬爾柯夫定理的條件,所以其結(jié)論也不成立。,異方差問題出現(xiàn)時的后果,異方差問題是否存在的判斷,(1)用散點圖判斷,與Xij的Spearman相關(guān)系數(shù)的絕對值大,意味著存在非齊次方差。,(2)求,與Xij的Spearman等級相關(guān)系數(shù),異方差問題的SPSS處理,檢驗異方差是否存在,以1/收入為權(quán)重,作如下回歸:,用加權(quán)最小二乘法估計回歸方程的系數(shù),直接回歸 (1)定義變量“儲蓄/收入”和“1/收入” (2)進(jìn)入一元線性回歸過程 用加權(quán)最小二乘法估計回歸系數(shù),檢驗異方差是否得到改善,產(chǎn)生新的未標(biāo)準(zhǔn)化殘差; 重新計算未標(biāo)準(zhǔn)化殘差絕對值與收入倒數(shù)的等級相關(guān)系數(shù),判別異方差性是否已經(jīng)得到矯正。 得出回歸方程。,用加權(quán)最小二乘法估計回歸系數(shù),方法一,此方法不能輸出殘差圖,需要另外計算等級相關(guān)系數(shù),檢查異方差是否已經(jīng)消除。,用加權(quán)最小二乘法估計回歸系數(shù),方法二,此方法也不能輸出殘差圖,需要另外計算等級相關(guān)系數(shù),檢查異方差是否已消除。 這里的最佳權(quán)重變量是:,自相關(guān)問題,是指隨著不同期的樣本值(不同編號的樣本值)之間存在相關(guān)關(guān)系,這也是經(jīng)濟(jì)與管理領(lǐng)域中經(jīng)常出現(xiàn)的問題之一。它違反了高斯-馬爾柯夫定理的條件,從而使最小二乘法估計值不再具有最優(yōu)的性質(zhì)。,所謂序列相關(guān)問題就是指:,(4)災(zāi)害的影響是多年的,也會出現(xiàn)序列相關(guān)。,(1)固定資產(chǎn)變量本來就前后期相關(guān)。,(2)漏掉的變量被包含在隨機干擾項中了。,(3)系統(tǒng)觀察誤差,會引起序列相關(guān)問題。,經(jīng)濟(jì)管理問題中產(chǎn)生序列相關(guān)的主要原因,置信區(qū)間太大,3.序列相關(guān)問題的影響,(1)OLS估計值不具最小方差性。,(2)統(tǒng)計量的值不準(zhǔn)確。,(3)隨機干擾項的估計值,有偏。,(4)用這樣的模型預(yù)測不準(zhǔn),,失去意義,(,),。,4.一階序列相關(guān)的檢驗,所謂一階序列相關(guān),,是指前后相鄰兩期樣本之間的,序列相關(guān)問題。,其檢驗的工具是DW統(tǒng)計量。,DW統(tǒng)計量的定義如下:,,,其中,,由于,,,所以,。,與,所以,DW=2,,當(dāng),時,,DW=0,,完全正自相關(guān)。,由于,只能接近1,,,只能接近完全正自相關(guān),。,可用下圖表示:,當(dāng),時,,與,完全沒有自相關(guān),。,當(dāng),時,,DW=4,,完全負(fù)相關(guān)。,由于,只能接近-1,,,所以,與,只能接近完全負(fù)自相關(guān)。,具體的判別準(zhǔn)則,,圖 DW統(tǒng)計量的值的分布區(qū)域與判別,圖中,,DW3=4-DW2,DW4=4-DW1。,當(dāng),時,,存在正一階序列相關(guān)。,當(dāng),時,,不能斷定是否存在序列相關(guān),當(dāng),時,,不存在一階序列相關(guān)。,當(dāng),時,,不能斷定是否存在序列相關(guān),當(dāng),時,存在負(fù)一階序列相關(guān)。,。,。,一階序列相關(guān)是指:,二階序列相關(guān)是指:,三階以上類推。,這里是序列相關(guān)的“觀察形式”,自相關(guān)的“理論,,,形式”,是把上面的,換成,。,用SPSS處理序列相關(guān),觀察、檢驗序列相關(guān); 試算序列相關(guān)形式,估計序列相關(guān)系數(shù); 按照最佳序列相關(guān)形式,消除序列相關(guān),得出估計值; 估計自相關(guān)系數(shù)的DW兩步法。,可以通過觀察殘差的序列圖和散點圖來直觀地對是否存在序列相關(guān)進(jìn)行判斷。 殘差序列圖是以et為縱軸,以時間t為橫軸繪制的;殘差散點圖是分別以et和et-1為縱軸和橫軸繪制的。 若殘差序列圖呈隨機走勢,或散點圖呈隨機分布,則可以認(rèn)為不存在序列相關(guān); 若殘差序列圖呈連續(xù)上升或連續(xù)下降的變化,或散點圖中et和et-1呈正相關(guān)分布,則可認(rèn)為存在正的序列相關(guān); 若殘差序列圖呈升降交替變化,或散點圖中et和et-1呈負(fù)相關(guān)分布,則可認(rèn)為存在負(fù)的序列相關(guān);,試算序列相關(guān)形式,估計序列相關(guān)系數(shù),產(chǎn)生2個新變量e(t-1)和e(t-2),用SPSS中的transform Compute中的LAG函數(shù)產(chǎn)生; 用e(t)對e(t-1)回歸,觀察回歸系數(shù); 用e(t)對e(t-1)和e(t-2)回歸,觀察回歸系數(shù),選擇回歸效果相對好的回歸系數(shù),即為自相關(guān)系數(shù)。,按照最佳序列相關(guān)形式,消除序列相關(guān),得出估計值;,用SPSS中的Transform Compute產(chǎn)生新變量,即用原變量(t)減去自相關(guān)系數(shù)乘以原變量(t-1)?;貧w分析中有幾個變量,就相應(yīng)產(chǎn)生幾個變量。 對新變量進(jìn)行回歸,觀察DW值是否已經(jīng)得到改善。,估計自相關(guān)系數(shù)的DW兩步法,若得出e(t)對e(t-1)的回歸效果好,則對因變量(t-1)、原自變量及自變量(t-1)進(jìn)行多元回歸分析,找出自相關(guān)系數(shù)。 用自相關(guān)系數(shù)分別重新計算上一步的自變量和因變量,再對重新計算的自變量和因變量進(jìn)行回歸,則效果更好。,人均收入與人均食品支出關(guān)系的散點圖,一元線性回歸模型的設(shè)定,人均收入與多孩率的散點圖,一元線性回歸模型的設(shè)定,1.總體回歸模型:,2.樣本回歸模型:,樣本回歸直線:,服從,高斯假設(shè),(1) (2) (3) (4) (5) (6),。,分布。正態(tài)性假設(shè);,為隨機變量;,即所有隨機誤差都具有相同方差,隨機擾動項協(xié)方差等于零,,相互獨立。無序列相關(guān)假設(shè);,獨立性假設(shè)或零均值假設(shè);,一元線性回歸模型的求解,最小平方法,普通最小二乘法估計式,在模型中,代入樣本觀察值之后,可得,此式也可用向量、矩陣方式表達(dá)為,式中,,是,階矩陣,這就是普通最小二乘法估計系數(shù)的公式。,若估計出,,,則有,所以,于是有,兩邊左乘,得,由幾何解釋,故而上式中,所以可以求出,如下:,回歸方程的顯著性檢驗F檢驗,:回歸方程不顯著,:回歸方程顯著,:總離差平方和,:剩余平方和/殘差平方和,:回歸離差平方和,判定相關(guān)系數(shù)越接近1,表明回歸平方和占總離差平方和的比例越大,用x的變動解釋y 值變動的部分就越多,回歸的效果就越好。,回歸效果的檢驗判定相關(guān)系數(shù)檢驗,若全部觀測值都落在回歸直線上,則,若x完全無助于解釋y的變動,則,F檢驗,校正的判定系數(shù),統(tǒng)計量 中不含有自由度。所謂校正的判定系數(shù)是指“考慮了自由度的判定系數(shù) ”。其定義如下:,剔除了自由度的影響。,校正的判定系數(shù)Adjusted,式中:,回歸效果的檢驗F檢驗,:樣本容量,:自變量的個數(shù)(含常數(shù)項),:判定系數(shù),回歸系數(shù)的顯著性檢驗T檢驗,成立,即,當(dāng),時,顯著異于0。,針對回歸系數(shù)的,統(tǒng)計量的顯著性檢驗決定了相,應(yīng)的變量能否作為解釋變量進(jìn)入回歸方程。,總體均值的置信區(qū)間,用,代替 可以得到統(tǒng)計量,回歸系數(shù)的置信區(qū)間,給定一置信水平,區(qū)間,為,水平上的置信區(qū)間。例,,則,即,標(biāo)準(zhǔn)化即剔除自變量單位的影響,是指對變量,標(biāo)準(zhǔn)回歸系數(shù),進(jìn)行如下處理:,轉(zhuǎn)化為標(biāo)準(zhǔn)方程,于是原始方程,,,式中:,多元回歸的高斯假設(shè),(1) 為隨機向量,(2),(3),(4),包括,(5),或者X為確定矩陣,(6)秩,(7)行列式,遠(yuǎn)離零。,應(yīng)當(dāng)滿足:統(tǒng)計量的值 的顯著性概率 小于等于選定的顯著性水平,的 先進(jìn)入方程;最后一個進(jìn)入方程的自變量,(即偏解釋變差)最大的變量,進(jìn)入回歸方程。即進(jìn)入的變量與因變量具有最大的正相關(guān)或負(fù)相關(guān)而對已解釋變差貢獻(xiàn)大小的判別依據(jù),是包含了偏解釋變差的F統(tǒng)計量,的值,。統(tǒng)計量,第一種方法,最大,在考慮y對已知的一群變量,回歸時,,從變量,中,逐步選出對已解釋變差的貢獻(xiàn),。,偏解釋變差,偏解釋變差(偏回歸平方和):在一個回歸方程中,當(dāng)把 xj從自變量的隊伍中刪除后,可得到一組新的回歸系數(shù)的估計值, 從而得到Y(jié)新的計算值 則原回歸平方和與新回歸平方和的差就是xj對已解釋變差(回歸平方和)的貢獻(xiàn),稱為xj的偏解釋變差(偏回歸平方和)。,的 在剔除時,其統(tǒng)計量的值 的顯著性概率,逐步把 最小的 剔除出方程,所有剔除出方程,第二種方法,大于選定的顯著性水平 。,先把Y對所有的自變量,回歸,然后,大于 從而有更少的變量被剔除出方程,防止變量“進(jìn)”“出”方程,陷入死循環(huán)。,更大一些,以便能夠有較少的 的顯著性慨率,的顯著性慨率 所對照的顯著性水平 則要取得,以便能有更多的 的外側(cè)概率(顯著性概率)小于,是一邊進(jìn)、一邊出。“進(jìn)”變量的 的顯著性,概率 所對應(yīng)的顯著性水平 ,通常取得大一些,第三種方法,從而使較多的變量進(jìn)入方程。而“出”的變量,注意,的變化。一次處理,會造成誤判。只有逐步處理,才是恰當(dāng)?shù)摹?來決定是否作為 的自變量。因為每添加或剔除一個變量都會引起所有回歸系數(shù)及統(tǒng)計量的值,的顯著性概率 是否小于等于選定的顯著性水平,逐步添加法或逐步剔除法,都應(yīng)當(dāng)強調(diào),“逐步”,不能一次按照各個變量的統(tǒng)計量值,注意,