研《回歸分析》理解簡單.ppt
《研《回歸分析》理解簡單.ppt》由會員分享,可在線閱讀,更多相關(guān)《研《回歸分析》理解簡單.ppt(83頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、回歸分析,追求,回歸分析,,一元回歸 多元回歸 全部強行進入回歸,逐步回歸,回歸:揭示出不確定數(shù)量關(guān)系的內(nèi)在數(shù)量變化規(guī)律,并通過一定的表達式描述數(shù)量之間的這種內(nèi)在關(guān)系的方法。,不確定性的函數(shù)關(guān)系,回歸的涵義,,數(shù)據(jù)之間的關(guān)系 函數(shù),,,,確定性的函數(shù)關(guān)系,回歸方程,回歸分析的任務,(1)通過分析大量的樣本數(shù)據(jù),確定變量之間的統(tǒng)計關(guān)系,并以數(shù)學表達式形式給出; (2)對確定的數(shù)學關(guān)系式的可信度進行統(tǒng)計檢驗,找出對某一特定變量影響較為顯著的變量和不顯著的變量; (3)利用確定的數(shù)學關(guān)系式,根據(jù)自變量預測或控制因變量的取值,并找出這種預測或控制的精確度。,回歸分析時變量的設(shè)定,回歸分析的被解釋變量
2、必須是刻度級的,如果是順序級的,要用Numeric型的來表示。如果被解釋變量是名義級的,將用Logistic回歸等方法處理。 解釋變量可以是刻度級、順序級、名義級的變量,不論是什么級別的數(shù)據(jù),都必須用Numeric型的來表示。,一元線性回歸分析,高斯假設(shè),一元線性回歸模型的求解,一元線性回歸模型的SPSS實現(xiàn),一元線性回歸模型的設(shè)定,SPSS的實現(xiàn):Analyze菜單Regression項中選擇Linear命令。,Enter:強行進入法,即所選自變量全部進入模型。 Remove:強制剔除法,即建立回歸方程時,根據(jù)設(shè)定的條件從回歸方程中剔除部分自變量。 Backward:向后剔除法,根據(jù)Opti
3、on對話框中設(shè)定的判據(jù),先建立全模型,然后根據(jù)設(shè)置的判據(jù),每次剔除一個使方差分析中的F值最小的自變量,直到回歸方程中不再含有不符合判據(jù)的自變量為止。 Forward:向前選擇法。 Stepwise:逐步進入法,根據(jù)Option對話框中設(shè)定的判據(jù)及方差分析結(jié)果,選擇符合判據(jù)的自變量與因變量相關(guān)程度最高的進入回歸方程。依據(jù)Forward選入自變量,依據(jù)Backward將模型中F值最小且符合剔除判據(jù)的變量剔除,重復。,Method處下拉菜單,共有5個選項:,WLS選項是存在異方差時,利用加權(quán)最小二乘法替代普通最小二乘法估計回歸模型參數(shù)。通過WLS可以選定一個變量作為加權(quán)變量。 在實際問題中,如果無
4、法自行確定權(quán)重變量,可以用SPSS的權(quán)重估計來實現(xiàn)。,Descriptives:輸出自變量和因變量的均值、標準差相關(guān)系數(shù)矩陣及單側(cè)檢驗概率。,Estimates:輸出與回歸系數(shù)相關(guān)統(tǒng)計量。有:回歸系數(shù)、回歸系數(shù)的標準誤差、標準回歸系數(shù)、T統(tǒng)計量和相應的相伴概率、各自變量的容忍度。,Confidence intervals:輸出每一個非標準化回歸系數(shù)95%的可信區(qū)間。,Covariance matix:輸出方程中各自變量間的相關(guān)系數(shù)矩陣及各變量的協(xié)方差矩陣。,Model fit:輸出判定系數(shù)、調(diào)整的判定系數(shù)、回歸方程的標準誤差,F(xiàn)檢驗的ANOVA方差分析表。,R squared change:當
5、回歸方程中引入或剔除一個自變量后,判定系數(shù)、F值產(chǎn)生的變化。,Casewise diagnostics:輸出標準化殘差絕對值3的樣本數(shù)據(jù)點的相關(guān)信息,包括:標準化殘差、觀測值預測值、最小(最大)預測值、殘差、最小(最大)殘差以及它們的均值和標準差。 Outliers outside standard devistion:設(shè)置奇異值的判據(jù),默認3倍的標準差。 All case:輸出所有樣本數(shù)據(jù)有關(guān)殘差值。,Part and partial correlation:輸出方程中各自變量與因變量之間的簡單相關(guān)系數(shù)、偏相關(guān)系數(shù)與部分相關(guān)系數(shù)。,Collinearity diagnostics:多重共線
6、性分析,輸出各自變量的容限度、方差膨脹因子、最小容忍度、特征值、條件指標及方差比例等。,Durbin-Watson:輸出Durbin-watson檢驗值。,Plots對話框用來檢驗殘差序列的正態(tài)性、隨機性和是否存在異方差現(xiàn)象。,Produce all partial plots:輸出每一個自變量殘差相對于因變量殘差的散布圖。,** ZPRED選項:標準化預測值。,** ZRESID選項:標準化殘差。,** DRESID選項:剔除殘差。,** ADJPRED選項:修正后預測值。,** SRESID選項:t分析殘差。,** SDRESID選項:t分析剔除殘差。,Mahalanobis:保存Maha
7、lanobis距離,Cooks:保存Cook距離,Leverage values:保存中心點杠桿值,Individual:保存一個觀測量上限與下限的預測區(qū)間。,Studentized:標準化殘差,Deleted:剔除殘差,Studentized deleted:標準化剔除殘差,DfBeta(s):因排除一個特定的觀察值所引起的回歸系數(shù)的變化。若該值2,則被排除的觀測值有可能是影響點。,DfFit:因排除一個特定的觀測值所引起的觀測值的變化。,Use probalitlity of F:以回歸系數(shù)顯著性檢驗中各自變量的F統(tǒng)計量的相伴概率作為自變量是否引入模型或者從模型中剔除的標準。實際應用中,應
8、使Entry值小于Remove值,否則,自變量一進入方程就會被立即剔除。,Use F value:以回歸系數(shù)顯著性檢驗中的各自變量的F統(tǒng)計量作為自變量進入模型或者從模型中剔除的標準。,Include constant in equationF:表示回歸方程中將包含常數(shù)項。,練習,某企業(yè)產(chǎn)品廣告費和銷售收入資料如下,判斷廣告費和銷售收入之間關(guān)系密切程度如何?,3 10 28 40 66 117 140 404,,,,,,,,,序號,廣告費(萬元),銷售收入(百萬元),,1 2 3 4 5 6 7,3 5 7 8 11 13 14 61,1 2 4 5 6 9 10 37,9 25 49 64 1
9、21 169 196 633,1 4 16 25 36 81 100 263,合計,多元線性回歸分析,一個被解釋變量(因變量),,的線性模型,,多個解釋變量(自變量),多元回歸的高斯假設(shè),,多元回歸方程為,回歸方程的顯著性檢驗,多元線性回歸的檢驗與估計,二、多元線性回歸,三、回歸系數(shù)的顯著性檢驗,四、回歸分析的置信區(qū)間,五、標準回歸系數(shù),,,,,,回歸效果的檢驗,回歸系數(shù),,總體均值,方程的檢驗,多元線性回歸的三大基本問題,多重共線性,序列相關(guān)問題,異方差問題,多元線性回歸的SPSS實現(xiàn),,多元回歸的SPSS處理,,逐步回歸,,,,,第一種方法,第二種方法,第三種方法,逐步回歸的SPSS處理,
10、逐步回歸,,從數(shù)學上看,如果變量xj可以表達為另外一些變量xt、xs 等的線性組合,則,,而,會出現(xiàn)計算溢出問題。,稱變量xj、 xt、xs具有多重共線性。 多重共線性在經(jīng)濟管理問題上的表現(xiàn)是:多個變量有共同的變化趨勢。多重共線性的后果,或者說,xj與其它自變量xt、xs 等的復相關(guān)系數(shù)接近1,,多重共線性是指各個解釋變量之間存在線性相關(guān)關(guān)系的現(xiàn)象。多重共線性常常會回歸系數(shù)方差增大,從而使 t 檢驗難以通過。,,,會導致,趨向于1,給出虛假的回歸效果好的結(jié)論,統(tǒng)計量將普遍變小,(3),(1)計算,,,將溢出,,,因為,時,,,。,(2),的方差將變得很大,,,因為,,,是矩陣,的對角線元素,
11、。,,,導致錯誤地刪除變量,式中,,,。,(4),,,。,因為,的溢出,,,的溢出,,,所以會導,致,(5),仍無偏。,如果輸出的F統(tǒng)計值很大,R趨于1,同時許多t 統(tǒng)計值小(顯著性概率大于 ),估計系數(shù)的標準差大 ,則表明存在多重共線性問題。,判斷是否存在多重共線性的方法,(1)容忍度,對應于解釋變量xj的容忍度定義為,Tolj=1-R2,R2是解釋變量xj與方程中其他所有解釋變量之間的復相關(guān)系數(shù)平方,可以衡量xj與其他解釋變量的線性相關(guān)程度。,多共線性問題的處理,逐步刪除不重要的(t 相對小的)解釋變量,可直接用逐步回歸法完成。,此外,也可以采用如下方法:,(1)用變量的比例代替原來的變
12、量:,(2)方差膨脹因子,方差膨脹因子定義為容忍度的倒數(shù),即,VIFj=1/1-R2,一般認為,方差膨脹因子大于10時,就認為存在多重共線性。,例如,,在,中,,,可用如下變量替代,,,共線性問題,解決多重,。,取對數(shù)后得到如下回歸方程:,就可以消除多重共線性問題。,(2)改變模型結(jié)構(gòu)。,例如,,,用,代替,等。,很容易出現(xiàn)多重共線性問題。,(3)恰當處理滯后變量。,回歸方程,,,由于滯后變量,的同趨勢性,,,解決的辦,法是,,,于是,同時有,于是,,,前式,后式,,,有,這就消除了解釋變量之間的多重共線性問題。,(4)增大樣本容量。,令,,,用SPSS處理多重共線性,,是指隨著解釋變量的變化
13、,被解釋變量的方差存在明顯的變化趨勢(不具有常數(shù)方差的特征)這也是經(jīng)濟與管理領(lǐng)域中經(jīng)常出現(xiàn)的問題之一。,高斯假設(shè)的第(3)條是:,異方差問題,對多元線性回歸模型而言,,,一是不存在序列相關(guān),即,二是具有同方差性(齊次方差性)。,按照高斯條件,被解釋的隨機性,實際上是由隨機干擾項的隨機性所決定的。因此被解釋變量的異方差性,實際上也是由隨機干擾項的異方差性決定的,即方差與下標i有關(guān)。,回歸參數(shù)的估計值仍無偏,但是不再有最小方差所以不再有效,由于不滿足關(guān)于高斯-馬爾柯夫定理的條件,所以其結(jié)論也不成立。,異方差問題出現(xiàn)時的后果,異方差問題是否存在的判斷,(1)用散點圖判斷,與Xij的Spearman相
14、關(guān)系數(shù)的絕對值大,意味著存在非齊次方差。,(2)求,與Xij的Spearman等級相關(guān)系數(shù),異方差問題的SPSS處理,檢驗異方差是否存在,以1/收入為權(quán)重,作如下回歸:,用加權(quán)最小二乘法估計回歸方程的系數(shù),直接回歸 (1)定義變量“儲蓄/收入”和“1/收入” (2)進入一元線性回歸過程 用加權(quán)最小二乘法估計回歸系數(shù),檢驗異方差是否得到改善,產(chǎn)生新的未標準化殘差; 重新計算未標準化殘差絕對值與收入倒數(shù)的等級相關(guān)系數(shù),判別異方差性是否已經(jīng)得到矯正。 得出回歸方程。,用加權(quán)最小二乘法估計回歸系數(shù),方法一,此方法不能輸出殘差圖,需要另外計算等級相關(guān)系數(shù),檢查異方差是否已經(jīng)消除。,用加權(quán)最小二乘法估計回
15、歸系數(shù),方法二,此方法也不能輸出殘差圖,需要另外計算等級相關(guān)系數(shù),檢查異方差是否已消除。 這里的最佳權(quán)重變量是:,,自相關(guān)問題,是指隨著不同期的樣本值(不同編號的樣本值)之間存在相關(guān)關(guān)系,這也是經(jīng)濟與管理領(lǐng)域中經(jīng)常出現(xiàn)的問題之一。它違反了高斯-馬爾柯夫定理的條件,從而使最小二乘法估計值不再具有最優(yōu)的性質(zhì)。,所謂序列相關(guān)問題就是指:,(4)災害的影響是多年的,也會出現(xiàn)序列相關(guān)。,(1)固定資產(chǎn)變量本來就前后期相關(guān)。,(2)漏掉的變量被包含在隨機干擾項中了。,(3)系統(tǒng)觀察誤差,會引起序列相關(guān)問題。,經(jīng)濟管理問題中產(chǎn)生序列相關(guān)的主要原因,置信區(qū)間太大,3.序列相關(guān)問題的影響,(1)OLS估計值不具
16、最小方差性。,(2)統(tǒng)計量的值不準確。,(3)隨機干擾項的估計值,有偏。,(4)用這樣的模型預測不準,,失去意義,(,),。,4.一階序列相關(guān)的檢驗,所謂一階序列相關(guān),,是指前后相鄰兩期樣本之間的,序列相關(guān)問題。,其檢驗的工具是DW統(tǒng)計量。,DW統(tǒng)計量的定義如下:,,,其中,,由于,,,所以,。,與,所以,DW=2,,當,時,,DW=0,,完全正自相關(guān)。,由于,只能接近1,,,只能接近完全正自相關(guān),。,可用下圖表示:,當,時,,與,完全沒有自相關(guān),。,當,時,,DW=4,,完全負相關(guān)。,由于,只能接近-1,,,所以,與,只能接近完全負自相關(guān)。,具體的判別準則,,圖 DW統(tǒng)計量的值的分布區(qū)域與判
17、別,圖中,,DW3=4-DW2,DW4=4-DW1。,當,時,,存在正一階序列相關(guān)。,當,時,,不能斷定是否存在序列相關(guān),當,時,,不存在一階序列相關(guān)。,當,時,,不能斷定是否存在序列相關(guān),當,時,,存在負一階序列相關(guān)。,。,。,一階序列相關(guān)是指:,二階序列相關(guān)是指:,三階以上類推。,這里是序列相關(guān)的“觀察形式”,自相關(guān)的“理論,,,形式”,是把上面的,換成,。,用SPSS處理序列相關(guān),觀察、檢驗序列相關(guān); 試算序列相關(guān)形式,估計序列相關(guān)系數(shù); 按照最佳序列相關(guān)形式,消除序列相關(guān),得出估計值; 估計自相關(guān)系數(shù)的DW兩步法。,可以通過觀察殘差的序列圖和散點圖來直觀地對是否存在序列相關(guān)進行判斷。
18、殘差序列圖是以et為縱軸,以時間t為橫軸繪制的;殘差散點圖是分別以et和et-1為縱軸和橫軸繪制的。 若殘差序列圖呈隨機走勢,或散點圖呈隨機分布,則可以認為不存在序列相關(guān); 若殘差序列圖呈連續(xù)上升或連續(xù)下降的變化,或散點圖中et和et-1呈正相關(guān)分布,則可認為存在正的序列相關(guān); 若殘差序列圖呈升降交替變化,或散點圖中et和et-1呈負相關(guān)分布,則可認為存在負的序列相關(guān);,試算序列相關(guān)形式,估計序列相關(guān)系數(shù),產(chǎn)生2個新變量e(t-1)和e(t-2),用SPSS中的transform Compute中的LAG函數(shù)產(chǎn)生; 用e(t)對e(t-1)回歸,觀察回歸系數(shù); 用e(t)對e(t-1)和e(t
19、-2)回歸,觀察回歸系數(shù),選擇回歸效果相對好的回歸系數(shù),即為自相關(guān)系數(shù)。,按照最佳序列相關(guān)形式,消除序列相關(guān),得出估計值;,用SPSS中的Transform Compute產(chǎn)生新變量,即用原變量(t)減去自相關(guān)系數(shù)乘以原變量(t-1)?;貧w分析中有幾個變量,就相應產(chǎn)生幾個變量。 對新變量進行回歸,觀察DW值是否已經(jīng)得到改善。,估計自相關(guān)系數(shù)的DW兩步法,若得出e(t)對e(t-1)的回歸效果好,則對因變量(t-1)、原自變量及自變量(t-1)進行多元回歸分析,找出自相關(guān)系數(shù)。 用自相關(guān)系數(shù)分別重新計算上一步的自變量和因變量,再對重新計算的自變量和因變量進行回歸,則效果更好。,,人均收入與人均食
20、品支出關(guān)系的散點圖,一元線性回歸模型的設(shè)定,人均收入與多孩率的散點圖,一元線性回歸模型的設(shè)定,1.總體回歸模型:,2.樣本回歸模型:,樣本回歸直線:,,服從,高斯假設(shè),(1) (2) (3) (4) (5) (6),。,分布。正態(tài)性假設(shè);,為隨機變量;,即所有隨機誤差都具有相同方差,隨機擾動項協(xié)方差等于零,,相互獨立。無序列相關(guān)假設(shè);,獨立性假設(shè)或零均值假設(shè);,,一元線性回歸模型的求解,最小平方法,,普通最小二乘法估計式,在模型中,代入樣本觀察值之后,可得,此式也可用向量、矩陣方式表達為,式中,,是,階矩陣,這就是普通最小二乘法估計系數(shù)的公式。,若估計出,,,則有,,,所以,于是有,兩邊左乘,
21、,,得,由幾何解釋,,,故而上式中,,,所以可以求出,如下:,,回歸方程的顯著性檢驗F檢驗,,:回歸方程不顯著,:回歸方程顯著,:總離差平方和,:剩余平方和/殘差平方和,:回歸離差平方和,判定相關(guān)系數(shù)越接近1,表明回歸平方和占總離差平方和的比例越大,用x的變動解釋y 值變動的部分就越多,回歸的效果就越好。,回歸效果的檢驗判定相關(guān)系數(shù)檢驗,若全部觀測值都落在回歸直線上,則,若x完全無助于解釋y的變動,則,,F檢驗,校正的判定系數(shù),統(tǒng)計量 中不含有自由度。所謂校正的判定系數(shù)是指“考慮了自由度的判定系數(shù) ”。其定義如下:,剔除了自由度的影響。,校正的判定系數(shù)Adjusted,,式中:,回歸效果的檢
22、驗F檢驗,,:樣本容量,:自變量的個數(shù)(含常數(shù)項),:判定系數(shù),回歸系數(shù)的顯著性檢驗T檢驗,,,成立,即,當,時,顯著異于0。,針對回歸系數(shù)的,統(tǒng)計量的顯著性檢驗決定了相,應的變量能否作為解釋變量進入回歸方程。,總體均值的置信區(qū)間,,,用,代替 可以得到統(tǒng)計量,,回歸系數(shù)的置信區(qū)間,,給定一置信水平,區(qū)間,為,水平上的置信區(qū)間。例,,則,即,標準化即剔除自變量單位的影響,是指對變量,標準回歸系數(shù),,進行如下處理:,轉(zhuǎn)化為標準方程,于是原始方程,,,式中:,多元回歸的高斯假設(shè),,(1) 為隨機向量,(2),(3),(4),包括,(5),或者X為確定矩陣,,(6)秩,(7)行列式,遠離零。,應當滿
23、足:統(tǒng)計量的值 的顯著性概率 小于等于選定的顯著性水平,的 先進入方程;最后一個進入方程的自變量,(即偏解釋變差)最大的變量,進入回歸方程。即進入的變量與因變量具有最大的正相關(guān)或負相關(guān)而對已解釋變差貢獻大小的判別依據(jù),是包含了偏解釋變差的F統(tǒng)計量,的值,。統(tǒng)計量,第一種方法,,最大,在考慮y對已知的一群變量,回歸時,,從變量,中,逐步選出對已解釋變差的貢獻,。,偏解釋變差,偏解釋變差(偏回歸平方和):在一個回歸方程中,當把 xj從自變量的隊伍中刪除后,可得到一組新的回歸系數(shù)的估計值, 從而得到Y(jié)新的計算值 則原回歸平方和與新回歸平方和的差就是xj對已解釋變差(回歸平方和)的貢獻,稱為xj的偏
24、解釋變差(偏回歸平方和)。,,的 在剔除時,其統(tǒng)計量的值 的顯著性概率,逐步把 最小的 剔除出方程,所有剔除出方程,第二種方法,,大于選定的顯著性水平 。,先把Y對所有的自變量,回歸,然后,大于 從而有更少的變量被剔除出方程,防止變量“進”“出”方程,陷入死循環(huán)。,更大一些,以便能夠有較少的 的顯著性慨率,的顯著性慨率 所對照的顯著性水平 則要取得,以便能有更多的 的外側(cè)概率(顯著性概率)小于,是一邊進、一邊出?!斑M”變量的 的顯著性,概率 所對應的顯著性水平 ,通常取得大一些,第三種方法,,從而使較多的變量進入方程。而“出”的變量,注意,的變化。一次處理,會造成誤判。只有逐步處理,才是恰當?shù)摹?來決定是否作為 的自變量。因為每添加或剔除一個變量都會引起所有回歸系數(shù)及統(tǒng)計量的值,的顯著性概率 是否小于等于選定的顯著性水平,逐步添加法或逐步剔除法,都應當強調(diào),“逐步”,不能一次按照各個變量的統(tǒng)計量值,,注意,
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 川渝旅游日記成都重慶城市介紹推薦景點美食推薦
- XX國有企業(yè)黨委書記個人述責述廉報告及2025年重點工作計劃
- 世界濕地日濕地的含義及價值
- 20XX年春節(jié)節(jié)后復工安全生產(chǎn)培訓人到場心到崗
- 大唐女子圖鑒唐朝服飾之美器物之美繪畫之美生活之美
- 節(jié)后開工第一課輕松掌握各要點節(jié)后常見的八大危險
- 廈門城市旅游介紹廈門景點介紹廈門美食展示
- 節(jié)后開工第一課復工復產(chǎn)十注意節(jié)后復工十檢查
- 傳統(tǒng)文化百善孝為先孝道培訓
- 深圳城市旅游介紹景點推薦美食探索
- 節(jié)后復工安全生產(chǎn)培訓勿忘安全本心人人講安全個個會應急
- 預防性維修管理
- 常見閥門類型及特點
- 設(shè)備預防性維修
- 2.乳化液泵工理論考試試題含答案