《《計量經(jīng)濟學》第4章多重共線性》由會員分享,可在線閱讀,更多相關《《計量經(jīng)濟學》第4章多重共線性(45頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、第四章 多重共線性 Multi-Collinearity,計量經(jīng)濟學,引子:國內生產(chǎn)總值增加會減少財政收入嗎?,為了分析各主要因素對國家財政收入的影響,建立財政收入(億元) (CZSR)為被解釋變量,財政支出(億元)(CZZC)、國內生產(chǎn)總值(億元)(GDP)、稅收總額(億元)(SSZE)等為解釋變量的計量模型。數(shù)據(jù)樣本時期:1978年-2011年的統(tǒng)計數(shù)據(jù)。 設定的理論模型為: 采用普通最小二乘法得到以下估計結果,,,財政收入模型的EViews估計結果,可決系數(shù)為0.99979 ,校正的可決系數(shù)為0.99977,模型擬合很好。模型對財政收入的解釋程度高達99.9%。 F統(tǒng)計量為47897.
2、29,說明0.05水平下回歸方程整體上很顯著。 t 檢驗結果表明,各個解釋變量對財政收入的影響均顯著,但是國內生產(chǎn)總值對財政收入的回歸系數(shù)的符號為負,即經(jīng)濟增長反而會使財政收入減少。這顯然與理論分析和實踐經(jīng)驗不相符。為什么會出現(xiàn)這樣的異常結果?如果模型設定和數(shù)據(jù)真實性沒問題,問題會出在哪里呢?,模型估計與檢驗結果分析,第四章 多重共線性,本章討論五個問題: 什么是多重共線性 多重共線性的經(jīng)濟背景 多重共線性產(chǎn)生的后果 多重共線性的檢驗 多重共線性的補救措施,一、多重共線性的含義,或者說, 時,表明在數(shù)據(jù)矩陣 中,至少有 一個列向量可以用其余的列向量線性表示,則說明存在完全的多 重共線性
3、。,對于解釋變量 ,如果存在不全為0的數(shù) ,使得 則稱解釋變量 之間存在著完全的多重共線性,完全的多重共線性,不完全的多重共線性,,,解釋變量間毫無線性關系,變量間相互正交。這時已不需要作多元回歸,每個參數(shù)j都可以通過Y 對 Xj 的一元回歸來估計。,二、產(chǎn)生多重共線性的背景,多重共線性產(chǎn)生的經(jīng)濟背景主要有幾種情形: 1.經(jīng)濟變量之間具有共同變化趨勢。 時間序列數(shù)據(jù):經(jīng)濟繁榮時期,各基本經(jīng)濟變量(收入、消費、投資、價格)都趨于增長;衰退時期,又同時趨于下降 橫截面數(shù)據(jù):變量變化與發(fā)展規(guī)模有關,例如在生產(chǎn)函數(shù)中,資本投入與勞動力投入往往出現(xiàn)高度相關情況,大企業(yè)二者都大,小企
4、業(yè)都小 2.模型中包含滯后變量。 例如,消費=f(當期收入, 前期收入) 3.樣本數(shù)據(jù)自身的原因。 抽樣取值有限,三、 多重共線性產(chǎn)生的后果,如果存在完全共線性,則(XX)-1不存在,無法得到唯一的參數(shù)估計量。,1、完全共線性下參數(shù)估計量無意義,OLS估計量為:,X1和X2前的參數(shù)1、2并不反映各自與被解釋變量之間的結構關系,而是反映它們對被解釋變量的共同影響。1、2已經(jīng)失去了應有的經(jīng)濟含義,于是經(jīng)常表現(xiàn)出似乎反常的現(xiàn)象:例如1本來應該是正的,結果恰是負的。,這時,實際只能確定綜合參數(shù)1+2的估計值,近似共線性下,可以得到OLS參數(shù)估計量, 但參數(shù)估計量方差的表達式為,由于|XX|0,引起
5、(XX) -1主對角線元素較大,使參數(shù)估計值的方差增大,OLS參數(shù)估計量非有效,亦會使變量的顯著性檢驗和預測檢驗失去意義,2、不完全共線性下估計量方差偏大,四、多重共線性的檢驗,本節(jié)基本內容: 簡單相關系數(shù)檢驗法 方差擴大(膨脹)因子法 直觀判斷法 逐步回歸法,兩個問題(1)是否存在(2)哪些變量存在?,1、簡單相關系數(shù)檢驗法,判斷規(guī)則:一般而言,如果每兩個解釋變量的簡單相關系數(shù)(零階相關系數(shù))比較高,例如大于0.8,則可認為存在著較嚴重的多重共線性。,計算解釋變量之間的相關系數(shù)或相關矩陣,注意:較高的簡單相關系數(shù)只是多重共線性存在的充分條件,而不是必要條件,2、方差擴大(膨脹)因子法
6、,統(tǒng)計上可以證明,,的方差可表示為,(Variance Inflation Factor),即,,其中 是Xj關于其余解釋變量的輔助回歸 的可決系數(shù),經(jīng)驗規(guī)則,方差膨脹因子越大,表明解釋變量之間的多重共性越嚴重。反過來,方差膨脹因子越接近于1,多重共線性越弱。 經(jīng)驗表明,方差膨脹因子10時,說明解釋變量與其余解釋變量之間有嚴重的多重共線性,且這種多重共線性可能會過度地影響最小二乘估計。,3、直觀判斷法,1. 當增加或剔除一個解釋變量,或者改變一個觀測值時,回歸參數(shù)的估計值發(fā)生較大變化 2. 一些重要的解釋變量的回歸系數(shù)的標準誤差較大,在回歸方程中沒有通過顯著性檢驗時 3. 有些解釋變量的回
7、歸系數(shù)所帶正負號與定性分析結果違背時 4. 模型的可決系數(shù)較高,F(xiàn)檢驗顯著,回歸系數(shù)的方差較大,t值較小,即在統(tǒng)計上均不顯著。,根據(jù)經(jīng)驗,通常以下情況的出現(xiàn)可能是由于存在多重共線性,4、逐步回歸檢測法,逐步回歸的基本思想 將變量逐個的引入模型,每引入一個解釋變量后,都要進行檢驗,并對已經(jīng)選入的解釋變量逐個進行t 檢驗,當原來引入的解釋變量由于后面解釋變量的引入而變得不再顯著時,則將其剔除。以確保每次引入新的變量之前回歸方程中只包含顯著的變量。 在逐步回歸中,高度相關的解釋變量,在引入時會被剔除。因而也是一種檢測多重共線性的有效方法。,五、 多重共線性的補救措施,本節(jié)基本內容: 修正多重共線性
8、的經(jīng)驗方法 逐步回歸法,1、修正多重共線性的經(jīng)驗方法,(1). 剔除變量法 把方差擴大因子最大者所對應的自變量首先 剔除再重新建立回歸方程,直至回歸方程中 不再存在嚴重的多重共線性。 注意: 若剔除了重要變量,可能引起模型的設 定誤差。,(2). 增大樣本容量 如果樣本容量增加,會減小回歸參數(shù)的方差, 標準誤差也同樣會減小。因此盡可能地收集足 夠多的樣本數(shù)據(jù)可以改進模型參數(shù)的估計。 問題:增加樣本數(shù)據(jù)在實際計量分析中常面臨 許多困難。,(3). 變換模型形式(一般適用于時間序列數(shù)據(jù)) 一般而言,差分后變量之間的相關性要比差分 前弱得多,所以差分后的模型可能降低出現(xiàn)共 線性的可能性,此時可直接估
9、計差分方程。 問題:差分會丟失一些信息,差分模型的誤差 項可能存在序列相關,可能會違背經(jīng)典線性回 歸模型的相關假設,在具體運用時要慎重。,(4). 利用非樣本先驗信息 通過經(jīng)濟理論分析能夠得到某些參數(shù)之間的關 系,可以將這種關系作為約束條件,將此約束 條件和樣本信息結合起來進行約束最小二乘估計。,(5). 橫截面數(shù)據(jù)與時序數(shù)據(jù)并用 首先利用橫截面數(shù)據(jù)估計出部分參數(shù),再利用 時序數(shù)據(jù)估計出另外的部分參數(shù),最后得到整 個方程參數(shù)的估計。 注意:這里包含著假設,即參數(shù)的橫截面估計和 從純粹時間序列分析中得到的估計是一樣的。,(6). 變量變換 變量變換的主要方法: (1)計算相對指標 (2)將名義數(shù)
10、據(jù)轉換為實際數(shù)據(jù) (3)將小類指標合并成大類指標 (4)對數(shù)變換 變量數(shù)據(jù)的變換有時可得到較好的結果,但無 法保證一定可以得到很好的結果。,2、逐步回歸法,(1)用被解釋變量對每一個所考慮的解釋變量做簡單回歸。 (2)以對被解釋變量貢獻最大的解釋變量所對應的回歸方程為基礎,按對被解釋變量貢獻大小的順序逐個引入其余的解釋變量。 (a)若新變量的引入改進了 和 檢驗,且回歸參 數(shù)的t 檢驗在統(tǒng)計上也是顯著的,則在模型中保 留該變量。,(b)若新變量的引入未能改進 和 檢驗,且對其他回歸參數(shù)估計值的t 檢驗也未帶來什么影響,則認為該變量是多余變量。 (c)若新變量的引入未能改進 和 檢驗,且顯著地影
11、響了其他回歸參數(shù)估計值的數(shù)值或符號,同時本身的回歸參數(shù)也通不過t 檢驗,說明出現(xiàn)了嚴重的多重共線性。 (d)已被引入回歸方程的變量在引入新變量后,也可能失去重要性而被剔除。,六、案例分析,一、研究的目的要求 提出研究的問題為了規(guī)劃中國未來國內旅游產(chǎn)業(yè) 的發(fā)展,需要定量地分析影響中國國內旅游市場發(fā)展 的主要因素。 二、模型設定及其估計 影響因素分析與確定影響因素主要有國內旅游 人數(shù) ,城鎮(zhèn)居民人均旅游支出 ,農村居民人均 旅游支出 ,并以鐵路里程 作為相關基礎設 施的代表 理論模型的設定 其中 : 第 t 年全國國內旅游收入,,,,,,,,數(shù)據(jù)的收集與處理,1994年2011年中國旅游收入及相
12、關數(shù)據(jù),該模型,,,可決系數(shù)較高,F(xiàn)檢驗值 225.85,明顯顯著。 但是當,時,、,,OLS 估計的結果,,,,,,,不僅X5的系數(shù)不顯著,而且X3、X5的符號與預期相反,這表明可能存在嚴重的多重共線性。,計算各解釋變量的相關系數(shù),表明各解釋變量間確實存在嚴重的線性關系,將每個解釋變量分別作為被解釋變量對其余的解釋變量進行輔助回歸,回歸所得到的可決系數(shù)和方差擴大因子的數(shù)值見下表。,,經(jīng)驗表明,方差擴大因子 VIFj 10時,通常說明該解釋變量與其余解釋變量之間有嚴重的多重共線性,這里X2、X5的方差擴大因子遠大于10,表明存在嚴重多重共線性問題。,三、消除多重共線性,將各變量進行對數(shù)變換,再
13、對以下模型進行估計,,,,結果: 1.可決系數(shù)很高 2.F檢驗顯著性高 3.系數(shù)都顯著 4.所有解釋變量的符號都與實際意義相符,最后消除多重共線性的結果,四、回歸結果的解釋與分析,,,,,,,,,,該模型 ,可決系數(shù)很高, F檢驗值1540.78,明顯顯著。 所有系數(shù)估計值高度顯著。,,另一案例中國糧食生產(chǎn)函數(shù),根據(jù)理論和經(jīng)驗分析,影響糧食生產(chǎn)(Y)的主要因素有: 農業(yè)化肥施用量(X1);糧食播種面積(X2) 成災面積(X3); 農業(yè)機械總動力(X4); 農業(yè)勞動力(X5),已知中國糧食生產(chǎn)的相關數(shù)據(jù),建立中國糧食生產(chǎn)函數(shù): Y=0+1 X1 +2
14、 X2 +3 X3 +4 X4 +4 X5 +u,1、用OLS法估計上述模型:,R2接近于1; 給定=5%,得F臨界值 F0.05(5,12)=3.11 F=638.4 15.19, 故認上述糧食生產(chǎn)的總體線性關系顯著成立。 但X4 、X5 的參數(shù)未通過t檢驗,且符號不正確,故解釋變量間可能存在多重共線性。,(-0.91) (8.39) (3.32) (-2.81) (-1.45) (-0.14),2、檢驗簡單相關系數(shù),發(fā)現(xiàn): X1與X4間存在高度相關性。,列出X1,X2,X3,X4,X5的相關系數(shù)矩陣:,3、找出最簡單的回歸形式,可見,應選第1個式子為初始的回歸模型。,分別
15、作Y與X1,X2,X3,X4,X5間的回歸:,(25.58) (11.49) R2=0.8919 F=132.1 DW=1.56,(-0.49) (1.14) R2=0.075 F=1.30 DW=0.12,(17.45) (6.68) R2=0.7527 F=48.7 DW=1.11,(-1.04) (2.66) R2=0.3064 F=7.07 DW=0.36,4、逐步回歸,將其他解釋變量分別導入上述初始回歸模型,尋找最佳回歸方程。,回歸方程以Y=f(X1,X2,X3)為最優(yōu):,5、結論,第四章 小結,1.多重共線性是指各個解釋變量之間有準確或近似 準確的線性關系。 2.多重共線
16、性的后果: 如果各個解釋變量之間有完全的共線性,則它們的 回歸系數(shù)是不確定的,并且它們的方差會無窮大。 如果共線性是高度的但不完全的,回歸系數(shù)可估計, 但有較大的標準誤差?;貧w系數(shù)不能準確地估計。,3.診斷共線性的經(jīng)驗方法: (1) 表現(xiàn)為可決系數(shù)異常高而回歸系數(shù)的t 檢驗不顯著。 (2) 變量之間簡單相關系數(shù)。多個解釋變量時,較低的零階相關也可能出現(xiàn)多重共線性,需要檢查偏相關系數(shù)。 (4)如果 高而偏相關系數(shù)低,則多重共線性是可能的。 (5) 用解釋變量間輔助回歸的可決系數(shù)判斷。,4.降低多重共線性的經(jīng)驗方法: (1)利用外部或先驗信息; (2)橫截面與時間序列數(shù)據(jù)并用; (3)剔除高度共線性的變量(如逐步回歸); (4)數(shù)據(jù)轉換; (5)獲取補充數(shù)據(jù)或新數(shù)據(jù); (6)選擇有偏估計量(如嶺回歸)。 經(jīng)驗方法的效果取決于數(shù)據(jù)的性質和共線性的嚴重程度。,THANKS,第 四 章 結 束 了!,