《《計量經(jīng)濟學》PPT課件》由會員分享,可在線閱讀,更多相關(guān)《《計量經(jīng)濟學》PPT課件(41頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、第三部分 實踐中的回歸分析,Chp 12 多重共線性,主要內(nèi)容,多重共線性的概念性質(zhì) 多重共線性的理論后果 多重共線性的實際后果 多重共線性的診斷 多重共線性的補救措施 小結(jié),一、多重共線性的概念及性質(zhì),對于模型 Yi=B0+B1X1i+B2X2i++BkXki+ui i=1,2,,n 其基本假設(shè)之一是解釋變量是互相獨立的。 如果某兩個或多個解釋變量之間出現(xiàn)了相關(guān)性,則稱為多重共線性(Multicollinearity)。,如果存在不全為0的 ci,使得 c1X1i+c2X2i++ckXki=0 i=1,2,,n 則稱為解釋變量間存在完全共
2、線性(perfect multicollinearity)。,如果存在 c1X1i+c2X2i++ckXki+vi=0 i=1,2,,n 其中ci不全為0,vi為隨機誤差項,則稱為 近似共線性(approximate multicollinearity)或交互相關(guān)(intercorrelated)。,,完全多重共線性的例子:P266 Yi=A1+A2X2i+A3X3i+ui 其中,X3i=300-2X2i or X2i=150-X3i/2 進行迭代后(將X3i的表達式代入初始方程),可以看到,該例不是多元回歸,而是簡單的雙變量回歸: Yi=A1+A2X2i+A3(300-2X
3、2i)+ui =(A1+300A2)+(A2-2A3)X2i+ui =C1+C2X2i+ui,,可以看到,在完全多重共線性的情況下,不可能對多元回歸模型中的單個回歸系數(shù)進行估計和假設(shè)檢驗。 我們可以得到原始系數(shù)線性組合的一個估計值,但無法獲得每個系數(shù)的估計值。,二、接近或不完全多重共線性的情形,接近或不完全多重共線性的例子:P268 Yi=A1+A2X2i+A3X4i+ui(12-8) =145.37-2.7975X2i -0.3191X4i (1.2107) (-3.4444) (-0.7971), R2=0.9778,對模型12-8的回歸結(jié)果的分析: 對比前一例,雖然X3和X4
4、很接近,但前者無法估計,后者仍可估計; 對價格回歸的說明; 對判定系數(shù)的說明; 對收入(工資)系數(shù)的說明統(tǒng)計不顯著,且符號錯誤; X4不顯著,但F檢驗表明,聯(lián)合假設(shè)B2=B4=0卻是顯著的,即價格和工資同時對商品的需求有顯著影響 原因在于,X2 與X4 二者高度相關(guān):(在只有兩個解釋變量的情形下,相關(guān)系數(shù)可用于共線性程度的度量。) X4i=299.92-2.0055X2i +ei(見P269, 圖12-2),實際經(jīng)濟問題中的多重共線性,一般地,產(chǎn)生多重共線性的主要原因有以下三個方面: 1. 經(jīng)濟變量相關(guān)的共同趨勢 時間序列樣本:經(jīng)濟繁榮時期,各基本經(jīng)濟變量(收入、消費、投資、價格)都趨于增長;
5、衰退時期,又同時趨于下降。 橫截面數(shù)據(jù):生產(chǎn)函數(shù)中,資本投入與勞動力投入往往出現(xiàn)高度相關(guān)情況,大企業(yè)二者都大,小企業(yè)都小。,,2. 滯后變量的引入 在經(jīng)濟計量模型中,往往需要引入滯后經(jīng)濟變量來反映真實的經(jīng)濟關(guān)系。 例如,消費=f(當期收入, 前期收入) 顯然,兩期收入間有較強的線性相關(guān)性。,,3. 樣本資料的限制 由于完全符合理論模型所要求的樣本數(shù)據(jù)較難收集,特定樣本可能存在某種程度的多重共線性。 一般經(jīng)驗: 時間序列數(shù)據(jù)樣本:簡單線性模型,往往存在多重共線性。 截面數(shù)據(jù)樣本:問題不那么嚴重,但多重共線性仍然是存在的。,三、多重共線性的理論后果,只要共線性是不完全的,則OLS估計量仍然是最優(yōu)
6、線性無偏估計量,但其仍然存在如下問題: 在接近共線性的情形下,OLS估計量仍然是無偏的; 但無偏性是在重復(fù)抽樣的情形下得出的,對單個樣本仍存在重大影響 接近共線性并未破壞OLS估計量最小方差性,但并不意味著任何一個樣本的OLS估計量的方差會很??; 即使變量X與總體不線性相關(guān),但可能與某一樣本線性相關(guān): 原因:多數(shù)經(jīng)濟數(shù)據(jù)都不是通過實驗獲得的,四、多重共線性的實際后果( ),OLS估計量的方差和標準誤較大; 置信區(qū)間變寬; t值不顯著; R2值較高; OLS估計量及其標準誤對數(shù)據(jù)的微小變化非常敏感趨于不穩(wěn)定; 回歸系數(shù)符號有誤; 難以評估各個解釋變量對回歸平方和或R2的貢獻。 分別就支出對價格
7、、收入,及價格和收入作回歸,得到的R2都很大,故難以區(qū)別哪一部分歸于收入,哪一部分歸于價格。,變量的顯著性檢驗失去意義,存在多重共線性時,參數(shù)估計值的方差與標準差變大,容易使通過樣本計算的t值小于臨界值, 誤導(dǎo)作出參數(shù)為0的推斷,可能將重要的解釋變量排除在模型之外,,,,五、多重共線性的診斷,應(yīng)注意的幾個問題: 多重共線性是一個程度問題,而非存在與否的問題 多重共線性針對的是解釋變量是非隨機的情形 ,因而它是一個樣本特征,而不是總體特征,診斷多重共線性的經(jīng)驗法則(重點) R2較高,但t值統(tǒng)計顯著的不多; 解釋變量兩兩高度相關(guān); 存在問題:兩兩相關(guān)系數(shù)可能較低,但卻可能存在共線性 檢驗偏相關(guān)系數(shù)
8、 類似于偏回歸系數(shù) 從屬回歸或輔助回歸 做每個變量對其他剩余變量的回歸并計算出相應(yīng)的R2值,例,考慮Y對X2,X3,,X7這6個解釋變量的回歸,如果回歸結(jié)果表明存在多重共線性,如R2值很高,但解釋變量的系數(shù)很少是統(tǒng)計顯著的,我們可找出哪些變量可能是其他變量的線性組合,步驟如下: 做X2對其他剩余變量的回歸,并求樣本判定系數(shù),記為R22; 做X3對其他剩余變量的回歸,并求樣本判定系數(shù),記為R32; 重復(fù)以上步驟,得到6個這樣的輔助回歸,檢驗R2的顯著性,*:1%的顯著性水平 **:5%的顯著性水平,,診斷多重共線性的經(jīng)驗法則(續(xù)) 方差膨脹因子(VIF),,結(jié)論: 較高的Ri2既非較高標準誤的必
9、要條件,也非充分條件,多重共線性本身并不必然導(dǎo)致較高的標準誤。 診斷多重共線性的方法有多種,但沒有哪一種方法能夠徹底診斷多重共線性問題。 多重共線性是一個程度問題,它是一種樣本特殊現(xiàn)象。,如何看待多重共線性,多重共線性的好壞取決于研究的目的。 如果是為了利用模型預(yù)測應(yīng)變量的未來均值,則多重共線性未必是一件壞事。 如果研究的目的不僅僅是預(yù)測,而且還要可靠地估計出模型的參數(shù),則嚴重的共線性就是件壞事其導(dǎo)致估計量的標準誤增大。,,例:1960-1982年期間美國的雞肉需求 回歸的初步結(jié)論: 收入彈性和自身價格均統(tǒng)計顯著, 收入彈性(大于0)小于1:非奢侈品; 自身價格彈性(小于0)絕對值小于1:缺乏
10、彈性。 兩個交叉彈性(替代品)(大于0)不顯著 兩種肉類與雞肉是互為競爭的 雞肉的需求并不豬肉和牛肉價格的影響,,對雞肉需求函數(shù)的共線性診斷: 相關(guān)矩陣 相關(guān)系數(shù)很高,但并不表明需求函數(shù)中一定存在共線性,只是有存在的可能 輔助回歸 所有的R2都統(tǒng)計顯著,表明回歸方程中每個解釋變量都與其他解釋變量高度共線。,多重共線性的解決辦法( ),方法1:從模型中刪除一個變量 例:關(guān)于雞肉豬肉牛肉價格對雞肉消費量的影響 存在的問題 為了削弱共線性的嚴重程度,得到的系數(shù)估計值可能是有偏的 從模型中刪除這些變量可能導(dǎo)致模型設(shè)定錯誤,使簡化模型估計得到的參數(shù)是有偏的 建議:不要僅僅因為共線性很嚴重就從一個經(jīng)濟上可
11、行的模型中刪除變量,方法2:獲取額外的數(shù)據(jù)或新的樣本 有時獲得額外的數(shù)據(jù)將削減共線性程度; 但出于成本和其他一些因素的考慮,獲得變量的額外數(shù)據(jù)也許并不可行,否則,這一實施措施肯定是可行的。,對于上式,給定2和R2,n越大,Var越小。,,方法3:重新考慮模型 原模型可能是由于省略了一些重要變量,或者是沒有正確選擇函數(shù)形式。 例:P278, 原來為對數(shù)形式,現(xiàn)在用原始數(shù)據(jù)進行回歸。,方法4:先驗信息 根據(jù)先驗研究了解有關(guān)參數(shù)的某些信息。例如對于: Demand=B1+B2price+B3 salary+u We know that B3=0.9, so (Demard-0.9salary)=B1
12、+B2price +u 該方法的缺陷在于外生的或先驗的信息并不總是可獲得的。 如果各樣本之間的收入效應(yīng)預(yù)期變化不大,且得知有關(guān)收入系數(shù)的先驗信息,那么該方法將較為可行。,方法5:變量變換 有時通過對模型中的變量進行變換也能降低共線性程度。對于Y(進口)X2(GNP)X3(CPI) T檢驗表明,收入和價格系數(shù)都不統(tǒng)計顯著,但F檢驗卻拒絕零假設(shè),表明回歸方程之間存在共線性,作如下變換,得,差分法 時間序列數(shù)據(jù)、線性模型:將原模型變換為差分模型: Yi=B1 X1i+B2 X2i++Bk Xki+ ui 可以有效地消除原模型中的多重共線性。 一般講,增量之間的線性關(guān)系遠比總量之間的線性關(guān)系弱得多
13、。,2. 第二類方法:差分法,例如:在中國消費模型中的2個變量:,由表中的比值可以直觀地看到,兩變量增量的線性關(guān)系弱于總量之間的線性關(guān)系。,進一步分析: Y與C(-1)之間的判定系數(shù)為0.9845, Y與C(-1)之間的判定系數(shù)為0.7456。 一般認為:兩個變量之間的判定系數(shù)大于0.8時,二者之間存在線性關(guān)系。 所以,原模型經(jīng)檢驗地被認為具有多重共線性,而差分模型則可認為不具有多重共線性。,,其他補救措施 因子或主成分分析 嶺回歸,本章小結(jié),多重共線性:兩個或多個變量高度線性相關(guān) 多重共線性的后果 多重共線性的檢驗 多重共線性的診斷,案例中國糧食生產(chǎn)函數(shù),根據(jù)理論和經(jīng)驗分析,影
14、響糧食生產(chǎn)(Y)的主要因素有: 農(nóng)業(yè)化肥施用量(X1) 糧食播種面積(X2) 成災(zāi)面積(X3) 農(nóng)業(yè)機械總動力(X4) 農(nóng)業(yè)勞動力(X5),已知中國糧食生產(chǎn)的相關(guān)數(shù)據(jù),建立中國糧食生產(chǎn)函數(shù): Y=B0+B1 X1 +B2 X2 +B3 X3 +B4 X4 +B4 X5 +u,表:中國糧食生產(chǎn)與相關(guān)投入資料,1. 用OLS法估計上述模型:,R2接近于1; 給定=5%,得F臨界值 F0.05(5,12)=3.11 F=638.4 15.19,故認上述糧食生產(chǎn)的總體線性關(guān)系顯著成立。但X4 、X5 的參數(shù)未通過t檢驗,且符號不正確,故解釋變量間可能存在多重共線性。,(-0.91)
15、 (8.39) (3.32) (-2.81) (-1.45) (-0.14),2. 檢驗簡單相關(guān)系數(shù),發(fā)現(xiàn): X1與X4間存在高度相關(guān)性。,列出X1,X2,X3,X4,X5的相關(guān)系數(shù)矩陣:,3. 找出最簡單的回歸形式,可見,應(yīng)選第一個式子為初始的回歸模型。,分別作Y與X1,X2,X4,X5間的回歸:,(25.58) (11.49) R2=0.8919 F=132.1 DW=1.56,(-0.49) (1.14) R2=0.075 F=1.30 DW=0.12,(17.45) (6.68) R2=0.7527 F=48.7 DW=1.11,(-1.04) (2.66) R2=0.3064 F=7.07 DW=0.36,4. 逐步回歸,將其他解釋變量分別導(dǎo)入上述初始回歸模型,尋找最佳回歸方程。,回歸方程以Y=f(X1,X2,X3)為最優(yōu):,5. 結(jié)論,4. 變量的顯著性檢驗失去意義,存在多重共線性時,參數(shù)估計值的方差與標準差變大,容易使通過樣本計算的t值小于臨界值, 誤導(dǎo)作出參數(shù)為0的推斷,可能將重要的解釋變量排除在模型之外,,,,