社會科學(xué)研究方法(全套課件)
社會科學(xué)研究方法(全套課件),社會科學(xué),研究,鉆研,方法,法子,全套,課件
回歸分析,一、什么是計量經(jīng)濟(jì)學(xué),計量經(jīng)濟(jì)學(xué)是以經(jīng)濟(jì)理論和經(jīng)濟(jì)數(shù)據(jù)的事實(shí)為依據(jù),運(yùn)用數(shù)學(xué)和統(tǒng)計學(xué)的方法,通過建立數(shù)學(xué)模型來研究經(jīng)濟(jì)數(shù)量關(guān)系和規(guī)律的一門經(jīng)濟(jì)學(xué)科。,理論:經(jīng)濟(jì)理論,即所研究對象的經(jīng)濟(jì)行為理論 計量經(jīng)濟(jì)研究的基礎(chǔ) 數(shù)據(jù):對所研究對象及相關(guān)現(xiàn)象觀測得到的信息 計量經(jīng)濟(jì)研究的原料或依據(jù) 方法:模型方法與計算方法 計量經(jīng)濟(jì)研究的工具與手段,三個要素,變量間的關(guān)系,不線性相關(guān)并不意味著不相關(guān); 有相關(guān)關(guān)系并不意味著一定有因果關(guān)系; 回歸分析/相關(guān)分析研究一個變量對另一個(些)變量的統(tǒng)計依賴關(guān)系,但它們并不意味著一定有因果關(guān)系。 相關(guān)分析對稱地對待任何(兩個)變量,兩個變量都被看作是隨機(jī)的?;貧w分析對變量的處理方法存在不對稱性,即區(qū)分應(yīng)變量(被解釋變量)和自變量(解釋變量):前者是隨機(jī)變量,后者不是。,回歸分析(regression analysis)是研究一個變量關(guān)于另一個(些)變量的具體依賴關(guān)系的計算方法和理論。 其用意:在于通過后者的已知或設(shè)定值,去估計和(或)預(yù)測前者的(總體)均值。 這里:前一個變量被稱為被解釋變量(Explained Variable)或應(yīng)變量(Dependent Variable),后一個(些)變量被稱為解釋變量(Explanatory Variable)或自變量(Independent Variable)。,二、回歸分析,回歸分析構(gòu)成計量經(jīng)濟(jì)學(xué)的方法論基礎(chǔ),其主要內(nèi)容包括: (1)根據(jù)樣本觀察值對經(jīng)濟(jì)計量模型參數(shù)進(jìn)行估計,求得回歸方程; (2)對回歸方程、參數(shù)估計值進(jìn)行顯著性檢驗(yàn); (3)利用回歸方程進(jìn)行分析、評價及預(yù)測。,由于變量間關(guān)系的隨機(jī)性,回歸分析關(guān)心的是根據(jù)解釋變量的已知或給定值,考察被解釋變量的總體均值,即當(dāng)解釋變量取某個確定值時,與之統(tǒng)計相關(guān)的被解釋變量所有可能出現(xiàn)的對應(yīng)值的平均值。,例1:一個假想的社區(qū)有100戶家庭組成,要研究該社區(qū)每月家庭消費(fèi)支出Y與每月家庭可支配收入X的關(guān)系。 即如果知道了家庭的月收入,能否預(yù)測該社區(qū)家庭的平均月消費(fèi)支出水平。,1、總體回歸函數(shù),為達(dá)到此目的,將該100戶家庭劃分為組內(nèi)收入差不多的10組,以分析每一收入組的家庭消費(fèi)支出。,(1)由于不確定因素的影響,對同一收入水平X,不同家庭的消費(fèi)支出不完全相同;,(2)但由于調(diào)查的完備性,給定收入水平X的消費(fèi)支出Y的分布是確定的,即以X的給定值為條件的Y的條件分布(Conditional distribution)是已知的,如: P(Y=561|X=800)=1/4。,因此,給定收入X的值Xi,可得消費(fèi)支出Y的條件均值(conditional mean)或條件期望(conditional expectation): E(Y|X=Xi) 該例中:E(Y | X=800)=605,描出散點(diǎn)圖發(fā)現(xiàn):隨著收入的增加,消費(fèi)“平均地說”也在增加,且Y的條件均值均落在一根正斜率的直線上。這條直線稱為總體回歸線。,回歸函數(shù)(PRF)說明被解釋變量Y的平均狀態(tài)(總體條件期望)隨解釋變量X變化的規(guī)律。,總體回歸函數(shù)(population regression function, PRF),2、隨機(jī)擾動項(xiàng),總體回歸函數(shù)說明在給定的收入水平Xi下,該社區(qū)家庭平均的消費(fèi)支出水平。 但對某一個別的家庭,其消費(fèi)支出可能與該平均水平有偏差。,稱i為觀察值Yi圍繞它的期望值E(Y|Xi)的離差(deviation),是一個不可觀測的隨機(jī)變量,又稱為隨機(jī)干擾項(xiàng)(stochastic disturbance)或隨機(jī)誤差項(xiàng)(stochastic error)。,記,個別家庭的消費(fèi)支出為:,(1)該收入水平下所有家庭的平均消費(fèi)支出E(Y|Xi),稱為系統(tǒng)性(systematic)或確定性(deterministic)部分。 (2)其他隨機(jī)或非確定性(nonsystematic)部分i。,(*),隨機(jī)誤差項(xiàng)主要包括下列因素的影響,1)在解釋變量中被忽略的因素的影響; 2)變量觀測值的觀測誤差的影響; 3)模型關(guān)系的設(shè)定誤差的影響; 4)其它隨機(jī)因素的影響。,3、樣本回歸函數(shù)(SRF),問題:能從一次抽樣中獲得總體的近似的信息嗎?如果可以,如何從抽樣中獲得總體的近似信息?,問:能否從該樣本估計總體回歸函數(shù)PRF?,在例1的總體中有如下一個樣本,,總體的信息往往無法掌握,現(xiàn)實(shí)的情況只能是在一次觀測中得到總體的一個樣本。,樣本的散點(diǎn)圖(scatter diagram):,樣本散點(diǎn)圖近似于一條直線,畫一條直線以盡好地擬合該散點(diǎn)圖,由于樣本取自總體,可以該線近似地代表總體回歸線。該線稱為樣本回歸線(sample regression lines)。,記樣本回歸線的函數(shù)形式為:,稱為樣本回歸函數(shù)(sample regression function,SRF)。,這里將樣本回歸線看成總體回歸線的近似替代,則,注意:,三、回歸估計,Y為被解釋變量,X為解釋變量,0與1為待估參數(shù), 為隨機(jī)干擾項(xiàng),i=1,2,n,一元線性回歸模型:只有一個解釋變量,1、線性回歸模型的基本假設(shè),假設(shè)1、解釋變量X是確定性變量,不是隨機(jī)變量; 假設(shè)2、隨機(jī)誤差項(xiàng)具有零均值、同方差和不序列相關(guān)性: E(i)=0 i=1,2, ,n Var (i)=2 i=1,2, ,n Cov(i, j)=0 ij i,j= 1,2, ,n 假設(shè)3、隨機(jī)誤差項(xiàng)與解釋變量X之間不相關(guān): Cov(Xi, i)=0 i=1,2, ,n 假設(shè)4、服從零均值、同方差、零協(xié)方差的正態(tài)分布 iN(0, 2 ) i=1,2, ,n,經(jīng)典假設(shè)或高斯(Gauss)假設(shè),2、估計參數(shù)的最小二乘法,1. 最小二乘法使因變量的觀察值與估計值之間的離差平方和達(dá)到最小來求得 a和b的方法,即:,殘差(Residual):e,a 和 b 的計算公式,根據(jù)最小平方法的原則,利用微分求解極值(最優(yōu)值)的原理,可得求解 a 和 b 的標(biāo)準(zhǔn)方程組如下:,例子,四、回歸估計的檢驗(yàn),可決系數(shù)的檢驗(yàn) 回歸系數(shù)的T檢驗(yàn) F檢驗(yàn) 計量經(jīng)濟(jì)學(xué)其他檢驗(yàn):異方差、多重共線性等,1、判定系數(shù),對一個具體的觀測值來說,變差的大小可以通過該實(shí)際觀測值與其均值之差來表示。,變差來源于兩個方面: 1、由于自變量 x 的取值不用造成的; 2、除 x 以外的其他因素(包括 x 對 y 的非線性影響、測量誤差等)的影響。,(一)變差或離差,離差的分解圖,a + b x,2) 兩端平方后求和有:,1)從圖上看有:總變差=回歸變差+剩余變差,記為: SST = SSR + SSE 或 Lyy =U+Q,(SSTSum of squares of total ) 反映因變量的 n 個觀察值與其均值的總離差,總離差平方和SST,(SSRSum of squares of regression ) 反映自變量 x 的變化對因變量 y 取值變化的影響,或者說,是由于x與y之間的線性關(guān)系引起的y的取值變化。,回歸平方和SSR,(SSE Sum of squares of errors ) 反映除 x 以外的其他因素對 y 取值的影響。,殘差平方和SSE,(二)判定系數(shù)(決定系數(shù)r 2 ),判定系數(shù)=回歸平方和占總離差平方和的比例,對于一元回歸,判定系數(shù)=相關(guān)系數(shù)的平方,即r2(r)2 反映回歸直線的擬合程度,衡量變量之間的相關(guān)程度。 取值范圍在 0 , 1 之間。 r2 1,說明回歸方程擬合效果越好; r20,說明回歸方程擬合得越差。,調(diào)整的可決系數(shù)(adjusted coefficient of determination),在樣本容量一定的情況下,增加解釋變量必定使得自由度減少,所以調(diào)整的思路是:將殘差平方和與總離差平方和分別除以各自的自由度,以剔除變量個數(shù)對擬合優(yōu)度的影響:,其中:n-k-1為殘差平方和的自由度,n-1為總體平方和的自由度。,當(dāng) SSR = SST 時,為完全的擬合,殘差平方和為 0 ,判定系數(shù)為 1 。,當(dāng) SSE= SST 時,為最差的擬合,殘差平方和最大 ,判定系數(shù)為 0 。,2、變量的顯著性檢驗(yàn),回歸分析是要判斷解釋變量X是否是被解釋變量Y的一個顯著性的影響因素。 在一元線性模型中,就是要判斷X是否對Y具有顯著的線性性影響。這就需要進(jìn)行變量的顯著性檢驗(yàn)。,變量的顯著性檢驗(yàn)所應(yīng)用的方法是數(shù)理統(tǒng)計學(xué)中的假設(shè)檢驗(yàn)。 計量經(jīng)計學(xué)中,主要是針對變量的參數(shù)真值是否為零來進(jìn)行顯著性檢驗(yàn)的。,檢驗(yàn)步驟:,(1)對總體參數(shù)提出假設(shè) H0: 1=0, H1:10,(2)以原假設(shè)H0構(gòu)造t統(tǒng)計量,并由樣本計算其值,(3)給定顯著性水平,查t分布表,得臨界值t /2(n-2),(4) 比較,判斷 若 |t| t /2(n-2),則拒絕H0 ,接受H1 ; 若 |t| t /2(n-2),則拒絕H1 ,接受H0 ;,3、方程的顯著性檢驗(yàn)(F檢驗(yàn)),方程的顯著性檢驗(yàn),旨在對模型中被解釋變量與解釋變量之間的線性關(guān)系在總體上是否顯著成立作出推斷。,即檢驗(yàn)?zāi)P?Yi=0+1X1i+2X2i+ +kXki+i i=1,2, ,n 中的參數(shù)j是否顯著不為0。,可提出如下原假設(shè)與備擇假設(shè):,H0: 0=1=2= =k=0 H1: j不全為0,根據(jù)數(shù)理統(tǒng)計學(xué)中的知識,在原假設(shè)H0成立的條件下,統(tǒng)計量,服從自由度為(k , n-k-1)的F分布,給定顯著性水平,可得到臨界值F(k,n-k-1),由樣本求出統(tǒng)計量F的數(shù)值,通過 F F(k,n-k-1) 或 FF(k,n-k-1) 來拒絕或接受原假設(shè)H0,以判定原方程總體上的線性關(guān)系是否顯著成立。,3、計量經(jīng)濟(jì)學(xué)檢驗(yàn),多重共線性 異方差 自相關(guān),引子:發(fā)展農(nóng)業(yè)和建筑業(yè)會減少財政收入嗎?,為了分析各主要因素對財政收入的影響,建立財政收 入模型: 其中: CS財政收入(億元) ; NZ農(nóng)業(yè)增加值(億元); GZ工業(yè)增加值(億元); JZZ建筑業(yè)增加值(億元); TPOP總?cè)丝?萬人); CUM最終消費(fèi)(億元); SZM受災(zāi)面積(萬公頃) 數(shù)據(jù)樣本時期1978年-2003年(資料來源:中國統(tǒng)計年鑒2004,中國統(tǒng)計出版社2004年版) 采用普通最小二乘法得到以下估計結(jié)果,財政收入模型的EViews估計結(jié)果,可決系數(shù)為0.995,校正的可決系數(shù)為0.993,模型擬合很好。模型對財政收入的解釋程度高達(dá)99.5%。 F統(tǒng)計量為632.10,說明0.05水平下回歸方程整體上顯著。 t 檢驗(yàn)結(jié)果表明,除了工業(yè)增加值和總?cè)丝谝酝?,其他因素對財政收入的影響均不顯著。 農(nóng)業(yè)增加值和建筑業(yè)增加值的回歸系數(shù)是負(fù)數(shù)。 農(nóng)業(yè)和建筑業(yè)的發(fā)展反而會使財政收入減少嗎?! 這樣的異常結(jié)果顯然與理論分析和實(shí)踐經(jīng)驗(yàn)不相符。 若模型設(shè)定和數(shù)據(jù)真實(shí)性沒問題,問題出在哪里呢?,模型估計與檢驗(yàn)結(jié)果分析,一、多重共線性的概念,對于模型 Yi=0+1X1i+2X2i+kXki+i i=1,2,n 其基本假設(shè)之一是解釋變量是互相獨(dú)立的。,如果某兩個或多個解釋變量之間出現(xiàn)了相關(guān)性,則稱為多重共線性(Multicollinearity)。,多重共線性檢驗(yàn)的任務(wù)是: (1)檢驗(yàn)多重共線性是否存在; (2)估計多重共線性的范圍,即判斷哪些變量之間存在共線性。,多重共線性表現(xiàn)為解釋變量之間具有相關(guān)關(guān)系,所以用于多重共線性的檢驗(yàn)方法主要是統(tǒng)計方法:如判定系數(shù)檢驗(yàn)法、逐步回歸檢驗(yàn)法等。,二、多重共線性的檢驗(yàn),1、檢驗(yàn)多重共線性(程度),(1)若 在OLS法下:R2與F值較大,但t檢驗(yàn)值較小,說明各解釋變量對Y的聯(lián)合線性作用顯著,但各解釋變量間存在共線性而使得它們對Y的獨(dú)立作用不能分辨,故t檢驗(yàn)不顯著。 是多重共線性的典型特征,(2)相關(guān)系數(shù)檢驗(yàn)法:解釋變量有高度的兩兩相關(guān)。 判定標(biāo)準(zhǔn)0.8 是多重共線性的充分而非必要條件。因此 在兩個解釋變量條件下可靠,超過兩個解釋變量時不準(zhǔn)確。,(3) 判定系數(shù)檢驗(yàn)法(輔助回歸法) 使模型中每一個解釋變量分別以其余解釋變量為解釋變量進(jìn)行回歸,并計算相應(yīng)的擬合優(yōu)度。 如果某一種回歸 Xji=1X1i+2X2i+LXLi 的判定系數(shù)較大,說明Xj與其他X間存在共線性。,在模型中排除某一個解釋變量Xj,估計模型; 如果擬合優(yōu)度與包含Xj時十分接近,則說明Xj與其它解釋變量之間存在共線性。,另一等價的檢驗(yàn)是:,(4)逐步回歸法,以Y為被解釋變量,逐個引入解釋變量,構(gòu)成回歸模型,進(jìn)行模型估計。 根據(jù)擬合優(yōu)度的變化決定新引入的變量是否獨(dú)立。 如果擬合優(yōu)度變化顯著,則說明新引入的變量是一個獨(dú)立解釋變量; 如果擬合優(yōu)度變化很不顯著,則說明新引入的變量與其它變量之間存在共線性關(guān)系。,(5)方差擴(kuò)大(膨脹)因子法,經(jīng)驗(yàn)規(guī)則,方差膨脹因子越大,表明解釋變量之間的多重共性越嚴(yán)重。反過來,方差膨脹因子越接近于1,多重共線性越弱。 經(jīng)驗(yàn)表明,方差膨脹因子10時,說明解釋變量與其余解釋變量之間有嚴(yán)重的多重共線性,且這種多重共線性可能會過度地影響最小二乘估計。,找出引起多重共線性的解釋變量,將它排除 以逐步回歸法得到最廣泛的應(yīng)用。 注意: 剩余解釋變量參數(shù)的經(jīng)濟(jì)含義和數(shù)值都發(fā)生了變化。若剔除了重要變量,可能引起模型的設(shè)定誤差。,如果模型被檢驗(yàn)證明存在多重共線性,則需要發(fā)展新的方法估計模型,最常用的方法有三類。,四、克服多重共線性的方法,1、第一類方法:排除引起共線性的變量,2、其他方法:增加樣本容量、合并指標(biāo)等或容忍,案例中國糧食生產(chǎn)函數(shù),根據(jù)理論和經(jīng)驗(yàn)分析,影響糧食生產(chǎn)(Y)的主要因素有: 農(nóng)業(yè)化肥施用量(X1);糧食播種面積(X2) 成災(zāi)面積(X3); 農(nóng)業(yè)機(jī)械總動力(X4); 農(nóng)業(yè)勞動力(X5),已知中國糧食生產(chǎn)的相關(guān)數(shù)據(jù),建立中國糧食生產(chǎn)函數(shù): Y=0+1 X1 +2 X2 +3 X3 +4 X4 +4 X5 +,1、用OLS法估計上述模型:,R2接近于1; 給定=5%,得F臨界值 F0.05(5,12)=3.11 F=638.4 15.19, 故認(rèn)為上述糧食生產(chǎn)的總體線性關(guān)系顯著成立。 但X4 、X5 的參數(shù)未通過t檢驗(yàn),且符號不正確,故解釋變量間可能存在多重共線性。,(-0.91) (8.39) (3.32) (-2.81) (-1.45) (-0.14),2、檢驗(yàn)簡單相關(guān)系數(shù),發(fā)現(xiàn): X1與X4間存在高度相關(guān)性。,列出X1,X2,X3,X4,X5的相關(guān)系數(shù)矩陣:,3、找出最簡單的回歸形式,可見,應(yīng)選第1個式子為初始的回歸模型。,分別作Y與X1,X2,X3,X4,X5間的回歸:,(25.58) (11.49) R2=0.8919 F=132.1 DW=1.56,(-0.49) (1.14) R2=0.075 F=1.30 DW=0.12,(17.45) (6.68) R2=0.7527 F=48.7 DW=1.11,(-1.04) (2.66) R2=0.3064 F=7.07 DW=0.36,4、逐步回歸,將其他解釋變量分別導(dǎo)入上述初始回歸模型,尋找最佳回歸方程。,回歸方程以Y=f(X1,X2,X3)為最優(yōu):,5、結(jié)論,二、異方差,對于模型,如果出現(xiàn),即對于不同的樣本點(diǎn),隨機(jī)誤差項(xiàng)的方差不再是常數(shù),而互不相同,則認(rèn)為出現(xiàn)了異方差性(Heteroskedasticity)。,一、異方差的概念,當(dāng)多元回歸的時候:,先ols 然后計算殘差,計算殘差平方 繪制散點(diǎn)圖:變量為殘差平方和自變量 根據(jù)圖形判斷是否有異方差 其他方法:white檢驗(yàn),三、自相關(guān),回歸方程殘差具有相關(guān)性 常用檢驗(yàn)方法:DW檢驗(yàn),DW檢驗(yàn)決策規(guī)則,用坐標(biāo)圖更直觀表示DW檢驗(yàn)規(guī)則:,異方差的解決 廣義差分法,
收藏