spss統(tǒng)計分析三大檢驗回歸診斷因子分析.ppt
-
資源ID:6414493
資源大?。?span id="eouxswc" class="font-tahoma">1.04MB
全文頁數(shù):52頁
- 資源格式: PPT
下載積分:14.9積分
快捷下載
會員登錄下載
微信登錄下載
微信掃一掃登錄
友情提示
2、PDF文件下載后,可能會被瀏覽器默認(rèn)打開,此種情況可以點擊瀏覽器菜單,保存網(wǎng)頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站資源下載后的文檔和圖紙-無水印,預(yù)覽文檔經(jīng)過壓縮,下載后原文更清晰。
5、試題試卷類文檔,如果標(biāo)題沒有明確說明有答案則都視為沒有答案,請知曉。
|
spss統(tǒng)計分析三大檢驗回歸診斷因子分析.ppt
T檢驗 1 1比較均值 ANOVA1 2單樣本T檢驗1 3兩獨立樣本T檢驗1 4配對樣本T檢驗 1 1比較均值 ANOVA 均值和標(biāo)準(zhǔn)差是描述數(shù)據(jù)資料集中趨勢和離散程度的兩個最重要的測度值 這里我們考察身高的性別中的均值比較 點擊 分析 A 再點擊 比較均值 M 選擇 均值 M 如下圖所示 選擇需要分析的對象 這里我們把 身高 作為因變量 性別 作為自變量 如下圖所示 在步驟3中 我們可以根據(jù)自己的需要 選擇要得到的相關(guān)數(shù)值 點擊 選項 把 統(tǒng)計量 中自己需要的統(tǒng)計量點擊到 單元格統(tǒng)計量 中 也可以在 第一層的統(tǒng)計量 中選擇 Anova表和eta A 和 線性相關(guān)檢驗 我們這里只選擇前者 如圖所示 根據(jù)男性和女性兩種性別觀察其身高均值情況單因素方差分析 原假設(shè)H0 總體中男性和女性在身高無顯著差異 即所有總體的均值都相等 由于sig 0 110大于0 05 就接受H0 認(rèn)為兩組身高無顯著差異 1 2單樣本T檢驗 單樣本T檢驗 主要用于檢驗單個變量的均值與指定的檢驗值之間是否存在顯著性差異 再者 樣本均值與總體均值之間的差異顯著性檢驗 也屬于單樣本T檢驗 以耐電壓值的平均值與500之間的差異顯著性的檢驗問題為例 點擊 分析 A 選擇 比較均值 M 點擊 單樣本T檢驗 S 如圖所示 將 耐電壓值 放到 檢驗變量 T 中 我們在這里將 檢驗值 設(shè)為 500 如圖所示 點擊 選項 O 我們會發(fā)現(xiàn) 置信區(qū)間百分比 C 的默認(rèn)值為 0 95 我們這里選擇默認(rèn)值 通過結(jié)果我們可以看出 單個樣本統(tǒng)計量 包括檢驗的總體均值 304 68 標(biāo)準(zhǔn)差 224 18 以及t統(tǒng)計量 3 896 等 本例的雙側(cè)Sig值為0 000 0 05 因此認(rèn)為在0 05的顯著性水平下 拒絕虛無假設(shè) 接受對立假設(shè) 即耐電壓值與500存在顯著性差異 1 3獨立樣本t檢驗 兩獨立樣本t檢驗的目的是利用來自兩個總體的獨立樣本 推斷兩個總體的均值是否存在顯著差異 首先進(jìn)行婚姻狀況 已婚 未婚 兩個總體方差同質(zhì)性檢驗 原假設(shè) 檢驗假設(shè) H0 已婚 未婚兩個總體方差具有同質(zhì)性 1 利用F檢驗判斷兩總體的方差是否相等 利用t檢驗判斷兩總體均值是否存在顯著差異 考察F檢驗 由0 865大于0 05 接受原假設(shè) 即在0 05顯著水平下 樣本數(shù)據(jù)顯示 已婚 未婚兩個總體方差具有同質(zhì)性 滿足均值檢驗的前提要求 考察T檢驗 原假設(shè)H0 已婚 未婚兩個總體在家庭收入上無顯著差異 由于SIG值0 566大于0 05 接受原假設(shè) 即在0 05顯著水平上 樣本數(shù)據(jù)顯示 婚姻狀況兩個總體在家庭收入上無顯著差異 1 4配對樣本T檢驗 兩配對樣本t檢驗的目的是利用來自兩個總體的配對樣本 推斷兩個總體的均值是否存在顯著差異 和獨立樣本不同的是這兩個整體是有聯(lián)系的 其檢驗思路就是做差值 轉(zhuǎn)化為單樣本t檢驗 最后轉(zhuǎn)化為差值序列 通過看總體均值是否與0有顯著差異做檢驗 找到分析 比較均值 配對樣本T檢驗 將其單擊打開 需要從原變量中選擇成對變量進(jìn)行配對 如下圖所示 根據(jù)成對的變量自定義進(jìn)行選擇配對 單擊選項 打開的是置信區(qū)間百分比 默認(rèn)的是95 缺失值的處理方法用第一種 第一個表格是數(shù)據(jù)的基本描述 第二個是數(shù)據(jù)前后變化的相關(guān)系數(shù) 那個概率P值是相關(guān)系數(shù)的概率值 概率大于顯著性水平0 05 則說明數(shù)據(jù)變化前后沒有顯著的線性變化 線性相關(guān)程度較弱 第三個表格是數(shù)據(jù)相減后與0的比較 通過概率值為0 小于顯著性水平0 05 則拒絕原假設(shè) 相減的差值與0有較大差別 則表明數(shù)據(jù)變化前后有顯著的變化 卡方檢驗 非參數(shù)檢驗 卡方檢驗是用來判斷樣本是否來自一種總體的檢驗方法 就是根據(jù)樣本的頻率來推斷總體的分布是否具有顯著差異 1 1變量獨立性1 2總體同質(zhì)性 1 1變量獨立性 兩種特征是否在總體分布獨立 先看到的第一個表格就是交叉表 婚姻狀況為行 住房滿意為列 變量獨立性檢驗 原假設(shè)H0 婚姻狀況與住房滿意度相互獨立 總體中婚姻狀況與住房滿意度無顯著影響 由于SIG值均大于0 05 故接受原假設(shè) 即在0 05顯著水平上 婚姻狀況與住房滿意度無顯著影響影響關(guān)系 1 2總體同質(zhì)性檢驗 原假設(shè) H0 婚姻狀況總體在住房滿意度上無顯著差異 H1 婚姻狀況總體在住房滿意度上存在顯著差異 根據(jù)左表 由0 268 0 296 0 268均大于0 05 故接受原假設(shè) 即在0 05顯著水平下婚姻狀況在住房滿意度上無顯著差異 F檢驗 F檢驗在方差分析中的應(yīng)用F檢驗在回歸模型顯著性中的應(yīng)用 F檢驗在方差分析中的應(yīng)用方差分析 通過分析單個或多個因素是否在不同水平樣本下的均值存在顯著性差異 單因素方差分析 用來研究一個因素的不同水平是否對觀測變量產(chǎn)生了顯著影響 即檢驗由單一因素影響的一個 或幾個相互獨立的 因變量在因素各水平分組的均值之間的差異是否均有統(tǒng)計意義 首先剖析觀察變量的方差 SST 總離差平方和 SSA 組間 SSE 組內(nèi) SSA占比較大即觀察變量的變動主要是由因素的不同水平引起的 可有因素的變動來解釋 利用假設(shè)檢驗推斷因素的不同水平是否對觀測變量產(chǎn)生顯著影響 原假設(shè)H0是因素不同水平對觀察變量不存在顯著影響 采用的檢驗統(tǒng)計量是F統(tǒng)計量 不同的地區(qū)可能是導(dǎo)致廣告銷售額不同 本例中 地區(qū)是因素 其中有18個不同水平 廣告銷售額是因變量 觀測變量 這里的單因素方差分析主要研究在地區(qū)這一單一因素下 不同地區(qū)來源的廣告銷售額測度平均值是否相同 即進(jìn)行如下假設(shè)檢驗 H0 不同地區(qū)對廣告銷售額均值無顯著性影響H1 不同地區(qū)對廣告銷售額均值存在顯著性影響 實例結(jié)果及分析 方差齊性檢驗 Levene統(tǒng)計量等于2 881 由于P值0 078大于0 05 故認(rèn)為數(shù)據(jù)的方差是相同的 滿足方差分析的前提條件 單因素方差分析表 第一列是方差來源 包括組間離差平方和 組內(nèi)和總數(shù) 第二列勢離差平方和 第三列是自由度df 第四列均方 是第二三列之比 第五列是F值32 66 組間均方與組內(nèi)均方之比 第六列是F值對應(yīng)的概率P值 其值等于0 000 由于概率P值小于0 05 故拒絕原假設(shè) 接受對立假設(shè) 認(rèn)為不同地區(qū)對銷售額測度平均值存在顯著性影響 F檢驗在回歸模型顯著性中的應(yīng)用實例分析 人均可支配收入和人均消費性支出 利用回歸分析來分析人均可支配收入和人均消費性支出的關(guān)系 建立回歸模型 人均消費性支出 f 人均可支配收入 首先繪制兩組變量的散點 圖形顯示呈線性關(guān)系 可建立一元線性回歸模型 expenditure b0 b1 incomei ei 模型匯總即對方程擬合情況的描述 R方就是自變量所能解釋的方差在總方差中所占的百分比 值越大說明模型的效果越好 案例計算的回歸模型中R方等于0 994 模型擬合效果較好 方差分析表是對回歸模型進(jìn)行方差分析的檢驗結(jié)果 主要用于分析整體模型的顯著性 可以看到方差分析結(jié)果中F統(tǒng)計量等于4123 概率p 0 000小于顯著性水平0 05 所以該模型是有統(tǒng)計學(xué)意義的 人均可支配收入與人均消費性支出之間的線性關(guān)系是顯著的 回歸系數(shù)表列出來本案例進(jìn)行的醫(yī)院回歸模型常數(shù)項 回歸系數(shù)的估計值和檢驗的結(jié)果 可見b0 158 512 b1 0 756 故回歸方程如下 年人均消費性支出 158 512 0 756 年人均可支配收入 即人均可支配收入每增加一個單位 年人均消費性支出增加0 756個單位 因子分析 主成分分析的內(nèi)在原理和過程 方法概述 因子分析法就是從研究變量內(nèi)部相關(guān)的依賴關(guān)系出發(fā) 把一些具有錯綜復(fù)雜關(guān)系的變量歸結(jié)為少數(shù)幾個綜合因子的一種多變量統(tǒng)計分析方法 基本思想 對原始的數(shù)據(jù)進(jìn)行分類歸并 將相關(guān)比較密切的變量分別歸類 歸出多個綜合指標(biāo) 這些綜合指標(biāo)互不相關(guān) 即它們所綜合的信息互相不重疊 這些綜合指標(biāo)就稱為因子或公共因子 就能相對容易地以較少的幾個因子反映原資料的大部分信息 因子分析法的核心是對若干綜合指標(biāo)進(jìn)行因子分析并提取公共因子 再以每個因子的方差貢獻(xiàn)率作為權(quán)數(shù)與該因子的得分乘數(shù)之和構(gòu)造得分函數(shù) 因子分析的計算過程 1 將原始數(shù)據(jù)標(biāo)準(zhǔn)化 以消除變量間在數(shù)量級和量綱上的不同 2 求標(biāo)準(zhǔn)化數(shù)據(jù)的相關(guān)矩陣3 求相關(guān)矩陣的特征值和特征向量4 計算方差貢獻(xiàn)率與累計方差貢獻(xiàn)率5 確定因子 設(shè)F1 F2 Fp個因子 其中前m個因子包含的數(shù)據(jù)信息總量 即其累計貢獻(xiàn)率 不低于85 時 可取前m個因子來反映原評價指標(biāo) 6 因子旋轉(zhuǎn) 若所得的m個因子無法確定或其實際意義不是很明顯 這時需將因子進(jìn)行旋轉(zhuǎn)以獲得較為明顯的實際含義 7 用原指標(biāo)的線性組合來求各因子得分8 綜合得分 通常以各因子的方差貢獻(xiàn)率為權(quán) 由各因子的線性組合得到綜合評價指標(biāo)函數(shù) 實例分析 全國各地區(qū)不同所有制單位平均收入排名 下圖是全國各地區(qū)不同所有制單位平均收入情況 具體包括國有經(jīng)濟(jì)單位 集體經(jīng)濟(jì)單位 聯(lián)營經(jīng)濟(jì)單位等7個部分 利用主成分分析探討各地區(qū)按所有制類別分類的排名 進(jìn)行因子分析前 可以計算相關(guān)系數(shù)矩陣 巴特李特球度檢驗和KMO檢驗等方法來檢驗候選數(shù)據(jù)是否適合采用因子分析 實例操作略 直接看實例結(jié)果及分析 描述性統(tǒng)計表顯示了國有經(jīng)濟(jì)單位 集體經(jīng)濟(jì)單位等七個指標(biāo)的描述統(tǒng)計量 因子分析共同度顯示了所有變量的共同度數(shù)據(jù) 第二列是初始解 對原有七個變量如采用主成分分析法提取所有特征根 那么原有變量的所有方差都可被解釋 變量的共同度均為1 原有變量標(biāo)準(zhǔn)化后的方差為1 因子個數(shù)小于原有變量的個數(shù)才是因子分析 所以不能提取全部 第三列列出來按指定條件提取特征根時的共同度 所有變量的絕大部分信息可被因子解釋 變量信息丟失較少 因此本次因子提取的總體效果理想 上圖為因子分析的總方差解釋 是相關(guān)系數(shù)矩陣的特征值 方差貢獻(xiàn)率及累計方差貢獻(xiàn)率的計算結(jié)果 第一列是因子編號 后三列組成一組 第一組數(shù)據(jù)項描述了初始因子解的情況 可以看到 第一個因子的特征根值為5 502 解釋了原有7個變量總方差的78 前三個因子的累計方差貢獻(xiàn)率為92 141 說明前三個公因子基本包含了全部變量的主要信息 因此選擇前三個因子為主因子即可 同時 被提取的載荷平方和旋轉(zhuǎn)和的平方載荷數(shù)據(jù)組列出了因子提取后和旋轉(zhuǎn)后的因子方差解釋情況 因子碎石圖 橫坐標(biāo)為因子數(shù)目 縱坐標(biāo)為特征值 可以看到 第一個因子的特征值很高 對解釋原有變量的貢獻(xiàn)最大 第三個以后的因子特征根都較小 說明他們對解釋原有變量的貢獻(xiàn)很小 該表顯示了旋轉(zhuǎn)錢的因子載荷矩陣 是因子分析的核心內(nèi)容 通過過載荷系數(shù)大小可以分析不同公共因子所反映的主要指標(biāo)的區(qū)別 少部分指標(biāo)解釋能力較差 采用因子旋轉(zhuǎn)方法使得因子載荷系數(shù)向0和1兩極分化 是大的載荷更大 小的更小 旋轉(zhuǎn)后的各個因子的含義更加突出 每個公因子都有反映幾個方面的變動情況 第一個公因子反映交大載荷的有外商 國有 港澳臺 股份制 集體經(jīng)濟(jì)單位 第二個有聯(lián)營經(jīng)濟(jì)單位 第三個則是其他經(jīng)濟(jì)單位 該表列出來采用回歸法估計得因子得分系數(shù) 根據(jù)表中的內(nèi)容可寫出因子得分系數(shù) 在利用原數(shù)據(jù)文件增加的三個變量 乘以對應(yīng)的方差貢獻(xiàn)率權(quán)重 加總得到綜合評價得分 回歸分析 五條假設(shè) 系數(shù)解讀 零均值假定 隨機誤差項 均值為0 異方差 等方差假定 i方差同為 2且 為常數(shù)正態(tài)性假定 隨機誤差項 服從均值為0 方差為 2的正態(tài)分布獨立性假定 隨機誤差項 不存在序列相關(guān) 自相關(guān) 非共線性假定 解釋變量間互不相關(guān) 且隨機誤差項 與解釋變量間也不相關(guān) 多重共線 回歸分析的步驟 1 觀察變量間是否有線性趨勢 作散點圖或線性相關(guān)分析 2 考察因變量的正態(tài)性 3 作直線回歸 4 回歸模型顯著性和變量的顯著性檢驗 5 殘差分析 獨立性檢驗 正態(tài)性檢驗 方差齊性檢驗 6 異常值與共線性診斷 線性趨勢 自變量與因變量之間呈線性關(guān)系 可以以年人均可支配收入作為Y軸 人均使用面積和教育支出作為X軸 通過繪制散點圖來加以判斷是不是滿足此要求 1 是否存在異方差先看pp圖再看ks檢驗 1 由pp圖 殘差圖具有一定規(guī)律 分布在對角線左右 初步判斷模型的誤差項符合高斯馬爾科夫前提關(guān)于誤差項的分布 h0 回歸模型的誤差項分布于標(biāo)準(zhǔn)化正態(tài)分布無顯著差異 2 殘差正態(tài)性檢驗 作殘差的PP或QQ概率圖 圖中的點圍繞在直線 0值 的周圍 H0 模型的誤差項分布與標(biāo)準(zhǔn)正態(tài)分布無顯著差異 由下表可知 由于sig分別為0 829和0 969均大于顯著性水平0 05 故說明模型的誤差項與標(biāo)準(zhǔn)正態(tài)分布無顯著差異 亦即 誤差項分布滿足高斯馬爾科夫假設(shè) 2 誤差項不存在序列相關(guān) 因變量Y取值相互獨立 即殘差間相互獨立 不存在自相關(guān) 否則應(yīng)當(dāng)采用自回歸模型來分析 Y取值相互獨立用的是殘差間相互獨立的檢驗方法 如圖所示 我們使用線性回歸過程中的DW檢驗 DW值Durbin Watson檢驗的參數(shù)D的取值范圍是0 D 4 與2越接近表示殘差與自變量越獨立 D W值等于0 452偏離2 說明存在序列相關(guān) 3 誤差項與解釋變量不能存在相關(guān)性檢驗方法 spearman等級相關(guān) 標(biāo)準(zhǔn)化殘差與標(biāo)準(zhǔn)化預(yù)測值 H0 總體中模型的解釋變量與誤差項顯著不相關(guān) 根據(jù)下表由于sig值0 995 0 994 0978均大于0 05 故原假設(shè)H0 即總體中模型的解釋變量與誤差項顯著不相關(guān) 4 解釋變量間不能存在共線性 多重共線的診斷 一般用VIF值來診斷多重共線 方差膨脹因子 VarianceInflationFactors 簡記作VIF 刻畫了相比多重共線性不存在時回歸系數(shù)估計的方差增大了多少 VIF越大說明多重共線性問題越嚴(yán)重 從方差膨脹因子 VIF 輸出結(jié)果來看 值為16 938大于10 說明存在多重共線問題 下表的第七列表明 變量教育支出和人均使用面積的容差都為0 059 都較小 即其他自變量共線性太強 模型對樣本的代表性 對總體的代表性和結(jié)構(gòu) 第一個表格輸出的是模型擬合優(yōu)度 為0 863 調(diào)整后的擬合優(yōu)度為0 836 決定系數(shù)R2即相應(yīng)的相關(guān)系數(shù)的平方 用R2表示 反映應(yīng)變量y的全部變異中能夠通過回歸關(guān)系被自變量解釋的比例 R2越接近1越好 多元回歸時 決定系數(shù)缺乏可靠性 此時可參考調(diào)整的決定系數(shù)R2 第二個是方差分析 可以說是模型整體的顯著性檢驗 統(tǒng)計量F 平均回歸平方和 平均殘差平方和 若F值過小說明自變量對因變量的解釋力度很差 擬合的回歸直線沒有意義 相反若概率值 SPSS中以sig表示 越小越好 F統(tǒng)計量為31 576 SIG值為0 000 故拒絕原假設(shè) 認(rèn)為模型是顯著的 第三個是模型的系數(shù) constant代表常數(shù)項 年人均消費性收入的系數(shù)為1 315 兩個自變量t檢驗的統(tǒng)計量分別0 871和1 075 SIG值分別為0 404和0 308 均大于0 05 故接受原假設(shè)