spss統(tǒng)計(jì)分析三大檢驗(yàn)回歸診斷因子分析.ppt
《spss統(tǒng)計(jì)分析三大檢驗(yàn)回歸診斷因子分析.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《spss統(tǒng)計(jì)分析三大檢驗(yàn)回歸診斷因子分析.ppt(52頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
T檢驗(yàn) 1 1比較均值 ANOVA1 2單樣本T檢驗(yàn)1 3兩獨(dú)立樣本T檢驗(yàn)1 4配對(duì)樣本T檢驗(yàn) 1 1比較均值 ANOVA 均值和標(biāo)準(zhǔn)差是描述數(shù)據(jù)資料集中趨勢(shì)和離散程度的兩個(gè)最重要的測(cè)度值 這里我們考察身高的性別中的均值比較 點(diǎn)擊 分析 A 再點(diǎn)擊 比較均值 M 選擇 均值 M 如下圖所示 選擇需要分析的對(duì)象 這里我們把 身高 作為因變量 性別 作為自變量 如下圖所示 在步驟3中 我們可以根據(jù)自己的需要 選擇要得到的相關(guān)數(shù)值 點(diǎn)擊 選項(xiàng) 把 統(tǒng)計(jì)量 中自己需要的統(tǒng)計(jì)量點(diǎn)擊到 單元格統(tǒng)計(jì)量 中 也可以在 第一層的統(tǒng)計(jì)量 中選擇 Anova表和eta A 和 線性相關(guān)檢驗(yàn) 我們這里只選擇前者 如圖所示 根據(jù)男性和女性兩種性別觀察其身高均值情況單因素方差分析 原假設(shè)H0 總體中男性和女性在身高無(wú)顯著差異 即所有總體的均值都相等 由于sig 0 110大于0 05 就接受H0 認(rèn)為兩組身高無(wú)顯著差異 1 2單樣本T檢驗(yàn) 單樣本T檢驗(yàn) 主要用于檢驗(yàn)單個(gè)變量的均值與指定的檢驗(yàn)值之間是否存在顯著性差異 再者 樣本均值與總體均值之間的差異顯著性檢驗(yàn) 也屬于單樣本T檢驗(yàn) 以耐電壓值的平均值與500之間的差異顯著性的檢驗(yàn)問題為例 點(diǎn)擊 分析 A 選擇 比較均值 M 點(diǎn)擊 單樣本T檢驗(yàn) S 如圖所示 將 耐電壓值 放到 檢驗(yàn)變量 T 中 我們?cè)谶@里將 檢驗(yàn)值 設(shè)為 500 如圖所示 點(diǎn)擊 選項(xiàng) O 我們會(huì)發(fā)現(xiàn) 置信區(qū)間百分比 C 的默認(rèn)值為 0 95 我們這里選擇默認(rèn)值 通過結(jié)果我們可以看出 單個(gè)樣本統(tǒng)計(jì)量 包括檢驗(yàn)的總體均值 304 68 標(biāo)準(zhǔn)差 224 18 以及t統(tǒng)計(jì)量 3 896 等 本例的雙側(cè)Sig值為0 000 0 05 因此認(rèn)為在0 05的顯著性水平下 拒絕虛無(wú)假設(shè) 接受對(duì)立假設(shè) 即耐電壓值與500存在顯著性差異 1 3獨(dú)立樣本t檢驗(yàn) 兩獨(dú)立樣本t檢驗(yàn)的目的是利用來自兩個(gè)總體的獨(dú)立樣本 推斷兩個(gè)總體的均值是否存在顯著差異 首先進(jìn)行婚姻狀況 已婚 未婚 兩個(gè)總體方差同質(zhì)性檢驗(yàn) 原假設(shè) 檢驗(yàn)假設(shè) H0 已婚 未婚兩個(gè)總體方差具有同質(zhì)性 1 利用F檢驗(yàn)判斷兩總體的方差是否相等 利用t檢驗(yàn)判斷兩總體均值是否存在顯著差異 考察F檢驗(yàn) 由0 865大于0 05 接受原假設(shè) 即在0 05顯著水平下 樣本數(shù)據(jù)顯示 已婚 未婚兩個(gè)總體方差具有同質(zhì)性 滿足均值檢驗(yàn)的前提要求 考察T檢驗(yàn) 原假設(shè)H0 已婚 未婚兩個(gè)總體在家庭收入上無(wú)顯著差異 由于SIG值0 566大于0 05 接受原假設(shè) 即在0 05顯著水平上 樣本數(shù)據(jù)顯示 婚姻狀況兩個(gè)總體在家庭收入上無(wú)顯著差異 1 4配對(duì)樣本T檢驗(yàn) 兩配對(duì)樣本t檢驗(yàn)的目的是利用來自兩個(gè)總體的配對(duì)樣本 推斷兩個(gè)總體的均值是否存在顯著差異 和獨(dú)立樣本不同的是這兩個(gè)整體是有聯(lián)系的 其檢驗(yàn)思路就是做差值 轉(zhuǎn)化為單樣本t檢驗(yàn) 最后轉(zhuǎn)化為差值序列 通過看總體均值是否與0有顯著差異做檢驗(yàn) 找到分析 比較均值 配對(duì)樣本T檢驗(yàn) 將其單擊打開 需要從原變量中選擇成對(duì)變量進(jìn)行配對(duì) 如下圖所示 根據(jù)成對(duì)的變量自定義進(jìn)行選擇配對(duì) 單擊選項(xiàng) 打開的是置信區(qū)間百分比 默認(rèn)的是95 缺失值的處理方法用第一種 第一個(gè)表格是數(shù)據(jù)的基本描述 第二個(gè)是數(shù)據(jù)前后變化的相關(guān)系數(shù) 那個(gè)概率P值是相關(guān)系數(shù)的概率值 概率大于顯著性水平0 05 則說明數(shù)據(jù)變化前后沒有顯著的線性變化 線性相關(guān)程度較弱 第三個(gè)表格是數(shù)據(jù)相減后與0的比較 通過概率值為0 小于顯著性水平0 05 則拒絕原假設(shè) 相減的差值與0有較大差別 則表明數(shù)據(jù)變化前后有顯著的變化 卡方檢驗(yàn) 非參數(shù)檢驗(yàn) 卡方檢驗(yàn)是用來判斷樣本是否來自一種總體的檢驗(yàn)方法 就是根據(jù)樣本的頻率來推斷總體的分布是否具有顯著差異 1 1變量獨(dú)立性1 2總體同質(zhì)性 1 1變量獨(dú)立性 兩種特征是否在總體分布獨(dú)立 先看到的第一個(gè)表格就是交叉表 婚姻狀況為行 住房滿意為列 變量獨(dú)立性檢驗(yàn) 原假設(shè)H0 婚姻狀況與住房滿意度相互獨(dú)立 總體中婚姻狀況與住房滿意度無(wú)顯著影響 由于SIG值均大于0 05 故接受原假設(shè) 即在0 05顯著水平上 婚姻狀況與住房滿意度無(wú)顯著影響影響關(guān)系 1 2總體同質(zhì)性檢驗(yàn) 原假設(shè) H0 婚姻狀況總體在住房滿意度上無(wú)顯著差異 H1 婚姻狀況總體在住房滿意度上存在顯著差異 根據(jù)左表 由0 268 0 296 0 268均大于0 05 故接受原假設(shè) 即在0 05顯著水平下婚姻狀況在住房滿意度上無(wú)顯著差異 F檢驗(yàn) F檢驗(yàn)在方差分析中的應(yīng)用F檢驗(yàn)在回歸模型顯著性中的應(yīng)用 F檢驗(yàn)在方差分析中的應(yīng)用方差分析 通過分析單個(gè)或多個(gè)因素是否在不同水平樣本下的均值存在顯著性差異 單因素方差分析 用來研究一個(gè)因素的不同水平是否對(duì)觀測(cè)變量產(chǎn)生了顯著影響 即檢驗(yàn)由單一因素影響的一個(gè) 或幾個(gè)相互獨(dú)立的 因變量在因素各水平分組的均值之間的差異是否均有統(tǒng)計(jì)意義 首先剖析觀察變量的方差 SST 總離差平方和 SSA 組間 SSE 組內(nèi) SSA占比較大即觀察變量的變動(dòng)主要是由因素的不同水平引起的 可有因素的變動(dòng)來解釋 利用假設(shè)檢驗(yàn)推斷因素的不同水平是否對(duì)觀測(cè)變量產(chǎn)生顯著影響 原假設(shè)H0是因素不同水平對(duì)觀察變量不存在顯著影響 采用的檢驗(yàn)統(tǒng)計(jì)量是F統(tǒng)計(jì)量 不同的地區(qū)可能是導(dǎo)致廣告銷售額不同 本例中 地區(qū)是因素 其中有18個(gè)不同水平 廣告銷售額是因變量 觀測(cè)變量 這里的單因素方差分析主要研究在地區(qū)這一單一因素下 不同地區(qū)來源的廣告銷售額測(cè)度平均值是否相同 即進(jìn)行如下假設(shè)檢驗(yàn) H0 不同地區(qū)對(duì)廣告銷售額均值無(wú)顯著性影響H1 不同地區(qū)對(duì)廣告銷售額均值存在顯著性影響 實(shí)例結(jié)果及分析 方差齊性檢驗(yàn) Levene統(tǒng)計(jì)量等于2 881 由于P值0 078大于0 05 故認(rèn)為數(shù)據(jù)的方差是相同的 滿足方差分析的前提條件 單因素方差分析表 第一列是方差來源 包括組間離差平方和 組內(nèi)和總數(shù) 第二列勢(shì)離差平方和 第三列是自由度df 第四列均方 是第二三列之比 第五列是F值32 66 組間均方與組內(nèi)均方之比 第六列是F值對(duì)應(yīng)的概率P值 其值等于0 000 由于概率P值小于0 05 故拒絕原假設(shè) 接受對(duì)立假設(shè) 認(rèn)為不同地區(qū)對(duì)銷售額測(cè)度平均值存在顯著性影響 F檢驗(yàn)在回歸模型顯著性中的應(yīng)用實(shí)例分析 人均可支配收入和人均消費(fèi)性支出 利用回歸分析來分析人均可支配收入和人均消費(fèi)性支出的關(guān)系 建立回歸模型 人均消費(fèi)性支出 f 人均可支配收入 首先繪制兩組變量的散點(diǎn) 圖形顯示呈線性關(guān)系 可建立一元線性回歸模型 expenditure b0 b1 incomei ei 模型匯總即對(duì)方程擬合情況的描述 R方就是自變量所能解釋的方差在總方差中所占的百分比 值越大說明模型的效果越好 案例計(jì)算的回歸模型中R方等于0 994 模型擬合效果較好 方差分析表是對(duì)回歸模型進(jìn)行方差分析的檢驗(yàn)結(jié)果 主要用于分析整體模型的顯著性 可以看到方差分析結(jié)果中F統(tǒng)計(jì)量等于4123 概率p 0 000小于顯著性水平0 05 所以該模型是有統(tǒng)計(jì)學(xué)意義的 人均可支配收入與人均消費(fèi)性支出之間的線性關(guān)系是顯著的 回歸系數(shù)表列出來本案例進(jìn)行的醫(yī)院回歸模型常數(shù)項(xiàng) 回歸系數(shù)的估計(jì)值和檢驗(yàn)的結(jié)果 可見b0 158 512 b1 0 756 故回歸方程如下 年人均消費(fèi)性支出 158 512 0 756 年人均可支配收入 即人均可支配收入每增加一個(gè)單位 年人均消費(fèi)性支出增加0 756個(gè)單位 因子分析 主成分分析的內(nèi)在原理和過程 方法概述 因子分析法就是從研究變量?jī)?nèi)部相關(guān)的依賴關(guān)系出發(fā) 把一些具有錯(cuò)綜復(fù)雜關(guān)系的變量歸結(jié)為少數(shù)幾個(gè)綜合因子的一種多變量統(tǒng)計(jì)分析方法 基本思想 對(duì)原始的數(shù)據(jù)進(jìn)行分類歸并 將相關(guān)比較密切的變量分別歸類 歸出多個(gè)綜合指標(biāo) 這些綜合指標(biāo)互不相關(guān) 即它們所綜合的信息互相不重疊 這些綜合指標(biāo)就稱為因子或公共因子 就能相對(duì)容易地以較少的幾個(gè)因子反映原資料的大部分信息 因子分析法的核心是對(duì)若干綜合指標(biāo)進(jìn)行因子分析并提取公共因子 再以每個(gè)因子的方差貢獻(xiàn)率作為權(quán)數(shù)與該因子的得分乘數(shù)之和構(gòu)造得分函數(shù) 因子分析的計(jì)算過程 1 將原始數(shù)據(jù)標(biāo)準(zhǔn)化 以消除變量間在數(shù)量級(jí)和量綱上的不同 2 求標(biāo)準(zhǔn)化數(shù)據(jù)的相關(guān)矩陣3 求相關(guān)矩陣的特征值和特征向量4 計(jì)算方差貢獻(xiàn)率與累計(jì)方差貢獻(xiàn)率5 確定因子 設(shè)F1 F2 Fp個(gè)因子 其中前m個(gè)因子包含的數(shù)據(jù)信息總量 即其累計(jì)貢獻(xiàn)率 不低于85 時(shí) 可取前m個(gè)因子來反映原評(píng)價(jià)指標(biāo) 6 因子旋轉(zhuǎn) 若所得的m個(gè)因子無(wú)法確定或其實(shí)際意義不是很明顯 這時(shí)需將因子進(jìn)行旋轉(zhuǎn)以獲得較為明顯的實(shí)際含義 7 用原指標(biāo)的線性組合來求各因子得分8 綜合得分 通常以各因子的方差貢獻(xiàn)率為權(quán) 由各因子的線性組合得到綜合評(píng)價(jià)指標(biāo)函數(shù) 實(shí)例分析 全國(guó)各地區(qū)不同所有制單位平均收入排名 下圖是全國(guó)各地區(qū)不同所有制單位平均收入情況 具體包括國(guó)有經(jīng)濟(jì)單位 集體經(jīng)濟(jì)單位 聯(lián)營(yíng)經(jīng)濟(jì)單位等7個(gè)部分 利用主成分分析探討各地區(qū)按所有制類別分類的排名 進(jìn)行因子分析前 可以計(jì)算相關(guān)系數(shù)矩陣 巴特李特球度檢驗(yàn)和KMO檢驗(yàn)等方法來檢驗(yàn)候選數(shù)據(jù)是否適合采用因子分析 實(shí)例操作略 直接看實(shí)例結(jié)果及分析 描述性統(tǒng)計(jì)表顯示了國(guó)有經(jīng)濟(jì)單位 集體經(jīng)濟(jì)單位等七個(gè)指標(biāo)的描述統(tǒng)計(jì)量 因子分析共同度顯示了所有變量的共同度數(shù)據(jù) 第二列是初始解 對(duì)原有七個(gè)變量如采用主成分分析法提取所有特征根 那么原有變量的所有方差都可被解釋 變量的共同度均為1 原有變量標(biāo)準(zhǔn)化后的方差為1 因子個(gè)數(shù)小于原有變量的個(gè)數(shù)才是因子分析 所以不能提取全部 第三列列出來按指定條件提取特征根時(shí)的共同度 所有變量的絕大部分信息可被因子解釋 變量信息丟失較少 因此本次因子提取的總體效果理想 上圖為因子分析的總方差解釋 是相關(guān)系數(shù)矩陣的特征值 方差貢獻(xiàn)率及累計(jì)方差貢獻(xiàn)率的計(jì)算結(jié)果 第一列是因子編號(hào) 后三列組成一組 第一組數(shù)據(jù)項(xiàng)描述了初始因子解的情況 可以看到 第一個(gè)因子的特征根值為5 502 解釋了原有7個(gè)變量總方差的78 前三個(gè)因子的累計(jì)方差貢獻(xiàn)率為92 141 說明前三個(gè)公因子基本包含了全部變量的主要信息 因此選擇前三個(gè)因子為主因子即可 同時(shí) 被提取的載荷平方和旋轉(zhuǎn)和的平方載荷數(shù)據(jù)組列出了因子提取后和旋轉(zhuǎn)后的因子方差解釋情況 因子碎石圖 橫坐標(biāo)為因子數(shù)目 縱坐標(biāo)為特征值 可以看到 第一個(gè)因子的特征值很高 對(duì)解釋原有變量的貢獻(xiàn)最大 第三個(gè)以后的因子特征根都較小 說明他們對(duì)解釋原有變量的貢獻(xiàn)很小 該表顯示了旋轉(zhuǎn)錢的因子載荷矩陣 是因子分析的核心內(nèi)容 通過過載荷系數(shù)大小可以分析不同公共因子所反映的主要指標(biāo)的區(qū)別 少部分指標(biāo)解釋能力較差 采用因子旋轉(zhuǎn)方法使得因子載荷系數(shù)向0和1兩極分化 是大的載荷更大 小的更小 旋轉(zhuǎn)后的各個(gè)因子的含義更加突出 每個(gè)公因子都有反映幾個(gè)方面的變動(dòng)情況 第一個(gè)公因子反映交大載荷的有外商 國(guó)有 港澳臺(tái) 股份制 集體經(jīng)濟(jì)單位 第二個(gè)有聯(lián)營(yíng)經(jīng)濟(jì)單位 第三個(gè)則是其他經(jīng)濟(jì)單位 該表列出來采用回歸法估計(jì)得因子得分系數(shù) 根據(jù)表中的內(nèi)容可寫出因子得分系數(shù) 在利用原數(shù)據(jù)文件增加的三個(gè)變量 乘以對(duì)應(yīng)的方差貢獻(xiàn)率權(quán)重 加總得到綜合評(píng)價(jià)得分 回歸分析 五條假設(shè) 系數(shù)解讀 零均值假定 隨機(jī)誤差項(xiàng) 均值為0 異方差 等方差假定 i方差同為 2且 為常數(shù)正態(tài)性假定 隨機(jī)誤差項(xiàng) 服從均值為0 方差為 2的正態(tài)分布獨(dú)立性假定 隨機(jī)誤差項(xiàng) 不存在序列相關(guān) 自相關(guān) 非共線性假定 解釋變量間互不相關(guān) 且隨機(jī)誤差項(xiàng) 與解釋變量間也不相關(guān) 多重共線 回歸分析的步驟 1 觀察變量間是否有線性趨勢(shì) 作散點(diǎn)圖或線性相關(guān)分析 2 考察因變量的正態(tài)性 3 作直線回歸 4 回歸模型顯著性和變量的顯著性檢驗(yàn) 5 殘差分析 獨(dú)立性檢驗(yàn) 正態(tài)性檢驗(yàn) 方差齊性檢驗(yàn) 6 異常值與共線性診斷 線性趨勢(shì) 自變量與因變量之間呈線性關(guān)系 可以以年人均可支配收入作為Y軸 人均使用面積和教育支出作為X軸 通過繪制散點(diǎn)圖來加以判斷是不是滿足此要求 1 是否存在異方差先看pp圖再看ks檢驗(yàn) 1 由pp圖 殘差圖具有一定規(guī)律 分布在對(duì)角線左右 初步判斷模型的誤差項(xiàng)符合高斯馬爾科夫前提關(guān)于誤差項(xiàng)的分布 h0 回歸模型的誤差項(xiàng)分布于標(biāo)準(zhǔn)化正態(tài)分布無(wú)顯著差異 2 殘差正態(tài)性檢驗(yàn) 作殘差的PP或QQ概率圖 圖中的點(diǎn)圍繞在直線 0值 的周圍 H0 模型的誤差項(xiàng)分布與標(biāo)準(zhǔn)正態(tài)分布無(wú)顯著差異 由下表可知 由于sig分別為0 829和0 969均大于顯著性水平0 05 故說明模型的誤差項(xiàng)與標(biāo)準(zhǔn)正態(tài)分布無(wú)顯著差異 亦即 誤差項(xiàng)分布滿足高斯馬爾科夫假設(shè) 2 誤差項(xiàng)不存在序列相關(guān) 因變量Y取值相互獨(dú)立 即殘差間相互獨(dú)立 不存在自相關(guān) 否則應(yīng)當(dāng)采用自回歸模型來分析 Y取值相互獨(dú)立用的是殘差間相互獨(dú)立的檢驗(yàn)方法 如圖所示 我們使用線性回歸過程中的DW檢驗(yàn) DW值Durbin Watson檢驗(yàn)的參數(shù)D的取值范圍是0 D 4 與2越接近表示殘差與自變量越獨(dú)立 D W值等于0 452偏離2 說明存在序列相關(guān) 3 誤差項(xiàng)與解釋變量不能存在相關(guān)性檢驗(yàn)方法 spearman等級(jí)相關(guān) 標(biāo)準(zhǔn)化殘差與標(biāo)準(zhǔn)化預(yù)測(cè)值 H0 總體中模型的解釋變量與誤差項(xiàng)顯著不相關(guān) 根據(jù)下表由于sig值0 995 0 994 0978均大于0 05 故原假設(shè)H0 即總體中模型的解釋變量與誤差項(xiàng)顯著不相關(guān) 4 解釋變量間不能存在共線性 多重共線的診斷 一般用VIF值來診斷多重共線 方差膨脹因子 VarianceInflationFactors 簡(jiǎn)記作VIF 刻畫了相比多重共線性不存在時(shí)回歸系數(shù)估計(jì)的方差增大了多少 VIF越大說明多重共線性問題越嚴(yán)重 從方差膨脹因子 VIF 輸出結(jié)果來看 值為16 938大于10 說明存在多重共線問題 下表的第七列表明 變量教育支出和人均使用面積的容差都為0 059 都較小 即其他自變量共線性太強(qiáng) 模型對(duì)樣本的代表性 對(duì)總體的代表性和結(jié)構(gòu) 第一個(gè)表格輸出的是模型擬合優(yōu)度 為0 863 調(diào)整后的擬合優(yōu)度為0 836 決定系數(shù)R2即相應(yīng)的相關(guān)系數(shù)的平方 用R2表示 反映應(yīng)變量y的全部變異中能夠通過回歸關(guān)系被自變量解釋的比例 R2越接近1越好 多元回歸時(shí) 決定系數(shù)缺乏可靠性 此時(shí)可參考調(diào)整的決定系數(shù)R2 第二個(gè)是方差分析 可以說是模型整體的顯著性檢驗(yàn) 統(tǒng)計(jì)量F 平均回歸平方和 平均殘差平方和 若F值過小說明自變量對(duì)因變量的解釋力度很差 擬合的回歸直線沒有意義 相反若概率值 SPSS中以sig表示 越小越好 F統(tǒng)計(jì)量為31 576 SIG值為0 000 故拒絕原假設(shè) 認(rèn)為模型是顯著的 第三個(gè)是模型的系數(shù) constant代表常數(shù)項(xiàng) 年人均消費(fèi)性收入的系數(shù)為1 315 兩個(gè)自變量t檢驗(yàn)的統(tǒng)計(jì)量分別0 871和1 075 SIG值分別為0 404和0 308 均大于0 05 故接受原假設(shè)- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
14.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁(yè)顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- spss 統(tǒng)計(jì)分析 檢驗(yàn) 回歸 診斷 因子分析
鏈接地址:http://m.appdesigncorp.com/p-6414493.html