《典型相關系數(shù)》PPT課件.ppt
《《典型相關系數(shù)》PPT課件.ppt》由會員分享,可在線閱讀,更多相關《《典型相關系數(shù)》PPT課件.ppt(90頁珍藏版)》請在裝配圖網(wǎng)上搜索。
第七章典型相關與對應分析 7 1典型相關分析7 2對應分析 7 1典型相關分析7 1 1典型相關分析的概念與步驟7 1 2用INSIGHT模塊實現(xiàn)典型相關分析7 1 3用 分析家 實現(xiàn)典型相關分析7 1 4用CANCORR過程實現(xiàn)典型相關分析 7 1 1典型相關分析的概念與步驟1 典型相關分析的基本思想典型相關分析采用主成分的思想濃縮信息 根據(jù)變量間的相關關系 尋找少數(shù)幾對綜合變量 實際觀測變量的線性組合 用它們替代原始觀測變量 從而將二組變量的關系集中到少數(shù)幾對綜合變量的關系上 通過對這些綜合變量之間相關性的分析 回答兩組原始變量間相關性的問題 除了要求所提取的綜合變量所含的信息量盡可能大以外 提取時還要求第一對綜合變量間的相關性最大 第二對次之 依次類推 這些綜合變量被稱為典型變量 或典則變量 第1對典型變量間的相關系數(shù)則被稱為第1典型相關系數(shù) 典型相關系數(shù)能簡單 完整地描述兩組變量間關系的指標 當兩個變量組均只有一個變量時 典型相關系數(shù)即為簡單相關系數(shù) 當其中的一組只有一個變量時 典型相關系數(shù)即為復相關系數(shù) 2 典型相關系數(shù)與典型相關變量設X X1 X2 Xp Y Y1 Y2 Yq 是兩個隨機向量 利用主成分思想尋找第i對典型相關變量 Ui Vi Ui ai1X1 ai2X2 aipXp ai XVi bi1Y1 bi2Y2 biqYq bi Yi 1 2 m min p q 稱ai 和bi 為 第i對 典型變量系數(shù)或典型權重 記第一對典型相關變量間的典型相關系數(shù)為 CanR1 Corr U1 V1 使U1與V1間最大相關 第二對典型相關變量間的典型相關系數(shù)為 CanR2 Corr U2 V2 與U1 V1無關 使U2與V2間最大相關 第m對典型相關變量間的典型相關系數(shù)為 CanRm Corr Um Vm 與U1 V1 Um 1 Vm 1無關 Um與Vm間最大相關 3 典型相關變量的性質各對典型相關變量所包括的相關信息互不交叉 且滿足 1 U1 U2 Um互不相關 V1 V2 Vm互不相關 即其相關系數(shù)為 2 同一對典型相關變量Ui和Vi之間的相關系數(shù)為CanRi 不同對的典型相關變量之間互不相關 即 3 Ui和Vi的均值為0 方差為1 i 1 m 4 1 CanR1 CanR2 CanRm 0 4 典型相關系數(shù)的求解步驟1 求X Y變量組的相關陣R 2 求矩陣A R11 1R12 R22 1R21和B R22 1R21 R11 1R12 可以證明A B有相同的非零特征值 3 求A或B的特征值 i與CanRi A或B的特征值即為典型相關系數(shù)的平方 i CanRi 2 i 1 m 4 求A B關于 i的特征向量 設ai為A關于 i的特征向量 bi為B關于 i的特征向量 則ai 和bi 為 第i對 典型變量系數(shù) 即第i對典型相關變量 Ui Vi Ui ai X ai1X1 ai2X2 aipXp Vi bi Y bi1Y1 bi2Y2 biqYq i 1 2 m min p q 其中X Y 為原變量組的標準化 5 特征根特征根 eigenvalue 是方差分析和多元檢驗的基礎 特征根與典型相關系數(shù)之間的數(shù)量關系為 上式可以理解為第i對典型變量表示觀測變量總方差作用的指標 它的值越大說明表示作用越大 6 典型相關系數(shù)的標準誤7 典型相關系數(shù)的假設檢驗典型相關系數(shù)的假設檢驗包括對全部總體典型相關系數(shù)的檢驗和對部分總體典型相關系數(shù)的檢驗 對數(shù)據(jù)的要求 1 兩個變量組均應服從多維正態(tài)分布 X Y Np q 2 2 n p q 1 全部總體典型相關系數(shù)為0H0 CanRi 0 i 1 mH1 至少有一個CanRi 0檢驗的似然比統(tǒng)計量為對于充分大的n 當H0成立時 統(tǒng)計量近似服從自由度為pq的 2分布 2 部分總體典型相關系數(shù)為0僅對較小的典型相關作檢驗 H0 CanRi 0 i s m 2 s mH1 至少有一個CanRi 0其檢驗的統(tǒng)計量為對于充分大的n 當H0成立時 統(tǒng)計量近似服從自由度為 p k q k 的 2分布 7 1 2用INSIGHT模塊實現(xiàn)典型相關分析1 實例 例7 1 1985年中國28省市城市男生 19 22歲 的調查數(shù)據(jù) 見表7 1 其中6項形態(tài)指標 身高 cm 坐高 體重 kg 胸圍 肩寬 盆骨寬 分別記為x1 x2 x6 5項機能指標 脈搏 次 分 收縮壓 mmHg 舒張壓 變音 舒張壓 消音 肺活量 ml 分別記為y1 y2 y5 表7 1城市男生 19 22歲 形態(tài)與機能調查數(shù)據(jù)設表中數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Mylib xtyjn中 試分析形態(tài)指標和機能指標這兩組變量間的相關性 2 分析設置在INSIGHT模塊中打開數(shù)據(jù)集Mylib xtyjn 1 選擇菜單 Analyze Multivariate YX 多元分析 打開 Multivariate YX 對話框 2 將6項形態(tài)指標 x1至x6選為X變量 將5項機能指標 y1至y5選為Y變量 如圖7 1左所示 3 單擊 Output 按鈕 在打開的對話框中選中 CanonicalCorrelationAnalysis 典型相關分析 復選框 單擊下面的 CanonicalCorrelationOptions 典型相關選項 按鈕 打開 CanonicalCorrelationOptions 對話框 并按下圖右所示設置 4 三次單擊 OK 按鈕 得到分析結果 3 結果分析 1 典型相關系數(shù)第1典型相關系數(shù)為0 939573 校正值為0 908276 標準誤差為0 026207 典型相關系數(shù)的平方為0 882797 第2典型相關系數(shù)為0 877842 校正值為0 842459 標準誤差為0 051294 典型相關系數(shù)的平方為0 770606 如圖所示 前兩個典型相關系數(shù)比形態(tài)指標和機能指標兩組間的任何一個相關系數(shù)都大 2 典型變量所解釋的變異第二部分是的5個特征根 Eigenvalues 包括 特征根 相鄰兩個特征根之差 特征根所占方差信息量的比例和累積方差信息量的比例 從中可以看出 前兩對典型變量所能解釋的變異占總變異 方差 的91 18 如圖7 4所示 其它三個典型相關變量的作用很小 一共只解釋了總變異的9 可以不予考慮 3 典型相關系數(shù)的檢驗用似然比法檢驗典型相關系數(shù)與零的差別是否顯著 其原假設為小于此對典型變量典型相關系數(shù)的所有典型相關系數(shù)都為0 其p值依次為0 0010 0 0509和0 5089等等 如圖7 5所示 說明前兩對典型相關系數(shù)基本具有顯著意義 在 0 0509的顯著水平下 因此 兩組變量相關性的研究可轉化為研究前兩對典型相關變量的相關性 4 典型相關結構典型相關結構 下圖 分別是各組原始變量與典型變量兩兩之間的相關系數(shù)矩陣 從相關系數(shù)判斷 形態(tài)指標中除x5 0 0514 x6 0 2433 外各變量與第一典型變量間的相關性都比較高 機能指標中除y2 0 0975 外各變量與第一典型變量間的相關性也都比較高 x5與第二典型變量間的相關性比較高 y2與第二典型變量間的相關性比較高 y1與前兩個典型變量的相關系數(shù)為負值 說明 第一對典型變量對肩寬x5和收縮壓y2的解釋作用不大 另外 從形態(tài)指標組的變量和機能指標組的典型變量之間 以及機能指標組的變量和形態(tài)指標組的典型變量之間的相關系數(shù)可見 各組變量與前兩對典型變量之間均有較強的相關 5 標準化變量的典型相關變量的系數(shù)輸出結果中還給出標準化變量的典型變量系數(shù) 如圖所示 來自機能指標的第一典型變量CY1為 原始變量的右上角帶 表示為標準化變量 CY1 0 071672y1 0 789642y2 0 567178y3 0 508332y4 0 533496y5 容易看出 CY1主要代表了舒張壓變音 舒張壓消音 肺活量等指標 來自形態(tài)指標的第一典型變量CX1為 CX1 0 4287x1 0 09696x2 0 16210 x3 0 93745x4 0 23498x5 0 18696x6 易知 CX1主要代表了胸圍 身高和肩寬等指標 關于第二典型變量有 CY2 0 026533y1 1 213436y2 0 535038y3 0 186048y4 0 455870y5 CX2 0 70270 x1 0 39985x2 0 84359x3 0 99063x4 0 06829x5 0 48310 x6 可見 CY2代表了收縮壓和肺活量等指標 CX2代表了身高 體重 盆骨寬等指標 6 典型冗余分析典型冗余分析 canonicalredundancyanalysis 表明 兩對典型變量仍不能全面預測配對的那組變量 來自形態(tài)指標的標準方差被對方兩個典型變量 CY1 CY2 解釋的累積方差比例為55 86 來自機能指標的標準方差被對方兩個典型變量 CX1 CX2 解釋的累積方差比例為44 61 如圖所示 7 1 3用 分析家 實現(xiàn)典型相關分析1 實例 例7 2 某康復俱樂部對20名中年人測量了3項生理指標 體重 weight 腰圍 waist 脈搏 pulse 和3項運動指標 引體向上 chins 起坐次數(shù) situps 跳躍次數(shù) jumps 其數(shù)據(jù)列于表7 2中 表7 2某康復俱樂部測量的生理指標和運動指標設表中數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Mylib slzb中 試分析生理指標和運動指標這兩組變量間的相關性 2 分析設置1 在 分析家 中打開數(shù)據(jù)集Mylib slzb 2 選擇菜單 Statistics 統(tǒng)計 Multivariate 多元分析 CanonicalCorrelation 典型相關分析 打開 CanonicalCorrelation 對話框 3 在對話框中將生理指標選為Set1 運動指標選為Set2 如圖所示 4 單擊 Statistics 統(tǒng)計 按鈕 打開 CanonicalCorrelation Statistics 對話框 選中 Canonicalredundancystatistics 復選框 并選擇3個典型變量 如圖所示 兩次單擊 OK 按鈕 得到計算結果 3 結果分析 1 典型相關系數(shù)及顯著性檢驗第一部分的4列依次是 典型相關系數(shù) 校正的典型相關系數(shù) 近似的標準誤以及典型相關系數(shù)的平方 從圖7 10中可以看出 本例提取了3個典型相關系數(shù) 第一個典型相關系數(shù)CanR1 0 795608 其校正值為0 754056 標準誤為0 084197 CanR12 0 632992 第一典型相關系數(shù)表示的是第一對典型相關變量之間的相關性 第二個典型相關系數(shù)為0 200556 第三個為0 072570 第二部分是特征根以及相應的統(tǒng)計量 如圖所示 可以看出 第一對典型變量所能解釋的變異已占總變異的97 34 其它兩個典型相關變量的作用很小 一共只解釋了總變異的3 可以不予考慮 右邊4列給出對典型相關系數(shù)的檢驗 結果表明 第一行的F值2 05 p值為0 0635 在0 07的檢驗水平下 應拒絕原假設 認為第一相關系數(shù)以及比它小的兩個相關系數(shù)不為0 后兩行檢驗的p值都遠大于顯著水平0 05 故可以認為只有第一個典型相關系數(shù)不為0 第三部分輸出的是用四種多元統(tǒng)計方法進行的所有典型相關系數(shù)均為0的F檢驗結果 如圖所示 四種方法中一般參照Wilks Lambda檢驗的結果 本例中的Wilks Lambda檢驗結果與前述完全一致 表明至少有一個典型相關系數(shù)在 0 0635的顯著水平下非0 2 典型變量系數(shù)與典型結構第四部分給出的是用原始變量表達的典型變量系數(shù) 典型權重 如圖所示 因6個變量沒有使用相同單位進行測量 因此考慮分析標準化后的系數(shù) 第五部分給出的是用標準化變量 對原始變量標準化 表達的典型變量系數(shù) 如圖所示 V1 0 7754weight 1 5793waist 0 0591pulse 它近似地是waist 和weight 的加權差 在waist 上權重更大些 V1在pulse 上系數(shù)近似為0 W1 0 3495chins 1 0540situps 0 7164jumps 它在situps 上的系數(shù)最大 這一對典型變量主要是反映waist 和situps 的負相關關系 第六部分為典型結構 分別是各組原始變量與典型變量兩兩之間的相關系數(shù)矩陣 如圖所示 可以看出 在原始變量與本組的典型變量的相關關系 典型載荷 中 生理指標的典型變量V1與腰圍waist的相關系數(shù)最大 0 9254 說明這個典型變量主要反映人的肥胖程度 運動指標的典型變量W1與起坐次數(shù)situps和引體向上次數(shù)chins有較大的負相關關系 0 7276 0 8177 說明這個典型變量主要反映人不適合運動的程度 在原始變量與配對組的典型變量的相關關系 典型交叉載荷 的分析結果中 腰圍waist與運動指標的第1典型變量W1的相關性較強 這也說明了腰圍大 體形較胖 則運動能力差 起坐次數(shù)和引體向上與生理指標的第1典型變量V1呈一定的負相關系數(shù) 說明人的體形肥胖程度對這兩種運動能力有負面影響 3 典型冗余分析第七部分給出典型冗余分析的結果上圖是變量的原始方差通過它的典型變量和配對的典型變量所解釋的方差比例 下圖是變量的標準化方差通過它的典型變量和配對的典型變量所解釋的方差比例 圖中看出 生理指標通過它的第一個典型變量解釋的共享方差的比例是45 08 而被對方第一個典型變量W1解釋的方差比例為28 54 其比值28 54 45 08 0 6330恰為CanR2 運動指標通過它的第一個典型變量解釋的共享方差的比例是40 81 而被對方個典型變量V1解釋的方差比例為25 84 其比值也是0 6330 第八部分給出各原始變量和配對組的典型變量間的復相關系數(shù) MultipleCorrelations 的平方 圖7 18 即原始變量與典型變量的判定系數(shù) 如weight與第1典型變量W1的相關系數(shù)為0 4938 見圖7 15 則其復相關系數(shù)平方為0 49382 0 2438 由復相關系數(shù)的平方可看出 生理指標的第一典型變量W1對chins 0 3351 和situps 0 4233 有一定解釋能力 但對jumps 0 0167 幾乎沒有解釋能力 而來自運動指標的第一典型變量V1對waist 0 5421 有相當好的解釋能力 對weight 0 2438 較差 而對pulse 0 0701 幾乎沒有解釋能力 其中 運動指標的第一典型變量對生理指標中的腰圍指標解釋能力最強 可以說明運動對體形影響較大 加強體育鍛煉可以減肥 7 1 4用CANCORR過程實現(xiàn)典型相關分析1 CANCORR過程CANCORR過程的常用語法格式如下 PROCCANCORR WITH VAR RUN 其中PROCCANCORR語句 WITH語句是每個過程中必不可少的 其余語句可視情況使用 下面分別介紹各語句的用法和功能 1 PROCCANCORR語句 標示典型相關分析開始 可以規(guī)定輸入輸出數(shù)據(jù)集 指定分析方法和控制輸出結果的顯示等 語句中可設置的常用選項及其功能見表7 3 2 VAR語句 列出要進行典型相關分析的第一組變量 變量必須是數(shù)值型的 如果VAR語句被忽略 所有未被其他語句提到的數(shù)值型變量都將被視為第一組變量 3 WITH語句 列出要進行典型相關分析的第二組變量 變量必須是數(shù)值型的 該語句是每一個PROCCANCORR中必不可少的 表7 3常用選項及其功能 2 使用CANCORR過程 例7 3 家庭特征與家庭消費之間的關系 為了了解家庭的特征與其消費模式之間的關系 調查了70個家庭的下面兩組變量 x1 每年去餐館就餐的頻率 x2 每年外出看電影的頻率 y1 戶主的年齡 y2 家庭的年收入 y3 戶主受教育程度 試分析兩組變量之間的關系 假定變量的相關系數(shù)陣如表所示 如下代碼 利用變量的相關系數(shù)矩陣作典型相關分析 DATAjt TYPE CORR INPUTNAME 1 2 X1X2Y1 Y3 6 CARDS X11 000 800 260 670 34X20 801 000 330 590 34Y10 260 331 000 370 21Y20 670 590 371 000 35Y30 340 340 210 351 00 PROCCANCORREDF 70REDUNDANCY VARX1X2 WITHY1 Y3 RUN 說明 1 在數(shù)據(jù)集名jt后用TYPE CORR表明數(shù)據(jù)的類型為相關矩陣 而不是原始數(shù)據(jù) 2 INPUT語句中用 NAME 讀取左側的變量名 1 2 表示變量名的字符落在第1 2列上 X1X2Y1 Y4 表示各列數(shù)據(jù)所對應的變量名 6 表示讀取數(shù)據(jù)的寬度均為6列 其中相關系數(shù)占4位 其后的空格占2位 3 選擇項EDF n 1 為典型相關分析提供一個計算誤差自由度的參考值 因為該過程中沒有合適的選擇項可以將原始數(shù)據(jù)的樣本含量n準確地送入 如果忽略這一選擇項 將以缺省值n 10000作為樣本含量參與有關計算和統(tǒng)計檢驗 顯然不妥 4 選項REDUNDANCY表示輸出典型冗余分析的結果 3 結果分析 1 典型相關系數(shù)及顯著性檢驗第一部分的4列依次是 典型相關系數(shù) 校正的典型相關系數(shù) 近似的標準誤以及典型決定系數(shù) 典型相關系數(shù)的平方 從中可以看出 本例提取了2個典型相關系數(shù) 第一個典型相關系數(shù)CanR1 0 687948 其校正值為0 673671 標準誤為0 062956 CanR12 0 473272 第二個典型相關系數(shù)為0 186865 第二部分是特征根以及相應的統(tǒng)計量 從中可以看出 第一對典型變量所能解釋的變異已占總變異的96 13 另一對典型相關變量的作用很小 只解釋了總變異的3 87 可以不予考慮 右邊4列給出對典型相關系數(shù)的檢驗 具體采用似然比法 所求的似然比統(tǒng)計量近似服從F分布 第一行檢驗的是第一相關系數(shù)以及比它小的兩個相關系數(shù)是否為0 第一行的F值8 86 p值 0 0001 后一行檢驗的p值遠大于置信水平0 05 故可以認為只有第一個典型相關系數(shù)有統(tǒng)計學意義 第三部分 圖7 21 輸出的是按照多元分析的原理進行的所有典型相關系數(shù)是否為0的檢驗 四種方法中一般參照Wilks Lambda檢驗的結果 本例中4種方法的檢驗結果與前述完全一致 2 典型變量系數(shù)與典型結構第四部分 圖左 給出的是用原始變量表達的典型變量系數(shù) 考慮標準化后的系數(shù) 即第五部分 圖右 給出的典型變量和標準化變量 對原始變量標準化 間的換算公式 由于使用原始變量的相關系數(shù)陣作為輸入數(shù)據(jù) 所以這兩部分相同 來自消費模式指標的第一典型變量V1為 原始變量的右上角帶 表示為標準化變量 V1 0 7689x1 0 2721x2 它是x1 每年去餐館就餐的頻率 和x2 每年外出看電影的頻率 的加權和 在x1 上的權重更大些 來自家庭特征指標的第一典型變量W1為 W1 0 0491y1 0 8975y2 0 1900y3 它在y2 家庭的年收入 上的系數(shù)最大 這一對典型變量主要是反映x1 每年去餐館就餐的頻率 和y2 家庭的年收入 的相關關系 第六部分 圖7 24 為典型相關結構 分別是各組原始變量與典型變量兩兩之間的相關系數(shù)矩陣 可以看出 x1和x2與第1典型變量V1的相關系數(shù)皆為正值 分別為0 9866和0 8872 可見V1可以作為消費特性的指標 家庭特征指標的所有變量與第1典型變量W1的相關系數(shù)分別為 0 4211 0 9822和0 5145 可見典型變量W1主要代表了了家庭收入 V1和W1的典型相關系數(shù)為0 6879 這就說明家庭的消費與一個家庭的收入之間其關系是很密切的 第二對典型變量中V2與x2的相關系數(shù)為0 4614 可以看出V2可以作為文化消費特性的指標 第二對典型變量中W2與y1和y3之間的分別相關系數(shù)為0 8464和0 3013 可見典型變量W2主要代表了家庭成員的年齡特征和教育程度 V2和W2的相關系數(shù)為0 1869 說明文化消費與年齡和受教育程度之間有一定關系 3 典型冗余分析第七部分給出典型冗余分析的結果 圖7 25 7 26 由于本例是對相關系數(shù)矩陣作分析故兩個結果相同 兩對典型變量解釋配對變量組方差的累計比例分別為42 08 和23 157 消費指標通過它的第一個典型變量解釋的共享方差的比例是88 03 而被對方第一個典型變量W1解釋的方差比例為41 66 其比值41 66 88 03 0 4733恰為CanR2 CanonicalR Square 通過它的第二個典型變量解釋的共享方差的比例是11 97 被對方第二個典型變量W2解釋的方差比例為0 42 其比值為0 0349 家庭特征指標通過它的第一個典型變量解釋的共享方差的比例是46 89 而被對方第一個典型變量V1解釋的方差比例為22 19 通過它的第二個典型變量解釋的共享方差的比例是27 31 而被對方第二個典型變量V2解釋的方差比例為0 95 第八部分給出各原始變量和配對組的典型變量間的復相關系數(shù) MultipleCorrelations 的平方 即原始變量與典型變量的判定系數(shù) 如x1與第1典型變量W1的相關系數(shù)為0 6787 則其判定系數(shù)為0 67872 0 4607 由復相關系數(shù)的平方可看出 消費指標的典型變量V1對y2 0 4566 有一些預測能力 但對y1 0 0839 和y3 0 1253 有微弱的預測能力 而來自家庭特征指標的典型變量W1對x1 0 4607 和x2 0 3725 有較好的預測能力 7 2對應分析7 2 1對應分析的基本概念7 2 2使用CORRESP過程實現(xiàn)對應分析 7 2 1對應分析的基本概念1 對應分析的方法概述對應分析 也稱相應分析 它是尋求樣品 行 與變量 列 之間聯(lián)系的低維圖示法 其關鍵是利用一種數(shù)據(jù)變換方法 使含有n個樣品m個變量的原始數(shù)據(jù)矩陣變成另一個矩陣 并使SR Z Z 分析變量之間關系的協(xié)方差矩陣 與SQ ZZ 分析樣品之間關系的協(xié)方差矩陣 具有相同的非零特征根 它們相應的特征向量之間也有密切的關系 對協(xié)方差矩陣SR SQ進行因子分析 分別提取兩個最重要的公因子R1 R2與Q1 Q2 由于采取的是一種特殊變換方法 公因子R1與Q1在本質上是相同的 同理 R2與Q2在本質上也是相同的 故可用dim1作為R1 Q1的統(tǒng)一標志 用dim2作為R2 Q2的統(tǒng)一標志 于是可將 R1 Q1 和 R2 Q2 兩組數(shù)據(jù)點畫在由 dim2 dim2 組成的同一個直角坐標系中 這樣 便于考察變量與樣品之間的相互關系 2 對應分析的步驟設原始數(shù)據(jù)矩陣X xij nm i 1 2 n n為樣品數(shù) j 1 2 m m為變量數(shù) 1 計算過渡矩陣Z zij nm 1 其中 Xi 為第i行的合計 X j為第j列的合計 X 為全部數(shù)據(jù)的合計 2 對SR Z Z作因子分析 計算協(xié)差陣SR Z Z的特征值 又稱為慣量 1 2 m 按其累積百分比取前p個特征值 主慣量 通常p取2 并計算相應的單位特征向量u1 u2 從而得到因子載荷陣 在兩因子軸平面上作變量點圖 3 對SQ ZZ 作因子分析 對上述2個特征值計算SQ中相應的單位特征向量v1 Zu1 v2 Zu2 從而得到因子載荷陣 在上述因子平面上作樣品點圖 說明 對應分析的提出最初是為了研究兩個或多個屬性變量之間的相關關系 即用于列聯(lián)表 參見第9章 數(shù)據(jù)的分析 此時行變量的各個水平相當于各個樣品 列變量的各個水平相當于不同的變量 7 2 2使用CORRESP過程實現(xiàn)對應分析1 CORRESP過程PROCCORRESP VAR TABLES ID RUN 其中的PROCCORRESP語句 TABLES語句或者VAR語句是必須使用的 除了這兩個語句 其他語句都是可以選擇的 下面分別介紹各語句的用法和功能 1 PROCCORRESP語句標示對應分析開始 可以規(guī)定輸入輸出數(shù)據(jù)集 指定分析方法和控制輸出結果的顯示等 語句中可設置的常用選項及其功能見表7 5 2 VAR語句輸入數(shù)據(jù)為表格格式時使用 不能與TABLES同時使用 變量必須是數(shù)值型的 3 ID語句ID語句只能與VAR語句一起使用 如果使用了TABLES或者MCA選項 就不能使用該語句 該語句只能規(guī)定一個字符變量 自動用ID語句的變量值作為輸出表格列的標簽 并且保存在輸出數(shù)據(jù)集中 4 TABLES語句TABLES語句用行變量和列變量構造一個列聯(lián)表 行變量和列變量之間用逗號分隔 不可與ID和VAR語句同時使用 2 對二維列聯(lián)表數(shù)據(jù)的對應分析 例7 4 調查了三個民族的血型分布資料如表7 6所示 試作對應分析 表7 6三個民族不同血型出現(xiàn)的頻數(shù)假定上述數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Mylib xx中 1 SAS代碼對應分析的代碼如下 proccorrespdata Mylib xxout result varDZWZTJZ idType run optionsps 40 procplotdata result plotdim2 dim1 Type boxhaxis 0 2to0 3by0 1vaxis 0 1to0 3by0 1HREF 0VREF 0 run 2 主要輸出結果及其解釋1 慣量與卡方分解圖7 28的第一列為Z的奇異值 最有用的是第2列 主慣量 即矩陣SR Z Z的特征值 原始數(shù)據(jù)有4行3列 這里提取2個特征值 即可完全解釋數(shù)據(jù)的信息量 第一個特征值解釋了信息量的78 07 第二個特征值解釋了21 93 前兩個特征值的累積貢獻率已達100 以第一維度為主 自由度 變量數(shù) 1 樣品數(shù) 1 6 2 樣品點坐標 如圖7 29所示 相當于因子分析中的公因子載荷 表示 樣品 在公因子Dim1和Dim2上的坐標 其結果可表示為 血型A 0 1918Dim1 0 0706Dim2血型B 0 1283Dim1 0 0303Dim2血型O 0 1582Dim1 0 0201Dim2血型AB 0 1941Dim1 0 2528Dim2在以dim1與dim2作為橫軸與縱軸的直角坐標系內(nèi) 每個樣品就是1個點 如血型A點的坐標為 0 1918 0 0706 顯然 血型A在第3象限內(nèi) 血型B在第1象限內(nèi) 血型O在第4象限內(nèi) 血型AB在第2象限內(nèi) 3 樣品點的匯總統(tǒng)計量 如圖7 30所示 Quality為每個變量上兩個公因子貢獻率 樣品點的余弦平方值中各行數(shù)值 之和 若此值接近于1 則表明對應的樣品點所包含的信息由兩個公因子就可很好地反映出來 Mass為原始數(shù)據(jù)中各列數(shù)據(jù)之和占總合計的百分比 Inertia為每個樣品對總特征值0 03599貢獻的百分比 由此列數(shù)值可看出 A O AB三種血型貢獻的百分比比較接近 4 樣品點局部慣量貢獻 如圖7 31所示 A型血對第1公因子貢獻最大 AB型血對第2公因子貢獻最大 5 對樣品點慣量貢獻最大的坐標標號 這是各樣品的坐標對特征值貢獻最多的標志 貢獻少 中 多依次用0 1 2來表示 如圖7 32所示 6 樣品點的余弦平方值 如圖7 33所示 為每個樣品點上兩個公因子各自的貢獻率 各行數(shù)值之和應近似為1 因為用兩個公因子已經(jīng)表示所有的信息 故各行之和均為1 由各行數(shù)值可看出 除了AB型之外 其他三個血型的信息主要由第1公因子給出 而AB型的信息則主要由第2個公因子來反映 以上對樣品的統(tǒng)計又對變量作了一遍 結果如下 7 變量點坐標與變量點的匯總統(tǒng)計量 如圖所示 在以dim1與dim2作為橫軸與縱軸的直角坐標系內(nèi) 每個變量也是1個點 傣族位于第一象限中 佤族位于第二象限中 土家族位于第三象限中 4個點 變量 中任何兩點之間的歐氏距離如下 顯然 佤族與土家族之間的距離最短 傣族與佤族之間的距離最長 說明這2個民族在血型的出現(xiàn)頻率上具有較高的正相關關系 8 變量點局部慣量貢獻 如圖左所示 圖左上半部分是每個變量對公因子的貢獻率 各列數(shù)值之和為1 顯然 傣族對第1公因子貢獻最大 其他兩個民族對第2公因子貢獻較大 9 變量點的余弦平方值 如圖右所示 表示公因子對變量的貢獻率 第一公因子主要影響傣族和佤族 分別貢獻了95 28 和75 79 而第二公因子主要影響土家族 貢獻率為86 76 3 分析結果A型血對第1公因子貢獻最大 AB型血對第2公因子貢獻最大 它們的點所對應的坐標 dim1 dim2 分別為 A 0 1918 0 0706 AB 0 1941 0 2528 每個分類在坐標系中分得很開 佤族和AB型血同在第二象限 而且兩個點在Dim1上差別很小 說明兩者有聯(lián)系 而土家族和A型血同在第三象限 傣族和B型血同在第一象限 在Dim1上差別很小 如圖所示 說明 對應分析的輸出結果有很多 最主要的是看第一部分中各個維度以及各個維度解釋的百分比 樣品點及變量點的坐標 對圖形的輸出結果首先要看兩個方向的區(qū)分情況 如三個民族在第一維度上分得很開 區(qū)分很好 而血型則在第二維度上區(qū)分較好 但由于第一維度攜帶了近80 的信息量 遠大于第二維度 所以解釋以第一維度為主 還可以比較各個點在空間的分布情況 距離較近的點彼此有聯(lián)系 散點間的距離越近 說明關聯(lián)的傾向越明顯 3 類別數(shù)較多的例子 例7 5 疾病與人的基因型密切有關 而不同民族各種基因出現(xiàn)的頻率不盡相同 下面是某研究者收集到的資料 試分析各種基因頻率與民族之間的關系 各民族下面的小數(shù)是36種基因出現(xiàn)的頻率 表7 7民族各種基因出現(xiàn)的頻率 1 SAS代碼設數(shù)據(jù)文件名為mzjy 位于邏輯庫Mylib中 對應分析的代碼如下 optionsnodatenonumberps 500 proccorrespdata Mylib mzjyout result varznyh idjy run optionsps 50 procplotdata result plotdim2 dim1 jy boxhaxis 1 1to1 1by0 2vaxis 1 0to1 0by0 2HREF 0VREF 0 run 2 主要輸出結果及其解釋1 慣量與卡方分解 如圖7 38所示 這里第一列為Z的奇異值 最有用的是第2列 主慣量 即矩陣SR Z Z的特征值 由于前兩個特征值的累積貢獻率已達82 54 所以只需取前兩個特征值 將根據(jù)前兩個較大的特征值分別算出與樣品 基因型 變量 民族 對應的特征向量 2 變量點坐標 如圖7 39所示 這是每個變量 指Z N Y H 在兩個公因子上的載荷 其結果可表示為 Z 0 3316Dim1 0 0193Dim2N 0 4068Dim1 0 6030Dim2Y 0 5310Dim1 0 6257Dim2H 0 5604Dim1 0 0542Dim2在以dim1與dim2作為橫軸與縱軸的直角坐標系內(nèi) 每個變量就是1個點 如Z 藏族 點的坐標為 0 3316 0 0193 顯然 Z 藏族 H 漢族 兩個點在第2象限內(nèi) N 尼泊爾 點在第4象限內(nèi) Y 印度 點在第1象限內(nèi) 在以dim1與dim2作為橫軸與縱軸的直角坐標系內(nèi) 4個點 變量 中任何兩點之間的歐氏距離如下 顯然 藏族與漢族之間的距離最短 說明這2個民族在多數(shù)基因的出現(xiàn)頻率上具有較高的正相關關系 3 變量坐標點的匯總統(tǒng)計量 如圖7 40所示 Quality為每個變量上兩個公因子貢獻率 即下文中變量坐標點的平方余弦值表中各行數(shù)值 之和 若此值接近于1 則表明對應的變量所包含的信息由兩個公因子就可很好地反映出來 Mass為原始數(shù)據(jù)中各列數(shù)據(jù)之和占總合計的百分比 Inertia為每個變量對總特征值0 49399貢獻的百分比 由此列數(shù)值可看出 后三個民族貢獻的百分比比較接近 4 變量坐標點局部慣量貢獻 如圖所示 這是每個公因子上每個變量的貢獻率 各列數(shù)值之和為1 顯然 漢族對第1公因子貢獻最大 尼泊爾 印度這2個民族對第2公因子貢獻最大 5 對變量坐標點慣量貢獻最大的坐標標號 如圖所示 這是各變量的坐標對特征值貢獻最多的標志 貢獻少 中 多依次用0 1 2來表示 6 變量坐標點的平方余弦值 如圖7 43所示 這是每個變量上兩個公因子各自的貢獻率 各行數(shù)值之和應近似為1 因為只用了兩個主要的公因子 與最小特征值0 08624對應的公因子的貢獻未給出 故少了一些信息 由各行數(shù)值可看出 尼泊爾 印度這2個民族的信息幾乎完全可由這2個公因子反映出來 而藏族的信息則不能很好地由這2個公因子來反映 3 分析結果B46對第1公因子貢獻最大 B48 C6對第2公因子貢獻最大 它們的點所對應的坐標 dim1 dim2 分別為 B46 1 0770 0 0529 B48 0 3626 0 9077 C6 0 7278 0 8463 顯然 B46點落在第2象限內(nèi) B48與C6這兩點落在第4象限內(nèi) 且距離較近 再結合上面關于 ColumnCoordinates 部分的解釋可知 藏族與漢族接近主要表現(xiàn)在B46基因型上有較高的一致性 因為這3點都落在第2象限內(nèi) 且距離較近 而尼泊爾族與B48 C6兩種基因型上有較高的一致性 因為這3點都落在第4象限內(nèi) 且距離較近 由散點圖 圖7 44 可以看出三大類民族各自有著特征基因群 分別位于第一 第二和第四象限中 與漢族 藏族最接近的基因為C3 與尼泊爾族最接近的基因為B48 與印度族最接近的基因是B8- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權。
- 關 鍵 詞:
- 典型相關系數(shù) 典型 相關系數(shù) PPT 課件
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學習交流,未經(jīng)上傳用戶書面授權,請勿作他用。
鏈接地址:http://m.appdesigncorp.com/p-7807440.html