回歸分析與聚類分析.ppt

上傳人：sh****n 文檔編號(hào)：13220328 上傳時(shí)間：2020-06-09 格式：PPT 頁(yè)數(shù)：28 大小：363.50KB

收藏版權(quán)申訴舉報(bào) 下載

第1頁(yè) / 共28頁(yè)

第2頁(yè) / 共28頁(yè)

第3頁(yè) / 共28頁(yè)

下載文檔到電腦，查找使用更方便

9.9 積分

下載資源

還剩頁(yè)未讀，繼續(xù)閱讀

資源描述：

《回歸分析與聚類分析.ppt》由會(huì)員分享，可在線閱讀，更多相關(guān)《回歸分析與聚類分析.ppt（28頁(yè)珍藏版）》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

1、1,第8章回歸分析與聚類分析初步,8.1一元線性回歸分析8.2二元線性回歸8.3主成分分析8.4聚類分析,內(nèi)容提要,2,8.1一元線性回歸,(1)確定性關(guān)系—對(duì)應(yīng)關(guān)系、函數(shù)關(guān)系。其變量稱確定性變量。(2)相關(guān)關(guān)系—對(duì)應(yīng)的變量稱隨機(jī)變量。沒有一一對(duì)應(yīng)的函數(shù)關(guān)系，但有統(tǒng)計(jì)規(guī)律—散點(diǎn)圖、回歸方程。,一元回歸分析——研究單因素與試驗(yàn)指標(biāo)間相關(guān)關(guān)系；多元回歸分析——研究多因素與試驗(yàn)指標(biāo)間相關(guān)關(guān)系；線性回歸、非線性回歸——相關(guān)關(guān)系為線性或非線性。,8.1.1概述,科研與生產(chǎn)中，變量之間的關(guān)系有兩種情況,,3,設(shè)有一組試驗(yàn)數(shù)據(jù)xi，yi(i=1，2，…，n)，其中x是自變量，y是因變量。若x，y符合線性關(guān)系

2、，或已知經(jīng)驗(yàn)公式為直線形式，即：,8.1一元線性回歸,8.1.2回歸方法,a,b稱為回歸系數(shù)；是由xi代入回歸方程的計(jì)算值，稱為回歸值。,4,與yi之間的偏差稱為殘差，用ei表示，則有：,殘差平方值（考慮到殘差有正有負(fù)）之和為：,顯然，只有殘差平方和最小時(shí)，回歸方程與試驗(yàn)值的擬合程度最好。,殘差平方和SSe為a，b的函數(shù)，即：SSe=f(a,b),為使SSe值到達(dá)極小，根據(jù)極值原理，只要對(duì)上式分別對(duì)a，b求偏導(dǎo)數(shù)，并令其等于零，求解方程組即可求得a，b之值————最小二乘法原理。,5,要使誤差最小，則,,對(duì)方程組求解，即可得到回歸系數(shù)a,b的計(jì)算式：,正規(guī)方程組,6,為了方便計(jì)算，令：,于是：

3、,7,（1）相關(guān)系數(shù)檢驗(yàn)法,先求出回歸方程的相關(guān)系數(shù)，然后與臨界值進(jìn)行對(duì)比：計(jì)算值>臨界值——兩變量不是獨(dú)立，相關(guān)關(guān)系成立；計(jì)算值F0.01(fR,fe)，稱x與y有非常顯著的線性關(guān)系，用兩個(gè)“**”號(hào)表示2.若F0.05(fR,fe)

4、，xm沒有明顯著的線性關(guān)系，回歸方程不可信。,17,8.3主成分分析,多元統(tǒng)計(jì)分析處理的是多變量（多指標(biāo)）問題。由于變量較多，增加了分析問題的復(fù)雜性。但在實(shí)際問題中，變量之間可能存在一定的相關(guān)性，多變量中可能存在信息的重疊。因此，人們自然希望通過克服相關(guān)性、重疊性，用較少的變量來代替原來較多的變量，而這種代替可以反映原來多個(gè)變量的大部分信息.這實(shí)際上是一種“降維”的思想。,18,主成分分析也稱主分量分析，是由Hotelling于1933年首先提出的。由于多個(gè)變量之間往往存在著一定程度的相關(guān)性。人們自然希望通過線性組合的方式，從這些指標(biāo)中盡可能快地提取信息。當(dāng)?shù)谝粋€(gè)線性組合不能提取更多的信息時(shí)，

5、再考慮用第二個(gè)線性組合繼續(xù)這個(gè)快速提取的過程，……，直到所提取的信息與原指標(biāo)相差不多時(shí)為止。這就是主成分分析的思想。,19,在力求數(shù)據(jù)信息丟失最少的原則下，對(duì)高維的變量空間降維，即研究指標(biāo)體系的少數(shù)幾個(gè)線性組合，并且這幾個(gè)線性組合所構(gòu)成的綜合指標(biāo)將盡可能多地保留原來指標(biāo)變異方面的信息。這些綜合指標(biāo)就稱為主成分。要討論的問題是：(1)基于相關(guān)系數(shù)矩陣還是基于協(xié)方差矩陣做主成分分析當(dāng)分析中所選擇的經(jīng)濟(jì)變量具有不同的量綱，變量水平差異很大，應(yīng)該選擇基于相關(guān)系數(shù)矩陣的主成分分析。,20,（2）選擇幾個(gè)主成分主成分分析的目的是簡(jiǎn)化變量，一般情況下主成分的個(gè)數(shù)應(yīng)該小于原始變量的個(gè)數(shù)。關(guān)于保留幾個(gè)主成分，應(yīng)

6、該權(quán)衡主成分個(gè)數(shù)和保留的信息。（3）如何解釋主成分所包含的經(jīng)濟(jì)意義,21,8.3.2主成分的計(jì)算,,設(shè)兩個(gè)變量(x1,x2)的樣板數(shù)據(jù)如下表,求得平均值和協(xié)和方差矩陣分別為,并有,適當(dāng)選取（a1,a2)使y1處于方差最大的方向。,22,設(shè)總體X的樣本數(shù)據(jù)陣為,則樣本協(xié)方差陣S及樣本相關(guān)陣R分別為,23,其中,下面以樣本協(xié)方差陣S作為?的估計(jì)或用R作為總體相關(guān)陣的估計(jì)，然后按上節(jié)方法求樣本主成分。,24,8.4聚類分析,8.4.1概述,聚類分析的基本思想是在樣品之間定義距離，在樣品之間定義相似系數(shù)，距離或相似系數(shù)代表樣品或者變量之間的相似程度。按相似程度的大小，將樣品（或變量）逐一歸類，關(guān)系密切的類聚集到一個(gè)小的分類單位，然后逐步擴(kuò)大，使得關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類單位，直到所有的樣品（或變量）都聚集完畢，形成一個(gè)表示親疏關(guān)系的譜系圖，依次按照某些要求對(duì)樣品（或變量）進(jìn)行分類.,25,（距離可以自己定義，只要滿足距離的條件）,8.4.2樣品間的距離,26,一般情況下，我們常用到下面定義的幾種距離,歐氏距離(Euclideandistance),絕對(duì)距離（Block距離）,明考斯基距離(Minkowski),27,切比雪夫距離(Chebychev),馬氏距離,方差加權(quán)距離,28,,,,,,,,,,,五種系統(tǒng)聚類方法的距離參數(shù)值,8.4.3類聚方法,

展開閱讀全文

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

點(diǎn)擊下載此資源

回歸分析與聚類分析.ppt

最新文檔

相關(guān)資源

相關(guān)搜索