回歸分析與聚類分析.ppt

上傳人:sh****n 文檔編號:13220328 上傳時(shí)間:2020-06-09 格式:PPT 頁數(shù):28 大?。?63.50KB
收藏 版權(quán)申訴 舉報(bào) 下載
回歸分析與聚類分析.ppt_第1頁
第1頁 / 共28頁
回歸分析與聚類分析.ppt_第2頁
第2頁 / 共28頁
回歸分析與聚類分析.ppt_第3頁
第3頁 / 共28頁

下載文檔到電腦,查找使用更方便

9.9 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《回歸分析與聚類分析.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《回歸分析與聚類分析.ppt(28頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。

1、1,第8章回歸分析與聚類分析初步,8.1一元線性回歸分析8.2二元線性回歸8.3主成分分析8.4聚類分析,內(nèi)容提要,2,8.1一元線性回歸,(1)確定性關(guān)系—對應(yīng)關(guān)系、函數(shù)關(guān)系。其變量稱確定性變量。(2)相關(guān)關(guān)系—對應(yīng)的變量稱隨機(jī)變量。沒有一一對應(yīng)的函數(shù)關(guān)系,但有統(tǒng)計(jì)規(guī)律—散點(diǎn)圖、回歸方程。,一元回歸分析——研究單因素與試驗(yàn)指標(biāo)間相關(guān)關(guān)系;多元回歸分析——研究多因素與試驗(yàn)指標(biāo)間相關(guān)關(guān)系;線性回歸、非線性回歸——相關(guān)關(guān)系為線性或非線性。,8.1.1概述,科研與生產(chǎn)中,變量之間的關(guān)系有兩種情況,,3,設(shè)有一組試驗(yàn)數(shù)據(jù)xi,yi(i=1,2,…,n),其中x是自變量,y是因變量。若x,y符合線性關(guān)系

2、,或已知經(jīng)驗(yàn)公式為直線形式,即:,8.1一元線性回歸,8.1.2回歸方法,a,b稱為回歸系數(shù);是由xi代入回歸方程的計(jì)算值,稱為回歸值。,4,與yi之間的偏差稱為殘差,用ei表示,則有:,殘差平方值(考慮到殘差有正有負(fù))之和為:,顯然,只有殘差平方和最小時(shí),回歸方程與試驗(yàn)值的擬合程度最好。,殘差平方和SSe為a,b的函數(shù),即:SSe=f(a,b),為使SSe值到達(dá)極小,根據(jù)極值原理,只要對上式分別對a,b求偏導(dǎo)數(shù),并令其等于零,求解方程組即可求得a,b之值————最小二乘法原理。,5,要使誤差最小,則,,對方程組求解,即可得到回歸系數(shù)a,b的計(jì)算式:,正規(guī)方程組,6,為了方便計(jì)算,令:,于是:

3、,7,(1)相關(guān)系數(shù)檢驗(yàn)法,先求出回歸方程的相關(guān)系數(shù),然后與臨界值進(jìn)行對比:計(jì)算值>臨界值——兩變量不是獨(dú)立,相關(guān)關(guān)系成立;計(jì)算值F0.01(fR,fe),稱x與y有非常顯著的線性關(guān)系,用兩個(gè)“**”號表示2.若F0.05(fR,fe)

4、,xm沒有明顯著的線性關(guān)系,回歸方程不可信。,17,8.3主成分分析,多元統(tǒng)計(jì)分析處理的是多變量(多指標(biāo))問題。由于變量較多,增加了分析問題的復(fù)雜性。但在實(shí)際問題中,變量之間可能存在一定的相關(guān)性,多變量中可能存在信息的重疊。因此,人們自然希望通過克服相關(guān)性、重疊性,用較少的變量來代替原來較多的變量,而這種代替可以反映原來多個(gè)變量的大部分信息.這實(shí)際上是一種“降維”的思想。,18,主成分分析也稱主分量分析,是由Hotelling于1933年首先提出的。由于多個(gè)變量之間往往存在著一定程度的相關(guān)性。人們自然希望通過線性組合的方式,從這些指標(biāo)中盡可能快地提取信息。當(dāng)?shù)谝粋€(gè)線性組合不能提取更多的信息時(shí),

5、再考慮用第二個(gè)線性組合繼續(xù)這個(gè)快速提取的過程,……,直到所提取的信息與原指標(biāo)相差不多時(shí)為止。這就是主成分分析的思想。,19,在力求數(shù)據(jù)信息丟失最少的原則下,對高維的變量空間降維,即研究指標(biāo)體系的少數(shù)幾個(gè)線性組合,并且這幾個(gè)線性組合所構(gòu)成的綜合指標(biāo)將盡可能多地保留原來指標(biāo)變異方面的信息。這些綜合指標(biāo)就稱為主成分。要討論的問題是:(1)基于相關(guān)系數(shù)矩陣還是基于協(xié)方差矩陣做主成分分析當(dāng)分析中所選擇的經(jīng)濟(jì)變量具有不同的量綱,變量水平差異很大,應(yīng)該選擇基于相關(guān)系數(shù)矩陣的主成分分析。,20,(2)選擇幾個(gè)主成分主成分分析的目的是簡化變量,一般情況下主成分的個(gè)數(shù)應(yīng)該小于原始變量的個(gè)數(shù)。關(guān)于保留幾個(gè)主成分,應(yīng)

6、該權(quán)衡主成分個(gè)數(shù)和保留的信息。(3)如何解釋主成分所包含的經(jīng)濟(jì)意義,21,8.3.2主成分的計(jì)算,,設(shè)兩個(gè)變量(x1,x2)的樣板數(shù)據(jù)如下表,求得平均值和協(xié)和方差矩陣分別為,并有,適當(dāng)選取(a1,a2)使y1處于方差最大的方向。,22,設(shè)總體X的樣本數(shù)據(jù)陣為,則樣本協(xié)方差陣S及樣本相關(guān)陣R分別為,23,其中,下面以樣本協(xié)方差陣S作為?的估計(jì)或用R作為總體相關(guān)陣的估計(jì),然后按上節(jié)方法求樣本主成分。,24,8.4聚類分析,8.4.1概述,聚類分析的基本思想是在樣品之間定義距離,在樣品之間定義相似系數(shù),距離或相似系數(shù)代表樣品或者變量之間的相似程度。按相似程度的大小,將樣品(或變量)逐一歸類,關(guān)系密切的類聚集到一個(gè)小的分類單位,然后逐步擴(kuò)大,使得關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類單位,直到所有的樣品(或變量)都聚集完畢,形成一個(gè)表示親疏關(guān)系的譜系圖,依次按照某些要求對樣品(或變量)進(jìn)行分類.,25,(距離可以自己定義,只要滿足距離的條件),8.4.2樣品間的距離,26,一般情況下,我們常用到下面定義的幾種距離,歐氏距離(Euclideandistance),絕對距離(Block距離),明考斯基距離(Minkowski),27,切比雪夫距離(Chebychev),馬氏距離,方差加權(quán)距離,28,,,,,,,,,,,五種系統(tǒng)聚類方法的距離參數(shù)值,8.4.3類聚方法,

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔

相關(guān)搜索

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!