《數(shù)據(jù)分析》PPT課件.ppt
《《數(shù)據(jù)分析》PPT課件.ppt》由會員分享,可在線閱讀,更多相關(guān)《《數(shù)據(jù)分析》PPT課件.ppt(124頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、1,第九講 數(shù)據(jù)分析(一),余可發(fā) 博士 江西財經(jīng)大學(xué)工商管理學(xué)院,2,一、數(shù)據(jù)處理與分析過程,1、編輯 2、編碼 3、數(shù)據(jù)輸入 4、數(shù)據(jù)分析 (描述性分析、單變量分析、雙變量分析、多變量分析) 5、解釋,3,二、編輯,編輯就是檢查和調(diào)整數(shù)據(jù)遺漏、易讀性和一致性的過程。 編輯人員的任務(wù)就是要檢查調(diào)查問卷或者其他數(shù)據(jù)收集形式中出現(xiàn)的錯誤和遺漏。當(dāng)發(fā)現(xiàn)問題時,編輯要及時調(diào)整數(shù)據(jù)讓他們變得更加完整、一致、可讀。,4,,編輯技巧: 1、退回重新填寫 2、按缺失數(shù)據(jù)處理 3、丟棄 (1)不符合要求的問卷和少。 (2)樣本單位數(shù)很大。 (3)不符合要求的問卷與符合要求的問卷之間在調(diào)查對象上的特征上沒有明顯
2、的不同。 (4)不符合要求的回答在該問卷中占很大的比例。 (5)對關(guān)鍵變量的回答是缺失的。,5,,編輯的類型: 現(xiàn)場編輯 后期編輯,6,,編輯的任務(wù): 1、確定是否需要補充調(diào)查 2、編輯的一致性 3、編輯的完整性,7,三、編碼,編碼就是將數(shù)字標(biāo)度或其他符號分配給不同答案的過程。 相關(guān)概念: 域:一種類型的數(shù)據(jù)。 記錄:相關(guān)域的集合。 文件:相關(guān)記錄的集合。,8,9,,編碼工作一般包括以下幾個方面: (1)確定變量 (2)確定變量值 (3)無結(jié)構(gòu)問題的編碼 (4)編碼說明書及數(shù)據(jù)輸出格式說明書。,10,問題025:您認(rèn)為打工的外地人對北京市的社會秩序是否有影響?(單選) 1有很大影響 2有較
3、大影響 3沒有影響 4不好說,,4,編碼,答案,11,2)制作編碼表,,12,變量名: 一個數(shù)據(jù)文件中, 一個變量只能有一個唯一名稱。,碼位:某一變量在 數(shù)據(jù)文件中占據(jù)的欄位,碼數(shù): 某一變量由幾位數(shù)組成。,該變量是數(shù)值型(Numeric)如定距、定比, 還是字串型(String),如定類、定序。 前者在統(tǒng)計中可以做高級運算,后者則不可以。,不適于被訪人回答的問題的編碼。 一般采用7,97,997等。,被訪人回答不知道時的編碼。 一般采用8,98,998等。,被訪人拒絕回答某變量時的編碼。 一般采用9,99,999等。,問卷中出現(xiàn)漏答時的處理編碼。 一般采用9,99,999等。,,,
4、13,四、數(shù)據(jù)錄入,采用DOS、WPS、CCED等軟件,按ASCII碼方式錄入成文本文件(*.dat;*.txt)。這種錄入方式的特點是,數(shù)據(jù)之間沒有間隔,錄完一個數(shù)碼后自動后移,錄入速度較快。缺點是容易錯位。,采用SPSS數(shù)據(jù)編輯器(SPSS Data Editor)錄入。其優(yōu)點是不容易錯位,缺點是不能自動后移,錄入速度慢,數(shù)據(jù)錯誤不容易修改。,,,14,五、數(shù)據(jù)分析,描述分析法 假設(shè)檢驗法 方差分析法 聚類分析法 判別分析法 回歸分析法,15,1、描述性統(tǒng)計分析,頻數(shù)、頻率分析 數(shù)據(jù)集中趨勢分析 算術(shù)平均數(shù) 中位數(shù) 眾數(shù) 數(shù)據(jù)分散趨勢分析 全距(極差) 四分位差 標(biāo)準(zhǔn)差 數(shù)據(jù)總
5、體形態(tài)分布 偏度(Skewness) 峰度(Kurtosis),16,頻數(shù)、頻率分析(1),例1:假設(shè)有樣本數(shù)據(jù),17,,18,19,算術(shù)平均數(shù),未分組數(shù)據(jù)的平均數(shù)計算 分組數(shù)據(jù)的平均數(shù)計算 上例的計算結(jié)果,20,中位數(shù)的計算(1),未分組數(shù)據(jù)的中位數(shù)計算 對所有數(shù)據(jù)進(jìn)行排序,當(dāng)數(shù)據(jù)量為奇數(shù)時,取中間數(shù)為中位數(shù),當(dāng)數(shù)據(jù)量為偶數(shù)時,取最中間兩位數(shù)的平均數(shù)為中位數(shù)。上例中數(shù)據(jù)量為100,是偶數(shù),所以應(yīng)取排序后第50位數(shù)和第51位數(shù)的平均值作為中位數(shù)。第50位數(shù)是3,第51位數(shù)也是3,所以中位數(shù)為3。,21,中位數(shù)的計算(2),分組數(shù)據(jù)的中位數(shù)計算 下式中L為中位數(shù)所在組的下限值,fm為中位
6、數(shù)所在組的組頻數(shù), Sm-1為至中位數(shù)組時累計總頻數(shù),h為組距。,22,中位數(shù)的計算(3),例2:假設(shè)有分組數(shù)據(jù)如下(銷售額單位為萬元),23,中位數(shù)的計算(4),依據(jù)公式 例2的中位數(shù)為,24,眾數(shù)的計算,未分組數(shù)據(jù)的眾數(shù)為出現(xiàn)次數(shù)最多的數(shù)。 分組數(shù)據(jù)的眾數(shù)依據(jù)下式計算獲得。 表達(dá)式中1表示眾數(shù)所在組與前一組的頻數(shù)差,2表示眾數(shù)所在組與后一組的頻數(shù)差。依據(jù)公式,例2分組數(shù)據(jù)的眾數(shù)為104.29萬元。,25,全距(極差)的計算,全距指的是樣本數(shù)據(jù)中最大值與最小值之間的距離,因而也叫極差。例1中最小值為1,最大值為6,因而全距為6-1=5。,26,四分位差的計算,四分位差是一種按照位置來測定數(shù)
7、據(jù)離散趨勢的計量方法,它只取決于位于樣本排序后中間50%位置內(nèi)數(shù)據(jù)的差異程度。即第一個四分位與第三個四分位數(shù)據(jù)之間的差異。例2的四分位差計算過程如下,27,標(biāo)準(zhǔn)差的計算(1),未分組數(shù)據(jù)的標(biāo)準(zhǔn)差計算,28,標(biāo)準(zhǔn)差的計算(2),分組數(shù)據(jù)的標(biāo)準(zhǔn)差的計算,29,常用圖形柱形圖,30,直方圖,,,,,,,,,,,,,,,,,,,,,,德國 英國 法國 意大利 西班牙 荷蘭 瑞典 瑞士 比利時 奧地利 土耳其 挪威 丹麥 中國 芬蘭 葡萄牙 希臘 俄羅斯 200 400 600 800 1000 1200 1400 xxx年中國內(nèi)地與歐洲各國市場調(diào)查業(yè) 的市場規(guī)模比較(年營業(yè)額:百萬美元)
8、,,,,,31,餅形圖,32,趨勢圖,,,,,3 2.5 2 15元 14元 13元 12元 11元 10元 9元 8元以下,,,,,,,,,,,,,,,,,,,,,33,散點圖,,,,,,,,,,,,,,,森氏 滿 10.5% 意 4 度 沃力 中美 3 14.4% 38.5% 2 1 20% 40% 首都知名度 鄭州市主要純水品牌的知名度、美譽度和市場占有率,34,態(tài)度對比圖,35,輪廓形象圖,36,雷達(dá)圖,37,數(shù)據(jù)分布形態(tài)圖,38,SPSS的描述性分析,Frequencies:頻數(shù)分布表 Descript
9、ives:一般性描述 Explore:探索性分析 Crosstabs:交叉列表,39,描述性分析,頻數(shù)分布表,一般性描述,探索性分析,交叉列表,計算連續(xù)變量的相對比,40,頻數(shù)分布表(Frequencies),調(diào)用此過程可進(jìn)行頻數(shù)分布表的分析.頻數(shù)分布表是描述性統(tǒng)計中最常用的方法之一,此外還可對數(shù)據(jù)的分布趨勢進(jìn)行初步分析。,41,待分析變量的列表,是否顯示頻數(shù)表,定義需要計算的統(tǒng)計量,定義需要繪制的統(tǒng)計圖,定義表格,42,百分位數(shù),分布特征描述,離散趨勢,集中趨勢,Frequencies:定義統(tǒng)計量,43,統(tǒng)計圖類型,直方圖加上正態(tài)曲線,以頻數(shù)繪制條圖或餅圖,Frequencies:定義統(tǒng)計圖
10、,無圖形,條圖,餅圖,直方圖,以構(gòu)成比繪制條圖或餅圖,44,Frequencies:定義表格,45,Frequencies:結(jié)果解釋,46,Frequencies:結(jié)果解釋,47,Frequencies:結(jié)果解釋,48,一般性描述(Descriptives),描述性分析,調(diào)用此過程可對變量進(jìn)行描述性統(tǒng)計分析,計算并列出一系列相應(yīng)的統(tǒng)計指標(biāo),且可將原始數(shù)據(jù)轉(zhuǎn)換成標(biāo)準(zhǔn)Z分值并存入數(shù)據(jù)庫,所謂Z分值是指某原始數(shù)值比其均值高或低多少個標(biāo)準(zhǔn)差單位,高的為正值,低的為負(fù)值,相等的為零。,49,是否保存標(biāo)準(zhǔn) 變換后的數(shù)據(jù),50,Descriptives:定義統(tǒng)計量,51,Descriptives:結(jié)果解釋,
11、52,Descriptives:結(jié)果解釋,此外,系統(tǒng)以zheight和zweight為變量名將原始數(shù)據(jù)轉(zhuǎn)換成標(biāo)準(zhǔn)z分值,存放在原數(shù)據(jù)庫中。新變量具有均值為0、標(biāo)準(zhǔn)差為1的特征,亦即變量的標(biāo)準(zhǔn)化過程。,53,探索性分析(Explore),描述性分析,調(diào)用此過程可對變量進(jìn)行更為深入詳盡的描述性統(tǒng)計分析,故稱之為探索性統(tǒng)計。它在一般描述性統(tǒng)計指標(biāo)的基礎(chǔ)上,增加有關(guān)數(shù)據(jù)其它特征的文字與圖形描述,顯得更加細(xì)致與全面,有助于用戶思考對數(shù)據(jù)進(jìn)行進(jìn)一步分析的方案。,54,兩者均有,統(tǒng)計量,圖,分組變量列表,待分析變量列表,55,Explore:定義統(tǒng)計量,Descriptives:輸出均數(shù)、均數(shù)的95%可信區(qū)
12、間、去掉5%極端值的均數(shù)、中位數(shù)、方差、標(biāo)準(zhǔn)差、最小值、最大值、全距、四分位數(shù)間距、偏度系數(shù)、峰度系數(shù)。,M-estimators:輸出集中趨勢的最大似然比的穩(wěn)健估計。 Outliers:輸出五個最大值與五個最小值。 Percentiles:輸出第5%、10%、25%、50%、75%、90%、95%位數(shù)。,56,箱圖繪制方式,莖葉圖,正態(tài)性檢驗/正態(tài)分布圖,Explore:定義統(tǒng)計圖,直方圖,57,Exclude case listwise:不分析有任一缺失值的記錄 Exclude case pairwise:不分析計算某統(tǒng)計量時有缺失值的記錄 Report values:報告缺失值,缺失值的
13、處理方式,Explore:缺失值的處理,58,Explore:結(jié)果解釋,原始數(shù)據(jù)的基本情況:男性有效數(shù)據(jù)459,缺失1,合計460;女性有效數(shù)據(jù)538,缺失2,合計540。,59,Explore:結(jié)果解釋,60,Explore:結(jié)果解釋,描述性分析,左面為箱圖,圖中方箱為四分位數(shù),中心粗線為中位數(shù),兩端線為最大值與最小值,之外的圓圈代表可疑的離群值。,61,2、假設(shè)檢驗,假設(shè)檢驗又叫顯著性檢驗 (test of significance)。 顯著性檢驗的方法很多 ,常用的有u檢驗、t檢驗、F檢驗和2檢驗等。 盡管這些檢驗方法的用途及使用條件不同,但其檢驗的基本原理是相同的。,62,假設(shè)檢驗的步
14、驟,建立假設(shè)。對樣本所屬總體提出假設(shè),包括無效假設(shè)H0和備擇假設(shè)HA; 確定顯著水平。常用的顯著水平0.05和0.01; 從無效假設(shè)H0出發(fā),根據(jù)樣本提供信息構(gòu)造適宜統(tǒng)計量,并計算統(tǒng)計量值或概率; 由附表查出相應(yīng)的統(tǒng)計量臨界值,比較樣本統(tǒng)計量值與臨界值大小,根據(jù)小概率原理做出統(tǒng)計推斷(或由概率大小做出判斷)。,63,統(tǒng)計假設(shè)檢驗的幾何意義,統(tǒng)計假設(shè)檢驗從本質(zhì)上來說,就是根據(jù)顯著水平將統(tǒng)計量(數(shù))的分布劃分為接受區(qū)和否定區(qū)兩部分。前者為接受原假設(shè)H0的區(qū)間,后者為否定H0 ,而接受HA的區(qū)間。當(dāng)試驗結(jié)果落入接受區(qū),就接受H0 ;反之,否定H0 ,而接受HA 。否定區(qū)的概率為,接受區(qū)的概率為1-
15、。,64,是否否定無效假設(shè) 或 ,用實際計算出的統(tǒng)計量u或t的絕對值與顯著水平對應(yīng)的臨界值ua 或ta比較。若|u|ua 或|t|ta,則在水平上否定 ;若|u| < ua或 |t| < ta,則不能在水平上否定 。 區(qū)間 和 或稱為水平上的否定域,而區(qū)間( )則稱為水平上的接受域。,,,,,65,圖1 雙側(cè)檢驗時H0的接受域和否定域,66,統(tǒng)計假設(shè)檢驗的兩類錯誤,統(tǒng)計假設(shè)檢驗的是根據(jù) “小概率事件實際不可能性原理”來否定或接受無效假設(shè)的, 所以不論是接受還是否定無效假設(shè),都沒有100%的把握。也就是說,在檢驗無效假設(shè)時可能犯兩類錯誤。 第一類錯誤:H0本身是成
16、立,但通過檢驗卻否定了它,犯了“棄真”錯誤,也叫型錯誤(type error)、錯誤。型錯誤,就是把非真實差異錯判為真實差異,即 為真,卻接 受了 。,67,第二類錯誤:H0本身不成立,但通過檢驗卻接受了它,犯了“納偽”錯誤,也叫型錯誤(type error)、錯誤。型錯誤,就是把真實差異錯判為非真實差異,即 為真,卻未能否定 。 統(tǒng)計檢驗是基于 “小概率事件實際不可能性原理”來否定H0, 但在一次試驗中小概率事件并不是絕對不會發(fā)生的。如果我們抽得一個樣本,它雖然來自與H0 對應(yīng)的抽樣總體,但計算所得的統(tǒng)計量卻落入了否定域中,因而否定了H0,于是犯了型錯誤。犯這
17、類錯誤的概率不會超過a。,68,圖2 兩類錯誤示意圖,69,假設(shè)檢驗的類型,參數(shù)假設(shè)檢驗 U檢驗 t檢驗 非參數(shù)檢驗,70,參數(shù)統(tǒng)計(parametric statistics): t、Z、和F檢驗均屬參數(shù)檢驗。其共同特點是,假定隨機樣本來自某種已知分布(如正態(tài)分布)的總體,并對總體分布的參數(shù)(如總體均數(shù))進(jìn)行估計或檢驗。 非參數(shù)統(tǒng)計(nonparametric statistics):對總體分布不作嚴(yán)格規(guī)定,不依賴于總體分布類型,也不對總體參數(shù)進(jìn)行統(tǒng)計推斷。,71,參數(shù)檢驗U檢驗,當(dāng)樣本容量大于30時,可以采用U檢驗。 均值檢驗 百分比檢驗 雙樣本平均數(shù)差異的檢驗 雙樣本百分比差
18、異的檢驗,72,均 值 檢 驗(U),假設(shè)有 選取統(tǒng)計量 設(shè)定顯著性水平 查表得到 根據(jù)U的計算結(jié)果,比較U的絕對值與 的大小。若有 則接受H0,否則拒絕H0 。,73,百 分 比 檢 驗(U),假設(shè)有 選取統(tǒng)計量 設(shè)定顯著性水平 查表得到 根據(jù)U的計算結(jié)果,比較U的絕對值與 的大小。若有 則接受H0,否則拒絕H0 。,74,雙樣本平均數(shù)差異的檢驗(U),假設(shè)有 選取統(tǒng)計量 設(shè)定顯著性水平 查表得到 根據(jù)U的計算結(jié)果,比較U的絕對值與 的大小。若有 則接受H0,否則拒絕H0 。,75,雙樣本百分比差異的檢驗(U),假設(shè)有 選取統(tǒng)計量 設(shè)
19、定顯著性水平 查表得到 根據(jù)U的計算結(jié)果,比較U的絕對值與 的大小。若有 則接受H0,否則拒絕H0 。,76,練習(xí),例1:某一釀造廠新引進(jìn)一種釀醋曲種,以原曲種為對照進(jìn)行試驗。已知原曲種釀出的食醋醋酸含量平均為09.75,其標(biāo)準(zhǔn)差為5.30。現(xiàn)采用新曲種釀醋,得到30個醋樣,測得其醋酸含量平均為 11.99。試問,能否由這30個醋樣的平均數(shù) 判斷新曲種好于原曲種?,77,對前例分析:,所以在a0.05水平上的接受域為,(0.0785< <0.1165),否定域為 0.0785, 0.1165,試驗結(jié)果 0.1199,落入否定區(qū)間, 所以否定 ,接受,結(jié)論:采用
20、新曲種釀造食醋,其醋酸含量有顯著改變。,78,例題:在食品廠的甲乙兩條生產(chǎn)線上各測定了30個日產(chǎn)量如表所示,試檢驗兩條生產(chǎn)線的平均日產(chǎn)量有無顯著差異。,表1 甲乙兩條生產(chǎn)線日產(chǎn)量記錄,79,(1)建立假設(shè)。 即兩條生產(chǎn)線的平均日產(chǎn)量無差異。,(2) 確定顯著水平0.01,(3) 計算,故:,80,(4)統(tǒng)計推斷。 由0.01查附表2,得u0.012.58 實際|u|3.28u0.012.58,故P<0.01,應(yīng)否定H0,接受HA。 說明兩個生產(chǎn)線的日平均 產(chǎn)量有極顯著差異,甲生產(chǎn)線日平均產(chǎn)量高于乙生產(chǎn)線日平均產(chǎn)量。,81,參數(shù)檢驗t檢驗,當(dāng)樣本容量小于30時,不可以使用U檢驗,
21、而需要使用t檢驗。 均值檢驗 均值差異的檢驗 百分比差異的檢驗,82,均 值 檢 驗(t),假設(shè)有 選取統(tǒng)計量 設(shè)定顯著性水平 查表得到 根據(jù)t的計算結(jié)果,比較t的絕對值與 的大小。若有 則接受H0,否則拒絕H0 。,83,均值差異的檢驗(t),假設(shè)有 選取統(tǒng)計量 設(shè)定顯著性水平 查表得到 根據(jù)t的計算結(jié)果,比較t的絕對值與 的大小。 若有 則接受H0,否則拒絕H0 。,84,百分比差異的檢驗(t),假設(shè)有 選取統(tǒng)計量 設(shè)定顯著性水平 查表得到 根據(jù)t的計算結(jié)果,比較t的絕對值與 的大小。 若有
22、 則接受H0,否則拒絕H0 。,85,,例1 用山楂加工果凍,傳統(tǒng)工藝平均每100 g加工500g果凍,采用新工藝后,測定了16次,得知每100g山楂可出果凍平均為 520g,標(biāo)準(zhǔn)差S12g。問新工藝與老工藝在每100g加工果凍的量上有無顯著差異?,86,,本例總體方差未知,又是小樣本,采用雙側(cè)t檢驗。 (1)提出無效假設(shè)與備擇假設(shè) ,即新老工藝沒有差異。 ,即新老工藝有差異。 (2)確定顯著水平0.01 (3)計算t值,87,(4)查臨界t值,作出統(tǒng)計推斷 由 =15,查t值,得t0.01(15)=2.947,因為|t|t0.01, P<0.01, 故
23、應(yīng)否定H0,接受HA, 表明新老工藝的每100g加工出的果凍量差異極顯著。(在統(tǒng)計量t上標(biāo)記**),88,例題2:海關(guān)抽檢出口罐頭質(zhì)量,發(fā)現(xiàn)有脹聽現(xiàn)象,隨機抽取了6個樣品,同時隨機抽取6個正常罐頭樣品測定其SO2含量,測定結(jié)果見表4-3。試分析兩種罐頭的SO2含量有無差異。,表2 正常罐頭與異常罐頭SO2含量測定結(jié)果,89,(1)提出無效假設(shè)與備擇假設(shè),兩種罐頭SO2含量沒有差異;,(2)確定顯著水平0.01(兩尾概率),(3)計算,90,(4)統(tǒng)計推斷 由df10,0.01查附表3得t0.01(10)3.169。 實得 |t| 22.735t0.01(10)3.169,P< 0.01,故應(yīng)否
24、定無效假設(shè)H0,即兩種罐頭的SO2含量有高度顯著差異,該批罐頭質(zhì)量不合格。,91,,例題3:現(xiàn)有兩種茶多糖提取工藝,分別從兩種工藝中各取1個隨機樣本來測定其粗提物中的茶多糖含量,結(jié)果見表4-4。問兩種工藝的粗提物中茶多糖含量有無差異?,表4-4 兩種工藝粗提物中茶多糖含量測定結(jié)果,92,(1)建立假設(shè),提出無效假設(shè)與備擇假設(shè),,兩種工藝的粗提物中茶多糖含量無差異;,(2)確定顯著水平0.05(兩尾概率),(3)計算,93,因兩個樣本的容量不等,所以,94,,,,(4)查臨界t值,作出統(tǒng)計推斷 當(dāng)df=9時,查臨界值得:t 0.05(9)=2.262,|t|1.381 0.05,接受 ,表
25、明兩種工藝的粗提物中茶多糖含量無顯著差異。,95,非參數(shù)檢驗(X2),在市場調(diào)查中常獲得一些量表數(shù)據(jù),對量表數(shù)據(jù)求取平均數(shù)與方差都是毫無意義的。對量表數(shù)據(jù)的處理更適宜于采用非參數(shù)檢驗方法。非參數(shù)檢驗中常用的方法是X2檢驗。 X2檢驗的統(tǒng)計量是 上述統(tǒng)計量中, 表示第 類別在樣本中實際出現(xiàn)的次數(shù), 表示期望出現(xiàn)的次數(shù), 為類別數(shù)。,96,,一般選用非參數(shù)統(tǒng)計方法的資料:總體分布不易確定;分布呈非正態(tài)而又無適當(dāng)?shù)臄?shù)據(jù)轉(zhuǎn)換方法;等級資料;一端或兩端無確定數(shù)值等。因此,非參數(shù)檢驗又稱任意分布檢驗(distribution-free test)。 在實際應(yīng)用中,對符合參數(shù)檢驗的資料,或經(jīng)變量變換后符合
26、參數(shù)檢驗的資料應(yīng)首選參數(shù)檢驗;對不能滿足參數(shù)檢驗條件的資料,應(yīng)選用非參數(shù)檢驗。,97,兩個配對樣本的非參數(shù)檢驗 兩個獨立樣本的非參數(shù)檢驗 多個獨立樣本的非參數(shù)檢驗 多個相關(guān)樣本的非參數(shù)檢驗,98,例1 以下為治療前后,病人某項指標(biāo)的測量值,數(shù)據(jù)見npa.sav,配對樣本的非參數(shù)檢驗,治療前(x):24.00 16.70 21.60 23.70 37.50 31.40 14.90 37.30 17.90 15.50 29.00 19.90,治療后(Y):23.10 20.40 17.70 20.70 42.1 36.10 21.80 40.30 26.00 15.50 3
27、5.40 25.50,99,,,100,,,,101,,Wilcoxon符號檢驗 適用于連續(xù)變量 sign符號檢驗 適用于對無法用數(shù)字計量的情況進(jìn)行比較,如兩分類,對于 連續(xù)資料最好不要使用 McNemar 實際上就是常用的配對2檢驗,只適用于二分類資料 Marginal Homogeneity 是McNemar法向多分類情形下的擴展,適用于資料為有序 分類情況,配對樣本的非參數(shù)檢驗,102,Exact:用于計算確切概率,只給出近似概率,蒙特卡羅方法,給出精確概率值,并可設(shè)定耗時限制,,,,,,,,,103,共12對指標(biāo),指標(biāo)值治療后小于治療前的有3對,其平均秩次為2.83,總秩和為8.50;
28、治療后大于治療前的有8對,其平均秩次為7.19,總秩和為57.50;治療后等于治療前的有1對。,(1) 秩次表,104,Wilcoxon符號秩檢驗的統(tǒng)計量Z值-2.179,近似概率(Asymp.sig.)P0.029,按0.05的水準(zhǔn)可以認(rèn)為治療前后該指標(biāo)值的差別具有統(tǒng)計學(xué)意義。,(2) 檢驗統(tǒng)計量,105,例2 在缺氧條件下,觀察4只貓與12只兔的生存時間(分鐘),結(jié)果如下。試判斷貓、兔在缺氧條件下生存時間的差異是否具有統(tǒng)計學(xué)意義。數(shù)據(jù)見npb.sav:,生存時間(貓):25 34 44 46 46,生存時間(兔):15 15 16 17 19 21 21 23 25 27 28 28 30
29、 35,兩獨立樣本的非參數(shù)檢驗,106,,,107,,108,,109,默認(rèn)的Mann-Whitney U檢驗最常用,,,110,生存時間樣本共19例,其中貓的生存時間5例,其平均秩次為15.70,總秩和為78.50;兔的生存時間14例,其平均秩次為7.96,總秩和為111.50。,(1) 秩次表,111,給出Mann-Whitney U 、Wilcoxon W 統(tǒng)計量和Z值,近似值概率(Asymp.Sig)和精確概率值(Exact.sig)均小于0.05,結(jié)論一致,表明貓、兔在缺氧條件下的生存時間的差異具有統(tǒng)計學(xué)意義,由平均秩次貓(15.7)、兔(7.96)來看,可以認(rèn)為缺氧條件下貓的生存時
30、間長于兔。,(2) 檢驗統(tǒng)計量,112,例3 14名新生兒出生體重按其母親的吸煙習(xí)慣分組(A組:每日吸煙多于20支;B組:每日吸煙少于20支;C組:過去吸煙而現(xiàn)已戒煙;D組:從不吸煙),具體如下。試問四個吸煙組出生體重分布是否相同?數(shù)據(jù)見npc.sav:,A組: 2.7 2.4 2.2 3.4,B組: 2.9 3.2 3.2,,C組: 3.3 3.6 3.4 3.4,多個獨立樣本的非參數(shù)檢驗,D組: 3.5 3.6 3.7,113,,,114,,115,設(shè)置組別變量的最小值1、最大值4,,116,,,117,Kruskal-Wallis H檢驗:k=3個獨立隨機連續(xù)分布樣本的比較,而正態(tài)性假設(shè)
31、及等方差假設(shè)存在問題時,它可以進(jìn)行總體是否相同的檢驗。,,Median:中位數(shù)檢驗,三種方法中檢驗效能最低,但對于拖長尾的對稱分布很有效,,Jonckheere-Terpstra:對連續(xù)性資料或有序分類資料都適用,并當(dāng)分組變量為有序分類資料時,此法的檢驗效能要高于Kruskal-Wallis法。,118,母親每日吸煙多于20支組共4名新生兒,體重平均秩次3.75;每日吸煙少于20支組共3名新生兒,體重平均秩次5.00;過去吸煙現(xiàn)已戒煙組共4名新生兒,體重平均秩次9.38;從不吸煙組共3名新生兒,平均秩次12.50。,(1) 秩次表,119,Kruskal-Wallis H統(tǒng)計量的近似顯著概率為
32、0.023,按0.05的水準(zhǔn)拒絕原假設(shè),可認(rèn)為四個組中至少有兩組出生體重的總體分布不同。,(2) 檢驗統(tǒng)計量,120,例4 三批甘藍(lán)葉樣本分別在甲、乙、丙、丁四種條件下測量核黃素濃度,試驗結(jié)果如下。問四種條件下的測量結(jié)果的差異是否具有統(tǒng)計學(xué)意義?數(shù)據(jù)見npd.sav:,多個相關(guān)樣本的非參數(shù)檢驗,121,,,122,Friedman:常用的多個配伍樣本的非參數(shù)檢驗,Kendalls W:可進(jìn)一步給出一致性程度,Cochrans Q:是兩配對樣本McNemar方法的推廣, 只適合二分類變量,,,123,(1) 秩次表,經(jīng)Friedman Test,近似概率(Asymp.sig.)P0.042,小于0.05,故拒絕原假設(shè),認(rèn)為四種條件下測量結(jié)果的差別具有統(tǒng)計學(xué)意義的。,(2) 檢驗統(tǒng)計量,124,謝謝!,
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 尺有所短寸有所長++PPT(教育精品)
- 第三節(jié)社會行為JH
- 六年級數(shù)學(xué)上冊ppt課件-認(rèn)識百分?jǐn)?shù)(第3課時)
- 創(chuàng)面床的準(zhǔn)備
- 建立我國麻醉學(xué)專業(yè)住院醫(yī)師規(guī)范化培訓(xùn)制度
- 高中語文《杜甫詩三首》ppt課件人教版必修
- 中央電視臺總部大樓
- 減輕疼痛柯熹
- 蛙心期外收縮和代償間歇的觀測
- spss操作一數(shù)據(jù)庫建立與數(shù)據(jù)整理課件
- 吳帝聰-總裁銷講密碼【中華講師網(wǎng)】精編版課件
- 只有一個地球PPT
- 分?jǐn)?shù)除法應(yīng)用題
- 初二上Module5Unit2
- 型糖尿病的臨床藥物治療指導(dǎo)