統(tǒng)計數(shù)據(jù)的描述(統(tǒng)計學(xué)).ppt
《統(tǒng)計數(shù)據(jù)的描述(統(tǒng)計學(xué)).ppt》由會員分享,可在線閱讀,更多相關(guān)《統(tǒng)計數(shù)據(jù)的描述(統(tǒng)計學(xué)).ppt(39頁珍藏版)》請在裝配圖網(wǎng)上搜索。
第二章統(tǒng)計數(shù)據(jù)的描述,2.1數(shù)據(jù)的計量尺度2.2統(tǒng)計數(shù)據(jù)的來源2.3統(tǒng)計數(shù)據(jù)的質(zhì)量2.4統(tǒng)計數(shù)據(jù)的整理2.5分布集中趨勢的測度2.6分布的離散程度的測度2.7分布的偏態(tài)和峰度的測度2.8莖葉圖和箱線圖2.9統(tǒng)計表和統(tǒng)計圖,2.1數(shù)據(jù)的計量尺度在進行統(tǒng)計數(shù)據(jù)分析和整理時,都需要了解統(tǒng)計數(shù)據(jù)的性質(zhì)。為此要對統(tǒng)計數(shù)據(jù)進行分類,根據(jù)計量學(xué)一般分類方法,將統(tǒng)計數(shù)據(jù)按照從粗略到精確(從低級到高級)分類的計量尺度分別是列名尺度(定類尺度)、順序尺度(定序尺度)、間隔尺度(等距尺度)和比例尺度(等比尺度)。1、列名尺度(nominalscale)列名尺度是最粗略的計量尺度,它只能對事物進行平行的分類和分組,各類、組之間是平行的。例如將06營銷和06會計專業(yè)學(xué)生按生源地劃分,可以將學(xué)生分為云南籍學(xué)生、貴州籍學(xué)生、廣西籍學(xué)生…等等。在本例中生源地就是列名尺度。由列名尺度確定的數(shù)據(jù)是不能進行加、減、乘和除法運算的。有時,我們用“1”表示云南籍學(xué)生,“2”表示貴州籍學(xué)生,“3”表示廣西籍學(xué)生,…等等,這時,1,2,3等等僅是一個符號,不能進行運算。2、順序尺度(ordinalscale),順序尺度比列名尺度要高一級,表現(xiàn)為各類或組之間有一定的順序,可以進行優(yōu)劣等級的比較。例如把我們同學(xué)按照學(xué)習(xí)成績優(yōu)秀、良好、及格和不及格四類,顯然這四類是有好壞或者說順序之分的,不是平行的。優(yōu)秀、良好、及格和不及格就是順序數(shù)據(jù),學(xué)習(xí)成績就是順序尺度。顯然順序尺度一定是列名尺度,順序數(shù)據(jù)一定是列名數(shù)據(jù)。3、間隔尺度(intervalscale)間隔尺度是一種對數(shù)據(jù)進行精確計量的尺度,它不僅可以比較各事物的順序,而且還可以計算其大小和差值的大小,也就是數(shù)量的間隔。例如我們同學(xué)數(shù)學(xué)考試成績是69、80、70、90、76等等。間隔尺度度量的統(tǒng)計數(shù)據(jù)是可以進行加法和減法運算。顯然間隔尺度度量的數(shù)據(jù)一定是順序數(shù)據(jù),也一定是列名數(shù)據(jù)。4、比例尺度(ratioscale)比例尺度,又稱為定比尺度,是一種比間隔尺度更高級的計量尺度,和間隔尺度主要區(qū)別是對“0”的理解上,在間隔尺度中,“0”,表示一個具體值,在比例尺度中“0”表示沒有。例如假設(shè)我數(shù)學(xué)考試成績是0分,表示我數(shù)學(xué)成績是0分,也是我的成績,并不是表示我沒有成績,也不表示我沒有一定數(shù)學(xué)知識,至少1+2=3是知道的。假設(shè)我身上是0元錢,表示我口袋了一分錢都沒有,也就是沒有錢??梢钥闯霰硎境煽兊慕y(tǒng)計數(shù)據(jù)是間隔數(shù)據(jù),表示錢的統(tǒng)計數(shù)據(jù)是比例數(shù)據(jù)。兩者之間的關(guān)系:間隔數(shù)據(jù)的差是比例數(shù)據(jù)。例如物理學(xué)中的電勢、電勢能、溫度、重力勢能都是間隔數(shù)據(jù),但它們的差電勢差、電勢能差、溫度差和重力勢能查都是比例數(shù)據(jù)。在經(jīng)濟學(xué)中,絕大多數(shù)統(tǒng)計數(shù)據(jù)都是比例數(shù)據(jù)。GDP、就業(yè)人數(shù)、企業(yè)總產(chǎn)值、企業(yè)主營業(yè)務(wù)收入等等都是比例數(shù)據(jù)。顯然比例數(shù)據(jù)一定是間隔數(shù)據(jù)。比例數(shù)據(jù)可以進行加、減、乘和除法運算。凡是適合低級數(shù)據(jù)的統(tǒng)計方法,對高級數(shù)據(jù)都適合,反之,就不一定成立。,2.2統(tǒng)計數(shù)據(jù)的來源統(tǒng)計數(shù)據(jù)的來源主要有直接來源和間接來源。間接來源是指利用現(xiàn)有的數(shù)據(jù)。例如從報紙、圖書、雜志、統(tǒng)計年鑒、網(wǎng)絡(luò)獲取的數(shù)據(jù)是間接數(shù)據(jù),也包括才市場調(diào)查公司或數(shù)據(jù)庫購買的數(shù)據(jù)。直接來源主要包括試驗設(shè)計和統(tǒng)計調(diào)查獲取的數(shù)據(jù)。物理、化學(xué)、生物等自然科學(xué)中統(tǒng)計數(shù)據(jù)直接來源于試驗設(shè)計,經(jīng)濟學(xué)和社會科學(xué)中的統(tǒng)計數(shù)據(jù)直接來源于統(tǒng)計調(diào)查。統(tǒng)計調(diào)查的方法:普查和抽樣調(diào)查1、普查普查是為一特定的目的,專門組織的一次全面調(diào)查。例如我國每十年進行一次的人口普查,農(nóng)業(yè)普查等等。普查的特點是數(shù)據(jù)全面,但成本高。2、抽樣調(diào)查抽樣調(diào)查是從總體中隨機抽出一部分樣本,通過樣本數(shù)據(jù)的數(shù)量特征來分析研究總體數(shù)量特征的調(diào)查研究方法。例如市場調(diào)查、對傳染病的調(diào)查。,2.3統(tǒng)計數(shù)據(jù)的質(zhì)量1、統(tǒng)計數(shù)據(jù)的誤差:非抽樣誤差和抽樣誤差非抽樣誤差:調(diào)查過程中由有關(guān)環(huán)節(jié)工作失誤造成的誤差。它包括調(diào)查過程中的填報錯誤、抄錄錯誤、匯總錯誤、不完整的抽樣框?qū)е碌恼`差、調(diào)查中不回答產(chǎn)生的誤差和某些受訪者故意報虛假數(shù)據(jù)等等??朔椒ǎ杭訌娕嘤?xùn)工作,認(rèn)真貫策《統(tǒng)計法》抽樣誤差:利用樣本推斷總體時產(chǎn)生的誤差。改善方法:選擇好的統(tǒng)計方法2、提高統(tǒng)計數(shù)據(jù)的質(zhì)量途徑克服非抽樣誤差,選擇好的統(tǒng)計方法減小抽樣誤差。,2.4統(tǒng)計數(shù)據(jù)的整理一、統(tǒng)計數(shù)據(jù)的分組統(tǒng)計分組是統(tǒng)計整理的第一步,將數(shù)據(jù)列入不同的組內(nèi)的過程。其中列名尺度和順序尺度數(shù)據(jù)是按照事物的性質(zhì)和屬性劃分的,又稱為按品質(zhì)標(biāo)志分組。間隔尺度和比例尺度數(shù)據(jù)是按照事物數(shù)量標(biāo)準(zhǔn)來劃分的,又稱為數(shù)量標(biāo)志分組。例題某班學(xué)生按性別分組按性別分組人數(shù)百分比%男生3060女生2040合計50100,,,,,,,二、次數(shù)分配(頻數(shù)分布)次數(shù)分配,也叫頻數(shù)分配,是將數(shù)據(jù)分組后,計算其次數(shù)分布的情況。例題某車間30名工人周加工零件數(shù)工人編號周加工零件數(shù)工人編號周加工零件數(shù)工人編號周加工零件數(shù)11061199218528412942210631101311923101491148824105510915118259669116972610571111710327107810718106281289121199529111101052010630101,,,,,,,,,,解:對數(shù)據(jù)進行統(tǒng)計分組第一步是確定組數(shù),按下列公式來確定其中k為組數(shù),n為數(shù)據(jù)的個數(shù)。在本例中,k=1+lg30/lg2,約等于5,故分為5組第二步確定組距(組的上限與下限之差值)在本例中,樣本數(shù)據(jù)中,最大值是128,最小值是84,故組距是(128-84)/5約等于8.1,再結(jié)合本例數(shù)據(jù)的特點,取組距為10。得到頻數(shù)分布是如下圖所示,按周加工零件分組數(shù)次數(shù)(頻數(shù))向下累計次數(shù)向上累計次數(shù)80~90333090~10071027100~110132320110~1205287120~1302302合計30次數(shù)分布的顯示方法:直方圖和折線圖在直角坐標(biāo)系中,用小矩形顯示統(tǒng)計數(shù)據(jù)的分布特征的圖形就是直方圖。在本例中,其直方圖和折線圖如下:,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,思考題:向下累計頻數(shù)和隨機變量的分布函數(shù)之間的關(guān)系是什么?,四、洛倫茨曲線和基尼系數(shù)1、洛倫茨曲線美國統(tǒng)計學(xué)家洛倫次在上個世紀(jì)初,根據(jù)意大利經(jīng)濟學(xué)家帕累托提出的收入分配公式繪制成的描述收入和財富分配的曲線。收入分配百分比與人口百分比之間的函數(shù)關(guān)系的曲線。作法:在直角坐標(biāo)系中,橫軸表示累計人口的百分比,縱軸表示累計的收入或財富百分比。描點繪制出洛倫茨曲線。,,,,,,,,曲線1,曲線2,曲線3,人口占總?cè)丝诘陌俜直?財富占總財富的百分比,100%,100%,A,B,在上圖中,曲線1表示人口百分比與收入百分比完全相等,說明這個國家或地區(qū)的收入分配是完全按人口平均分配的。曲線2表示絕大多數(shù)人沒有收入或財富,只有極少數(shù)人占有全部財富,說明這個國家或地區(qū)人的收入和財富分配是絕對不平均的。世界上絕大多數(shù)國家或地區(qū)收入分配的洛倫次曲線在曲線1和曲線3之間,如曲線2所示。為了更準(zhǔn)確地反映收入分配的變化程度,意大利經(jīng)濟學(xué)家基尼提出基尼系數(shù)來刻畫收入分配平均程度基尼系數(shù)=A/(A+B)顯然,基尼系數(shù)在0和1之間,若基尼系數(shù)等于0,表明這個國家收入分配是絕對平均的,若基尼系數(shù)等于1,表明這個國家收入分配是財富集中在極少數(shù)人手上,絕大多數(shù)人沒有財富,分配是絕對不平均的。在通常情況下,一個國家的基尼系數(shù)在0.2~0.4之間,社會比較穩(wěn)定,當(dāng)基尼系數(shù)超過0.4時,表明這個國家收入分配出現(xiàn)不公了,需要政府采取措施,縮小差距,維護社會穩(wěn)定。,例2.2講解。下表是澳大利亞1973年至1974年可稅收入分布情況,,,可稅收入/$,,納稅人數(shù)目/人,,可稅收入/$,,,在收入等級中的百分?jǐn)?shù),累計的百分?jǐn)?shù)%,,,人數(shù),收入額,人數(shù),收入額,1200以下1200~15991600~19992000~23992400~27992800~31993200~35993600~39994000~47994800~55995600~63996400~71997200~79998000~87998800~999910000~1199912000~1599916000~1999920000~3999940000以上,119312282294301201351705352297380032416597444625837870665649466233304701195514125740115155985467982631477310794564,130725395513543977773007916492114139214177211690622367772034483652785529296361214802551052749107614410713701090369557818802948265910,2.135.035.386.286.296.787.437.9314.9511.888.325.443.492.242.051.761.430.560.550.08,0.501.512.062.933.474.335.376.4113.9413.0710.567.825.613.994.084.064.132.113.041.01,2.137.1612.5418.8225.1131.8939.3247.2562.2074.0882.4087.8491.3393.5795.6297.3898.8199.3799.92100.0,0.502.014.077.0010.4714.8020.1726.5840.5253.5964.1571.9777.5881.5785.6589.7193.8495.9598.99100.0,,合計,5604487,26382238,100.0,100.0,表中第一列可稅收入是分組的變量(比例尺度數(shù)據(jù)變量);第二列納稅人數(shù)是收入分組的次數(shù)分配(在可稅收入范圍內(nèi)的納稅人數(shù));第三列可稅收入是指各組納稅人可稅收入的總額;第四列和第五列分別是分別是第二列和第三列的百分比分布;第六和第七列分別是第四和第五列向下累積的數(shù)值。下面用MATLAB6.5軟件繪制出洛倫茨曲線,有關(guān)程序是X;Y;PLOT(X,Y);Z=1:2:100;Z1=zPlot(z,z1,x,y,’r’)圖中,藍線表示的是完全按人口平均分配收入的洛倫茨曲線,紅線表示本例中的洛倫茨曲線,也就是1973~1974年澳大利亞收入分配的洛倫茨曲線。,2.5分布的集中趨勢的測度數(shù)據(jù)的集中趨勢是指能夠代表數(shù)據(jù)總體變化趨勢的量,集中趨勢的值愈大,表明從總體上看,數(shù)據(jù)值大,反之,集中趨勢值愈小,表明從總體上看,數(shù)據(jù)值愈小。因此,集中趨勢是統(tǒng)計數(shù)據(jù)的一個重要指標(biāo)。不同數(shù)據(jù)類型度量它的集中趨勢指標(biāo)值是不同的,下面分別介紹。一、名列尺度數(shù)據(jù):眾數(shù)對于名列尺度數(shù)據(jù),度量它集中趨勢的指標(biāo)是眾數(shù)。眾數(shù):在一組統(tǒng)計數(shù)據(jù)中,出現(xiàn)次數(shù)最多的數(shù)據(jù)是眾數(shù)。例如某市場調(diào)查公司調(diào)查市場上飲料銷售情況,如下表所示飲料品牌頻數(shù)百分比可口可樂1836%旭日升冰茶918%百事可樂1326%匯源果汁1020%合計50100%,,,,,,,,,,由眾數(shù)的定義知,上述數(shù)據(jù)中,眾數(shù)是可口可樂,因為它出現(xiàn)的次數(shù)最多的統(tǒng)計數(shù)據(jù)。因為凡是適合低級統(tǒng)計數(shù)據(jù)的統(tǒng)計方法,對高級統(tǒng)計數(shù)據(jù)也適合,因此順序數(shù)據(jù)、間隔數(shù)據(jù)和比例數(shù)據(jù)都可以用眾數(shù)來描述它們的集中趨勢。順序數(shù)據(jù)、未分組的間隔數(shù)據(jù)和比例數(shù)據(jù)的眾數(shù)計算方法和列名數(shù)據(jù)計算方法相同。對于分組的間隔數(shù)據(jù)和比例數(shù)據(jù),其眾數(shù)計算方法如下:表示眾數(shù),L表示眾數(shù)所在的組下限,表示眾數(shù)組次數(shù)與上一組次數(shù)之差。表示眾數(shù)組次數(shù)與下一組次數(shù)之差。i表示眾數(shù)組的組距,例題計算例2.2中的眾數(shù)解:1)找到眾數(shù)所在的組,也就是頻數(shù)最多的組。在本例中,眾數(shù)所在的組是4000~47992)按上述公式計算如下,注:不是在任何情況下,統(tǒng)計數(shù)據(jù)都有眾數(shù),有時統(tǒng)計數(shù)據(jù)沒有眾數(shù)。雖然眾數(shù)可以用來度量順序數(shù)據(jù)和數(shù)量數(shù)據(jù)(間隔數(shù)據(jù)和比例數(shù)據(jù))但是順序數(shù)據(jù)和數(shù)量數(shù)據(jù)不常用眾數(shù)來度量它們的集中趨勢,下面先介紹順序數(shù)據(jù)集中趨勢度量方法二、順序數(shù)據(jù):中位數(shù)和分位數(shù)中位數(shù)是數(shù)據(jù)排序后,位置在最中間的數(shù)值。例如我們有5個數(shù),2,4,3,8,9,將它們排序后是2,3,4,8,9,處于中間位置的是4。因此這組數(shù)據(jù)的中位數(shù)是4若是偶數(shù)個數(shù)據(jù),則取中間兩位數(shù)據(jù)的算術(shù)平均數(shù)。例如有數(shù)據(jù)3,5,2,4,8,6,9,7排序后是2,3,4,5,6,7,8,9中間兩位是5和6,中位數(shù)是(5+6)/2=5.5對于分組數(shù)據(jù),可按下列公式來計算,其中N為樣本數(shù)據(jù)的個數(shù)(樣本容量),L表示眾位數(shù)所在組的下限表示眾位數(shù)所在組的以下各組的累計次數(shù);表示中位數(shù)所在組的次數(shù);i表示中位數(shù)所在組的組距。下面我們計算例2.2中的中位數(shù)解:1)找到中位數(shù)所在的組看N/2次落在哪組,不難看出,N/2次落在4000~4799這一組因此中位數(shù)一定落在這組,所以,L=4000,,i=799所求的中位數(shù)是4146.97,分位數(shù)的概念分位數(shù)是將統(tǒng)計數(shù)據(jù)等分成幾個部分的數(shù)據(jù)。若等分成四個部分,稱為四分位數(shù),若等分成10個部分,稱為十分位數(shù),若等分成兩個部分,稱為中位數(shù)。下面以四分位數(shù)為例說明分位數(shù)的計算方法所謂四分位數(shù)是指把一組統(tǒng)計數(shù)據(jù)等分成四個部分的三個數(shù)據(jù),由于中間的那個分位數(shù)是中位數(shù),已經(jīng)講過,著重講解上下兩個四分位數(shù)。例題設(shè)有統(tǒng)計數(shù)據(jù)2,4,3,5,7,6,10,3,5,9,11,21,20,19,16,17,15解:首先將統(tǒng)計數(shù)據(jù)按升序排列為:2,3,3,4,5,5,6,7,9,10,11,15,16,17,19,20,21第一個四分位數(shù)(下四分位數(shù))在N/4=17/4=4.25的位置,而4的,位置是4,5的位置是5,故4.25的位置是4.25,即下四分位數(shù)是4.25,即。上四分位數(shù)是在3/4的位置,即12.75的位置12的位置是15,13的位置是16,所以12.75的位置的數(shù)是15.75,故上四分位數(shù)。對于分組數(shù)據(jù),上、下四分位數(shù)的計算公式分別是,下面講解例2.2中上、下四分位數(shù)的計算解:以頻率為標(biāo)準(zhǔn)來算N=100,N/4=25,3N/4=75,所以,下四分位數(shù)在2400~2799組內(nèi),上四分位數(shù)在5600~6399組內(nèi)。,注:中位數(shù)和分位數(shù)主要是用來描述順序數(shù)據(jù)的集中趨勢,也可以用來描述數(shù)值型數(shù)據(jù)的集中趨勢。但不能用來描述列名數(shù)據(jù)的集中趨勢。對于數(shù)值型數(shù)據(jù)主要用均值來描述其集中趨勢。數(shù)值型數(shù)據(jù)(間隔數(shù)據(jù)和比例數(shù)據(jù)):均值均值(mean)就是算術(shù)平均數(shù),主要度量間隔數(shù)據(jù)和比例數(shù)據(jù)的集中趨勢。對于未分組的數(shù)據(jù),其均值是對于分組數(shù)據(jù),用加權(quán)算術(shù)平均數(shù)來表示集中趨勢,其中為第i組的次數(shù),為第i組的組中值。例如在數(shù)2,4,9,3,4,2,中,其均值是(2+4+9+3+4+2)/6=4在例2.2中,其是分組數(shù)據(jù),它的均值是五、幾何平均數(shù)(Geometricmean)幾何平均數(shù)是算術(shù)平均數(shù)的變形,即將幾何平均值作對數(shù)變換,得到的結(jié)果是算術(shù)平均數(shù)。反之,將算術(shù)平均數(shù)作指數(shù)變換,得到幾何平均數(shù)。幾何平均值只適合比例尺度統(tǒng)計數(shù)據(jù),其他數(shù)據(jù)都不適合。在經(jīng)濟學(xué)中,幾何平均數(shù)主要用來計算社會經(jīng)濟問題的平均發(fā)展速度、平均增長率和平均收益率等方面。計算方法如下,設(shè)是比例尺度統(tǒng)計數(shù)據(jù),則它們的幾何平均數(shù)是例題講解1998——2002年我國國內(nèi)生產(chǎn)總值如下表所示年份19981999200020012002國內(nèi)生產(chǎn)總值78345.282067.589468.197314.8104790.6各年發(fā)展速度計算公式是,,,,,,,,,,,,,,,年份,國內(nèi)生產(chǎn)總值的發(fā)展速度%,1999,2000,2001,2002,104.75,109.02,108.77,107.68,將表中數(shù)據(jù)代人幾何平均數(shù)公式得六、切尾均值切尾均值是去掉極端值(特大或特小值)后的均值,具體計算請大家自己看書。,2.5.7眾數(shù)、中位數(shù)和均值的關(guān)系1、對稱分布對于對稱分布的統(tǒng)計數(shù)據(jù),其均值、眾數(shù)和中位數(shù)是相等的,反之,若在一組統(tǒng)計數(shù)據(jù)中,其均值、眾數(shù)和中位數(shù)是相等的,則該組數(shù)據(jù)一定對稱分布。如下圖所示,,,,,二、右偏分布對于右偏分布的統(tǒng)計數(shù)據(jù),其均值、眾數(shù)和中位數(shù)的大小關(guān)系是均值大于中位數(shù)、中位數(shù)大于眾數(shù);反之,若在一組統(tǒng)計數(shù)據(jù)中,其均值大于中位數(shù)、中位數(shù)大于眾數(shù),則該組數(shù)據(jù)一定是右偏分布。如下圖所示,,,,,,,三、左偏分布對于左偏分布的統(tǒng)計數(shù)據(jù),其均值、眾數(shù)和中位數(shù)的大小關(guān)系是眾數(shù)大于中位數(shù)、中位數(shù)大于均值。;反之,若在一組統(tǒng)計數(shù)據(jù)中,其眾數(shù)大于中位數(shù)、中位數(shù)大于均值,則該組數(shù)據(jù)一定是左偏分布。如下圖所示,,,,,,,例題講解3D是一種福利彩票,彩民購買一組3個號碼,每個號碼都是0~9的十個數(shù)字,若全部賣中,中獎1000元,每注彩票價格2元。下列數(shù)據(jù)是2005年至2007年3D中獎號碼,用SPSS10.0分析中獎號碼的基本特征。,作業(yè):P59EX1~EX6,- 1.請仔細(xì)閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該PPT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 統(tǒng)計數(shù)據(jù) 描述 統(tǒng)計學(xué)
鏈接地址:http://m.appdesigncorp.com/p-3525990.html