《數(shù)學(xué)分布泊松分布、二項(xiàng)分布、正態(tài)分布、均勻分布、指數(shù)分布生存分析貝葉斯概率公式全概率公式.doc》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)學(xué)分布泊松分布、二項(xiàng)分布、正態(tài)分布、均勻分布、指數(shù)分布生存分析貝葉斯概率公式全概率公式.doc(14頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、數(shù)學(xué)期望:隨機(jī)變量最基本的數(shù)學(xué)特征之一。它反映隨機(jī)變量平均取值的大小。又稱期望或均值。它是簡(jiǎn)單算術(shù)平均的一種推廣。例如某城市有10萬(wàn)個(gè)家庭,沒(méi)有孩子的家庭有1000個(gè),有一個(gè)孩子的家庭有9萬(wàn)個(gè),有兩個(gè)孩子的家庭有6000個(gè),有3個(gè)孩子的家庭有3000個(gè), 則此城市中任一個(gè)家庭中孩子的數(shù)目是一個(gè)隨機(jī)變量,記為X,它可取值0,1,2,3,其中取0的概率為0.01,取1的概率為0.9,取2的概率為0.06,取3的概率為0.03,它的數(shù)學(xué)期望為00.01+10.9+20.06+30.03等于1.11,即此城市一個(gè)家庭平均有小孩1.11個(gè),用數(shù)學(xué)式子表示為:E(X)=1.11。
也就是說(shuō),我們用數(shù)學(xué)的
2、方法分析了這個(gè)概率性的問(wèn)題,對(duì)于每一個(gè)家庭,最有可能它家的孩子為1.11個(gè)。
可以簡(jiǎn)單的理解為求一個(gè)概率性事件的平均狀況。
各種數(shù)學(xué)分布的方差是:
1、 一個(gè)完全符合分布的樣本
2、 這個(gè)樣本的方差
概率密度的概念是:某種事物發(fā)生的概率占總概率(1)的比例,越大就說(shuō)明密度越大。比如某地某次考試的成績(jī)近似服從均值為80的正態(tài)分布,即平均分是80分,由正態(tài)分布的圖形知x=80時(shí)的函數(shù)值最大,即隨機(jī)變量在80附近取值最密集,也即考試成績(jī)?cè)?0分左右的人最多。
下圖為概率密度函數(shù)圖(F(x)應(yīng)為f(x),表示概率密度):
離散型分布:二項(xiàng)分布、泊松分布
3、連續(xù)型分布:指數(shù)分布、正態(tài)分布、X2分布、t分布、F分布
抽樣分布
抽樣分布只與自由度,即樣本含量(抽樣樣本含量)有關(guān)
二項(xiàng)分布(binomial distribution):例子拋硬幣
1、 重復(fù)試驗(yàn)(n個(gè)相同試驗(yàn),每次試驗(yàn)兩種結(jié)果,每種結(jié)果概率恒定————伯努利試驗(yàn))
2、
3、 P(X=0), P(X=1), P(X=3), ……….所有可能的概率共同組成了一個(gè)分布,即二項(xiàng)分布
泊松分布(possion distribution):
1、 一個(gè)單位內(nèi)(時(shí)間、面積、空間)某稀有事件
2、 此事件發(fā)生K次的概率
3、
4、P(X=0), P(X=1), P(X=3), ……….所有可能的概率共同組成了一個(gè)分布,即泊松分布
二項(xiàng)分布與泊松分布的關(guān)系:
二項(xiàng)分布在事件發(fā)生概率很小,重復(fù)次數(shù)n很大的情況下,其分布近似泊松分布
均勻分布(uniform distribution):
分為連續(xù)型均勻分布和離散型均勻分布
離散型均勻分布:
1、 n種可能的結(jié)果
2、 每個(gè)可能的概率相等(1/n)
連續(xù)型均勻分布:
1、 可能的結(jié)果是連續(xù)的
2、 每個(gè)可能的概率相等()
連續(xù)型均勻分布概率密度函數(shù)如下圖:
指數(shù)分布(expon
5、ential distribution):
用來(lái)表示獨(dú)立隨機(jī)事件發(fā)生的時(shí)間間隔,比如旅客進(jìn)機(jī)場(chǎng)的時(shí)間間隔、中文維基百科新條目出現(xiàn)的時(shí)間間隔等等。
指數(shù)分布常用于各種“壽命”分布的近似。
1、連續(xù)型分布,每個(gè)點(diǎn)的概率:
2、無(wú)記憶性。已經(jīng)使用了s小時(shí)的元件,它能再使用t小時(shí)的概率,與一個(gè)從未使用過(guò)的元件使用t小時(shí)的概率相同。即它對(duì)已經(jīng)使用過(guò)的s小時(shí)沒(méi)有記憶。
指數(shù)分布的概率密度函數(shù)如下圖:
正態(tài)分布(normal distribution):
又稱高斯分布。
1、 描述一個(gè)群體的某個(gè)指標(biāo)。
2、 這個(gè)指標(biāo)是連續(xù)的。
3、 每個(gè)特定指標(biāo)在整個(gè)群體中都有一
6、個(gè)概率()。
4、 所有指標(biāo)概率共同組成了一個(gè)分布,這個(gè)分布就是正態(tài)分布。
正態(tài)分布的概率密度函數(shù)如下圖:
中心極限定理:
不論總體的分布形式如何(正態(tài)或非正態(tài)),只要樣本(抽樣樣本)含量n足夠大時(shí),樣本均數(shù)的分布就近似正態(tài)分布,且均數(shù)與總體均數(shù)相等,標(biāo)準(zhǔn)差為(總體標(biāo)準(zhǔn)差)/(n的開(kāi)方)。
中心極限定理使得t分布、F分布和X2分布在抽樣樣本含量很大時(shí)不需要對(duì)總體樣本是否正態(tài)有要求。
t分布(student t distribution):
1、t分布是以0為中心的一簇曲線,每個(gè)自由度決定一個(gè)曲線
2、自由度是一個(gè)抽樣小樣本中的具體觀測(cè)值的個(gè)數(shù)(抽樣樣本
7、含量)-1
3、總體樣本呈正態(tài)分布(抽樣樣本含量較小時(shí),要求總體樣本呈正態(tài)分布,如果抽樣樣本含量很大(eg. n >= 100),由中心極限定理可知抽樣樣本均數(shù)也近似正態(tài)分布,因而“差值”的概率也呈正態(tài)分布,而t分布的每一條曲線實(shí)際上都是正態(tài)分布曲線)
4、從一個(gè)總體樣本中抽取很多個(gè)小樣本———抽樣
5、每個(gè)小樣本都有一個(gè)均值
6、每個(gè)小樣本的均值與總體樣本均值有一個(gè)差值,這個(gè)差值用t估計(jì)
7、可能有多個(gè)小樣本的差值估計(jì)都是t,t出現(xiàn)的次數(shù)占所有小樣本的比例可以用一個(gè)概率衡量
8、所有t值的概率組成一個(gè)分布,就是t分布的一個(gè)曲線
9、另外做一個(gè)抽樣,每個(gè)小樣本包含的觀
8、測(cè)值不同,則形成t分布的另外一個(gè)曲線
10、自由度越大,則曲線越接近于標(biāo)準(zhǔn)正態(tài)分布
11、t分布只與自由度相關(guān)
t分布的概率密度函數(shù)如下圖(v為自由度):
X2分布(chi square distribution):
1、X2分布也是一簇曲線,每個(gè)自由度決定一個(gè)曲線
2、自由度是一個(gè)抽樣小樣本中的具體觀測(cè)值的個(gè)數(shù)(抽樣樣本含量)-1
2、總體樣本呈正態(tài)分布(抽樣樣本含量(n)較小時(shí),要求總體樣本呈正態(tài)分布)
3、從總體樣本中抽取n個(gè)觀測(cè)值:z1,z2,z3……———抽樣
4、將它們平方后求和,這個(gè)和用一個(gè)新變量表示,即X2
5、重復(fù)抽樣并獲得多個(gè)X2
9、:X12,X22,X32,X42………
6、可能有多次抽樣的X2值相同,同一個(gè)X2值的抽樣次數(shù)占總次數(shù)的比例可以用一個(gè)概率表示
7、所有的概率值共同組成一個(gè)分布,就是X2分布的一條曲線
8、另外做一次,只要從總體中選取觀測(cè)值數(shù)目n不同,得到的就是另外一條曲線
10、自由度越大,則曲線越接近于標(biāo)準(zhǔn)正態(tài)分布
11、X2分布只與自由度相關(guān)
X2分布的概率密度函數(shù)如下圖(n在這里為自由度):
F分布(F-distribution):
1、F分布也是一簇曲線,每對(duì)自由度決定一個(gè)曲線
2、自由度是一個(gè)抽樣小樣本中的具體觀測(cè)值的個(gè)數(shù)(抽樣樣本含量)-1
2、兩總體
10、樣本方差比的分布
3、總體樣本呈正態(tài)分布(抽樣樣本含量(n)較小時(shí),要求總體樣本呈正態(tài)分布)
4、從總體樣本中抽取兩個(gè)樣本, 兩個(gè)樣中的觀測(cè)值數(shù)目可相同也可不同,分別記為n1和n2
5、分別計(jì)算出X2:X1,X2
6、構(gòu)建一個(gè)新變量F:
7、重復(fù)抽取樣本,計(jì)算多個(gè)F值:F1,F(xiàn)2,F(xiàn)3……..
8、可能有多次抽樣的F值相同,同一個(gè)F值的抽樣次數(shù)占總次數(shù)的比例可以用一個(gè)概率表示
9、所有的概率值共同組成一個(gè)分布,就是F分布的一條曲線
10、另外做一次,只要從總體中選取觀測(cè)值數(shù)目n不同,得到的就是另外一條曲線
10、兩個(gè)自由度越大,則曲線越接近于標(biāo)準(zhǔn)正態(tài)分布
11、
11、F分布只與自由度相關(guān)
F分布的概率密度函數(shù)如下圖(m,n在這里為自由度):
【在推估總體平均值時(shí),基于樣本平均數(shù)的抽樣分布】—— t分布
【在用樣本方差來(lái)推估總體方差時(shí),必須知道樣本方差的抽樣分布】— X2分布
【比較兩個(gè)總體的方差是否相等時(shí),必須知道樣本方差的聯(lián)合抽樣分布】— F分布
生存分析(survival analysis):
1、 多種影響慢性疾病的因素(不同手術(shù)方法、不同藥物………)
2、 隨訪一群患者
3、 一段時(shí)間后統(tǒng)計(jì)生存和死亡
3、最終給出的結(jié)果是一個(gè)評(píng)價(jià)各種因素對(duì)生存時(shí)間的影響(生存時(shí)間、生存率有無(wú)差異)
貝葉斯公式(bayes formula):
1、 描述兩個(gè)條件概率之間的關(guān)系———P(Bi|A)與P(A|Bi),A為事件,Bi 為一個(gè)劃分
2、 P(Bi|A)=P(A|Bi)*P(Bi)/P(A) 或者
3、 看圖理解
全概率公式(full probability formula):
1、 描述一個(gè)特定事件的概率與條件概率間的關(guān)系
2、 P(A)=P(A|B1)*P(B1) + P(A|B2)*P(B2) + ... + P(A|Bn)*P(Bn)
3、 看圖理解