騰訊大講堂59數(shù)據(jù)蘊(yùn)含商機(jī),挖掘決勝千里

上傳人：仙*** 文檔編號(hào)：44027208 上傳時(shí)間：2021-12-05 格式：PPT 頁數(shù)：39 大?。?.32MB

收藏版權(quán)申訴舉報(bào) 下載

騰訊大講堂59數(shù)據(jù)蘊(yùn)含商機(jī),挖掘決勝千里_第1頁

第1頁 / 共39頁

騰訊大講堂59數(shù)據(jù)蘊(yùn)含商機(jī),挖掘決勝千里_第2頁

第2頁 / 共39頁

騰訊大講堂59數(shù)據(jù)蘊(yùn)含商機(jī),挖掘決勝千里_第3頁

第3頁 / 共39頁

下載文檔到電腦，查找使用更方便

10 積分

下載資源

還剩頁未讀，繼續(xù)閱讀

資源描述：

《騰訊大講堂59數(shù)據(jù)蘊(yùn)含商機(jī),挖掘決勝千里》由會(huì)員分享，可在線閱讀，更多相關(guān)《騰訊大講堂59數(shù)據(jù)蘊(yùn)含商機(jī),挖掘決勝千里（39頁珍藏版）》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

1、騰訊大講堂第五十九期研發(fā)管理部大講堂主頁：http:/ 數(shù)據(jù)分析數(shù)據(jù)分析研究室研究室SimonJiangSimonJiang / / 江宇聞江宇聞2009-02-242009-02-24Agenda數(shù)據(jù)挖掘是什么？1模型+算法2數(shù)據(jù)挖掘?qū)嵺`分享3心得與總結(jié)4從運(yùn)籌帷幄到?jīng)Q勝千里舌戰(zhàn)群儒草船借箭巧借東風(fēng)火燒赤壁赤壁懷古蘇軾羽扇綸巾談笑間檣櫓灰飛煙滅.觀日月之行，察天地之變風(fēng)雷電雨云云多會(huì)下雨刮風(fēng)會(huì)下雨下雨會(huì)閃電閃電會(huì)打雷換成它呢？數(shù)據(jù)爆炸的時(shí)代Data Mining, circa 1963 IBM 7090 600 cases“Machine storage limitationsre

2、stricted the total number ofvariables which could beconsidered at one time to 25.”數(shù)據(jù)挖掘是DataInformationKnowledgeWisdom To find / discover / extract / dredge / harvest 、 Interesting / novel / useful / implicit / actable / meaningful 、 Information / knowledge / patterns / trends / rules / anomalies 、 I

3、n massive data / large data set / large database / data warehouse 、Data + contextInformation + rulesKnowledge + experience多學(xué)科的融合DatabasesStatisticsPatternRecognitionKDDMachineLearningAINeurocomputingData MiningAgenda數(shù)據(jù)挖掘是什么？1模型+算法2數(shù)據(jù)挖掘?qū)嵺`分享3心得與總結(jié)4幾個(gè)基本概念幾個(gè)基本概念n 模型（Model） vs 模式（Pattern）數(shù)據(jù)挖掘的根本目的就是把樣本數(shù)

4、據(jù)中隱含的結(jié)構(gòu)泛化（Generalize）到總體（Population）上去模型：對(duì)數(shù)據(jù)集的一種全局性的整體特征的描述或概括，適用于數(shù)據(jù)空間中的所有點(diǎn)，例如聚類分析模式：對(duì)數(shù)據(jù)集的一種局部性的有限特征的描述或概括，適用于數(shù)據(jù)空間的一個(gè)子集，例如關(guān)聯(lián)分析n 算法（Algorithm）：一個(gè)定義完備（well-defined）的過程，它以數(shù)據(jù)作為輸入并產(chǎn)生模型或模式形式的輸出n 描述型挖掘（Descriptive） vs 預(yù)測型挖掘（Predictive）描述型挖掘：對(duì)數(shù)據(jù)進(jìn)行概括，以方便的形式呈現(xiàn)數(shù)據(jù)的重要特征預(yù)測型挖掘：根據(jù)觀察到的對(duì)象特征值來預(yù)測它的其他特征值描述型挖掘可以是目的，

5、也可以是手段數(shù)據(jù)挖掘是一個(gè)過程- “from data mining to knowledge discovery in database”. U. fayyad, G.P.Shapiro and P.Smyth (1996)數(shù)據(jù)挖掘方法論CRISP_DM （Cross Industry Standard Process for DM） 1998年，由NCRNCR、ClementineClementine、OHRAOHRA和Daimler-BenzDaimler-Benz的聯(lián)合項(xiàng)目組提出SEMMA SAS公司提出的方法 Sample, Explore, Modify, Model, Asses

6、s在戰(zhàn)略上使用Crisp_DM方法論，在戰(zhàn)術(shù)上應(yīng)用SEMMA方法論工欲善其事必先利其器n 數(shù)據(jù)清洗填充缺失值, 修均噪聲數(shù)據(jù), 識(shí)別或刪除孤立點(diǎn), 并解決數(shù)據(jù)不一致問題主要分析方法：分箱（Binning）、聚類、回歸n 數(shù)據(jù)集成多個(gè)數(shù)據(jù)庫、數(shù)據(jù)方或文件的集成n 數(shù)據(jù)變換規(guī)范化與匯總n 數(shù)據(jù)簡化減少數(shù)據(jù)量的同時(shí), 還可以得到相同或相近的分析結(jié)果主要分析方法：抽樣、主成分分析n 數(shù)據(jù)離散化數(shù)據(jù)簡化的一部分, 但非常重要 (尤其對(duì)于數(shù)值型數(shù)據(jù)來說)先來玩玩數(shù)據(jù)（EDA）n 探索性數(shù)據(jù)分析（Exploratory Data Analysis, EDA）探索性地查看數(shù)據(jù)，概括數(shù)據(jù)集的結(jié)構(gòu)

7、和關(guān)系對(duì)數(shù)據(jù)集沒有各種嚴(yán)格假定n 主要任務(wù) 數(shù)據(jù)可視化（a picture is worth a thousand words）殘差分析（數(shù)據(jù)擬合 + 殘差）數(shù)據(jù)的重新表達(dá)（什么樣的尺度對(duì)數(shù)抑或平方根會(huì)簡化分析）方法的耐抗性（對(duì)數(shù)據(jù)局部不良的不敏感性，如中位數(shù)耐抗甚于均值）n 常見方法統(tǒng)計(jì)量，如均值、方差、根方差、協(xié)方差、峰度、偏度、相關(guān)系數(shù)等統(tǒng)計(jì)圖，如餅圖、直方圖、散點(diǎn)圖、箱尾圖等模型，如聚類數(shù)據(jù)挖掘 = 模型 + 算法你使用過信用卡嗎？卡應(yīng)該發(fā)給誰？哪些持卡人會(huì)拖欠？哪些拖欠的客戶會(huì)還款？影響資產(chǎn)組合（Portfolio）1、根據(jù)歷史，預(yù)測將來2、目標(biāo)是一個(gè)分類變量3

8、、預(yù)測結(jié)果是一個(gè)統(tǒng)計(jì)意義下的概率1、哪些人可以發(fā)卡，額度是多少。2、持卡人拖欠的概率是多少3、該對(duì)誰催收分類過程訓(xùn)練集訓(xùn)練集分類學(xué)習(xí)分類學(xué)習(xí)訓(xùn)練集訓(xùn)練集IF rank = professorOR years 6THEN tenured = yesJef is YES!分類器分類器物以類聚，人以群分人為地選取細(xì)分維度人為地選取細(xì)分維度客戶價(jià)值地域活躍程度維度災(zāi)難的發(fā)生維度災(zāi)難的發(fā)生維度增長細(xì)分?jǐn)?shù)目指數(shù)增長人腦僅能處理有限的維度市場市場聚類示意n 基于歐氏距離的三維空間中的聚類n 基于質(zhì)心的聚類算法(K-Means)|(|),(222jzizjyiyjxixjidA1A2B1xyz發(fā)

9、現(xiàn)商品間的關(guān)聯(lián)規(guī)則buy(x,”diapers”) buy(x,”beers”)關(guān)聯(lián)規(guī)則的量度n 支持度：Support(A=B)=#AB/#N，表示A和B同時(shí)出現(xiàn)的概率n 期望可信度：Support(A)=#A/#N，表示A出現(xiàn)的概率n 置信度：Confidence(A=B)=Support(A=B)/Support(B)n 改善度：Lift(A=B)=Confidence(A=B)/Support(B)名稱描述公式支持度X、Y同時(shí)出現(xiàn)的頻率 P(XY) 期望可信度 Y出現(xiàn)的頻率 P(Y) 置信度X出現(xiàn)的前提下，Y出現(xiàn)的頻率P(Y|X) 改善度置信度對(duì)期望可信度的比值 P(Y|X)/P(Y

10、) 關(guān)聯(lián)規(guī)則的度量n 發(fā)現(xiàn)具有最小置信度和支持度的全部規(guī)則 X Y Z 支持度(support), s, 事務(wù)中包含X & Y & Z的概率置信度(confidence), c, 事務(wù)中包含X & Y的條件下, 包含Z的條件概率n 令最小支持度為50%, 最小置信度為50%, 則有A C (50%, 66.6%)C A (50%, 100%)顧客購買尿布顧客購買尿布顧客購買兩者顧客購買兩者顧客購買啤酒顧客購買啤酒從算法到應(yīng)用數(shù)據(jù)挖掘廠商挖掘和統(tǒng)計(jì)分析平臺(tái)挖掘和統(tǒng)計(jì)分析平臺(tái)SAS EMSPSS ClementineS+MinerStatistic Data Miner與數(shù)據(jù)庫集成挖掘平臺(tái)與數(shù)據(jù)

11、庫集成挖掘平臺(tái)IBM IMOracleNCR Teradata MinerSQL 2005 DM 行業(yè)運(yùn)用及解決方案行業(yè)運(yùn)用及解決方案UnicaKXENHNCAgenda數(shù)據(jù)挖掘是什么？1模型+算法2數(shù)據(jù)挖掘?qū)嵺`分享3心得與總結(jié)4看看QQ的流失數(shù)據(jù)流失率2007年3月2007年4月2007年5月2007年6月當(dāng)月活躍總帳戶數(shù)253,668,411255,749,736264,006,894269,060,000當(dāng)月流失老帳戶數(shù)6,572,0876,006,5825,466,8078,217,569當(dāng)月老帳戶流失率2.59%2.35%2.07%3.05%每個(gè)月每個(gè)月50010005001000萬

12、的老用戶流失，萬的老用戶流失，一年老用戶流失接近一年老用戶流失接近1 1億億, ,實(shí)際自然實(shí)際自然人流失狀況雖然沒有這么嚴(yán)重，但人流失狀況雖然沒有這么嚴(yán)重，但是仍然是一個(gè)驚人的數(shù)據(jù)。是仍然是一個(gè)驚人的數(shù)據(jù)?？蛻袅魇敲靠蛻袅魇敲總€(gè)行業(yè)每天都個(gè)行業(yè)每天都在面對(duì)的問題在面對(duì)的問題1、建立流失預(yù)測模型，回答、建立流失預(yù)測模型，回答客戶是否要流失，何時(shí)流失的客戶是否要流失，何時(shí)流失的問題問題2、通過預(yù)測模型建立客戶流、通過預(yù)測模型建立客戶流失管理機(jī)制，更為有效地管理失管理機(jī)制，更為有效地管理流失，而不是去防止流失流失，而不是去防止流失一切從目標(biāo)出發(fā)目標(biāo)變量目標(biāo)變量：即需要根據(jù)業(yè)務(wù)需求確定模型：即需要

13、根據(jù)業(yè)務(wù)需求確定模型需要預(yù)測的對(duì)象，在需要預(yù)測的對(duì)象，在QQQQ客戶流失模型中即客戶流失模型中即是在業(yè)務(wù)上對(duì)是在業(yè)務(wù)上對(duì)“流失流失”的定義。的定義。沉默客戶數(shù)在4月后區(qū)域穩(wěn)定模型選擇連續(xù)沉默2個(gè)月作為流失的定義目標(biāo)變量的定義：目標(biāo)變量的定義：Good：在表現(xiàn)窗口連續(xù)兩個(gè)月有登陸的客戶在表現(xiàn)窗口連續(xù)兩個(gè)月有登陸的客戶Bad: 在表現(xiàn)窗口連續(xù)兩個(gè)月都沒有登陸的客戶在表現(xiàn)窗口連續(xù)兩個(gè)月都沒有登陸的客戶Intermediate: 在表現(xiàn)窗口其中一個(gè)月有登陸的客戶在表現(xiàn)窗口其中一個(gè)月有登陸的客戶打開觀測用戶的窗口訓(xùn)練樣本測試樣本觀察窗口: 2007年1月2007年3月表現(xiàn)窗口: 2007年5月2007

14、年6月Time Lag: 2007年4月交叉校驗(yàn)樣本觀察窗口: 2007年2月2007年4月表現(xiàn)窗口: 2007年6月2007年7月Time Lag: 2007年5月觀察窗口表現(xiàn)窗口Time LagMM-1M-2M-3M-4M-5M+1M+2M+31觀察窗口：觀察窗口：形成自變量的時(shí)間段。表現(xiàn)窗口表現(xiàn)窗口：形成因變量的時(shí)間段。23Time Lag：預(yù)留給業(yè)務(wù)部門進(jìn)行相應(yīng)操作的時(shí)間段。123變化幅度特征變量描述用戶使用量上的變化幅度勾勒出用戶行為的特征基本屬性變量描述用戶的基本屬性產(chǎn)品使用行為特征描述用戶使用產(chǎn)品的情況消息業(yè)務(wù)使用行為特征描述用戶使用消息業(yè)務(wù)的情況音頻業(yè)務(wù)使用行為特征描

15、述用戶使用音頻業(yè)務(wù)的情況視頻業(yè)務(wù)使用行為特征描述用戶使用視頻業(yè)務(wù)的情況客戶在線的行為特征從在線時(shí)長，登陸次數(shù)，登陸頻率等角度研究用戶的使用行為歸屬地變化的行為特征描述用戶在某一時(shí)間周期內(nèi)登陸所在地的變化情況中間變量中間變量比例特征變量描述用戶業(yè)務(wù)使用占比基礎(chǔ)變量基礎(chǔ)變量變量描述變量描述行為趨勢特征變量描述用戶的使用行為變化趨勢變量描述變量描述黃沙吹盡始到金基礎(chǔ)變量和中間變量數(shù)目約為224個(gè)經(jīng)過變量變換后的變量數(shù)目約為1700個(gè)變量篩選使用Logistic回歸的Stepwise方法進(jìn)行下一步擬合卡方統(tǒng)計(jì)量卡方統(tǒng)計(jì)量 Chi Square信息價(jià)值信息價(jià)值 Information Valu

16、e信息增益信息增益 Gain Index單變量回歸單變量回歸偏相關(guān)分析偏相關(guān)分析 Partial CorrelationLift曲線曲線十分位十分位樣本數(shù)量樣本數(shù)量LiftLift0226,7295.171226,7292.272226,7281.033226,7300.554226,7290.355226,7290.256226,7300.157226,7290.118226,7290.079226,7300.05Total2,267,2931ROC曲線50%75%建立閉環(huán)的業(yè)務(wù)流程流失客戶分析流失客戶分析數(shù)據(jù)挖掘數(shù)據(jù)挖掘數(shù)據(jù)分析數(shù)據(jù)分析數(shù)據(jù)采集數(shù)據(jù)采集/ETL現(xiàn)有流程評(píng)估現(xiàn)有流程評(píng)估計(jì)劃和

17、設(shè)計(jì)挽留行動(dòng)計(jì)劃和設(shè)計(jì)挽留行動(dòng)執(zhí)行挽留行動(dòng)執(zhí)行挽留行動(dòng)評(píng)估挽留結(jié)果評(píng)估挽留結(jié)果調(diào)整應(yīng)用流程調(diào)整應(yīng)用流程Agenda數(shù)據(jù)挖掘是什么？1模型+算法2數(shù)據(jù)挖掘?qū)嵺`分享3心得與總結(jié)4幾點(diǎn)心得實(shí)施數(shù)據(jù)挖掘是一個(gè)戰(zhàn)略性舉措Business First, Technique Second數(shù)據(jù)挖掘不是萬能的，沒有它也不是萬萬不能數(shù)據(jù)挖掘是一個(gè)循環(huán)探索的過程參考文獻(xiàn)網(wǎng)絡(luò)資源u u u u u Tecent Research Question & Answer ?聯(lián)系我們聯(lián)系我們RTX：simonjiang TEL：7999RTX：florayi TEL：8889RTX：jeavinqiu TEL：5909RTX：neilliao TEL：4232Thank youThank you ! !

展開閱讀全文

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

備案號(hào):蜀ICP備2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務(wù)平臺(tái)，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請(qǐng)立即通知裝配圖網(wǎng)，我們立即給予刪除！

騰訊大講堂59數(shù)據(jù)蘊(yùn)含商機(jī),挖掘決勝千里

最新文檔

相關(guān)資源

相關(guān)搜索