騰訊大講堂59-數(shù)據(jù)蘊(yùn)含商機(jī)挖掘決勝千里.ppt
《騰訊大講堂59-數(shù)據(jù)蘊(yùn)含商機(jī)挖掘決勝千里.ppt》由會員分享,可在線閱讀,更多相關(guān)《騰訊大講堂59-數(shù)據(jù)蘊(yùn)含商機(jī)挖掘決勝千里.ppt(39頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
騰訊大講堂 第五十九期 研發(fā)管理部 大講堂主頁 數(shù)據(jù)蘊(yùn)含商機(jī) 挖掘決勝千里 騰訊研究院數(shù)據(jù)分析研究室SimonJiang 江宇聞2009 02 24 Agenda 數(shù)據(jù)挖掘是什么 1 模型 算法 2 數(shù)據(jù)挖掘?qū)嵺`分享 3 心得與總結(jié) 4 從運(yùn)籌帷幄到?jīng)Q勝千里 舌戰(zhàn)群儒 草船借箭 巧借東風(fēng) 火燒赤壁 赤壁懷古蘇軾 羽扇綸巾談笑間檣櫓灰飛煙滅 觀日月之行 察天地之變 風(fēng) 雷 電 雨 云 云多會下雨刮風(fēng)會下雨下雨會閃電閃電會打雷 數(shù)據(jù)爆炸的時(shí)代 DataMining circa1963 IBM7090 600cases Machinestoragelimitationsrestrictedthetotalnumberofvariableswhichcouldbeconsideredatonetimeto25 數(shù)據(jù)挖掘是 Data Information Knowledge Wisdom Tofind discover extract dredge harvest Interesting novel useful implicit actable meaningful Information knowledge patterns trends rules anomalies Inmassivedata largedataset largedatabase datawarehouse Data context Information rules Knowledge experience 多學(xué)科的融合 Databases Statistics PatternRecognition KDD MachineLearning AI Neurocomputing DataMining Agenda 數(shù)據(jù)挖掘是什么 1 模型 算法 2 數(shù)據(jù)挖掘?qū)嵺`分享 3 心得與總結(jié) 4 幾個(gè)基本概念 模型 Model vs模式 Pattern 數(shù)據(jù)挖掘的根本目的就是把樣本數(shù)據(jù)中隱含的結(jié)構(gòu)泛化 Generalize 到總體 Population 上去模型 對數(shù)據(jù)集的一種全局性的整體特征的描述或概括 適用于數(shù)據(jù)空間中的所有點(diǎn) 例如聚類分析模式 對數(shù)據(jù)集的一種局部性的有限特征的描述或概括 適用于數(shù)據(jù)空間的一個(gè)子集 例如關(guān)聯(lián)分析算法 Algorithm 一個(gè)定義完備 well defined 的過程 它以數(shù)據(jù)作為輸入并產(chǎn)生模型或模式形式的輸出描述型挖掘 Descriptive vs預(yù)測型挖掘 Predictive 描述型挖掘 對數(shù)據(jù)進(jìn)行概括 以方便的形式呈現(xiàn)數(shù)據(jù)的重要特征預(yù)測型挖掘 根據(jù)觀察到的對象特征值來預(yù)測它的其他特征值描述型挖掘可以是目的 也可以是手段 數(shù)據(jù)挖掘是一個(gè)過程 fromdataminingtoknowledgediscoveryindatabase U fayyad G P ShapiroandP Smyth 1996 數(shù)據(jù)挖掘方法論 CRISP DM CrossIndustryStandardProcessforDM 1998年 由NCR Clementine OHRA和Daimler Benz的聯(lián)合項(xiàng)目組提出SEMMASAS公司提出的方法Sample Explore Modify Model Assess在戰(zhàn)略上使用Crisp DM方法論 在戰(zhàn)術(shù)上應(yīng)用SEMMA方法論 工欲善其事必先利其器 數(shù)據(jù)清洗填充缺失值 修均噪聲數(shù)據(jù) 識別或刪除孤立點(diǎn) 并解決數(shù)據(jù)不一致問題主要分析方法 分箱 Binning 聚類 回歸數(shù)據(jù)集成多個(gè)數(shù)據(jù)庫 數(shù)據(jù)方或文件的集成數(shù)據(jù)變換規(guī)范化與匯總數(shù)據(jù)簡化減少數(shù)據(jù)量的同時(shí) 還可以得到相同或相近的分析結(jié)果主要分析方法 抽樣 主成分分析數(shù)據(jù)離散化數(shù)據(jù)簡化的一部分 但非常重要 尤其對于數(shù)值型數(shù)據(jù)來說 先來玩玩數(shù)據(jù) EDA 探索性數(shù)據(jù)分析 ExploratoryDataAnalysis EDA 探索性地查看數(shù)據(jù) 概括數(shù)據(jù)集的結(jié)構(gòu)和關(guān)系對數(shù)據(jù)集沒有各種嚴(yán)格假定主要任務(wù)數(shù)據(jù)可視化 apictureisworthathousandwords 殘差分析 數(shù)據(jù) 擬合 殘差 數(shù)據(jù)的重新表達(dá) 什么樣的尺度 對數(shù)抑或平方根 會簡化分析 方法的耐抗性 對數(shù)據(jù)局部不良的不敏感性 如中位數(shù)耐抗甚于均值 常見方法統(tǒng)計(jì)量 如均值 方差 根方差 協(xié)方差 峰度 偏度 相關(guān)系數(shù)等統(tǒng)計(jì)圖 如餅圖 直方圖 散點(diǎn)圖 箱尾圖等模型 如聚類 數(shù)據(jù)挖掘 模型 算法 分類預(yù)測 關(guān)聯(lián)規(guī)則 孤立點(diǎn)探測 聚類 LogisticRegression決策樹神經(jīng)網(wǎng)絡(luò) K MeansK ModeSOM 自組織圖 AprioriFP Growth 基于統(tǒng)計(jì)基于距離基于偏差 你使用過信用卡嗎 卡應(yīng)該發(fā)給誰 哪些持卡人會拖欠 哪些拖欠的客戶會還款 影響 資產(chǎn)組合 Portfolio 1 根據(jù)歷史 預(yù)測將來2 目標(biāo)是一個(gè)分類變量3 預(yù)測結(jié)果是一個(gè)統(tǒng)計(jì)意義下的概率 1 哪些人可以發(fā)卡 額度是多少 2 持卡人拖欠的概率是多少3 該對誰催收 分類過程 訓(xùn)練集 分類學(xué)習(xí) 訓(xùn)練集 IFrank professor ORyears 6THENtenured yes JefisYES 分類器 物以類聚 人以群分 人為地選取細(xì)分維度 客戶價(jià)值地域活躍程度 維度災(zāi)難的發(fā)生 維度增長細(xì)分?jǐn)?shù)目指數(shù)增長人腦僅能處理有限的維度 市場 聚類示意 基于歐氏距離的三維空間中的聚類基于質(zhì)心的聚類算法 K Means A1 A2 B1 x y z 發(fā)現(xiàn)商品間的關(guān)聯(lián)規(guī)則 buy x diapers buy x beers 關(guān)聯(lián)規(guī)則的量度 支持度 Support A B AB N 表示A和B同時(shí)出現(xiàn)的概率期望可信度 Support A A N 表示A出現(xiàn)的概率置信度 Confidence A B Support A B Support B 改善度 Lift A B Confidence A B Support B 關(guān)聯(lián)規(guī)則的度量 發(fā)現(xiàn)具有最小置信度和支持度的全部規(guī)則X Y Z支持度 support s 事務(wù)中包含 X Y Z 的概率置信度 confidence c 事務(wù)中包含 X Y 的條件下 包含Z的條件概率 令最小支持度為50 最小置信度為50 則有A C 50 66 6 C A 50 100 顧客購買尿布 顧客購買兩者 顧客購買啤酒 從算法到應(yīng)用 數(shù)據(jù)挖掘廠商 Agenda 數(shù)據(jù)挖掘是什么 1 模型 算法 2 數(shù)據(jù)挖掘?qū)嵺`分享 3 心得與總結(jié) 4 看看QQ的流失數(shù)據(jù) 每個(gè)月500 1000萬的老用戶流失 一年老用戶流失接近1億 實(shí)際自然人流失狀況雖然沒有這么嚴(yán)重 但是仍然是一個(gè)驚人的數(shù)據(jù) 客戶流失是每個(gè)行業(yè)每天都在面對的問題 1 建立流失預(yù)測模型 回答客戶是否要流失 何時(shí)流失的問題2 通過預(yù)測模型建立客戶流失管理機(jī)制 更為有效地管理流失 而不是去防止流失 一切從目標(biāo)出發(fā) 目標(biāo)變量 即需要根據(jù)業(yè)務(wù)需求確定模型需要預(yù)測的對象 在QQ客戶流失模型中即是在業(yè)務(wù)上對 流失 的定義 沉默客戶數(shù)在4月后區(qū)域穩(wěn)定 模型選擇連續(xù)沉默2個(gè)月作為流失的定義 目標(biāo)變量的定義 Good 在表現(xiàn)窗口連續(xù)兩個(gè)月有登陸的客戶Bad 在表現(xiàn)窗口連續(xù)兩個(gè)月都沒有登陸的客戶Intermediate 在表現(xiàn)窗口其中一個(gè)月有登陸的客戶 打開觀測用戶的窗口 訓(xùn)練樣本 測試樣本觀察窗口 2007年1月 2007年3月表現(xiàn)窗口 2007年5月 2007年6月TimeLag 2007年4月交叉校驗(yàn)樣本觀察窗口 2007年2月 2007年4月表現(xiàn)窗口 2007年6月 2007年7月TimeLag 2007年5月 觀察窗口 表現(xiàn)窗口 TimeLag M M 1 M 2 M 3 M 4 M 5 M 1 M 2 M 3 1 觀察窗口 形成自變量的時(shí)間段 表現(xiàn)窗口 形成因變量的時(shí)間段 2 3 TimeLag 預(yù)留給業(yè)務(wù)部門進(jìn)行相應(yīng)操作的時(shí)間段 1 2 3 變化幅度特征變量描述用戶使用量上的變化幅度 勾勒出用戶行為的特征 基本屬性變量描述用戶的基本屬性 產(chǎn)品使用行為特征描述用戶使用產(chǎn)品的情況 消息業(yè)務(wù)使用行為特征描述用戶使用消息業(yè)務(wù)的情況 音頻業(yè)務(wù)使用行為特征描述用戶使用音頻業(yè)務(wù)的情況 視頻業(yè)務(wù)使用行為特征描述用戶使用視頻業(yè)務(wù)的情況 客戶在線的行為特征從在線時(shí)長 登陸次數(shù) 登陸頻率等角度研究用戶的使用行為 歸屬地變化的行為特征描述用戶在某一時(shí)間周期內(nèi)登陸所在地的變化情況 中間變量 比例特征變量描述用戶業(yè)務(wù)使用占比 基礎(chǔ)變量 變量描述 行為趨勢特征變量描述用戶的使用行為變化趨勢 變量描述 黃沙吹盡始到金 基礎(chǔ)變量和中間變量數(shù)目約為224個(gè)經(jīng)過變量變換后的變量數(shù)目約為1700個(gè) 變量篩選 使用Logistic回歸的Stepwise方法進(jìn)行下一步擬合 卡方統(tǒng)計(jì)量ChiSquare 信息價(jià)值InformationValue 信息增益GainIndex 單變量回歸 偏相關(guān)分析PartialCorrelation Lift曲線 ROC曲線 50 75 建立閉環(huán)的業(yè)務(wù)流程 Agenda 數(shù)據(jù)挖掘是什么 1 模型 算法 2 數(shù)據(jù)挖掘?qū)嵺`分享 3 心得與總結(jié) 4 幾點(diǎn)心得 參考文獻(xiàn) 網(wǎng)絡(luò)資源 TecentResearch Question Answer 聯(lián)系我們 RTX simonjiangTEL 7999RTX florayiTEL 8889RTX jeavinqiuTEL 5909RTX neilliaoTEL 4232 Thankyou- 1.請仔細(xì)閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 騰訊 大講堂 59 數(shù)據(jù) 蘊(yùn)含 商機(jī) 挖掘 決勝千里
鏈接地址:http://m.appdesigncorp.com/p-8603012.html