騰訊大講堂59-數(shù)據(jù)蘊(yùn)含商機(jī)-挖掘決勝千里.ppt
《騰訊大講堂59-數(shù)據(jù)蘊(yùn)含商機(jī)-挖掘決勝千里.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《騰訊大講堂59-數(shù)據(jù)蘊(yùn)含商機(jī)-挖掘決勝千里.ppt(39頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、騰 訊 大 講 堂第五十九期研發(fā)管理部 大講堂主頁:http:/ 數(shù) 據(jù) 蘊(yùn) 含 商 機(jī) , 挖 掘 決 勝 千 里騰 訊 研 究 院 數(shù) 據(jù) 分 析 研 究 室SimonJiang / 江 宇 聞2009-02-24 Agenda數(shù) 據(jù) 挖 掘 是 什 么 ?1 模 型 +算 法2 數(shù) 據(jù) 挖 掘 實(shí) 踐 分 享3 心 得 與 總 結(jié)4 從 運(yùn) 籌 帷 幄 到 決 勝 千 里 舌 戰(zhàn) 群 儒 草 船 借 箭巧 借 東 風(fēng) 火 燒 赤 壁 赤壁懷古 蘇軾羽扇綸巾談笑間檣櫓灰飛煙滅. 觀 日 月 之 行 , 察 天 地 之 變風(fēng)雷 電 雨云 云 多 會(huì) 下 雨刮 風(fēng) 會(huì) 下 雨下 雨 會(huì) 閃 電
2、閃 電 會(huì) 打 雷換 成 它 呢 ? ? ? 數(shù) 據(jù) 爆 炸 的 時(shí) 代Data Mining, circa 1963 IBM 7090 600 cases“ Machine storage limitationsrestricted the total number ofvariables which could beconsidered at one time to 25.” 數(shù) 據(jù) 挖 掘 是 DataInformationKnowledgeWisdom To find / discover / extract / dredge / harvest 、 、 、 Interesting /
3、 novel / useful / implicit / actable / meaningful 、 、 、 Information / knowledge / patterns / trends / rules / anomalies 、 、 、 In massive data / large data set / large database / data warehouse 、 、 、Data + contextInformation + rulesKnowledge + experience 多 學(xué) 科 的 融 合Databases StatisticsPatternRecognit
4、ionKDD MachineLearning AINeurocomputingData Mining Agenda數(shù) 據(jù) 挖 掘 是 什 么 ?1 模 型 +算 法2 數(shù) 據(jù) 挖 掘 實(shí) 踐 分 享3 心 得 與 總 結(jié)4 幾 個(gè) 基 本 概 念n 模 型 ( Model) vs 模 式 ( Pattern) 數(shù) 據(jù) 挖 掘 的 根 本 目 的 就 是 把 樣 本 數(shù) 據(jù) 中 隱 含 的 結(jié) 構(gòu) 泛 化 ( Generalize)到 總 體 ( Population) 上 去 模 型 : 對(duì) 數(shù) 據(jù) 集 的 一 種 全 局 性 的 整 體 特 征 的 描 述 或 概 括 , 適 用 于 數(shù) 據(jù)
5、 空間 中 的 所 有 點(diǎn) , 例 如 聚 類 分 析 模 式 : 對(duì) 數(shù) 據(jù) 集 的 一 種 局 部 性 的 有 限 特 征 的 描 述 或 概 括 , 適 用 于 數(shù) 據(jù) 空間 的 一 個(gè) 子 集 , 例 如 關(guān) 聯(lián) 分 析n 算 法 ( Algorithm) : 一 個(gè) 定 義 完 備 ( well-defined) 的 過 程 , 它 以數(shù) 據(jù) 作 為 輸 入 并 產(chǎn) 生 模 型 或 模 式 形 式 的 輸 出n 描 述 型 挖 掘 ( Descriptive) vs 預(yù) 測(cè) 型 挖 掘 ( Predictive) 描 述 型 挖 掘 : 對(duì) 數(shù) 據(jù) 進(jìn) 行 概 括 , 以 方 便 的
6、 形 式 呈 現(xiàn) 數(shù) 據(jù) 的 重 要 特 征 預(yù) 測(cè) 型 挖 掘 : 根 據(jù) 觀 察 到 的 對(duì) 象 特 征 值 來 預(yù) 測(cè) 它 的 其 他 特 征 值 描 述 型 挖 掘 可 以 是 目 的 , 也 可 以 是 手 段 數(shù) 據(jù) 挖 掘 是 一 個(gè) 過 程 - “from data mining to knowledge discovery in database”. U. fayyad, G.P.Shapiro and P.Smyth (1996) 數(shù) 據(jù) 挖 掘 方 法 論 CRISP_DM ( Cross Industry Standard Process for DM) 1998年 ,
7、 由 NCR、Clementine、 OHRA和Daimler-Benz的 聯(lián) 合 項(xiàng) 目 組提 出 SEMMA SAS公 司 提 出 的 方 法 Sample, Explore, Modify, Model, Assess 在 戰(zhàn) 略 上 使 用 Crisp_DM方 法論 , 在 戰(zhàn) 術(shù) 上 應(yīng) 用 SEMMA方法 論 工 欲 善 其 事 必 先 利 其 器n 數(shù) 據(jù) 清 洗 填 充 缺 失 值 , 修 均 噪 聲 數(shù) 據(jù) , 識(shí) 別 或 刪 除 孤 立 點(diǎn) , 并 解 決 數(shù) 據(jù) 不 一 致 問題 主 要 分 析 方 法 : 分 箱 ( Binning) 、 聚 類 、 回 歸n 數(shù) 據(jù)
8、集 成 多 個(gè) 數(shù) 據(jù) 庫 、 數(shù) 據(jù) 方 或 文 件 的 集 成n 數(shù) 據(jù) 變 換 規(guī) 范 化 與 匯 總n 數(shù) 據(jù) 簡 化 減 少 數(shù) 據(jù) 量 的 同 時(shí) , 還 可 以 得 到 相 同 或 相 近 的 分 析 結(jié) 果 主 要 分 析 方 法 : 抽 樣 、 主 成 分 分 析n 數(shù) 據(jù) 離 散 化 數(shù) 據(jù) 簡 化 的 一 部 分 , 但 非 常 重 要 (尤 其 對(duì) 于 數(shù) 值 型 數(shù) 據(jù) 來 說 ) 先 來 玩 玩 數(shù) 據(jù) ( EDA)n 探 索 性 數(shù) 據(jù) 分 析 ( Exploratory Data Analysis, EDA) 探 索 性 地 查 看 數(shù) 據(jù) , 概 括 數(shù) 據(jù)
9、集 的 結(jié) 構(gòu) 和 關(guān) 系 對(duì) 數(shù) 據(jù) 集 沒 有 各 種 嚴(yán) 格 假 定n 主 要 任 務(wù) 數(shù) 據(jù) 可 視 化 ( a picture is worth a thousand words) 殘 差 分 析 ( 數(shù) 據(jù) 擬 合 + 殘 差 ) 數(shù) 據(jù) 的 重 新 表 達(dá) ( 什 么 樣 的 尺 度 對(duì) 數(shù) 抑 或 平 方 根 會(huì) 簡 化 分 析 ) 方 法 的 耐 抗 性 ( 對(duì) 數(shù) 據(jù) 局 部 不 良 的 不 敏 感 性 , 如 中 位 數(shù) 耐 抗 甚 于 均值 )n 常 見 方 法 統(tǒng) 計(jì) 量 , 如 均 值 、 方 差 、 根 方 差 、 協(xié) 方 差 、 峰 度 、 偏 度 、 相 關(guān)
10、系 數(shù) 等 統(tǒng) 計(jì) 圖 , 如 餅 圖 、 直 方 圖 、 散 點(diǎn) 圖 、 箱 尾 圖 等 模 型 , 如 聚 類 數(shù) 據(jù) 挖 掘 = 模 型 + 算 法 你 使 用 過 信 用 卡 嗎 ? 卡 應(yīng) 該 發(fā) 給 誰 ? 哪 些 持 卡 人 會(huì) 拖 欠 ? 哪 些 拖 欠 的 客 戶 會(huì) 還 款 ? 影 響 資 產(chǎn) 組 合( Portfolio)1、 根 據(jù) 歷 史 , 預(yù) 測(cè) 將 來2、 目 標(biāo) 是 一 個(gè) 分 類 變 量3、 預(yù) 測(cè) 結(jié) 果 是 一 個(gè) 統(tǒng) 計(jì) 意 義 下 的 概 率 1、 哪 些 人 可 以 發(fā) 卡 , 額 度 是 多 少 。2、 持 卡 人 拖 欠 的 概 率 是 多 少
11、3、 該 對(duì) 誰 催 收 分 類 過 程訓(xùn) 練 集 分 類 學(xué) 習(xí) 訓(xùn) 練 集 IF rank = professorOR years 6THEN tenured = yes Jef is YES!分 類 器 物 以 類 聚 , 人 以 群 分人 為 地 選 取 細(xì) 分 維 度 客 戶 價(jià) 值 地 域 活 躍 程 度 維 度 災(zāi) 難 的 發(fā) 生 維 度 增 長 細(xì) 分 數(shù) 目 指 數(shù) 增 長 人 腦 僅 能 處 理 有 限 的 維 度市 場(chǎng) 聚 類 示 意n 基 于 歐 氏 距 離 的 三 維 空 間 中 的 聚 類n 基 于 質(zhì) 心 的 聚 類 算 法(K-Means) )|(|),( 22
12、2 jzizjyiyjxixjid A1 A2B1 xy z 發(fā) 現(xiàn) 商 品 間 的 關(guān) 聯(lián) 規(guī) 則buy(x,”diapers”) buy(x,”beers”) 關(guān) 聯(lián) 規(guī) 則 的 量 度n 支 持 度 : Support(A=B)=#AB/#N, 表 示 A和 B同 時(shí) 出 現(xiàn) 的 概 率n 期 望 可 信 度 : Support(A)=#A/#N, 表 示 A出 現(xiàn) 的 概 率n 置 信 度 : Confidence(A=B)=Support(A=B)/Support(B)n 改 善 度 : Lift(A=B)=Confidence(A=B)/Support(B)名 稱 描 述 公 式支
13、 持 度 X、 Y同 時(shí) 出 現(xiàn) 的 頻 率 P(X Y) 期 望 可 信 度 Y出 現(xiàn) 的 頻 率 P(Y) 置 信 度 X出 現(xiàn) 的 前 提 下 , Y出 現(xiàn) 的 頻 率 P(Y|X) 改 善 度 置 信 度 對(duì) 期 望 可 信 度 的 比 值 P(Y|X)/P(Y) 關(guān) 聯(lián) 規(guī) 則 的 度 量 n 發(fā) 現(xiàn) 具 有 最 小 置 信 度 和 支 持 度 的 全部 規(guī) 則 X Y Z 支 持 度 (support), s, 事 務(wù) 中 包 含X & Y & Z的 概 率 置 信 度 (confidence), c, 事 務(wù) 中包 含 X & Y的 條 件 下 , 包 含 Z的 條件 概 率n
14、令 最 小 支 持 度 為 50%, 最 小 置 信 度 為50%, 則 有 A C (50%, 66.6%) C A (50%, 100%)顧 客 購 買 尿 布顧 客 購 買 兩 者顧 客 購 買 啤 酒 從 算 法 到 應(yīng) 用 數(shù) 據(jù) 挖 掘 廠 商挖 掘 和 統(tǒng) 計(jì) 分 析 平 臺(tái)SAS EMSPSS ClementineS+MinerStatistic Data Miner 與 數(shù) 據(jù) 庫 集 成 挖 掘 平 臺(tái)IBM IMOracleNCR Teradata MinerSQL 2005 DM 行 業(yè) 運(yùn) 用 及 解 決 方 案UnicaKXENHNC Agenda數(shù) 據(jù) 挖 掘 是
15、 什 么 ?1 模 型 +算 法2 數(shù) 據(jù) 挖 掘 實(shí) 踐 分 享3 心 得 與 總 結(jié)4 看 看 QQ的 流 失 數(shù) 據(jù)流 失 率 2007年 3月 2007年 4月 2007年 5月 2007年 6月當(dāng) 月 活 躍 總 帳 戶 數(shù) 253,668,411 255,749,736 264,006,894 269,060,000當(dāng) 月 流 失 老 帳 戶 數(shù) 6,572,087 6,006,582 5,466,807 8,217,569當(dāng) 月 老 帳 戶 流 失 率 2.59% 2.35% 2.07% 3.05%每 個(gè) 月 5001000萬 的 老 用 戶 流 失 ,一 年 老 用 戶 流 失
16、 接 近 1億 ,實(shí) 際 自 然 人 流 失 狀 況 雖 然 沒 有 這 么 嚴(yán) 重 , 但是 仍 然 是 一 個(gè) 驚 人 的 數(shù) 據(jù) ???戶 流 失 是 每個(gè) 行 業(yè) 每 天 都在 面 對(duì) 的 問 題1、 建 立 流 失 預(yù) 測(cè) 模 型 , 回 答客 戶 是 否 要 流 失 , 何 時(shí) 流 失 的問 題2、 通 過 預(yù) 測(cè) 模 型 建 立 客 戶 流失 管 理 機(jī) 制 , 更 為 有 效 地 管 理流 失 , 而 不 是 去 防 止 流 失 一 切 從 目 標(biāo) 出 發(fā)目 標(biāo) 變 量 : 即 需 要 根 據(jù) 業(yè) 務(wù) 需 求 確 定 模 型需 要 預(yù) 測(cè) 的 對(duì) 象 , 在 QQ客 戶 流 失
17、 模 型 中 即是 在 業(yè) 務(wù) 上 對(duì) “ 流 失 ” 的 定 義 。 沉 默 客 戶 數(shù) 在 4月 后 區(qū) 域 穩(wěn) 定 模 型 選 擇 連 續(xù)沉 默 2個(gè) 月 作為 流 失 的 定 義 目 標(biāo) 變 量 的 定 義 :G ood: 在 表 現(xiàn) 窗 口 連 續(xù) 兩 個(gè) 月 有 登 陸 的 客 戶Bad: 在 表 現(xiàn) 窗 口 連 續(xù) 兩 個(gè) 月 都 沒 有 登 陸 的 客 戶Intermediate: 在 表 現(xiàn) 窗 口 其 中 一 個(gè) 月 有 登 陸 的 客 戶 打 開 觀 測(cè) 用 戶 的 窗 口訓(xùn) 練 樣 本 測(cè) 試 樣 本觀 察 窗 口 : 2007年 1月 2007年 3月 表 現(xiàn) 窗 口
18、 : 2007年 5月 2007年 6月Time Lag: 2007年 4月交 叉 校 驗(yàn) 樣 本觀 察 窗 口 : 2007年 2月 2007年 4月表 現(xiàn) 窗 口 : 2007年 6月 2007年 7月Time Lag: 2007年 5月觀 察 窗 口 表 現(xiàn) 窗 口Tim e LagMM-1M-2M-3M-4M-5 M+1 M+2 M+31 觀 察 窗 口 : 形 成 自 變 量 的 時(shí) 間 段 。表 現(xiàn) 窗 口 : 形 成 因 變 量 的 時(shí) 間 段 。23 Time Lag: 預(yù) 留 給 業(yè) 務(wù) 部 門 進(jìn) 行 相 應(yīng) 操 作 的 時(shí) 間 段 。1 23 變 化 幅 度 特 征 變
19、量 描 述 用 戶 使 用 量 上 的 變 化 幅 度 勾 勒 出 用 戶 行 為 的 特 征基 本 屬 性 變 量 描 述 用 戶 的 基 本 屬 性產(chǎn) 品 使 用 行 為 特 征 描 述 用 戶 使 用 產(chǎn) 品 的 情 況消 息 業(yè) 務(wù) 使 用 行 為 特 征 描 述 用 戶 使 用 消 息 業(yè) 務(wù) 的 情 況音 頻 業(yè) 務(wù) 使 用 行 為 特 征 描 述 用 戶 使 用 音 頻 業(yè) 務(wù) 的 情 況視 頻 業(yè) 務(wù) 使 用 行 為 特 征 描 述 用 戶 使 用 視 頻 業(yè) 務(wù) 的 情 況客 戶 在 線 的 行 為 特 征 從 在 線 時(shí) 長 , 登 陸 次 數(shù) , 登 陸 頻 率 等 角
20、度 研 究 用 戶 的 使 用 行 為歸 屬 地 變 化 的 行 為 特 征 描 述 用 戶 在 某 一 時(shí) 間 周 期 內(nèi) 登 陸 所 在 地 的 變 化 情 況 中 間 變 量比 例 特 征 變 量 描 述 用 戶 業(yè) 務(wù) 使 用 占 比基 礎(chǔ) 變 量 變 量 描 述行 為 趨 勢(shì) 特 征 變 量 描 述 用 戶 的 使 用 行 為 變 化 趨 勢(shì)變 量 描 述 黃 沙 吹 盡 始 到 金基 礎(chǔ) 變 量 和 中 間 變 量 數(shù) 目 約 為 224個(gè)經(jīng) 過 變 量 變 換 后 的 變 量 數(shù) 目 約 為 1700個(gè)變 量 篩 選使 用 Logistic回 歸 的 Stepwise方 法 進(jìn)
21、行 下 一 步 擬 合卡 方 統(tǒng) 計(jì) 量 Chi Square信 息 價(jià) 值 Information Value 信 息 增 益 G ain Index單 變 量 回 歸 偏 相 關(guān) 分 析 Partial Correlation Lift曲 線十 分 位 樣 本 數(shù) 量 Lift0 226,729 5.171 226,729 2.272 226,728 1.033 226,730 0.554 226,729 0.355 226,729 0.256 226,730 0.15 7 226,729 0.118 226,729 0.079 226,730 0.05Total 2,267,293 1
22、ROC曲 線 50%75% 建 立 閉 環(huán) 的 業(yè) 務(wù) 流 程 流失客戶分析數(shù)據(jù)挖掘數(shù)據(jù)分析 數(shù)據(jù)采集/ETL 現(xiàn)有流程評(píng)估計(jì)劃和設(shè)計(jì)挽留行動(dòng)執(zhí)行挽留行動(dòng)評(píng)估挽留結(jié)果調(diào)整應(yīng)用流程 Agenda數(shù) 據(jù) 挖 掘 是 什 么 ?1 模 型 +算 法2 數(shù) 據(jù) 挖 掘 實(shí) 踐 分 享3 心 得 與 總 結(jié)4 幾 點(diǎn) 心 得實(shí) 施 數(shù) 據(jù) 挖 掘 是 一 個(gè) 戰(zhàn) 略 性 舉 措Business First, Technique Second數(shù) 據(jù) 挖 掘 不 是 萬 能 的 , 沒 有 它 也 不 是 萬 萬 不 能數(shù) 據(jù) 挖 掘 是 一 個(gè) 循 環(huán) 探 索 的 過 程 參 考 文 獻(xiàn) 網(wǎng) 絡(luò) 資 源 u u u u u Tecent Research Question & Answer ? 聯(lián) 系 我 們RTX: simonjiang TEL: 7999RTX: florayi TEL: 8889RTX: jeavinqiu TEL: 5909RTX: neilliao TEL: 4232Thank you !
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 人教版地理七年級(jí)下冊(cè)--極地地區(qū)課件
- 備選方案與f課件
- 行程問題 順流逆流
- 班集體特色創(chuàng)建
- 發(fā)電廠的控制系統(tǒng)綜述
- 英語專業(yè)四級(jí)考試閱讀技巧新
- 小說中的環(huán)境描寫
- 典案二PPT教學(xué)案例SectionA2
- 血液透析患者動(dòng)靜脈內(nèi)瘺閉塞的原因及防護(hù)課件
- 運(yùn)動(dòng)快慢與方向的描述——速度課件
- 新概念第一冊(cè)lesson78ppt課件
- 原電池公開課修改課件
- 檢量具使用方法和注意事項(xiàng)課件
- 中考賓語從句復(fù)習(xí)PPT課件2
- 不用文字的書和信