北京大學(xué) 機(jī)器學(xué)習(xí)
《北京大學(xué) 機(jī)器學(xué)習(xí)》由會(huì)員分享,可在線(xiàn)閱讀,更多相關(guān)《北京大學(xué) 機(jī)器學(xué)習(xí)(95頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、機(jī)器學(xué)習(xí)概論 An Introduction to Machine Learning 鄧志鴻 北京大學(xué)信息科學(xué)技術(shù)學(xué)院 2013 2014學(xué)年第二學(xué)期 第一講 內(nèi)容 課程簡(jiǎn)介 機(jī)器學(xué)習(xí)簡(jiǎn)介 淺議機(jī)器學(xué)習(xí) 課程簡(jiǎn)介內(nèi)容提要 教輔人員 參考資料 課程網(wǎng)站 課程要求及目的 課程考核機(jī)制 課程內(nèi)容簡(jiǎn)介 教輔人員 任課老師 鄧志鴻 辦公室:理科 2號(hào)樓 2318 電話(huà): 62755592 Email: 個(gè)人主頁(yè): http:/ 助教: 沈戈暉 實(shí)驗(yàn)室:理科 2號(hào)樓 2320 Email: 電話(huà) : 62757756 魏亮晨 實(shí)驗(yàn)室:理科 2號(hào)樓 2320 Email: 電話(huà) : 62757756
2、時(shí)間: 每周周一 34節(jié) 雙周周三 56節(jié) 地點(diǎn) :一教 204 課程簡(jiǎn)介內(nèi)容提要 教輔人員 參考資料 課程網(wǎng)站 課程要求及目的 課程考核機(jī)制 課程內(nèi)容簡(jiǎn)介 參考資料 參考 教材 Machine Learning (Tom Mitchell) 補(bǔ)充 材料 Journals Machine Learning; Journal of Machine Learning Research (JMLR) IEEE Transactions on Pattern Analysis and Machine Intelligence( PAMI) Conferences 主流: AAAI, IJCAI, IC
3、ML, NIPS 自然語(yǔ)言處理: ACL, COLING, EMNLP 機(jī)器視覺(jué)與多媒體: CVPR, ICCV, ACM Mutilmedia 數(shù)據(jù)挖掘與檢索: KDD, SIGIR, WWW 課程簡(jiǎn)介內(nèi)容提要 教輔人員 參考資料 課程網(wǎng)站 課程要求及目的 課程考核機(jī)制 課程內(nèi)容簡(jiǎn)介 課程網(wǎng)站 網(wǎng)址: http:/ 機(jī)器學(xué)習(xí)概論 課程簡(jiǎn)介內(nèi)容提要 教輔人員 參考資料 課程網(wǎng)站 課程要求及目的 課程考核機(jī)制 課程內(nèi)容簡(jiǎn)介 課程要求 高等數(shù)學(xué) 微分、積分 概率統(tǒng)計(jì) 數(shù)據(jù)結(jié)構(gòu) 編程語(yǔ)言 c, c+, java, Python 會(huì)用一種即可 有基本概念就 可以了 課程目的 了解和掌握機(jī)器學(xué)習(xí)的基本理
4、論、算法和技術(shù) 問(wèn)題背景 種類(lèi) 基本方法和算法 理解已有機(jī)器學(xué)習(xí) /數(shù)據(jù)挖掘系統(tǒng)的工作原理 已有很多相關(guān)軟件,能很方便實(shí)現(xiàn)分類(lèi)、聚類(lèi)等機(jī) 器學(xué)習(xí)任務(wù)。 Weka工具包 Matlab 不僅僅會(huì)用這些軟件,還要知道它是如何實(shí)現(xiàn)的。 能在今后的工作中應(yīng)用機(jī)器學(xué)習(xí)的理論和方法解決 實(shí)際問(wèn)題。 課程簡(jiǎn)介內(nèi)容提要 教輔人員 參考資料 課程網(wǎng)站 課程要求及目的 課程考核機(jī)制 課程內(nèi)容簡(jiǎn)介 課程考核機(jī)制 課堂小問(wèn)題 希望大家踴躍參加 三個(gè)項(xiàng)目 分類(lèi) 聚類(lèi) 頻繁模式 挖掘及應(yīng)用 考試 期末考試 課程成績(jī)構(gòu)成 平時(shí) 10 項(xiàng)目 40 分類(lèi)項(xiàng)目 15 聚類(lèi)項(xiàng)目 10 模式挖掘項(xiàng)目 15 期末考試 50 項(xiàng)目說(shuō)明 政
5、策 1-3人組成一個(gè)團(tuán)隊(duì) (team)。 每個(gè)小組獨(dú)立完成項(xiàng)目。 鼓勵(lì)討論,但禁止小組間抄襲。 數(shù)據(jù) 適時(shí)發(fā)布在課程網(wǎng)站上 課程簡(jiǎn)介內(nèi)容提要 教輔人員 參考資料 課程網(wǎng)站 課程要求及目的 課程考核機(jī)制 課程內(nèi)容簡(jiǎn)介 課程內(nèi)容簡(jiǎn)介 數(shù)據(jù)生成與預(yù)處理 分類(lèi) 聚類(lèi)分析 關(guān)聯(lián)分析 課程內(nèi)容數(shù)據(jù)生成與預(yù)處理 數(shù)據(jù)生成 結(jié)構(gòu)化數(shù)據(jù) 關(guān)系數(shù)據(jù) 非結(jié)構(gòu)化數(shù)據(jù) 文本 圖像 數(shù)據(jù)預(yù)處理 數(shù)據(jù)清洗 數(shù)據(jù)變換 數(shù)據(jù)歸約 特征選擇 (Feature Selection) 特征抽取 (Feature Extraction) 數(shù)據(jù)離散化 課程內(nèi)容分類(lèi) 符號(hào)邏輯方法 謂詞邏輯規(guī)則 Find-S, Candidate-Elim
6、ination, Decision Tree, Sequential Covering Algorithms 一階謂詞規(guī)則 FOIL 貝葉斯方法 相關(guān)基本概率概念以及貝葉斯公式 樸素貝葉斯方法 貝葉斯網(wǎng)絡(luò) 隱馬爾可夫模型( HMM) k近鄰 (kNN) 主題模型 (選講 ) 課程內(nèi)容介紹分類(lèi) 神經(jīng)網(wǎng)絡(luò) 感知器(線(xiàn)性) 前饋多層神經(jīng)網(wǎng)絡(luò)(任意函數(shù)) 反向向 傳播 算法 深度學(xué)習(xí)(選講) 支持向量機(jī) (SVM) 統(tǒng)計(jì)學(xué)習(xí)理論 線(xiàn)性 SVM 非線(xiàn)性 SVM 核函數(shù) 分類(lèi)器集成 基本原理 基本 技術(shù): Voting、 Bagging、 Boosting 課程內(nèi)容介紹分類(lèi) 其它話(huà)題(選講) 半監(jiān)督學(xué)習(xí)
7、生成模型 基于圖的方法 預(yù)測(cè) 分類(lèi) 算法評(píng)估 基本度量 查全、查準(zhǔn)、 評(píng)估方法 基本概念 基本方法 Holdout, Cross-validation, Bootstrap 課程內(nèi)容聚類(lèi) 相似性度量 距離 向量距離 編輯距離 相似系數(shù) 聚類(lèi)間相似性度量 核心算法 層次聚類(lèi)方法 層次凝聚聚類(lèi)算法, 劃分聚類(lèi)方法 K-Means, 密度聚類(lèi)方法 DBSCAN 基于模型的方法 EM, SOM, 性能評(píng)估 課程內(nèi)容關(guān)聯(lián)分析 基本概念 支持度、置信度、關(guān)聯(lián)規(guī)則、頻繁模式、 頻繁模式挖掘經(jīng)典算法 Apriori算法 垂直算法 (Eclat and dEclat) FP-Growth算法 基于節(jié)點(diǎn)鏈表的算法
8、 Algorithms based on node lists 最長(zhǎng)模式和閉模式 交互挖掘 增量挖掘 高級(jí)話(huà)題 序列模式挖掘 我的重要 貢獻(xiàn) 第一講 課程簡(jiǎn)介 機(jī)器學(xué)習(xí)簡(jiǎn)介 淺議機(jī)器學(xué)習(xí) 機(jī)器學(xué)習(xí)簡(jiǎn)介內(nèi)容提要 必要性 基本定義 發(fā)展歷程 基本任務(wù) 相關(guān)領(lǐng)域 應(yīng)用 必要性社會(huì)需求 機(jī)器人 各類(lèi)機(jī)器人 對(duì)象識(shí)別 人臉檢測(cè) 指紋識(shí)別 語(yǔ)音識(shí)別 趨勢(shì) 人 更多的休閑時(shí)間 機(jī)器 更多的智能工作 IBM Watson Natural Language Processing, Information Retrieval, Machine Learning and Reasoning Algorithms.
9、Models Answer 之前也有發(fā)生 ; 所以網(wǎng)絡(luò)管理員認(rèn) 為可能是由客戶(hù)端 “ xx.xx.154.19”的 錯(cuò)誤配置導(dǎo)致的。 評(píng)價(jià)挖掘系統(tǒng) COMP COMP Chinese-orient Option Mining system of Peking university 背景介紹 系統(tǒng)框架 模塊介紹 實(shí)驗(yàn)分析 背景介紹 WWW上存在兩類(lèi)信息 事實(shí) (Facts) 門(mén)戶(hù)網(wǎng)站、公司主頁(yè)、個(gè)人主頁(yè)等 評(píng)價(jià) (Opinions) 論壇,郵件,博客, 當(dāng)前搜索引擎 對(duì)事實(shí)的搜索,事實(shí)可通過(guò)主題關(guān)鍵詞來(lái)表達(dá) 搜索引擎檢索無(wú)法有效檢索到評(píng)價(jià) 評(píng)價(jià)很難用關(guān)鍵詞表達(dá)出來(lái) 人們對(duì)諾基亞手機(jī)的總體評(píng)價(jià) 人
10、們對(duì)“周正龍事件”的看法 背景介紹 目前人們可以通過(guò)論壇、 BBS、博客等等 WWW服務(wù)方便地發(fā)表自己的觀點(diǎn)和體驗(yàn)。 這些評(píng)價(jià)信息包含了非常有價(jià)值的信息 個(gè)人 購(gòu)買(mǎi)商品時(shí),可以參考 WWW眾多網(wǎng)友的意見(jiàn),而不局限 于周?chē)呐笥?企業(yè) 產(chǎn)品在用戶(hù)中的優(yōu)點(diǎn)和缺點(diǎn) 政府 政策在群眾中的反映 評(píng)價(jià)挖掘 挖掘 WWW文本資源中的評(píng)價(jià)信息 應(yīng)用廣泛 評(píng)價(jià)挖掘任務(wù) 特征 評(píng)價(jià)的對(duì)象 如“諾基亞 N73”, “彩鈴”, 評(píng)價(jià) 表達(dá)情感的詞(一般是形容詞) 如“好”,“差”,“一般”等 “ 諾基亞 N73手機(jī)很好用 ” 評(píng)價(jià)信息 挖掘處理 特征:諾基亞 N73 評(píng)價(jià):很好 系統(tǒng)框架 數(shù)據(jù)采集與 清洗模塊 評(píng)價(jià)信
11、息 數(shù)據(jù)庫(kù) 特征提取 模塊 評(píng)價(jià)挖掘 模塊 詞典 特征庫(kù) 用戶(hù)查詢(xún) 接口 用戶(hù) 評(píng)價(jià)信息 WWW 特征評(píng)價(jià) 數(shù)據(jù)庫(kù) 數(shù)據(jù)采集與清洗模塊介紹 手動(dòng)選擇評(píng)價(jià)網(wǎng) 站或網(wǎng)頁(yè) 網(wǎng)站或網(wǎng)頁(yè) 列表 原始評(píng)價(jià) 信息庫(kù) 網(wǎng)絡(luò) 爬蟲(chóng) 網(wǎng)頁(yè) 預(yù)處理 自然 語(yǔ)言 處理 預(yù)處理后 評(píng)價(jià)庫(kù) 評(píng)價(jià)信息 數(shù)據(jù)庫(kù) 預(yù)處理模塊: 過(guò)濾網(wǎng)頁(yè)標(biāo)簽 過(guò)濾無(wú)關(guān)評(píng)價(jià) 按照評(píng)價(jià)的邏輯結(jié)構(gòu)組 織評(píng)價(jià) 自然語(yǔ)言處理模塊: 分詞 詞性標(biāo)注 特征提取模塊介紹 特征分為兩類(lèi) 由單個(gè)名詞描述的特征 由名詞性短語(yǔ)描述的特征 使用基于統(tǒng)計(jì)的方法,提取由名詞或名詞性短語(yǔ)表示 的特征 頻繁序列挖掘:挖掘頻繁名詞或名詞序列,作為候選特征 過(guò)濾處理:過(guò)濾高頻詞或其
12、它不大可能是特征的候選特征 頻繁 模式 挖掘 處理 評(píng)價(jià) 數(shù)據(jù)庫(kù) 名 詞 提 取 評(píng)價(jià)中 出現(xiàn)的 名詞庫(kù) 候選 特征庫(kù) 過(guò)濾 處理 特征庫(kù) 無(wú)效 特征庫(kù) 實(shí)驗(yàn)數(shù)據(jù) 數(shù)據(jù)源 塞班智能手機(jī)網(wǎng) N73專(zhuān)區(qū) http:/ 太平洋社區(qū) N73專(zhuān)區(qū) http:/ 數(shù)據(jù)量 原始數(shù)據(jù) 63679條 過(guò)濾后有效數(shù)據(jù)為 59129條 結(jié)果分析 特征 情感評(píng)價(jià)值 總評(píng)價(jià)主題 數(shù) 積極評(píng)價(jià)主 題數(shù) 消極評(píng)價(jià)主 題數(shù) 電 2.8730 51 17 2 圖標(biāo) 1.7103 59 17 9 鈴聲 0.1481 193 45 10 信號(hào) 0.0232 72 11 8 下表是對(duì) 4個(gè)特征的情感分析的結(jié)果 其中: 電,圖標(biāo) 是情
13、感評(píng)價(jià)值最高的兩個(gè)特征;而 鈴聲,信號(hào) 是情感 評(píng)價(jià)值最低的兩個(gè)特征 最容易影響人們對(duì)手機(jī)的印象是這兩類(lèi)特征: 一是容易出問(wèn)題,使手機(jī)用戶(hù)產(chǎn)生困擾的特征 二是容易出個(gè)性,使手機(jī)用戶(hù)與眾不同的特征。 結(jié)果展示 SIGMA系統(tǒng)框架 科研文獻(xiàn)資源庫(kù) 數(shù)據(jù)預(yù)處理 元數(shù)據(jù)庫(kù) 科研學(xué)術(shù) 知識(shí)庫(kù) 用戶(hù)界面 數(shù)據(jù)源 網(wǎng)絡(luò)爬蟲(chóng) API接口 聚類(lèi)分析 自動(dòng)排級(jí) 演化分析 主題建模 SIGMA系統(tǒng)的邏輯視圖與知識(shí)庫(kù) 知識(shí)庫(kù)設(shè)計(jì) 邏輯視圖 系統(tǒng)特色 本系統(tǒng)在學(xué)術(shù)文獻(xiàn)信息網(wǎng)絡(luò)的統(tǒng)一框架下,實(shí)現(xiàn)多層次,全方位 的科研資源檢索服務(wù),為與學(xué)術(shù)研究相關(guān)的不同層次的用戶(hù)提供 靈活 、 全方位 的信息檢索服務(wù)。 相關(guān)系統(tǒng) 國(guó)際 G
14、oogle Scholar DBLP CiteSeer 國(guó)內(nèi) 萬(wàn)方 中國(guó)學(xué)術(shù)文獻(xiàn)網(wǎng) 中國(guó)知網(wǎng) C_DBLP “我國(guó)計(jì)算機(jī)軟件領(lǐng)域有哪些重要的文獻(xiàn)” 提供不了檢索結(jié)果 能回答如下問(wèn)題 系統(tǒng)功能特色 鄧志鴻詳情 英文論文 中文論文 被引論文 論文詳情 引文下載 論文下載 期刊詳情 發(fā)文期刊 單位詳情 合作作者 合作作者詳情 研究方向 研究方向詳情 搜索“鄧志鴻” 系統(tǒng) 展示 系統(tǒng)資源 作者人數(shù) : 111,836 一級(jí)論文總數(shù): 87,371 有詳細(xì)出版信息并提供了萬(wàn)方全文下載地址 二級(jí)論文總數(shù): 944,891 可通過(guò)集成的 google接口進(jìn)行搜索。 科研單位總數(shù): 17,683 系統(tǒng)界面 系
15、統(tǒng)展示專(zhuān)業(yè)領(lǐng)域?yàn)g覽 系統(tǒng)展示專(zhuān)業(yè)領(lǐng)域?yàn)g覽 系統(tǒng)展示研究熱點(diǎn)與趨勢(shì) 系統(tǒng)展示研究熱點(diǎn)與趨勢(shì) 系統(tǒng)展示專(zhuān)業(yè)科研力量瀏覽 第一講 課程簡(jiǎn)介 機(jī)器學(xué)習(xí)簡(jiǎn)介 淺議機(jī)器學(xué)習(xí) 關(guān)于“學(xué)習(xí)” 學(xué)習(xí)算法表示評(píng)價(jià)優(yōu)化 表示:知識(shí)建模,即采用什么形式來(lái)概括( 或抽象表示)數(shù)據(jù)。某類(lèi)表示形式構(gòu)成假設(shè) 空間( hypothesis space)。 評(píng)價(jià):度量學(xué)習(xí)結(jié)果的標(biāo)準(zhǔn)或依據(jù),通常對(duì) 不同的問(wèn)題有不同的評(píng)價(jià)函數(shù)。 優(yōu)化:根據(jù)評(píng)價(jià)函數(shù)在假設(shè)空間中找得分最 高的表示示例(分類(lèi)器)。 機(jī)器學(xué)習(xí)算法組成部分 重要問(wèn)題 泛化( Generalization) 機(jī)器學(xué)習(xí)的目標(biāo)是對(duì)訓(xùn)練集合中樣例的泛化 。所謂泛化,指學(xué)習(xí)到的結(jié)果(
16、知識(shí))對(duì)非 訓(xùn)練集合中的未知樣例的預(yù)測(cè)盡可能對(duì)。 原因 訓(xùn)練樣例僅僅占全部樣例的極小極小一部分,甚 至可以忽略不計(jì) DTraining Dall 重要問(wèn)題 過(guò)擬合( Overfitting) 過(guò)度關(guān)注訓(xùn)練樣例的特征,使得學(xué)到的知識(shí) 泛化性差 例如: 在訓(xùn)練樣例上的準(zhǔn)確率為 100 在測(cè)試樣例上的準(zhǔn)確率為 50 常用策略 通過(guò)交叉驗(yàn)證進(jìn)行處理 奧卡姆剃刀 (Occams Razor) 重要問(wèn)題 維度災(zāi)難 (Curse of dimensionality) 許多在低維空間表現(xiàn)很好的算法,當(dāng)輸入是高維數(shù) 據(jù)的時(shí)候,就變得計(jì)算不可行或效果很差。 原因 隨著樣例維度的增長(zhǎng),樣例空間將以指數(shù)增長(zhǎng)。因此,同 等規(guī)模的訓(xùn)練集只能覆蓋越來(lái)越少樣例,即所占比例將以 指數(shù)減少,從而造成正確泛化的難度以指數(shù)增長(zhǎng)。 樣例空間為 100維的布爾空間 樣例的個(gè)數(shù)為 2100 1萬(wàn)億的訓(xùn)練樣例這樣超大規(guī)模的訓(xùn)練集合也僅是樣例空間 的 10-18 解決方案 降維 重要問(wèn)題 理論保證( Theoretical Guarantees) 機(jī)器學(xué)習(xí)采用的是歸納推理。因此,難于保 證結(jié)果的正確性。 從概率統(tǒng)計(jì)的角度上認(rèn)識(shí)機(jī)器學(xué)習(xí)在理論保 證方面的問(wèn)題。 意義 不是作為機(jī)器學(xué)習(xí)實(shí)踐應(yīng)用中決策標(biāo)準(zhǔn) 而是理解算法和推動(dòng)算法發(fā)展的源泉 下一講 數(shù)據(jù)生成與預(yù)處理 See you next time
- 溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中西方家庭教育的對(duì)比ppt課件
- 《運(yùn)籌學(xué)教程》第五版運(yùn)籌學(xué)6對(duì)策論矩陣對(duì)策課件
- (部編版)統(tǒng)編版四年級(jí)語(yǔ)文下冊(cè)第2課《鄉(xiāng)下人家》ppt課件
- 全等三角形1--公開(kāi)課一等獎(jiǎng)ppt課件
- 《會(huì)跳舞樹(shù)葉娃娃》課件
- 9兒童詩(shī)兩首_人教版五年級(jí)的語(yǔ)文下冊(cè)課件
- 綠色植物是食物之源(我的課件)0
- 河南專(zhuān)版2022春八年級(jí)語(yǔ)文下冊(cè)第四單元16慶祝奧林匹克運(yùn)動(dòng)復(fù)興25周年習(xí)題課件新人教版
- 全國(guó)xx杯說(shuō)課大賽機(jī)械類(lèi)一等獎(jiǎng)作品:鉗工車(chē)模的制作說(shuō)課ppt課件
- 六年級(jí)下冊(cè)數(shù)學(xué)ppt課件-總復(fù)習(xí)(1)數(shù)的認(rèn)識(shí)-整數(shù)∣北師大版
- 牛頓第二定律優(yōu)秀完整公開(kāi)課ppt課件
- 調(diào)脂與卒中防治課件
- 點(diǎn)到平面的距離課件
- 聚焦新醫(yī)改形勢(shì)下的醫(yī)院發(fā)展戰(zhàn)略
- 四肢血管超聲基礎(chǔ)