機(jī)器學(xué)習(xí)課件
《機(jī)器學(xué)習(xí)課件》由會(huì)員分享,可在線閱讀,更多相關(guān)《機(jī)器學(xué)習(xí)課件(52頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
1、 目 錄一 大數(shù)據(jù)與云計(jì)算二 機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和人工智能三 編程語言的選擇四 機(jī)器學(xué)習(xí)算法介紹五 算法案例介紹 一 大數(shù)據(jù)與云計(jì)算 什么是大數(shù)據(jù)? 大數(shù)據(jù)特征定義 大數(shù)據(jù)時(shí)代要具備大數(shù)據(jù)思維維克托邁爾-舍恩伯格認(rèn)為:1 -需要全部數(shù)據(jù)樣本而不是抽樣;2 -關(guān)注效率而不是精確度;3 -關(guān)注相關(guān)性而不是因果關(guān)系。 大數(shù)據(jù)并不在“大”,而在于“有用”。價(jià)值含量、挖掘成本比數(shù)量更為重要。 大數(shù)據(jù)的價(jià)值所在?如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。未來在大數(shù)據(jù)領(lǐng)域最具有價(jià)值的是兩種事物:1 -擁有大數(shù)據(jù)思維的人,這種人可以將大
2、數(shù)據(jù)的潛在價(jià)值轉(zhuǎn)化為實(shí)際利益; 2 -還未有被大數(shù)據(jù)觸及過的業(yè)務(wù)領(lǐng)域。這些是還未被挖掘 的油井,金礦,是所謂的藍(lán)海。 云計(jì)算和大數(shù)據(jù)的關(guān)系 云計(jì)算充當(dāng)了工業(yè)革命時(shí)期的發(fā)動(dòng)機(jī)的角色,而大數(shù)據(jù)則是電。云計(jì)算思想:把計(jì)算能力作為一種像水和電一樣的公用事業(yè)提供給用戶。 二 機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和人工智能 任何通過數(shù)據(jù)訓(xùn)練的學(xué)習(xí)算法的相關(guān)研究都屬于機(jī)器學(xué)習(xí)。比如線性回歸(Linear Regression)、K均值(K-means,基于原型的目標(biāo)函數(shù)聚類方法)、決策樹(Decision Trees,運(yùn)用概率分析的一種圖解法)、隨機(jī)森林(Random Forest,運(yùn)用概率分析的一種圖解法)、PCA(Pri
3、ncipal Component Analysis,主成分分析)、SVM(Support Vector Machine,支持向量機(jī))以及ANN(Artificial Neural Networks,人工神經(jīng)網(wǎng)絡(luò))。深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究,通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域,其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來解釋數(shù)據(jù), 例如圖像,聲音和文本。人工智能企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括語音識別、圖像識別、機(jī)器
4、人、自然語言處理、智能搜索和專家系統(tǒng)等。 人工智能與機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的關(guān)系 三 編程語言的選擇 PKR 與 Python 語言的區(qū)別學(xué)習(xí)難度大入門簡單適合處理大量數(shù)據(jù)功能強(qiáng)大命令式編程統(tǒng)計(jì)功能強(qiáng)大 Python在線學(xué)習(xí)推薦-菜鳥教程 Anaconda:初學(xué)Python、入門機(jī)器學(xué)習(xí)的首選NumPyScipyTensorFlowMatplotlibPandasScikit-Learn 四 機(jī)器學(xué)習(xí)算法介紹 擁抱人工智能從機(jī)器學(xué)習(xí)開始 機(jī)器學(xué)習(xí)最大的特點(diǎn)是利用數(shù)據(jù)而不是指令來進(jìn)行各種工作,其學(xué)習(xí)過程主要包括:數(shù)據(jù)的特征提取、數(shù)據(jù)預(yù)處理、訓(xùn)練模型、測試模型、模型評估改進(jìn)等幾部分。 機(jī)器學(xué)習(xí)算法是使
5、計(jì)算機(jī)具有智能的關(guān)鍵算法是通過使用已知的輸入和輸出以某種方式“訓(xùn)練”以對特定輸入進(jìn)行響應(yīng)。代表著用系統(tǒng)的方法描述解決問題的策略機(jī)制。人工智能的發(fā)展離不開機(jī)器學(xué)習(xí)算法的不斷進(jìn)步。 機(jī)器學(xué)習(xí)算法分類 1 . 線性回歸:找到一條直線來預(yù)測目標(biāo)值一個(gè)簡單的場景:已知房屋價(jià)格與尺寸的歷史數(shù)據(jù),問面積為2 0 0 0時(shí),售價(jià)為多少? 線性回歸的應(yīng)用預(yù)測客戶終生價(jià)值: 基于老客戶歷史數(shù)據(jù)與客戶生命周期的關(guān)聯(lián)關(guān)系,建立線性回歸模型,預(yù)測新客戶的終生價(jià)值,進(jìn)而開展針對性的活動(dòng)。機(jī)場客流量分布預(yù)測: 以海量機(jī)場WiFi數(shù)據(jù)及安檢登機(jī)值機(jī)數(shù)據(jù),通過數(shù)據(jù)算法實(shí)現(xiàn)機(jī)場航站樓客流分析與預(yù)測。貨幣基金資金流入流出預(yù)測: 通
6、過用戶基本信息數(shù)據(jù)、用戶申購贖回?cái)?shù)據(jù)、收益率表和銀行間拆借利率等信息,對用戶的申購贖回?cái)?shù)據(jù)的把握,精準(zhǔn)預(yù)測未來每日的資金流入流出情況。電影票房預(yù)測: 依據(jù)歷史票房數(shù)據(jù)、影評數(shù)據(jù)、輿情數(shù)據(jù)等互聯(lián)網(wǎng)公 眾數(shù)據(jù),對電影票房進(jìn)行預(yù)測。 2 . 邏輯回歸:找到一條直線來分類數(shù)據(jù)邏輯回歸雖然名字叫回歸,卻是屬于分類算法,是通過Sigmoid函數(shù)將線性函數(shù)的結(jié)果映射到Sigmoid函數(shù)中,預(yù)估事件出現(xiàn)的概率并分類。 邏輯回歸從直觀上來說是畫出了一條分類線。位于分類線一側(cè)的數(shù)據(jù),概率0 .5 ,屬于分類A;位于分類線另一側(cè)的數(shù)據(jù),概率 啤酒,它的置信度為 尿布 - 啤酒 假設(shè)尿布, 啤酒的支持度為 0 .4
7、5,尿布的支持度為 0 .5,則尿布 - 啤酒的置信度為 0 .4 5 / 0 .5 = 0 .9。 9 . PCA降維:減少數(shù)據(jù)維度,降低數(shù)據(jù)復(fù)雜度降維是指將原高維空間中的數(shù)據(jù)點(diǎn)映射到低維度的空間中。因?yàn)楦呔S特征的數(shù)目巨大,距離計(jì)算困難,分類器的性能會(huì)隨著特征數(shù)的增加而下降;減少高維的冗余信息所造成的誤差,可以提高識別的精度。 1 0 . 人工神經(jīng)網(wǎng)絡(luò):逐層抽象,逼近任意函數(shù)前面介紹了九種傳統(tǒng)的機(jī)器學(xué)習(xí)算法,現(xiàn)在介紹一下深度學(xué)習(xí)的基礎(chǔ):人工神經(jīng)網(wǎng)絡(luò)。 它是模擬人腦神經(jīng)網(wǎng)絡(luò)而設(shè)計(jì)的模型,由多個(gè)節(jié)點(diǎn)(人工神經(jīng)元)相互聯(lián)結(jié)而成,可以用來對數(shù)據(jù)之間的復(fù)雜關(guān)系進(jìn)行建模。 例如利用單層神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)邏輯與
8、門和同或門 多層神經(jīng)網(wǎng)絡(luò)的每一層神經(jīng)元學(xué)習(xí)到的是前一層神經(jīng)元值的更抽象的表示,通過抽取更抽象的特征來對事物進(jìn)行區(qū)分,從而獲得更好的區(qū)分與分類能力。 1 1 . 深度學(xué)習(xí):賦予人工智能以璀璨的未來深度學(xué)習(xí)就是一種基于對數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法,使用多層網(wǎng)絡(luò),能夠?qū)W習(xí)抽象概念,同時(shí)融入自我學(xué)習(xí),逐步從大量的樣本中逐層抽象出相關(guān)的概念,然后做出理解,最終做出判斷和決策。通過構(gòu)建具有一定“深度”的模型,可以讓模型來自動(dòng)學(xué)習(xí)好的特征表示(從底層特征,到中層特征,再到高層特征),從而最終提升預(yù)測或識別的準(zhǔn)確性。 深度學(xué)習(xí)的歷史變遷:深度學(xué)習(xí)經(jīng)歷了三次浪潮: 2 0世紀(jì)4 0年代6 0年年代,深度學(xué)習(xí)的雛形出
9、現(xiàn)在控制論中; 2 0世界8 0年代9 0年代,深度學(xué)習(xí)表現(xiàn)為聯(lián)結(jié)主義; 2 0 0 6年以后,正式以深度學(xué)習(xí)之名復(fù)興。第一次浪潮:以感知機(jī)和線性模型為代表 不能解決與或問題第二次浪潮:以多層感知機(jī)和BP模型為代表 以統(tǒng)計(jì)學(xué)為基礎(chǔ),應(yīng)用核函數(shù)和圖模型的支持向量機(jī)算法(SVM算法)等各種淺層有監(jiān)督的機(jī)器學(xué)習(xí)模型廣泛應(yīng)用,且深度神經(jīng)網(wǎng)絡(luò)不可訓(xùn)練 第三次浪潮:以無監(jiān)督學(xué)習(xí)為代表。 解決了深層神經(jīng)網(wǎng)絡(luò)的計(jì)算能力問題;解決了深度神經(jīng)網(wǎng)絡(luò)后向誤差反饋梯度消失的問題。 最初,人工神經(jīng)網(wǎng)絡(luò)中神經(jīng)元之間的連接數(shù)受限于硬件能力。而現(xiàn)在,神經(jīng)元之間的連接數(shù)大多是出于設(shè)計(jì)考慮。一些人工神經(jīng)網(wǎng)絡(luò)中每個(gè)神經(jīng)元的連接數(shù)與貓
10、一樣多,并且對于其他神經(jīng)網(wǎng)絡(luò)來說,每個(gè)神經(jīng)元的連接數(shù)與較小哺乳動(dòng)物 (如小鼠) 一樣多,這種情況是非常普遍的。甚至人類大腦每個(gè)神經(jīng)元的連接數(shù)也沒有過高的數(shù)量。 1 . 自適應(yīng)線性單元 (Widrow and Hoff, 1 9 6 0);2 . 神經(jīng)認(rèn)知機(jī) (Fukushima, 1 9 8 0);3 . GPU- 加速卷積網(wǎng)絡(luò) (Chellapilla et al., 2 0 0 6);4 . 深度玻爾茲曼機(jī) (Salakhutdinov and Hinton, 2 0 0 9 a);5 . 無監(jiān)督卷積網(wǎng)絡(luò) (Jarrett et al., 2 0 0 9 b);6 . GPU- 加速多層感
11、知機(jī) (Ciresan et al., 2 0 1 0);7 . 分布式自編碼器 (Le et al., 2 0 1 2);8 . Multi-GPU 卷積網(wǎng)絡(luò)(Krizhevsky et al., 2 0 1 2 a);9 . COTS HPC 無監(jiān)督卷積網(wǎng)絡(luò) (Coates et al., 2 0 1 3);1 0 . GoogLeNet (Szegedy et al., 2 0 1 4 a 與日俱增的每個(gè)神經(jīng)元的連接數(shù) 自從引入隱藏單元,人工神經(jīng)網(wǎng)絡(luò)的規(guī)模大約每 2 .4 年翻一倍。 1 . 感知機(jī) (Rosenblatt, 1 9 5 8 , 1 9 6 2);2 . 自適應(yīng)線性單元
12、(Widrow and Hoff,1 9 6 0);3 . 神經(jīng)認(rèn)知機(jī) (Fukushima, 1 9 8 0);4 . 早期后向傳播網(wǎng)絡(luò) (Rumelhart et al., 1 9 8 6 b);5 . 用于語音識別的循環(huán)神經(jīng)網(wǎng)絡(luò) (Robinson and Fallside, 1 9 9 1);6 . 用于語音識別的多層感知機(jī) (Bengio et al., 1 9 9 1);7 . 均勻場 sigmoid 信念網(wǎng)絡(luò) (Saul et al., 1 9 9 6);8 . LeNet5 (LeCun et al., 1 9 9 8 c);9 . 回聲狀態(tài)網(wǎng)絡(luò) (Jaeger and Haa
13、s, 2 0 0 4);1 0 . 深度信念網(wǎng)絡(luò) (Hinton et al., 2 0 0 6 a);1 1 . GPU- 加速卷積網(wǎng)絡(luò) (Chellapilla et al., 2 0 0 6);1 2 . 深度玻爾茲曼機(jī) (Salakhutdinov and Hinton, 2 0 0 9 a);1 3 . GPU加速深度信念網(wǎng)絡(luò) (Raina et al., 2 0 0 9 a);1 4 . 無監(jiān)督卷積網(wǎng)絡(luò) (Jarrett et al., 2 0 0 9 b);1 5 . GPU- 加速多層感知機(jī) (Ciresan et al., 2 0 1 0);1 6 . OMP-1 網(wǎng)絡(luò) (C
14、oates and Ng, 2 0 1 1);1 7 . 分布式自編碼器 (Le et al., 2 0 1 2);1 8 . MultiGPU 卷積網(wǎng)絡(luò) (Krizhevsky et al., 2 0 1 2 a);1 9 . COTS HPC 無監(jiān)督卷積網(wǎng)絡(luò) (Coates et al., 2 0 1 3);2 0 . GoogLeNet (Szegedy et al., 2 0 1 4 a) 與日俱增的神經(jīng)網(wǎng)絡(luò)規(guī)模 目前深度學(xué)習(xí)的應(yīng)用十分廣泛,例如圖像識別、語音識別、機(jī)器翻譯、自動(dòng)駕駛、金融風(fēng)控、智能機(jī)器人等。 五 算法案例介紹 K近鄰法(KNN)原理 K近鄰法(k-nearest ne
15、ighbors,KNN)是一種很基本的機(jī)器學(xué)習(xí)方法了,在我們平常的生活中也會(huì)不自主的應(yīng)用。比如,我們判斷一個(gè)人的人品,只需要觀察他來往最密切的幾個(gè)人的人品好壞就可以得出了。 KNN做回歸和分類的主要區(qū)別在于最后做預(yù)測時(shí)候的決策方式不同。KNN做分類預(yù)測時(shí),一般是選擇多數(shù)表決法,即訓(xùn)練集里和預(yù)測的樣本特征最近的K個(gè)樣本,預(yù)測為里面有最多類別數(shù)的類別。 而KNN做回歸時(shí),一般是選擇平均法,即最近的K個(gè)樣本的樣本輸出的平均值作為回歸預(yù)測值。由于兩者區(qū)別不大,本次主要是講解KNN 的分類方法,但思想對KNN的回歸方法也適用。 KNN 場景電影可以按照題材分類,那么如何區(qū)分動(dòng)作片和愛情片 呢?動(dòng)作片:打
16、斗次數(shù)更多愛情片:親吻次數(shù)更多基于電影中的親吻、打斗出現(xiàn)的次數(shù),使用 k-近鄰算法構(gòu)造程序,就可以自動(dòng)劃分電影的題材類型。 KNN 計(jì)算步驟假設(shè)有一個(gè)帶有標(biāo)簽的樣本數(shù)據(jù)集(訓(xùn)練樣本集),其中包含每條數(shù)據(jù)與所屬分類的對應(yīng)關(guān)系。輸入沒有標(biāo)簽的新數(shù)據(jù)后,將新數(shù)據(jù)的每個(gè)特征與樣本集中數(shù)據(jù)對應(yīng)的特征進(jìn)行比較。計(jì)算新數(shù)據(jù)與樣本數(shù)據(jù)集中每條數(shù)據(jù)的距離。計(jì)算距離時(shí)直接使用了歐式距離公式,計(jì)算兩個(gè)向量點(diǎn)之間的距離對求得的所有距離進(jìn)行排序(從小到大,越小表示越相似)。取前k(k 一般小于等于 2 0 )個(gè)樣本數(shù)據(jù)對應(yīng)的分類標(biāo)簽。求k個(gè)數(shù)據(jù)中出現(xiàn)次數(shù)最多的分類標(biāo)簽作為新數(shù)據(jù)的分類。 KNN 算法特優(yōu)點(diǎn):1) 理 論
17、 成 熟 , 思 想 簡 單 , 既 可 以 用 來 做 分 類 也 可 以 用 來 做 回 歸2) 可 用 于 非 線 性 分 類3) 訓(xùn) 練 時(shí) 間 復(fù) 雜 度 比 支 持 向 量 機(jī) 之 類 的 算 法 低 , 僅 為 O(n)4) 和 樸 素 貝 葉 斯 之 類 的 算 法 比 , 對 數(shù) 據(jù) 沒 有 假 設(shè) , 準(zhǔn) 確 度 高 , 對 異 常 點(diǎn) 不 敏 感5) 由 于 KNN方 法 主 要 靠 周 圍 有 限 的 鄰 近 的 樣 本 , 而 不 是 靠 判 別 類 域 的 方 法 來 確定 所 屬 類 別 的 , 因 此 對 于 類 域 的 交 叉 或 重 疊 較 多 的 待 分
18、樣 本 集 來 說 , KNN方 法較 其 他 方 法 更 為 適 合6) 該 算 法 比 較 適 用 于 樣 本 容 量 比 較 大 的 類 域 的 自 動(dòng) 分 類 , 而 那 些 樣 本 容 量 較 小的 類 域 采 用 這 種 算 法 比 較 容 易 產(chǎn) 生 誤 分缺點(diǎn):1) 計(jì) 算 量 大 , 尤 其 是 特 征 數(shù) 非 常 多 的 時(shí) 候 2) 樣 本 不 平 衡 的 時(shí) 候 , 對 稀 有 類 別 的 預(yù) 測 準(zhǔn) 確 率 低3) KD樹 , 球 樹 之 類 的 模 型 建 立 需 要 大 量 的 內(nèi) 存4) 使 用 懶 散 學(xué) 習(xí) 方 法 , 導(dǎo) 致 預(yù) 測 時(shí) 速 度 比 起 邏
19、 輯 回 歸 之 類 的 算 法 慢5) 相 比 決 策 樹 模 型 , KNN模 型 可 解 釋 性 不 強(qiáng)適用數(shù)據(jù)范圍: 數(shù) 值 型 和 標(biāo) 稱 型 下面我們通過實(shí)例來演示如何實(shí)現(xiàn)一個(gè)簡單的KNN 算法首先,我們準(zhǔn)備一個(gè)簡單數(shù)據(jù)集,是由二維空間上的四個(gè)點(diǎn)構(gòu)成的矩陣 (A,籃圓圈; B 紅三角) 那么,對于一個(gè)新的向量 0 .2 , 0 .2 ,它應(yīng)該屬于那個(gè)類別的呢?從圖上看,它距離 B比較近,應(yīng)該屬于 B類別。分類X YA 1 .0 1 .1A 1 .0 1 .0B 0 0B 0 1 .0 剛剛采用直觀的方法,講了KNN的原理,接下來我們上代碼。 Python編輯器有很多,前面也推薦大家使用 Anaconda 。這是一個(gè)集成的工作環(huán)境,它除了提供 Spyder 編譯 環(huán)境之外,還提供了一個(gè) Notebook的編譯環(huán)境。下面我們采用Notebook環(huán)境,給大家示范KNN的原理代碼。
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中西方家庭教育的對比ppt課件
- 《運(yùn)籌學(xué)教程》第五版運(yùn)籌學(xué)6對策論矩陣對策課件
- (部編版)統(tǒng)編版四年級語文下冊第2課《鄉(xiāng)下人家》ppt課件
- 全等三角形1--公開課一等獎(jiǎng)ppt課件
- 《會(huì)跳舞樹葉娃娃》課件
- 9兒童詩兩首_人教版五年級的語文下冊課件
- 綠色植物是食物之源(我的課件)0
- 河南專版2022春八年級語文下冊第四單元16慶祝奧林匹克運(yùn)動(dòng)復(fù)興25周年習(xí)題課件新人教版
- 全國xx杯說課大賽機(jī)械類一等獎(jiǎng)作品:鉗工車模的制作說課ppt課件
- 六年級下冊數(shù)學(xué)ppt課件-總復(fù)習(xí)(1)數(shù)的認(rèn)識-整數(shù)∣北師大版
- 牛頓第二定律優(yōu)秀完整公開課ppt課件
- 調(diào)脂與卒中防治課件
- 點(diǎn)到平面的距離課件
- 聚焦新醫(yī)改形勢下的醫(yī)院發(fā)展戰(zhàn)略
- 四肢血管超聲基礎(chǔ)