數(shù)據(jù)挖掘機器學習考試簡答題

上傳人：熏** 文檔編號：153857926 上傳時間：2022-09-19 格式：DOC 頁數(shù)：7 大?。?41KB

收藏版權申訴舉報下載

第1頁 / 共7頁

第2頁 / 共7頁

第3頁 / 共7頁

下載文檔到電腦，查找使用更方便

10 積分

下載資源

還剩頁未讀，繼續(xù)閱讀

資源描述：

《數(shù)據(jù)挖掘機器學習考試簡答題》由會員分享，可在線閱讀，更多相關《數(shù)據(jù)挖掘機器學習考試簡答題（7頁珍藏版）》請在裝配圖網上搜索。

1、 1.何謂數(shù)據(jù)挖掘？它有哪些方面的功能？答：從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程稱為數(shù)據(jù)挖掘；（3分）數(shù)據(jù)挖掘的功能包括：概念描述、關聯(lián)分析、分類與預測、聚類分析、趨勢分析、孤立點分析以及偏差分析等（3 分） 2. 列舉 4 種監(jiān)督式學習算法？答： K-近鄰算法（k-Nearest Neighbors）（1 分）線性回歸（Linear Regression）（1 分）邏輯回歸（Logistic Regression）（1 分）支持向量機（1 分）（備注：列出

2、任意 4 種即可得分） 3. 過擬合問題產生的原因有哪些以及解決過擬合的辦法有哪些？答：產生的原因：（1）使用的模型比較復雜，學習能力過強。（1 分) （2）有噪聲存在（1 分) （3）數(shù)據(jù)量有限（1 分) 解決過擬合的辦法：（1）提前終止（當驗證集上的效果變差的時候）（1 分) （2）數(shù)據(jù)集擴增（1 分) （3）尋找最優(yōu)參數(shù) （1 分) 4.支持向量機有哪些優(yōu)缺點？答：優(yōu)勢：（1）在高維空間非常高效（1 分) （2）即使在數(shù)據(jù)維度比樣本大的情況下仍然有效（1 分) （3）在決策函數(shù)中使用訓練集的子集，因此它也是高效利用內存的

3、（1 分) 缺點：（1）如果特征數(shù)量比樣本數(shù)量大得多，在選擇核函數(shù)時要避免過擬合（1 分) （2）支持向量機通過尋找支持向量找到最優(yōu)分割平面，是典型的二分類問題，因此無法解決多分類問題。（1 分) （3）不直接提供概率估計（1 分) 5、數(shù)據(jù)挖掘的兩大目標分為預測和描述，監(jiān)督學習和無監(jiān)督學習分別對應哪類目標？監(jiān)督學習和無監(jiān)督學習的定義是什么？分別從監(jiān)督類學習和無監(jiān)督類學習中找一類算法的實例應用進行舉例說明。答：1.監(jiān)督學習對應預測，無監(jiān)督學習對應描述 2.監(jiān)督學習：從標記的訓練數(shù)據(jù)來推斷一個功能的機器學習任務無監(jiān)督學習:根據(jù)類別未知（沒有標記）的

4、訓練樣本解決模式識別中的各種問題。 3.監(jiān)督學習舉例：分類算法，利用分類算法進行垃圾電子郵件的分類。無監(jiān)督學習舉例：聚類算法。利用聚類算法，如網購平臺，通過用戶購物喜好等進行聚類，即客戶群體的劃分 1.請談談 K 近鄰算法的優(yōu)缺點有哪些？答：優(yōu)點：簡單，易于理解，易于實現(xiàn)；只需保存訓練樣本和標記，無須估計參數(shù)，無須訓練。不易受最小錯誤概率的影響。（3 分）缺點：K 的選擇不固定；預測結果容易受含噪聲數(shù)據(jù)的影響；當樣本不平衡時，新樣本的類別偏向于訓練樣本中數(shù)量占優(yōu)的類別，容易導致預測錯誤；具有較高的計算復雜度和內存消耗，因為對每一個未知

5、樣本，都要計算它到全體已知樣本的距離，才能求得它的 K 個最近鄰。（3 分） 2.何謂聚類？它與分類有什么異同？答：聚類是將物理或抽象對象的集合分組成為多個類或簇的過程，使得在同一個簇中的對象之間具有較高的相似度，而不同簇中的對象差別較大。（2 分）聚類與分類的不同，聚類要劃分的類是未知的，分類則是可按已知規(guī)則進行；聚類是一種無指導學習，它不依賴預先定義的類和帶類標號的訓練實例，屬于觀察式學習，分類則屬于有指導的學習，是示例式學習。（2 分） 3.請用偽代碼的形式描述 K-Means 算法的過程？答：（1）從一系列數(shù)據(jù) D 中任意選擇 K 個對象作

6、為初始簇的中心（1 分）（2）根據(jù)數(shù)據(jù)到聚類中心的距離，對每個對象進行分配（1 分）（3）更新聚類中心位置，即計算每個簇中所有對象的質心，將聚類中心移動到質心位置（1 分）（4）重復過程（2）（3）（1 分）（5）直到聚類中心不再發(fā)生變化（2 分） 4.什么是降維分析？以及常用的降維算法有哪些？答：降維分析是指從高維數(shù)據(jù)空間到低維數(shù)據(jù)空間的變化過程，其目的是為了降低時間復雜度和空間復雜度，或者是去掉數(shù)據(jù)集中夾雜的噪聲，或者是為了使用較少的特征進行解釋，方便我們更好地解釋數(shù)據(jù)以及實現(xiàn)數(shù)據(jù)的可視化（3 分）常用的降維算法有：主成分分析，因子分

7、析，獨立成分分析（3 分） 1、請描述下數(shù)據(jù)挖掘的工作流程和步驟一般包括哪些？答：問題設定->特征工程->模型選擇->模型訓練->模型評測->模型應用 2、請談談你對貝葉斯算法中先驗概率、后驗概率、條件概率的理解，以及怎么利用后驗概率計算條件概率（可用公式表達）？答：先驗概率——事件發(fā)生前的預判概率?？梢允腔跉v史數(shù)據(jù)的統(tǒng)計，可以由背景常識得出，也可以是人的主觀觀點給出。后驗概率——結果發(fā)生后反推事件發(fā)生原因的概率；或者說，基于先驗概率求得的反向條件概率。條件概率——一個事件發(fā)生后另一個事件發(fā)生的概率。一般的形式為 P(x|y

8、)表示 y 發(fā)生的條件下 x 發(fā)生的概率。可用貝葉斯公式把后驗概率和條件概率、先驗概率聯(lián)系起來，相互推算： 3、你對于人工智能的未來怎么看？請談談它可能對人類社會造成哪些利弊？答：開放式回答，沒有標準答案。主要看學生對知識的綜合理解以及邏輯思維能力 4、技術性元數(shù)據(jù) MataData 一般包括哪些信息？答：數(shù)據(jù)源信息、數(shù)據(jù)轉換的描述，數(shù)據(jù)倉庫內對象和數(shù)據(jù)結構的定義，數(shù)據(jù)清理和數(shù)據(jù)更新時使用的規(guī)則，源數(shù)據(jù)到目的數(shù)據(jù)的映射表，以及用戶訪問權限，數(shù)據(jù) 備份歷史記錄，數(shù)據(jù)導入歷史記錄和信息發(fā)布歷史記錄 3、數(shù)據(jù)倉庫和數(shù)據(jù)集市有什么

9、相同和區(qū)別之處？答：對比內容范圍數(shù)據(jù) 主題源其他特征數(shù)據(jù)倉庫應用獨立集中式，企業(yè)級（可能）規(guī)劃的歷史的，詳細的和概括的輕微不規(guī)范的多個主題多個內部和外部源靈活的面向數(shù)據(jù) 長期大單一的復雜結構數(shù)據(jù)集市特定的 DSS 應用用戶域的離散化可能是臨時組織的（無規(guī)劃）一些歷史的、詳細的和概括的高度不規(guī)范用戶關心的某一個中心主題很少的內部和外部源嚴格的面向工程短期開始小，逐步變大多，半復雜

10、性結構，合并復雜 1、請說明 OLAP 和 OLTP 的區(qū)別？答： OLTP OLAP 用戶功能操作人員，底層管理人員日常操作型事務處理決策人員、高級管理人員分析和決策數(shù)據(jù)庫設計目標數(shù)據(jù)特征存取規(guī)模工作單元用戶數(shù) 數(shù)據(jù)庫大小面向應用當前的，最新的，細節(jié)的，二維的與分立的通常一次讀或寫數(shù)十條記錄一個事務通常是成千上萬個用戶通常是在 GB 級（100MB~1GB）面向主題歷史的、聚集的、多維的、集

11、成的與統(tǒng)一的可能讀取百萬條以上記錄一個復雜查詢可能只有幾十個或上百個用戶通常在 TB 級（100G~1TB 及以上）第 7 章管理規(guī)則與協(xié)同過濾 1)簡述 Apriori 算法原理。 Apriori 性質：一個項集是頻繁的，那么它的所有子集都是頻繁的。一個項集的支持度不會超過其任何子集的支持度。該算法采用逐層的方法找出頻繁項集，首先找出 1 頻繁-項集，通過迭代方法利用頻繁 k-1-項集生成 k 候選項集，掃描數(shù) 據(jù)庫后從候選 k-項集中指出頻繁 k-項集，直到生成的候選項集為空。 2)為什么說強關聯(lián)規(guī)則不一定都是有效的，請舉例說明之

12、。并不是所有的強關聯(lián)規(guī)則都是有效的。例如，一個谷類早餐的零售商對 5000 名學生的調查的案例。數(shù)據(jù)表明： 60% 的學生打籃球， 75% 的學生吃這類早餐， 40%的學生即打籃球吃這類早餐。假設支持度閾值 s=0.4 ，置信度閾值 c=60%?；?于上面數(shù)據(jù)和假設我們可挖掘出強關聯(lián)規(guī)則 “(打籃球 )→( 吃早餐)” ，因為其 (打籃球 ) 和 ( 吃早餐 ) 的支持度都大于支持度閾值，都是頻繁項，而規(guī)則的置信度 c=40%/60%=66.6% 也大于置信度閾值。然而，以上的關聯(lián)規(guī)則很容易產生誤解，因為吃早餐的比例為 75%，大于 66%。也就是說，打籃球與吃早餐實際上是

13、負關聯(lián)的。 3)證明頻繁集的所有非空子集必須也是頻繁的。 min_ sup min_ sup conf =n(l ) / n( s 證明 1 反證法。根據(jù)定義，如果項集 I 滿足最小支持度閾值，則 I 不是頻繁的，即 p( I )

14、元組數(shù)為 s。對 X 的任一非空子集為 Y，設 T 中支持 Y 的元組數(shù)為 s1。根據(jù)項目集支持數(shù)的定義，很容易知道支持 X 的元組一定支持 Y，所以 s1 ≥ s，即 support （Y） ≥ support （X）。按假設：項目集 X 是頻繁項目集，即 support(X)≥ minsupport，所以 support （Y ）≥ support（X）≥ minsupport，因此 Y 是頻繁項目集。 4)Apriori 的一種變形將事務數(shù)據(jù)庫 D 中的事務劃分為若干個不重疊的部分。證明在 D 中是頻繁的任何項集至少在 D 中的一

15、個部分中是頻繁的。證明：給定頻繁項集 l 和 l 的子集 s ，證明規(guī)則“ s ￠T(l -s ￠) ”的置信度不可能大于“ s T (l -s ) ”的置信度。其中， s ￠是s 的子集。根據(jù)定義，規(guī)則 A T B 的置信度為：conf =n ( A è B ) / n ( A) n( A) 表示項集 A 出現(xiàn) 的次數(shù) 規(guī) 則 s ￠T(l -s ￠) 的置信度為： conf =n ( s ￠è(l -s ￠))/ n (

16、s ￠)=n(l ) / n( s ￠) 規(guī)則 s T (l -s ) 的置信度同理可得：，又因為 s ￠是s 的子集， n( s ￠)>n( s ) ，所以規(guī)則“ s ￠T(l -s ￠) ”的置信度不可能大于“ s T (l -s ) ”的置信度。 5)名詞解釋：孤立點、頻繁項集、支持度、可信度、關聯(lián)規(guī)則孤立點：指數(shù)據(jù)庫中包含的一些與數(shù)據(jù)的一般行為或模型不一致的異常數(shù)據(jù)。頻繁項集：指滿足最小支持度的項集，是挖掘關聯(lián)規(guī)則的基本條件之一。支持度：規(guī)則 A→B 的支持度指的是所有事件中 A 與 B 同地發(fā)生的的概率，即 P(A ∪B)，是 AB 同時發(fā)生的次數(shù)與事件總次數(shù)之比。支持度是對關聯(lián)規(guī)則重要性的衡量。可信度：規(guī)則 A→B 的可信度指的是包含 A 項集的同時也包含 B 項集的條件概率 P(B|A)，是 AB 同時發(fā)生的次數(shù)與 A 發(fā)生的所有次數(shù)之比?？尚哦仁菍﹃P聯(lián)規(guī)則的準確度的衡量。

展開閱讀全文

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 裝配圖網僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服 - 聯(lián)系我們

備案號:蜀ICP備2024067431號-1 川公網安備51140202000466號

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務平臺，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對上載內容本身不做任何修改或編輯。若文檔所含內容侵犯了您的版權或隱私，請立即通知裝配圖網，我們立即給予刪除！

數(shù)據(jù)挖掘機器學習考試簡答題

最新文檔

相關資源

相關搜索

數(shù)據(jù)挖掘 機器學習 考試簡答題

最新文檔

相關資源

相關搜索

數(shù)據(jù)挖掘機器學習考試簡答題