數(shù)據(jù)挖掘 機(jī)器學(xué)習(xí) 考試簡答題

上傳人:熏** 文檔編號:153857926 上傳時間:2022-09-19 格式:DOC 頁數(shù):7 大?。?41KB
收藏 版權(quán)申訴 舉報(bào) 下載
數(shù)據(jù)挖掘 機(jī)器學(xué)習(xí) 考試簡答題_第1頁
第1頁 / 共7頁
數(shù)據(jù)挖掘 機(jī)器學(xué)習(xí) 考試簡答題_第2頁
第2頁 / 共7頁
數(shù)據(jù)挖掘 機(jī)器學(xué)習(xí) 考試簡答題_第3頁
第3頁 / 共7頁

下載文檔到電腦,查找使用更方便

10 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《數(shù)據(jù)挖掘 機(jī)器學(xué)習(xí) 考試簡答題》由會員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)挖掘 機(jī)器學(xué)習(xí) 考試簡答題(7頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。

1、 1.何謂數(shù)據(jù)挖掘?它有哪些方面的功能? 答: 從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、 人們事先不知道的、但又是潛在有用的信息和知識的過程稱為數(shù)據(jù)挖掘;(3分) 數(shù)據(jù)挖掘的功能包括:概念描述、關(guān)聯(lián)分析、分類與預(yù)測、聚類分析、趨勢分析、 孤立點(diǎn)分析以及偏差分析等(3 分) 2. 列舉 4 種監(jiān)督式學(xué)習(xí)算法? 答: K-近鄰算法(k-Nearest Neighbors) (1 分) 線性回歸(Linear Regression) (1 分) 邏輯回歸(Logistic Regression) (1 分) 支持向量機(jī)(1 分) (備注:列出

2、任意 4 種即可得分) 3. 過擬合問題產(chǎn)生的原因有哪些以及解決過擬合的辦法有哪些? 答: 產(chǎn)生的原因: (1)使用的模型比較復(fù)雜,學(xué)習(xí)能力過強(qiáng)。 (1 分) (2)有噪聲存在 (1 分) (3)數(shù)據(jù)量有限 (1 分) 解決過擬合的辦法: (1)提前終止(當(dāng)驗(yàn)證集上的效果變差的時候) (1 分) (2)數(shù)據(jù)集擴(kuò)增 (1 分) (3)尋找最優(yōu)參數(shù) (1 分) 4.支持向量機(jī)有哪些優(yōu)缺點(diǎn)? 答: 優(yōu)勢: (1)在高維空間非常高效 (1 分) (2)即使在數(shù)據(jù)維度比樣本大的情況下仍然有效 (1 分) (3)在決策函數(shù)中使用訓(xùn)練集的子集,因此它也是高效利用內(nèi)存的

3、 (1 分) 缺點(diǎn): (1)如果特征數(shù)量比樣本數(shù)量大得多,在選擇核函數(shù)時要避免過擬合 (1 分) (2)支持向量機(jī)通過尋找支持向量找到最優(yōu)分割平面,是典型的二分類問題, 因此無法解決多分類問題。 (1 分) (3)不直接提供概率估計(jì) (1 分) 5、數(shù)據(jù)挖掘的兩大目標(biāo)分為預(yù)測和描述,監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)分別對應(yīng)哪類目標(biāo)?監(jiān)督 學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的定義是什么?分別從監(jiān)督類學(xué)習(xí)和無監(jiān)督類學(xué)習(xí)中找一類算法的實(shí)例 應(yīng)用進(jìn)行舉例說明。 答:1.監(jiān)督學(xué)習(xí)對應(yīng)預(yù)測,無監(jiān)督學(xué)習(xí)對應(yīng)描述 2.監(jiān)督學(xué)習(xí):從標(biāo)記的訓(xùn)練數(shù)據(jù)來推斷一個功能的機(jī)器學(xué)習(xí)任務(wù) 無監(jiān)督學(xué)習(xí):根據(jù)類別未知(沒有標(biāo)記)的

4、訓(xùn)練樣本解決模式識別中的各種 問題。 3.監(jiān)督學(xué)習(xí)舉例:分類算法,利用分類算法進(jìn)行垃圾電子郵件的分類。 無監(jiān)督學(xué)習(xí)舉例:聚類算法。利用聚類算法,如網(wǎng)購平臺,通過用戶購物喜好等 進(jìn)行聚類,即客戶群體的劃分 1.請談?wù)?K 近鄰算法的優(yōu)缺點(diǎn)有哪些? 答: 優(yōu)點(diǎn):簡單,易于理解,易于實(shí)現(xiàn); 只需保存訓(xùn)練樣本和標(biāo)記,無須估計(jì)參數(shù),無須訓(xùn)練。 不易受最小錯誤概率的影響。 (3 分) 缺點(diǎn):K 的選擇不固定; 預(yù)測結(jié)果容易受含噪聲數(shù)據(jù)的影響; 當(dāng)樣本不平衡時,新樣本的類別偏向于訓(xùn)練樣本中數(shù)量占優(yōu)的類別,容易導(dǎo)致預(yù) 測錯誤; 具有較高的計(jì)算復(fù)雜度和內(nèi)存消耗,因?yàn)閷γ恳粋€未知

5、樣本,都要計(jì)算它到全體 已知樣本的距離,才能求得它的 K 個最近鄰。 (3 分) 2.何謂聚類?它與分類有什么異同? 答: 聚類是將物理或抽象對象的集合分組成為多個類或簇的過程,使得在同一個簇中 的對象之間具有較高的相似度,而不同簇中的對象差別較大。(2 分) 聚類與分類的不同,聚類要劃分的類是未知的,分類則是可按已知規(guī)則進(jìn)行;聚 類是一種無指導(dǎo)學(xué)習(xí),它不依賴預(yù)先定義的類和帶類標(biāo)號的訓(xùn)練實(shí)例,屬于觀察 式學(xué)習(xí),分類則屬于有指導(dǎo)的學(xué)習(xí),是示例式學(xué)習(xí)。(2 分) 3.請用偽代碼的形式描述 K-Means 算法的過程? 答: (1)從一系列數(shù)據(jù) D 中任意選擇 K 個對象作

6、為初始簇的中心 (1 分) (2)根據(jù)數(shù)據(jù)到聚類中心的距離,對每個對象進(jìn)行分配 (1 分) (3)更新聚類中心位置,即計(jì)算每個簇中所有對象的質(zhì)心,將聚類中心移動到 質(zhì)心位置 (1 分) (4)重復(fù)過程(2)(3) (1 分) (5)直到聚類中心不再發(fā)生變化 (2 分) 4.什么是降維分析?以及常用的降維算法有哪些? 答: 降維分析是指從高維數(shù)據(jù)空間到低維數(shù)據(jù)空間的變化過程,其目的是為了降低時 間復(fù)雜度和空間復(fù)雜度,或者是去掉數(shù)據(jù)集中夾雜的噪聲,或者是為了使用較少 的特征進(jìn)行解釋,方便我們更好地解釋數(shù)據(jù)以及實(shí)現(xiàn)數(shù)據(jù)的可視化 (3 分) 常用的降維算法有:主成分分析,因子分

7、析,獨(dú)立成分分析 (3 分) 1、請描述下數(shù)據(jù)挖掘的工作流程和步驟一般包括哪些? 答: 問題設(shè)定->特征工程->模型選擇->模型訓(xùn)練->模型評測->模型應(yīng)用 2、請談?wù)勀銓ω惾~斯算法中先驗(yàn)概率、后驗(yàn)概率、條件概率的理解,以及怎么 利用后驗(yàn)概率計(jì)算條件概率(可用公式表達(dá))? 答: 先驗(yàn)概率——事件發(fā)生前的預(yù)判概率??梢允腔跉v史數(shù)據(jù)的統(tǒng)計(jì),可以由背景 常識得出,也可以是人的主觀觀點(diǎn)給出。 后驗(yàn)概率——結(jié)果發(fā)生后反推事件發(fā)生原因的概率;或者說,基于先驗(yàn)概率求得 的反向條件概率。 條件概率——一個事件發(fā)生后另一個事件發(fā)生的概率。一般的形式為 P(x|y

8、)表 示 y 發(fā)生的條件下 x 發(fā)生的概率。 可用貝葉斯公式把后驗(yàn)概率和條件概率、先驗(yàn)概率聯(lián)系起來,相互推算: 3、你對于人工智能的未來怎么看?請談?wù)勊赡軐θ祟惿鐣斐赡男├祝?答: 開放式回答,沒有標(biāo)準(zhǔn)答案。主要看學(xué)生對知識的綜合理解以及邏輯思維能力 4、技術(shù)性元數(shù)據(jù) MataData 一般包括哪些信息? 答: 數(shù)據(jù)源信息、數(shù)據(jù)轉(zhuǎn)換的描述,數(shù)據(jù)倉庫內(nèi)對象和數(shù)據(jù)結(jié)構(gòu)的定義,數(shù)據(jù)清理和 數(shù)據(jù)更新時使用的規(guī)則,源數(shù)據(jù)到目的數(shù)據(jù)的映射表,以及用戶訪問權(quán)限,數(shù)據(jù) 備份歷史記錄,數(shù)據(jù)導(dǎo)入歷史記錄和信息發(fā)布?xì)v史記錄 3、數(shù)據(jù)倉庫和數(shù)據(jù)集市有什么

9、相同和區(qū)別之處? 答: 對比內(nèi)容 范圍 數(shù)據(jù) 主題 源 其他特征  數(shù)據(jù)倉庫 應(yīng)用獨(dú)立 集中式,企業(yè)級(可能) 規(guī)劃的 歷史的,詳細(xì)的和概括的 輕微不規(guī)范的 多個主題 多個內(nèi)部和外部源 靈活的 面向數(shù)據(jù) 長期 大 單一的復(fù)雜結(jié)構(gòu)  數(shù)據(jù)集市 特定的 DSS 應(yīng)用 用戶域的離散化 可能是臨時組織的(無規(guī)劃) 一些歷史的、詳細(xì)的和概括的 高度不規(guī)范 用戶關(guān)心的某一個中心主題 很少的內(nèi)部和外部源 嚴(yán)格的 面向工程 短期 開始小,逐步變大 多,半復(fù)雜

10、性結(jié)構(gòu),合并復(fù)雜 1、請說明 OLAP 和 OLTP 的區(qū)別? 答: OLTP  OLAP 用戶 功能  操作人員,底層管理人員 日常操作型事務(wù)處理  決策人員、高級管理人員 分析和決策 數(shù)據(jù)庫設(shè) 計(jì)目標(biāo) 數(shù)據(jù)特征 存取規(guī)模 工作單元 用戶數(shù) 數(shù)據(jù)庫大 小  面向應(yīng)用 當(dāng)前的,最新的,細(xì)節(jié)的,二維 的與分立的 通常一次讀或?qū)憯?shù)十條記錄 一個事務(wù) 通常是成千上萬個用戶 通常是在 GB 級(100MB~1GB)  面向主題 歷史的、聚集的、多維的、集

11、成的與統(tǒng)一的 可能讀取百萬條以上記錄 一個復(fù)雜查詢 可能只有幾十個或上百個用戶 通常在 TB 級(100G~1TB 及以 上) 第 7 章 管理規(guī)則與協(xié)同過濾 1)簡述 Apriori 算法原理。 Apriori 性質(zhì):一個項(xiàng)集是頻繁的,那么它的所有子集都是頻繁的。一個項(xiàng)集 的支持度不會超過其任何子集的支持度。該算法采用逐層的方法找出頻繁項(xiàng)集, 首先找出 1 頻繁-項(xiàng)集,通過迭代方法利用頻繁 k-1-項(xiàng)集生成 k 候選項(xiàng)集,掃描數(shù) 據(jù)庫后從候選 k-項(xiàng)集中指出頻繁 k-項(xiàng)集,直到生成的候選項(xiàng)集為空。 2)為什么說強(qiáng)關(guān)聯(lián)規(guī)則不一定都是有效的,請舉例說明之

12、。 并不是所有的強(qiáng)關(guān)聯(lián)規(guī)則都是有效的。例如,一個谷類早餐的零售商對 5000 名學(xué)生的調(diào)查的案例。數(shù)據(jù)表明: 60% 的學(xué)生打籃球, 75% 的學(xué)生吃這類早餐, 40%的學(xué)生即打籃球吃這類早餐。假設(shè)支持度閾值 s=0.4 ,置信度閾值 c=60%?;?于上面數(shù)據(jù)和假設(shè)我們可挖掘出強(qiáng)關(guān)聯(lián)規(guī)則 “(打籃球 )→( 吃早餐)” ,因?yàn)槠?(打籃 球 ) 和 ( 吃早餐 ) 的支持度都大于支持度閾值,都是頻繁項(xiàng),而規(guī)則的置信度 c=40%/60%=66.6% 也大于置信度閾值。 然而,以上的關(guān)聯(lián)規(guī)則很容易產(chǎn)生誤解,因?yàn)槌栽绮偷谋壤秊?75%,大于 66%。 也就是說,打籃球與吃早餐實(shí)際上是

13、負(fù)關(guān)聯(lián)的。 3)證明頻繁集的所有非空子集必須也是頻繁的。 min_ sup min_ sup conf =n(l ) / n( s 證明 1 反證法。根據(jù)定義,如果項(xiàng)集  I  滿足最小支持度閾值 ,則  I  不是頻 繁的,即 p( I )

14、元組數(shù)為 s。對 X 的任一非空 子集為 Y,設(shè) T 中支持 Y 的元組數(shù)為 s1。 根據(jù)項(xiàng)目集支持?jǐn)?shù)的定義,很容易知道支持 X 的元組一定支持 Y,所以 s1 ≥ s,即 support (Y) ≥ support (X)。 按假設(shè):項(xiàng)目集 X 是頻繁項(xiàng)目集,即 support(X)≥ minsupport, 所以 support (Y )≥ support(X)≥ minsupport,因此 Y 是頻繁項(xiàng)目集。 4)Apriori 的一種變形將事務(wù)數(shù)據(jù)庫 D 中的事務(wù)劃分為  若干個不重疊的部分。 證明在 D 中是頻繁的任何項(xiàng)集至少在 D 中的一

15、個部分中是頻繁的。 證明 :給定頻繁項(xiàng)集 l 和 l 的子集 s ,證明規(guī)則“  s  ¢T(l -s  ¢)  ”的置信度不可 能大于“ s T (l -s )  ”的置信度。其中, s ¢是s 的子集。 根據(jù)定義,規(guī)則 A T B 的置信度為:conf =n ( A è B ) / n ( A) n( A)  表示項(xiàng)集 A  出 現(xiàn) 的 次 數(shù)  規(guī)  則 s ¢T(l -s ¢)  的 置 信 度 為 : conf =n ( s ¢è(l -s ¢))/ n (

16、s ¢)=n(l ) / n( s ¢) 規(guī)則  s T (l -s )  的置信度同理可得:  ,又因?yàn)?s ¢是s 的子集, n( s ¢)>n( s )  ,所以規(guī)則“ s ¢T(l -s ¢)  ”的置信度不可能大于“ s T (l -s )  ”的置 信度。 5)名詞解釋:孤立點(diǎn)、頻繁項(xiàng)集、支持度、可信度、關(guān)聯(lián)規(guī)則 孤立點(diǎn):指數(shù)據(jù)庫中包含的一些與數(shù)據(jù)的一般行為或模型不一致的異常數(shù)據(jù)。 頻繁項(xiàng)集:指滿足最小支持度的項(xiàng)集,是挖掘關(guān)聯(lián)規(guī)則的基本條件之一。 支持度:規(guī)則 A→B 的支持度指的是所有事件中 A 與 B 同地發(fā)生的的概率,即 P(A ∪B),是 AB 同時發(fā)生的次數(shù)與事件總次數(shù)之比。支持度是對關(guān)聯(lián)規(guī)則重要性的 衡量。 可信度:規(guī)則 A→B 的可信度指的是包含 A 項(xiàng)集的同時也包含 B 項(xiàng)集的條件概率 P(B|A),是 AB 同時發(fā)生的次數(shù)與 A 發(fā)生的所有次數(shù)之比??尚哦仁菍﹃P(guān)聯(lián)規(guī)則 的準(zhǔn)確度的衡量。

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!