《數(shù)據(jù)挖掘技術》PPT課件.ppt
《《數(shù)據(jù)挖掘技術》PPT課件.ppt》由會員分享,可在線閱讀,更多相關《《數(shù)據(jù)挖掘技術》PPT課件.ppt(176頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、于 金 霞 計算機科學與技術學院,信息管理與信息系統(tǒng)專業(yè)課程,第三講 數(shù)據(jù)挖掘技術,主要內(nèi)容,一、數(shù)據(jù)挖掘概述 二、數(shù)據(jù)預處理 三、數(shù)據(jù)挖掘算法分類與預測 四、數(shù)據(jù)挖掘算法聚類 五、數(shù)據(jù)挖掘算法關聯(lián)分析 六、序列模式挖掘 七、數(shù)據(jù)挖掘軟件 八、數(shù)據(jù)挖掘應用,一、數(shù)據(jù)挖掘概述,,數(shù)據(jù)挖掘概念,數(shù)據(jù)挖掘--從大量數(shù)據(jù)中尋找其規(guī)律的技術,是統(tǒng)計學、數(shù)據(jù)庫技術和人工智能技術的綜合。 數(shù)據(jù)挖掘是從數(shù)據(jù)中自動地抽取模式、關聯(lián)、變化、異常和有意義的結(jié)構(gòu); 數(shù)據(jù)挖掘大部分的價值在于利用數(shù)據(jù)挖掘技術改善預測模型。,數(shù)據(jù)挖掘與KDD,數(shù)據(jù)挖掘與KDD,知識發(fā)現(xiàn)(KD) 輸出的是規(guī)則 數(shù)據(jù)挖掘(DM) 輸出的是模型
2、 共同點 兩種方法輸入的都是學習集(learning sets) 目的都是盡可能多的自動化數(shù)據(jù)挖掘過程 數(shù)據(jù)挖掘過程并不能完全自動化,只能半自動化,數(shù)據(jù)挖掘的社會需求,國民經(jīng)濟和社會的信息化,社會信息化后,社會的運轉(zhuǎn)是軟件的運轉(zhuǎn) 社會信息化后,社會的歷史是數(shù)據(jù)的歷史,數(shù)據(jù)挖掘的社會需求,有價值的知識,可怕的數(shù)據(jù),數(shù)據(jù)挖掘的社會需求,數(shù)據(jù)爆炸,知識貧乏,數(shù)據(jù)挖掘的發(fā)展,1989 IJCAI會議: 數(shù)據(jù)庫中的知識發(fā)現(xiàn)討論專題 Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991) 1991-1994
3、KDD討論專題 Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996) 1995-1998 KDD國際會議 (KDD95-98) Journal of Data Mining and Knowledge Discovery (1997) 1998 ACM SIGKDD, SIGKDD1999-2002 會議,以及SIGKDD Explorations 數(shù)據(jù)挖掘方面更多的國際會議 PAKDD, PKDD, SIAM-Da
4、ta Mining, (IEEE) ICDM, DaWaK, SPIE-DM, etc.,數(shù)據(jù)挖掘技術,技術分類 預言(Predication):用歷史預測未來 描述(Description):了解數(shù)據(jù)中潛在的規(guī)律 數(shù)據(jù)挖掘技術 關聯(lián)分析 序列模式 分類(預言) 聚集 異常檢測,異常檢測,異常檢測是數(shù)據(jù)挖掘中一個重要方面,用來發(fā)現(xiàn)”小的模式”(相對于聚類),即數(shù)據(jù)集中間顯著不同于其它數(shù)據(jù)的對象。 異常探測應用 電信和信用卡欺騙 貸款審批 藥物研究 氣象預報 金融領域 客戶分類 網(wǎng)絡入侵檢測 故障檢測與診斷等,什么是異常(outlier)?,Hawkins(1980)給出了異常的本質(zhì)性的定義:異
5、常是在數(shù)據(jù)集中與眾不同的數(shù)據(jù),使人懷疑這些數(shù)據(jù)并非隨機偏差,而是產(chǎn)生于完全不同的機制。 聚類算法對異常的定義:異常是聚類嵌于其中的背景噪聲。 異常檢測算法對異常的定義:異常是既不屬于聚類也不屬于背景噪聲的點。他們的行為與正常的行為有很大不同。,異常檢測方法的分類,基于統(tǒng)計(statistical-based)的方法 基于距離 (distance-based)的方法 基于偏差(deviation-based)的方法 基于密度(density-based)的方法 高維數(shù)據(jù)的異常探測,數(shù)據(jù)挖掘系統(tǒng)的特征,數(shù)據(jù)的特征 知識的特征 算法的特征,礦山(數(shù)據(jù)),挖掘工具(算法),金子(知識),,,數(shù)據(jù)的特征
6、,大容量 POS數(shù)據(jù)(某個超市每天要處理高達2000萬筆交易) 衛(wèi)星圖象(NASA的地球觀測衛(wèi)星以每小時50GB的速度發(fā)回數(shù)據(jù)) 互聯(lián)網(wǎng)數(shù)據(jù) 含噪音(不完全、不正確) 異質(zhì)數(shù)據(jù)(多種數(shù)據(jù)類型混合的數(shù)據(jù)源,來自互聯(lián)網(wǎng)的數(shù)據(jù)是典型的例子),系統(tǒng)的特征,知識發(fā)現(xiàn)系統(tǒng)需要一個前處理過程 數(shù)據(jù)抽取 數(shù)據(jù)清洗 數(shù)據(jù)選擇 數(shù)據(jù)轉(zhuǎn)換 知識發(fā)現(xiàn)系統(tǒng)是一個自動/半自動過程 知識發(fā)現(xiàn)系統(tǒng)要有很好的性能,知識(模式)的特征,知識發(fā)現(xiàn)系統(tǒng)能夠發(fā)現(xiàn)什么知識? 計算學習理論COLT(Computational Learning Theory) 以FOL為基礎的以發(fā)現(xiàn)關系為目的的歸納邏輯程序設計 現(xiàn)行的知識發(fā)現(xiàn)系統(tǒng)只能發(fā)現(xiàn)特
7、定模式的知識 規(guī)則 分類 關聯(lián),知識表示:規(guī)則,IF 條件 THEN 結(jié)論 條件和結(jié)論的粒度(抽象度)可以有多種 單值 區(qū)間 模糊值 規(guī)則可以有確信度 精確規(guī)則 概率規(guī)則,知識表示:分類樹,,,,,,,,,,分類條件1,分類條件2,分類條件3,,類1,類2,類3,類4,數(shù)據(jù)挖掘算法的特征,構(gòu)成數(shù)據(jù)挖掘算法的三要素 模式記述語言:反映了算法可以發(fā)現(xiàn)什么樣的知識 模式評價:反映了什么樣的模式可以稱為知識 模式探索:包括針對某一特定模式對參數(shù)空間的探索和對模式空間的探索,數(shù)據(jù)挖掘的主要方法,分類(Classification) 聚類(Clustering) 相關規(guī)則(Association Rule
8、) 回歸(Regression) 其他,數(shù)據(jù)挖掘系統(tǒng),數(shù)據(jù)挖掘系統(tǒng),第一代數(shù)據(jù)挖掘系統(tǒng) 支持一個或少數(shù)幾個數(shù)據(jù)挖掘算法,這些算法設計用來挖掘向量數(shù)據(jù)(vector-valued data),這些數(shù)據(jù)模型在挖掘時候,一般一次性調(diào)進內(nèi)存進行處理。許多這樣的系統(tǒng)已經(jīng)商業(yè)化。 第二代數(shù)據(jù)挖掘系統(tǒng) 目前的研究,是改善第一代數(shù)據(jù)挖掘系統(tǒng),開發(fā)第二代數(shù)據(jù)挖掘系統(tǒng)。第二代數(shù)據(jù)挖掘系統(tǒng)支持數(shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴展性。例如,第二代系統(tǒng)能夠挖掘大數(shù)據(jù)集、更復雜的數(shù)據(jù)集、以及高維數(shù)據(jù)。這一代系統(tǒng)通過支持數(shù)據(jù)挖掘模式(data mining schema)和數(shù)據(jù)挖掘查詢語言(DMQL)增
9、加系統(tǒng)的靈活性。,數(shù)據(jù)挖掘系統(tǒng),第三代數(shù)據(jù)挖掘系統(tǒng) 第三代的特征是能夠挖掘Internet/Extranet的分布式和高度異質(zhì)的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成。這一代數(shù)據(jù)挖掘系統(tǒng)關鍵的技術之一是提供對建立在異質(zhì)系統(tǒng)上的多個預言模型以及管理這些預言模型的元數(shù)據(jù)提供第一級別(first class)的支持。 第四代數(shù)據(jù)挖掘系統(tǒng) 第四代數(shù)據(jù)挖掘系統(tǒng)能夠挖掘嵌入式系統(tǒng)、移動系統(tǒng)、和普遍存在(ubiquitous)計算設備產(chǎn)生的各種類型的數(shù)據(jù) 。,二、數(shù)據(jù)預處理,,為什么需要預處理,數(shù)據(jù) 不完整 含觀測噪聲 不一致 包含其它不希望的成分 數(shù)據(jù)清理通過填寫空缺值,平滑噪聲數(shù)據(jù),識別刪除孤立點,并解決
10、不一致來清理數(shù)據(jù)。,污染數(shù)據(jù)形成的原因,濫用縮寫詞 數(shù)據(jù)輸入錯誤 數(shù)據(jù)中的內(nèi)嵌控制信息 不同的慣用語 重復記錄 丟失值 拼寫變化 不同的計量單位 過時的編碼 含有各種噪聲,數(shù)據(jù)清理的重要性,污染數(shù)據(jù)的普遍存在,使得在大型數(shù)據(jù)庫中維護數(shù)據(jù)的正確性和一致性成為一個及其困難的任務。 垃圾進、垃圾出,數(shù)據(jù)清理處理內(nèi)容,格式標準化 異常數(shù)據(jù)清除 錯誤糾正 重復數(shù)據(jù)的清除,數(shù)據(jù)規(guī)約,數(shù)據(jù)集的壓縮表示,但是能和原始數(shù)據(jù)集達到相同或基本相同的分析結(jié)果 主要策略: 數(shù)據(jù)聚集 維規(guī)約 數(shù)據(jù)壓縮 數(shù)值規(guī)約,空缺值,忽略元組 人工填寫空缺值 使用固定值 使用屬性平均值 使用最有可能值,噪聲數(shù)據(jù),如何平滑數(shù)據(jù),去掉噪聲
11、 數(shù)據(jù)平滑技術 分箱 聚類 計算機和人工檢查相結(jié)合 回歸,分箱,箱的深度:表示不同的箱里有相同個數(shù)的數(shù)據(jù)。 箱的寬度:每個箱值的取值區(qū)間是個常數(shù)。 平滑方法: 按箱平均值平滑 按箱中值平滑 按箱邊界值平滑,聚類,每個簇中的數(shù)據(jù)用其中心值代替 忽略孤立點 先通過聚類等方法找出孤立點。這些孤立點可能包含有用的信息。 人工再審查這些孤立點,回歸,通過構(gòu)造函數(shù)來符合數(shù)據(jù)變化的趨勢,這樣可以用一個變量預測另一個變量。 線性回歸 多線性回歸,數(shù)據(jù)集成,將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個一直得數(shù)據(jù)存貯中。 實體識別 實體和模式的匹配 冗余:某個屬性可以由別的屬性推出。 相關分析 相關性rA,B . rA
12、,B0,正相關。A隨B的值得增大而增大 rA,B0,正相關。AB無關 rA,B0,正相關。A隨B的值得增大而減少 重復 同一數(shù)據(jù)存儲多次 數(shù)據(jù)值沖突的檢測和處理,數(shù)據(jù)變換,平滑 聚集 數(shù)據(jù)概化 規(guī)范化 屬性構(gòu)造(特征構(gòu)造),最小 最大規(guī)范化 小數(shù)定標規(guī)范化 屬性構(gòu)造 由給定的屬性構(gòu)造和添加新的屬性,以幫助提高精度和對高維數(shù)據(jù)結(jié)構(gòu)的理解,規(guī)范化,數(shù)據(jù)立方體聚集,尋找感興趣的維度進行再聚集,維規(guī)約,刪除不相關的屬性(維)來減少數(shù)據(jù)量。 屬性子集選擇 找出最小屬性集合,使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性的原分布 如何選?。?貪心算法 逐步向前選擇 逐步后向刪除 向前選擇和后向刪除相結(jié)合 判
13、定樹歸納,數(shù)據(jù)壓縮,有損,無損 小波變換 將數(shù)據(jù)向量D轉(zhuǎn)換成為數(shù)值上不同的小波系數(shù)的向量D. 對D進行剪裁,保留小波系數(shù)最強的部分。,主要成分分析,數(shù)值規(guī)約,回歸和對數(shù)線形模型 線形回歸 對數(shù)線形模型 直方圖 等寬 等深 V-最優(yōu) maxDiff,數(shù)值規(guī)約,聚類 多維索引樹 : 對于給定的數(shù)據(jù)集合,索引樹動態(tài)的劃分多維空間。 選樣 簡單選擇n個樣本,不放回 簡單選擇n個樣本,放回 聚類選樣 分層選樣,離散化和概念分層,離散化技術用來減少給定連續(xù)屬性的個數(shù) 通常是遞歸的。 大量時間花在排序上。 對于給定的數(shù)值屬性,概念分層定義了該屬性的一個離散化的值。 分箱 直方圖分析,數(shù)值數(shù)據(jù)離散化,聚類分析
14、 基于熵的離散化 通過自然劃分分段 3-4-5規(guī)則 如果一個區(qū)間最高有效位上包括3 6 9 個不同的值,劃分為3個等寬區(qū)間。 7個不同值,按2-3-3劃分為3個區(qū)間 最高位包含2,4,8個不同值,劃分為4個等寬區(qū)間 最高位包含1 ,5,10個不同值,劃分為5個等寬區(qū)間 最高分層一般在第5個百分位到第95個百分位上進行,分類數(shù)據(jù)的概念分層生成,分類數(shù)據(jù)是離散數(shù)據(jù)。一個分類屬性可能有有限個不同的值。 方法 由用戶和專家在模式級顯式的說明屬性的部分序 通過顯式的數(shù)據(jù)分組說明分層結(jié)構(gòu)的一部分 說明屬性集,但不說明他們的偏序 只說明部分的屬性集,三、數(shù)據(jù)挖掘算法分類與預測,,分類 VS. 預測,分類:
15、預測分類標號(或離散值) 根據(jù)訓練數(shù)據(jù)集和類標號屬性,構(gòu)建模型來分類現(xiàn)有數(shù)據(jù),并用來分類新數(shù)據(jù) 預測: 建立連續(xù)函數(shù)值模型,比如預測空缺值 典型應用 信譽證實 目標市場 醫(yī)療診斷 性能預測,數(shù)據(jù)分類:兩步過程,第一步,建立一個模型,描述預定數(shù)據(jù)類集和概念集 假定每個元組屬于一個預定義的類,由一個類標號屬性確定 基本概念 訓練數(shù)據(jù)集:由為建立模型而被分析的數(shù)據(jù)元組形成 訓練樣本:訓練數(shù)據(jù)集中的單個樣本(元組) 學習模型可以用分類規(guī)則、判定樹或數(shù)學公式的形式提供 第二步,使用模型,對將來的或未知的對象進行分類 首先評估模型的預測準確率 對每個測試樣本,將已知的類標號和該樣本的學習模型類預測比較 模
16、型在給定測試集上的準確率是正確被模型分類的測試樣本的百分比 測試集要獨立于訓練樣本集,否則會出現(xiàn)“過分適應數(shù)據(jù)”的情況,第一步:建立模型,訓練數(shù) 據(jù)集,,,分類算法,,IF rank = professor OR years 6 THEN tenured = yes,分類規(guī)則,,,,第二步:用模型進行分類,分類規(guī)則,測試集,,,,,未知數(shù)據(jù),(Jeff, Professor, 4),,,,Tenured?,準備分類和預測的數(shù)據(jù),通過對數(shù)據(jù)進行預處理,可以提高分類和預測過程的準確性、有效性和可伸縮性 數(shù)據(jù)清理 消除或減少噪聲,處理空缺值,從而減少學習時的混亂 相關性分析 數(shù)據(jù)中的有些屬性可能與當
17、前任務不相關;也有些屬性可能是冗余的;刪除這些屬性可以加快學習步驟,使學習結(jié)果更精確 數(shù)據(jù)變換 可以將數(shù)據(jù)概化到較高層概念,或?qū)?shù)據(jù)進行規(guī)范化,比較分類方法,使用下列標準比較分類和預測方法 預測的準確率:模型正確預測新數(shù)據(jù)的類編號的能力 速度:產(chǎn)生和使用模型的計算花銷 魯棒性:給定噪聲數(shù)據(jù)或有空缺值的數(shù)據(jù),模型正確預測的能力 可伸縮性:對大量數(shù)據(jù),有效的構(gòu)建模型的能力 可解釋性:學習模型提供的理解和洞察的層次,用判定樹歸納分類,什么是判定樹? 類似于流程圖的樹結(jié)構(gòu) 每個內(nèi)部節(jié)點表示在一個屬性上的測試 每個分枝代表一個測試輸出 每個樹葉節(jié)點代表類或類分布 判定樹的生成由兩個階段組成 判定樹構(gòu)建
18、開始時,所有的訓練樣本都在根節(jié)點 遞歸的通過選定的屬性,來劃分樣本 (必須是離散值) 樹剪枝 許多分枝反映的是訓練數(shù)據(jù)中的噪聲和孤立點,樹剪枝試圖檢測和剪去這種分枝 判定樹的使用:對未知樣本進行分類 通過將樣本的屬性值與判定樹相比較,判定歸納樹算法,判定歸納樹算法(一個貪心算法) 自頂向下的分治方式構(gòu)造判定樹 樹以代表訓練樣本的單個根節(jié)點開始 使用分類屬性(如果是量化屬性,則需先進行離散化) 遞歸的通過選擇相應的測試屬性,來劃分樣本,一旦一個屬性出現(xiàn)在一個節(jié)點上,就不在該節(jié)點的任何后代上出現(xiàn) 測試屬性是根據(jù)某種啟發(fā)信息或者是統(tǒng)計信息來進行選擇(如:信息增益) 遞歸劃分步驟停止的條件 給定節(jié)點的
19、所有樣本屬于同一類 沒有剩余屬性可以用來進一步劃分樣本使用多數(shù)表決 沒有剩余的樣本,詳細算法見P189,貝葉斯分類,貝葉斯分類利用統(tǒng)計學中的貝葉斯定理,來預測類成員的概率,即給定一個樣本,計算該樣本屬于一個特定的類的概率。 樸素貝葉斯分類:假設每個屬性之間都是相互獨立的,并且每個屬性對非類問題產(chǎn)生的影響都是一樣的。,后向傳播分類,后向傳播是一種神經(jīng)網(wǎng)絡學習算法;神經(jīng)網(wǎng)絡是一組連接的輸入/輸出單元,每個連接都與一個權(quán)相連。在學習階段,通過調(diào)整神經(jīng)網(wǎng)絡的權(quán),使得能夠預測輸入樣本的正確標號來學習。 優(yōu)點 預測精度總的來說較高 健壯性好,訓練樣本中包含錯誤時也可正常工作 輸出可能是離散值、連續(xù)值或者是
20、離散或量化屬性的向量值 對目標進行分類較快 缺點 訓練(學習)時間長 蘊涵在學習的權(quán)中的符號含義很難理解 很難根專業(yè)領域知識相整合,其他分類方法,k-最臨近分類 給定一個未知樣本,k-最臨近分類法搜索模式空間,找出最接近未知樣本的k個訓練樣本;然后使用k個最臨近者中最公共的類來預測當前樣本的類標號 基于案例的推理 樣本或案例使用復雜的符號表示,對于新案例,先檢測是否存在同樣的訓練案例;如果找不到,則搜索類似的訓練案例 遺傳算法 結(jié)合生物進化思想的算法 粗糙集方法 模糊集方法 允許在分類規(guī)則中定義“模糊的”臨界值或邊界,什么是預測?,預測是構(gòu)造和使用模型評估無樣本類,或評估給定樣本可能具有的屬性
21、或值空間。 預測和分類的異同 相同點 兩者都需要構(gòu)建模型 都用模型來估計未知值 預測當中主要的估計方法是回歸分析 線性回歸和多元回歸 非線性回歸 不同點 分類法主要是用來預測類標號(分類屬性值) 預測法主要是用來估計連續(xù)值(量化屬性值),回歸方法,線性回歸:Y = + X 其中和是回歸系數(shù),可以根據(jù)給定的數(shù)據(jù)點,通過最小二乘法來求得 多元回歸:Y = + 1X1 + 2 X2 線性回歸的擴展,設計多個預測變量,可以用最小二乘法求得上式中的,1 和2 非線性回歸:Y = + 1X1 + 2 X22+ 3 X33 對不呈線性依賴的數(shù)據(jù)建模 使用多項式回歸建模方法,然后進行變量變換,將非線性模型轉(zhuǎn)換
22、為線性模型,然后用最小二乘法求解,,,評估分類法的準確性,導出分類法后,再使用訓練數(shù)據(jù)評估分類法,可能錯誤的導致樂觀的估計 保持方法 給定數(shù)據(jù)隨機劃分為兩個集合:訓練集(2/3)和測試集(1/3) 訓練集導出分類法,測試集對其準確性進行評估 隨機子選樣:保持方法的一個變形,將保持方法重復k次,然后取準確率的平均值 k-折交叉確認 初始數(shù)據(jù)被劃分為k個不相交的,大小大致相同的子集S1,S2Sk 進行k次訓練和測試,第i次時,以Si做測試集,其他做訓練集 準確率為k次迭代正確分類數(shù)除以初始數(shù)據(jù)集樣本總數(shù),提高分類法的準確性,Bagging技術和boosting技術都通過將T個學習得到的分類法C1,
23、C2CT組合起來,從而創(chuàng)造一個改進的分類法C* Bagging技術 對訓練集S進行T次迭代,每次通過放回取樣選取樣本集St,通過學習St得到分類法Ct 對于未知樣本X,每個分類法返回其類預測,作為一票 C*統(tǒng)計得票,并將得票最高的預測賦予X Boosting技術 每個訓練樣本賦予一個權(quán)值 Ct的權(quán)值取決于其錯誤率,四、數(shù)據(jù)挖掘算法聚類,,聚類分析,什么是聚類分析? 聚類分析中的數(shù)據(jù)類型 主要聚類分析方法分類 劃分方法(Partitioning Methods) 分層方法 基于密度的方法 基于表格的方法 基于模型(Model-Based)的聚類方法 異常分析 總結(jié),什么是聚類分析?,簇(Clus
24、ter):一個數(shù)據(jù)對象的集合 在同一個類中,對象之間0具有相似性; 不同類的對象之間是相異的。 聚類分析 把一個給定的數(shù)據(jù)對象集合分成不同的簇; 聚類是一種無監(jiān)督分類法: 沒有預先指定的類別; 典型的應用 作為一個獨立的分析工具,用于了解數(shù)據(jù)的分布; 作為其它算法的一個數(shù)據(jù)預處理步驟;,聚類的常規(guī)應用,模式識別 空間數(shù)據(jù)分析 在GIS中,通過聚類發(fā)現(xiàn)特征空間來建立主題索引; 在空間數(shù)據(jù)挖掘中,檢測并解釋空間中的簇; 圖象處理 經(jīng)濟學 (尤其是市場研究方面) WWW 文檔分類 分析WEB日志數(shù)據(jù)來發(fā)現(xiàn)相似的訪問模式,應用聚類分析的例子,市場銷售: 幫助市場人員發(fā)現(xiàn)客戶中的不同群體,然后用這些知識
25、來開展一個目標明確的市場計劃; 土地使用: 在一個陸地觀察數(shù)據(jù)庫中標識那些土地使用相似的地區(qū); 保險: 對購買了汽車保險的客戶,標識那些有較高平均賠償成本的客戶; 城市規(guī)劃: 根據(jù)類型、價格、地理位置等來劃分不同類型的住宅; 地震研究: 根據(jù)地質(zhì)斷層的特點把已觀察到的地震中心分成不同的類;,聚類方法性能評價,一個好的聚類方法要能產(chǎn)生高質(zhì)量的聚類結(jié)果簇,這些簇要具備以下兩個特點: 高的簇內(nèi)相似性 低的簇間相似性 聚類結(jié)果的好壞取決于該聚類方法采用的相似性評估方法以及該方法的具體實現(xiàn); 聚類方法的好壞還取決與該方法是能發(fā)現(xiàn)某些還是所有的隱含模式;,聚類方法性能評價,可伸縮性 能夠處理不同類型的屬性
26、 能發(fā)現(xiàn)任意形狀的簇 在決定輸入?yún)?shù)的時候,盡量不需要特定的領域知識; 能夠處理噪聲和異常 對輸入數(shù)據(jù)對象的順序不敏感 能處理高維數(shù)據(jù) 能產(chǎn)生一個好的、能滿足用戶指定約束的聚類結(jié)果 結(jié)果是可解釋的、可理解的和可用的,兩種數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)矩陣 (two modes) 差異度矩陣 (one mode),評價聚類質(zhì)量,差異度/相似度矩陣: 相似度通常用距離函數(shù)來表示; 有一個單獨的質(zhì)量評估函數(shù)來評判一個簇的好壞; 對不同類型的變量,距離函數(shù)的定義通常是不同的,這在下面有詳細討論; 根據(jù)實際的應用和數(shù)據(jù)的語義,在計算距離的時候,不同的變量有不同的權(quán)值相聯(lián)系; 很難定義“足夠相似了”或者“足夠好了” 只能
27、憑主觀確定;,聚類分析中的數(shù)據(jù)類型,區(qū)間標度變量(Interval-scaled variables): 二元變量(Binary variables): 標稱型,序數(shù)型和比例型變量(Nominal, ordinal, and ratio variables): 混合類型變量(Variables of mixed types):,區(qū)間標度變量,數(shù)據(jù)標準化 計算絕對偏差的平均值: 其中 計算標準度量值 (z-score) 使用絕對偏差的平均值比使用標準偏差更健壯(robust),計算對象之間的相異度,通常使用距離來衡量兩個對象之間的相異度。 常用的距離度量方法有: 明考斯基距離( Minkowsk
28、i distance): 其中 i = (xi1, xi2, , xip) 和 j = (xj1, xj2, , xjp) 是兩個p維的數(shù)據(jù)對象, q是一個正整數(shù)。 當q = 1時, d 稱為曼哈坦距離( Manhattan distance),計算對象之間的相異度,當q=2時, d 就成為歐幾里德距離: 距離函數(shù)有如下特性: d(i,j) 0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j) d(i,k) + d(k,j) 可以根據(jù)每個變量的重要性賦予一個權(quán)重,序數(shù)型變量,一個序數(shù)型變量可以是離散的也可以是連續(xù)的 離散的序數(shù)型變量類似于標稱變量,除了它的M個狀態(tài)是以有意義的
29、序列排序的,比如職稱 連續(xù)的序數(shù)型變量類似于區(qū)間標度變量,但是它沒有單位,值的相對順序是必要的,而其實際大小并不重要。,序數(shù)型變量,相異度的計算 與區(qū)間標度變量的計算方法相類似 將xif 用它對應的秩代替 將每個變量的值域映射到0.0,1.0上,使得每個變量都有相同的權(quán)重。這通過用zif來替代rif來實現(xiàn) 用前面所述的區(qū)間標度變量的任一種距離計算方法來計算,比例標度型變量,比例標度型變量(Ratio-scaled variable) : 總是取正的度量值,有一個非線性的標度,近似的遵循指數(shù)標度,比如 AeBt or Ae-Bt 計算相異度的方法: 采用與處理區(qū)間標度變量相同的方法 不是一個好的
30、選擇 進行對數(shù)變換,對變換得到的值在采用與處理區(qū)間標度變量相同的方法 yif = log(xif) 將其作為連續(xù)的序數(shù)型數(shù)據(jù),將其秩作為區(qū)間標度的值來對待。,混合類型的變量,一個數(shù)據(jù)庫可能包含了所有這6中類型的變量 用以下公式計算對象i,j之間的相異度. 其中,p為對象中的變量個數(shù) 如果xif或xjf 缺失(即對象i或?qū)ο骿沒有變量f的值),或者xif = xjf =0,且變量f是不對稱的二元變量,則指示項ij(f)=0;否則ij(f)=1,混合類型的變量,f 是二元變量或標稱變量: if xif = xjf dij(f) = 0, else dij(f) = 1 f 是區(qū)間標度變量: dij
31、(f) = | xif-xjf |/maxhxhf-minhxhf 其中h遍取變量f的所有非空缺對象 f 是序數(shù)型或比例標度型 計算秩 rif 計算 zif并將其作為區(qū)間標度變量值對待,主要聚類方法,Partitioning algorithms: Construct various partitions and then evaluate them by some criterion Hierarchy algorithms: Create a hierarchical decomposition of the set of data (or objects) using some crit
32、erion Density-based: based on connectivity and density functions Grid-based: based on a multiple-level granularity structure Model-based: A model is hypothesized for each of the clusters and the idea is to find the best fit of that model to each other,五、數(shù)據(jù)挖掘算法關聯(lián),,什么是關聯(lián)挖掘?,關聯(lián)規(guī)則挖掘: 在交易數(shù)據(jù)、關系數(shù)據(jù)或其他信息載體中,
33、查找存在于項目集合或?qū)ο蠹现g的頻繁模式、關聯(lián)、相關性、或因果結(jié)構(gòu)。 應用: 購物籃分析、交叉銷售、產(chǎn)品目錄設計、 loss-leader analysis、聚集、分類等。 舉例: 規(guī)則形式: “Body Head support, confidence”. buys(x, “diapers”) buys(x, “beers”) 0.5%, 60% major(x, “CS”) takes(x, “DB”) grade(x, “A”) 1%, 75%,關聯(lián)規(guī)則:基本概念,給定: (1)交易數(shù)據(jù)庫 (2)每筆交易是:一個項目列表 (消費者一次購買活動中購買的商品) 查找: 所有描述一個項目集合
34、與其他項目集合相關性的規(guī)則 E.g., 98% of people who purchase tires and auto accessories also get automotive services done 應用 * 護理用品 (商店應該怎樣提高護理用品的銷售?) 家用電器 * (其他商品的庫存有什么影響?) 在產(chǎn)品直銷中使用附加郵寄 Detecting “ping-pong”ing of patients, faulty “collisions”,規(guī)則度量:支持度與可信度,查找所有的規(guī)則 X & Y Z 具有最小支持度和可信度 支持度, s, 一次交易中包含X 、 Y 、 Z的可能
35、性 可信度, c, 包含X 、 Y的交易中也包含Z的條件概率,設最小支持度為50%, 最小可信度為 50%, 則可得到 A C (50%, 66.6%) C A (50%, 100%),,,,,,買尿布的客戶,二者都買的客戶,買啤酒的客戶,,關聯(lián)規(guī)則挖掘:路線圖,布爾 vs. 定量 關聯(lián) (基于 處理數(shù)據(jù)的類型) buys(x, “SQLServer”) buys(x, “DMBook”) buys(x, “DBMiner”) 0.2%, 60% age(x, “30..39”) income(x, “42..48K”) buys(x, “PC”) 1%, 75% 單維 vs. 多維 關聯(lián) (
36、例子同上) 單層 vs. 多層 分析 那個品種牌子的啤酒與那個牌子的尿布有關系? 各種擴展 相關性、因果分析 關聯(lián)并不一定意味著相關或因果 最大模式和閉合相集 添加約束 如, 哪些“小東西”的銷售促發(fā)了“大家伙”的買賣?,關聯(lián)規(guī)則挖掘一個例子,對于 A C: support = support(A 、C) = 50% confidence = support(A 、C)/support(A) = 66.6% Apriori的基本思想: 頻繁項集的任何子集也一定是頻繁的,最小值尺度 50% 最小可信度 50%,關鍵步驟:挖掘頻繁集,頻繁集:是指滿足最小支持度的項目集合 頻繁集的子集也一定是頻繁的
37、 如, 如果AB 是頻繁集,則 A B 也一定是頻繁集 從1到k(k-頻繁集)遞歸查找頻繁集 用得到的頻繁集生成關聯(lián)規(guī)則,多層關聯(lián)規(guī)則,項通常具有層次 底層的項通常支持度也低 某些特定層的規(guī)則可能更有意義 交易數(shù)據(jù)庫可以按照維或?qū)泳幋a 可以進行共享的多維挖掘,挖掘多層關聯(lián)規(guī)則,自上而下,深度優(yōu)先的方法: 先找高層的“強”規(guī)則: 牛奶 面包 20%, 60%. 再找他們底層的“弱”規(guī)則: 酸奶 黃面包 6%, 50%. 多層關聯(lián)規(guī)則的變種 層次交叉的關聯(lián)規(guī)則: 酸奶 面包房 黃面包 不同種分層方法間的關聯(lián)規(guī)則: 酸奶 面包房面包,多層關聯(lián)規(guī)則,支持度不變: 在各層之間使用統(tǒng)一的支持度 + 一
38、個最小支持度閾值. 如果一個項集的父項集不具有最小支持度,那他本身也不可能滿足最小支持度。 底層項不會成為頻繁集,如果支持度 太高 丟失底層關聯(lián)規(guī)則 太低 生成太多的高層關聯(lián)規(guī)則 支持度遞減: 隨著層次的降低支持度遞減 4種搜索策略: 層與層獨立 用k-項集跨層過濾 用項跨層過濾 用項進行可控跨層過濾,支持度不變,支持度不變多層挖掘,牛奶 support = 10%,酸奶 support = 6%,脫脂奶 support = 4%,,,層 1 min_sup = 5%,層 2 min_sup = 5%,支持度遞減,支持度遞減多層挖掘,酸奶 support = 6%,脫脂奶 support =
39、4%,,,層 1 min_sup = 5%,層 2 min_sup = 3%,牛奶 support = 10%,多層關聯(lián):冗余過濾,由于“祖先”關系的原因,有些規(guī)則可能是多余的。 例子 牛奶 白面包 support = 8%, confidence = 70% 酸奶 白面包 support = 2%, confidence = 72% 我們稱第一個規(guī)則是第二個規(guī)則的祖先 參考規(guī)則的祖先,如果他的支持度與我們“預期”的支持度近似的話,我們就說這條規(guī)則是冗余的。,,多層挖掘:深度優(yōu)先,自頂向下,深度優(yōu)先的方法: 先挖掘高層頻繁項: 牛奶 (15%), 面包 (10%) 再挖掘他們底
40、層的相對較弱的頻繁項: 酸奶 (5%), 白面包 (4%) 跨層時對支持度的不同處理方法,對應了不同的算法: 層之間支持度不變: 如果t的祖先是非頻繁的,則不用考慮t 支持度隨層遞減: 則只考慮那些其祖先是頻繁的/不可忽略的項,數(shù)據(jù)挖掘查詢的逐步精化,為什么要逐步精化 挖掘操作的代價可能高或低,結(jié)果可能細致或粗糙 在速度和質(zhì)量之間折衷:逐步精化 超集覆蓋特征: 預存儲所有正面答案允許進一步正確性驗證,而不必驗證已經(jīng)錯誤的 2或多步挖掘: 先執(zhí)行粗糙的、容易的操作 (超集覆蓋) 然后在減少后的候選集上進行計算量大的算法 (Koperski & Han, SSD95).,逐步求精空
41、間關聯(lián)規(guī)則挖掘,空間關系的層次: “g_close_to”: 鄰近, 接觸, 交叉, 包含 先搜索粗糙的關系然后再精化,逐步求精空間關聯(lián)規(guī)則挖掘,空間關聯(lián)規(guī)則的兩步算法: 步驟 1: 粗糙空間計算 (用于過濾) 用 MBR 或 R-tree 做粗糙估計 步驟 2: 細致空間算法 (用于精化) 只計算已經(jīng)通過空間計算的對象,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,多維關聯(lián)規(guī)則:概念,單維規(guī)則: buys(X, “milk”) buys(X, “bread”) 多維規(guī)則: 2個以上維/謂詞 維間關聯(lián)規(guī)則 (維詞不重復) age(X,”19
42、-25”) occupation(X,“student”) buys(X,“coke”) 混合維關聯(lián)規(guī)則 (維詞重復) age(X,”19-25”) buys(X, “popcorn”) buys(X, “coke”) 類別屬性 有限個值, 值之間無順序關系 數(shù)量屬性 數(shù)字的,值之間隱含了順序關系,,挖掘多維關聯(lián)的技術,搜索頻繁k-維詞集合: 如: age, occupation, buys 是一個3-維詞集合。 按照對 age 處理方式的不同,分為: 1. 用靜態(tài)方法把數(shù)值屬性離散化 數(shù)值屬性可用預定義的概念層次加以離散化。 2. 帶數(shù)量的關聯(lián)規(guī)則 根據(jù)數(shù)據(jù)的分布動態(tài)的把數(shù)值屬性離散化到不
43、同的“箱”。 3. 基于距離的關聯(lián)規(guī)則 用數(shù)據(jù)點之間的距離動態(tài)的離散化,數(shù)值屬性的靜態(tài)離散化,在挖掘之前用概念層次先離散化 數(shù)值被替換為區(qū)間范圍 關系數(shù)據(jù)庫中,要找到所有頻繁k-維詞需要k或k+1次表掃描。 適宜使用數(shù)據(jù)立方體 N維立方體的每個單元 對應一個維詞集合 使用數(shù)據(jù)立方體速度更快,帶數(shù)量的關聯(lián)規(guī)則,age(X,”30-34”) income(X,”24K - 48K”) buys(X,”high resolution TV”),動態(tài) 離散化數(shù)值屬性 Such that the confidence or compactness of the rules mined is maxi
44、mized. 2-維數(shù)量關聯(lián)規(guī)則: Aquan1 Aquan2 Acat 用2-維表格把“鄰近”的關聯(lián)規(guī)則組合起來 例子,ARCS (關聯(lián)規(guī)則聚集系統(tǒng)),,ARCS 流程 1. 分箱 2. 查找頻繁維詞 集合 3. 聚集 4. 優(yōu)化,ARCS的局限性,數(shù)值屬性只能出現(xiàn)在規(guī)則的左側(cè) 左側(cè)只能有兩個屬性 (2維) ARCS 的改進 不用基于柵格的方法 等深分箱 基于局部完整性 測度的聚集 “Mining Quantitative Association Rules in Large Relational Tables” by R. Srikant and R. Agrawal.,基于距離的關聯(lián)規(guī)
45、則挖掘,分箱的方法沒有體現(xiàn)數(shù)據(jù)間隔的語義 基于距離的分割是更有“意義”的離散化方法,考慮: 區(qū)間內(nèi)密度或點的個數(shù) 區(qū)間內(nèi)點的“緊密程度,記SX 為 N 個元組 t1, t2, , tN 在 屬性集 X 上的投影 則 SX 的直徑: distx:距離量度,如 歐幾里德距離或 Manhattan,聚集和距離度量,用直徑 d 評估聚集 CX 的密度,其中 查找聚集和基于距離的規(guī)則 用密度閾值 d0代替支持度 采用修改過的 BIRCH 聚集算法,聚集和距離度量,關聯(lián)規(guī)則可視化Using Plane Graph,關聯(lián)規(guī)則可視化Using Rule Graph,六、序列模式挖掘,,序列模式概念,序列模式
46、的概念最早是由Agrawal和Srikant 提出的 序列模式定義:給定一個由不同序列組成的集合,其中,每個序列由不同的元素按順序有序排列,每個元素由不同項目組成,同時給定一個用戶指定的最小支持度閾值,序列模式挖掘就是找出所有的頻繁子序列,即該子序列在序列集中的出現(xiàn)頻率不低于用戶指定的最小支持度閾值,序列模式實例,例1:在兩年前購買了Ford 牌轎車的顧客,很有可能在今年采取貼舊換新的購車行動 例2:在購買了自行車和購物籃的所有客戶中,有70%的客戶會在兩個月后購買打氣筒 例3:工業(yè)過程控制領域:過程變量采樣值時時間序列;變量之間的關系是動態(tài)的;系統(tǒng)故障模式;等等,序列模式應用領域,應用領域:
47、 客戶購買行為模式預測 Web訪問模式預測 疾病診斷 自然災害預測 DNA序列分析 工業(yè)控制,序列模式表示,符號化表示: 項目集(Itemset)是各種項目組成的集合 序列(Sequence)是不同項目集(ItemSet)的有序排列,序列s可以表示為s = ,sj(1 <= j <= l)為項目集(Itemset),也稱為序列s的元素 序列的元素(Element)可表示為(x1x2xm), xk(1 <= k <= m)為不同的項目,如果一個序列只有一個項目,則括號可以省略 一個序列包含的所有項目的個數(shù)稱為序列的長度。長度為l的序列記為l-序列,序列模式表示,符號化表示: 設 = , = ,如
48、果存在整數(shù)1 <= j1 < j2 << jn <= m,使得a1 bj1,a2 bj2,, an bjn,則稱序列為序列的子序列,又稱序列包含序列,記為 序列在序列數(shù)據(jù)庫S中的支持數(shù)為序列數(shù)據(jù)庫S中包含序列的序列個數(shù),記為Support() 給定支持度閾值,如果序列在序列數(shù)據(jù)庫中的支持數(shù)不低于,則稱序列為序列模式 長度為l的序列模式記為l-模式,序列模式表示,例子:設序列數(shù)據(jù)庫如下圖所示,并設用戶指定的最小支持度min-support = 2。,序列是序列的子序列 序列是長度為3的序列模式,序列模式挖掘,問題描述:給定序列數(shù)據(jù)庫和最小支持度閾值,序列模式挖掘就是要找出序列數(shù)據(jù)庫中所有的序列
49、模式 系統(tǒng)規(guī)定:由于同一個元素中的項目之間排列沒有順序,為了表達的唯一性,我們將同一個元素內(nèi)部的不同項目按照字典順序排列,序列模式挖掘算法,序列模式挖掘的主要算法 GSP(Generalized Sequential Patterns)算法:類似于Apriori算法 PrefixSpan(Prefix-project Sequential Pattern mining)算法:采用分治的思想,不斷產(chǎn)生序列數(shù)據(jù)庫的多個更小的投影數(shù)據(jù)庫,然后在各個投影數(shù)據(jù)庫上進行序列模式挖掘,序列模式挖掘算法,上述算法存在的主要問題: 缺少時間限制:用戶可能需要指定序列模式的相鄰元素之間的時間間隔。例如,一個序列模
50、式可能會發(fā)現(xiàn)客戶在購買了物品A后的第三年購買物品B。我們需要的卻是給定時間間隔內(nèi)用戶的購買意向 事務的定義過于嚴格:一個事務中包含在客戶的一次購買行為中所購買的所有物品??赡苄枰付ㄒ粋€滑動時間窗口,客戶在滑動時間窗口的時間段內(nèi)的所有的購買行為均作為一個事務 缺少分類層次:只能在項目的原始級別上進行挖掘,七、數(shù)據(jù)挖掘軟件,,數(shù)據(jù)挖掘軟件的發(fā)展,數(shù)據(jù)挖掘軟件的發(fā)展,第一代數(shù)據(jù)挖掘軟件,特點 支持一個或少數(shù)幾個數(shù)據(jù)挖掘算法 挖掘向量數(shù)據(jù)(vector-valued data) 數(shù)據(jù)一般一次性調(diào)進內(nèi)存進行處理 典型的系統(tǒng)如Salford Systems公司早期的CART系統(tǒng)(www.salford-
51、) 缺陷 如果數(shù)據(jù)足夠大,并且頻繁的變化,這就需要利用數(shù)據(jù)庫或者數(shù)據(jù)倉庫技術進行管理,第一代系統(tǒng)顯然不能滿足需求。,數(shù)據(jù)挖掘軟件的發(fā)展,第一代數(shù)據(jù)挖掘軟件 CBA,新加坡國立大學?;陉P聯(lián)規(guī)則的分類算法,能從關系數(shù)據(jù)或者交易數(shù)據(jù)中挖掘關聯(lián)規(guī)則,使用關聯(lián)規(guī)則進行分類和預測,二、數(shù)據(jù)挖掘軟件的發(fā)展,第二代數(shù)據(jù)挖掘軟件,特點 與數(shù)據(jù)庫管理系統(tǒng)(DBMS)集成 支持數(shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴展性 能夠挖掘大數(shù)據(jù)集、以及更復雜的數(shù)據(jù)集 通過支持數(shù)據(jù)挖掘模式(data mining schema)和數(shù)據(jù)挖掘查詢語言增加系統(tǒng)的靈活性 典型的系統(tǒng)如DBMiner,能通過DMQL挖掘
52、語言進行挖掘操作 缺陷 只注重模型的生成,如何和預言模型系統(tǒng)集成導致了第三代數(shù)據(jù)挖掘系統(tǒng)的開發(fā),數(shù)據(jù)挖掘軟件的發(fā)展,第二代數(shù)據(jù)挖掘軟件 DBMiner,數(shù)據(jù)挖掘軟件的發(fā)展,第二代軟件 SAS Enterprise Miner,數(shù)據(jù)挖掘軟件的發(fā)展,第三代數(shù)據(jù)挖掘軟件,特點 和預言模型系統(tǒng)之間能夠無縫的集成,使得由數(shù)據(jù)挖掘軟件產(chǎn)生的模型的變化能夠及時反映到預言模型系統(tǒng)中 由數(shù)據(jù)挖掘軟件產(chǎn)生的預言模型能夠自動地被操作型系統(tǒng)吸收,從而與操作型系統(tǒng)中的預言模型相聯(lián)合提供決策支持的功能 能夠挖掘網(wǎng)絡環(huán)境下(Internet/Extranet)的分布式和高度異質(zhì)的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成 缺陷
53、 不能支持移動環(huán)境,數(shù)據(jù)挖掘軟件的發(fā)展,第三代軟件 SPSS Clementine,以PMML的格式提供與預言模型系統(tǒng)的接口,數(shù)據(jù)挖掘軟件的發(fā)展,第四代數(shù)據(jù)挖掘軟件,特點 目前移動計算越發(fā)顯得重要,將數(shù)據(jù)挖掘和移動計算相結(jié)合是當前的一個研究領域。 第四代軟件能夠挖掘嵌入式系統(tǒng)、移動系統(tǒng)、和普遍存在(ubiquitous)計算設備產(chǎn)生的各種類型的數(shù)據(jù) 第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報導,PKDD2001上Kargupta發(fā)表了一篇在移動環(huán)境下挖掘決策樹的論文,Kargupta是馬里蘭巴爾的摩州立大學(University of Maryland Baltimore County)正在研制的C
54、AREER數(shù)據(jù)挖掘項目的負責人,該項目研究期限是2001年4月到2006年4月,目的是開發(fā)挖掘分布式和異質(zhì)數(shù)據(jù)(Ubiquitous設備)的第四代數(shù)據(jù)挖掘系統(tǒng)。,數(shù)據(jù)挖掘軟件的發(fā)展,第一代系統(tǒng)與第二代相比因為不具有和數(shù)據(jù)管理系統(tǒng)之間有效的接口,所以在數(shù)據(jù)預處理方面有一定缺陷 第三、四代系統(tǒng)強調(diào)預測模型的使用和操作型環(huán)境的部署 第二代系統(tǒng)提供數(shù)據(jù)管理系統(tǒng)和數(shù)據(jù)挖掘系統(tǒng)之間的有效接口 第三代系統(tǒng)另外還提供數(shù)據(jù)挖掘系統(tǒng)和預言模型系統(tǒng)之間的有效的接口 目前,隨著新的挖掘算法的研究和開發(fā),第一代數(shù)據(jù)挖掘系統(tǒng)仍然會出現(xiàn),第二代系統(tǒng)是商業(yè)軟件的主流,部分第二代系統(tǒng)開發(fā)商開始研制相應的第三代數(shù)據(jù)挖掘系統(tǒng),比如
55、 IBM Intelligent Score Service。第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報導,數(shù)據(jù)挖掘軟件的發(fā)展,數(shù)據(jù)挖掘軟件發(fā)展的三個階段 獨立的數(shù)據(jù)挖掘軟件 橫向的數(shù)據(jù)挖掘工具集 縱向的數(shù)據(jù)挖掘解決方案,數(shù)據(jù)挖掘軟件的發(fā)展,獨立的數(shù)據(jù)挖掘軟件(95年以前),特點 獨立的數(shù)據(jù)挖掘軟件對應第一代系統(tǒng),出現(xiàn)在數(shù)據(jù)挖掘技術發(fā)展早期,研究人員開發(fā)出一種新型的數(shù)據(jù)挖掘算法,就形成一個軟件。 這類軟件要求用戶對具體的算法和數(shù)據(jù)挖掘技術有相當?shù)牧私?,還要負責大量的數(shù)據(jù)預處理工作。比如C4.5決策樹,平行坐標可視化(parallel-coordinate visualization)。,數(shù)據(jù)挖掘軟件
56、的發(fā)展,橫向的數(shù)據(jù)挖掘工具集(95年開始),發(fā)展原因 隨著數(shù)據(jù)挖掘應用的發(fā)展,人們逐漸認識到數(shù)據(jù)挖掘軟件需要和以下三個方面緊密結(jié)合:1)數(shù)據(jù)庫和數(shù)據(jù)倉庫;2)多種類型的數(shù)據(jù)挖掘算法;3)數(shù)據(jù)清洗、轉(zhuǎn)換等預處理工作。 隨著數(shù)據(jù)量的增加,需要利用數(shù)據(jù)庫或者數(shù)據(jù)倉庫技術進行管理,所以數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫和數(shù)據(jù)倉庫結(jié)合是自然的發(fā)展。 現(xiàn)實領域的問題是多種多樣的,一種或少數(shù)數(shù)據(jù)挖掘算法難以解決 挖掘的數(shù)據(jù)通常不符合算法的要求,需要有數(shù)據(jù)清洗、轉(zhuǎn)換等數(shù)據(jù)預處理的配合,才能得出有價值的模型,數(shù)據(jù)挖掘軟件的發(fā)展,橫向的數(shù)據(jù)挖掘工具集(95年開始),發(fā)展過程 隨著這些需求的出現(xiàn),1995年左右軟件開發(fā)商開始提供
57、稱之為“工具集”的數(shù)據(jù)挖掘軟件 特點 此類工具集的特點是提供多種數(shù)據(jù)挖掘算法 包括數(shù)據(jù)的轉(zhuǎn)換和可視化 由于此類工具并非面向特定的應用,是通用的算法集合,可以稱之為橫向的數(shù)據(jù)挖掘工具(Horizontal Data Mining Tools) 由于此類工具并非面向特定的應用,是通用的算法集合,所以稱之為橫向的數(shù)據(jù)挖掘工具 典型的橫向工具有IBM Intelligent Miner、SPSS的Clementine、SAS的Enterprise Miner、SGI的MineSet、Oracle Darwin等,數(shù)據(jù)挖掘軟件的發(fā)展,橫向的數(shù)據(jù)挖掘工具集(95年開始),IBM Intelligent M
58、iner SPSS的Clementine SAS的Enterprise Miner SGI的MineSet Oracle Darwin,數(shù)據(jù)挖掘軟件的發(fā)展,縱向的數(shù)據(jù)挖掘解決方案(99年開始),發(fā)展原因 隨著橫向的數(shù)據(jù)挖掘工具的使用日漸廣泛,人們也發(fā)現(xiàn)這類工具只有精通數(shù)數(shù)據(jù)挖掘算法的專家才能熟練使用,如果對算法不了解,難以得出好的模型 從1999年開始,大量的數(shù)據(jù)挖掘工具研制者開始提供縱向的數(shù)據(jù)挖掘解決方案(Vertical Solution),即針對特定的應用提供完整的數(shù)據(jù)挖掘方案 對于縱向的解決方案,數(shù)據(jù)挖掘技術的應用多數(shù)還是為了解決某些特定的難題,而嵌入在應用系統(tǒng)中,數(shù)據(jù)挖掘軟件的發(fā)展,
59、縱向的數(shù)據(jù)挖掘解決方案(99年開始),在證券系統(tǒng)中嵌入神經(jīng)網(wǎng)絡預測功能 在欺詐檢測系統(tǒng)中嵌入欺詐行為的分類/識別模型 在客戶關系管理系統(tǒng)中嵌入客戶成簇/分類功能或客戶行為分析功能 在機器維護系統(tǒng)中嵌入監(jiān)/檢測或識別難以定性的設備故障功能 在數(shù)據(jù)庫營銷中嵌入選擇最可能購買產(chǎn)品的客戶功能 在機場管理系統(tǒng)中嵌入旅客人數(shù)預測、貨運優(yōu)化功能 在基因分析系統(tǒng)中嵌入DNA識別功能 在制造/生產(chǎn)系統(tǒng)中嵌入質(zhì)量控制功能等,數(shù)據(jù)挖掘軟件的發(fā)展,縱向的數(shù)據(jù)挖掘解決方案(99年開始),KD1(主要用于零售業(yè)) Options&Choice(主要用于保險業(yè)) HNC(欺詐行為偵測) Unica Model 1(主要用于
60、市場營銷),數(shù)據(jù)挖掘軟件的發(fā)展,數(shù)據(jù)挖掘軟件的現(xiàn)狀,情況概覽 2002年9月,Amazon上關于數(shù)據(jù)挖掘的書有251本() 目前有數(shù)百個數(shù)據(jù)挖掘軟件產(chǎn)品() 數(shù)據(jù)挖掘應用相對廣泛,數(shù)據(jù)挖掘軟件的現(xiàn)狀,國內(nèi)大部分處于科研階段 各大學和科研機構(gòu)從事數(shù)據(jù)挖掘算法的研究 國內(nèi)著作的數(shù)據(jù)挖掘方面的書較少(翻譯的有) 數(shù)據(jù)挖掘討論組() 有一些公司在國外產(chǎn)品基礎上開發(fā)的特定的應用 IBM Intelligent Miner SAS Enterprise Miner 自主知識產(chǎn)權(quán)的數(shù)據(jù)挖掘軟件 復旦德門()等,八、數(shù)據(jù)挖掘應用,,數(shù)據(jù)挖掘應用,數(shù)據(jù)挖掘應用,銀行 美國銀行家協(xié)會(ABA)預測數(shù)據(jù)倉庫和數(shù)據(jù)挖
61、掘技術在美國商業(yè)銀行的應用增長率是14.9。 分析客戶使用分銷渠道的情況和分銷渠道的容量 ;建立利潤評測模型;客戶關系優(yōu)化;風險控制等 電子商務 網(wǎng)上商品推薦;個性化網(wǎng)頁;自適應網(wǎng)站 生物制藥、基因研究 DNA序列查詢和匹配;識別基因序列的共發(fā)生性 電信 欺詐甄別;客戶流失 保險、零售。。。。。。,數(shù)據(jù)挖掘應用,,,數(shù)據(jù)挖掘,保險客戶,證券客戶,銀行客戶,電信客戶,零售客戶,人類基因,植物基因,動物基因,特殊群體基因,基因序列 基因表達譜 基因功能 基因制藥 ...,數(shù)據(jù)挖掘應用,為什么沒有廣泛使用?,數(shù)據(jù)挖掘正在快速的發(fā)展 技術的研究和開發(fā)已經(jīng)走在很前沿的地方 數(shù)據(jù)挖掘應用面已經(jīng)擴充了很多
62、但是仍然沒有希望的高,為什么? 希望在多少年內(nèi)達到數(shù)十億元的盈利? 是一種增值服務(Not bread-and-butter) 不能認為高不可攀,所以不去過問 是一門年輕的技術,需要和實際結(jié)合,解決現(xiàn)實問題,數(shù)據(jù)挖掘應用,國內(nèi)應用存在的問題,數(shù)據(jù)積累不充分、不全面 業(yè)務模型構(gòu)建困難 缺少有經(jīng)驗的實施者,數(shù)據(jù)挖掘應用,神經(jīng)網(wǎng)絡 Neural Networks,聚類分析 Clustering,Open Accnt,Add New Product,Decrease Usage,???,,Time,序列分析 Sequence Analysis,決策樹 Decision Trees,傾向性分析,客戶保留
63、 客戶生命周期管理 目標市場 價格彈性分析,客戶細分 市場細分,傾向性分析 客戶保留 目標市場 欺詐檢測,關聯(lián)分析 Association,市場組合分析 套裝產(chǎn)品分析 目錄設計 交叉銷售,數(shù)據(jù)挖掘應用,聚集(Cluster) 聚集是把整個數(shù)據(jù)庫分成不同的群組。它的目的是要群與群之間差別很明顯,而同一個群之間的數(shù)據(jù)盡量相似。 常用技術:神經(jīng)元網(wǎng)絡、K均值、最近鄰,數(shù)據(jù)挖掘應用,異常檢測 及時發(fā)現(xiàn)有欺詐嫌疑的異常行為,正確進行欺詐問題的評估,對欺詐者實施控制和強制措施。 技術:決策樹,神經(jīng)元網(wǎng)絡,異常因子LOF檢測,客戶消費異常行為分析模型,數(shù)據(jù)挖掘應用,客戶分析業(yè)務模型 交叉銷售 客戶響應 客戶
64、流失 客戶利潤 信用卡分析業(yè)務模型 客戶信用等級評估 客戶透支分析 客戶利潤分析 客戶消費行為分析 客戶消費異常行為分析,數(shù)據(jù)挖掘應用,數(shù)據(jù)挖掘應用,客戶響應模型基本概念,響應率分析: 分析客戶對某種新服務或者新產(chǎn)品的感興趣情況. 為什么要進行響應率分析: 通過響應率分析能夠有效的降低市場推廣的費用,同時能夠更加有針對性的面對目標市場.達到以最小的投入獲得最佳效果的目的,數(shù)據(jù)挖掘應用,用哪一種數(shù)據(jù)挖掘技術實現(xiàn)?,響應率分析是為了對某項市場營銷(新產(chǎn)品銷售)活動找到最合適的響應客戶,需要預測哪些客戶能夠響應,以及響應的可能性是多少。 因此,需要構(gòu)建預言模型 分類是預言模型的一種技術,可以利用分類
65、技術構(gòu)建客戶響應率模型 決策樹 神經(jīng)網(wǎng)絡 貝葉斯分類 ,數(shù)據(jù)挖掘未來發(fā)展,與數(shù)據(jù)庫數(shù)據(jù)倉庫系統(tǒng)集成 與預言模型系統(tǒng)集成 挖掘各種復雜類型的數(shù)據(jù) 與應用相結(jié)合 研制和開發(fā)數(shù)據(jù)挖掘標準 支持移動環(huán)境,數(shù)據(jù)挖掘應用時間序列模式挖掘,,工業(yè)過程變量時間序列,生產(chǎn)過程的類型 連續(xù)過程:工藝參數(shù)(設定值)均為常量。 批量過程:工藝參數(shù)(設定值)通常為變量。 工藝參數(shù)的數(shù)據(jù)類型 數(shù)值型、邏輯型、枚舉型 產(chǎn)品質(zhì)量的數(shù)據(jù)類型 邏輯型:只判斷產(chǎn)品的好壞 數(shù)值型:給出產(chǎn)品質(zhì)量好壞的程度,批量型生產(chǎn)過程,質(zhì)量檢驗!,預熱階段,加熱階段,均熱階段,,連續(xù)型生產(chǎn)過程,數(shù)據(jù)挖掘?qū)ο蟮幕緲?gòu)成,,,,,,樣本的抽?。ㄅ可a(chǎn)
66、過程),,,,,,,,,t,t,x1(t),y1,y2,y3,x2(t),x3(t),X,Y,,,連續(xù)生產(chǎn)過程的樣本抽取,連續(xù)過程 批量過程,,,,,,T1,T2,T3,,,,,,,v,,,,x1,x2,x3,,,質(zhì)量檢驗!,0,t1,t2,t3,,,,,,如何“組裝”時間序列?,關于生產(chǎn)質(zhì)量改變的模式假設,生產(chǎn)質(zhì)量不良的原因是工藝參數(shù)設計或控制有問題: 設計階段:工藝參數(shù)設計有錯誤; 控制階段:工藝參數(shù)未能控制在設計值; 上述因素都可通過生產(chǎn)過程中工藝參數(shù)的時間序列實測樣本反映出來。 工藝參數(shù)的時間序列中某些特征的改變,引起生產(chǎn)質(zhì)量從量變到質(zhì)變。 時間序列的特征,可以用模式來描述。 時間序列的模式改變,是生產(chǎn)質(zhì)量不良的原因。 數(shù)據(jù)挖掘的目的,就是要尋找引起生產(chǎn)質(zhì)量不良的工藝參數(shù)模式。,時間序列的模式抽取,目的: 將時間序列樣本集合轉(zhuǎn)換為特征模式樣本集合,每一種模式(或若干種模式的一種組合)用一個整數(shù)來編碼,從而將數(shù)據(jù)挖掘的對象從時間序列空間轉(zhuǎn)換為整數(shù)空間。 其中,mi 為 xi (t) 所包含的特征模式的集合。注意: mi 不再是時間序列 mi 可能是多元素的集合,即 xi(t)
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- (賽課課件)人教部編版四年級上冊語文-《盤古開天地》課件
- (課標通用)北京市2020版高考數(shù)學大一輪復習-第二章-2-第二節(jié)-函數(shù)的單調(diào)性與最值課件
- 高考語文一輪復習《古代詩歌鑒賞》課件
- 湘美版二年級下冊美術-《8彩點點-》-課件
- 湘教版數(shù)學七年級下冊第6章數(shù)據(jù)的分析復習課件
- M7U1外研社一起始第11冊自制課件(教育精品)
- lesson30課件(教育精品)
- 期貨白糖質(zhì)量標準與現(xiàn)行標準的區(qū)別
- 釣魚的啟示 (2)(精品)
- 紅色春節(jié)節(jié)日英語課件模板
- 紅色微粒體清新年終述職報告課件模板
- 紅旗飄飄校園教育通用課件
- 秋七年級語文上冊 第一單元 第2課 秋天的懷念課件 (新版)新人教版
- 最新數(shù)學中考《反比例函數(shù)》專題復習精講精練課件
- 2019年秋七年級數(shù)學上冊-小專題(十一)角的計算習題課件-(新版)新人教版