《數(shù)據(jù)挖掘技術(shù)》PPT課件.ppt

上傳人：san****019 文檔編號(hào)：15717122 上傳時(shí)間：2020-09-01 格式：PPT 頁(yè)數(shù)：176 大?。?.50MB

收藏版權(quán)申訴舉報(bào) 下載

第1頁(yè) / 共176頁(yè)

第2頁(yè) / 共176頁(yè)

第3頁(yè) / 共176頁(yè)

下載文檔到電腦，查找使用更方便

14.9 積分

下載資源

還剩頁(yè)未讀，繼續(xù)閱讀

資源描述：

《《數(shù)據(jù)挖掘技術(shù)》PPT課件.ppt》由會(huì)員分享，可在線閱讀，更多相關(guān)《《數(shù)據(jù)挖掘技術(shù)》PPT課件.ppt（176頁(yè)珍藏版）》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

1、于金霞計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,信息管理與信息系統(tǒng)專業(yè)課程,第三講數(shù)據(jù)挖掘技術(shù),主要內(nèi)容,一、數(shù)據(jù)挖掘概述二、數(shù)據(jù)預(yù)處理三、數(shù)據(jù)挖掘算法分類與預(yù)測(cè) 四、數(shù)據(jù)挖掘算法聚類五、數(shù)據(jù)挖掘算法關(guān)聯(lián)分析六、序列模式挖掘七、數(shù)據(jù)挖掘軟件八、數(shù)據(jù)挖掘應(yīng)用,一、數(shù)據(jù)挖掘概述,,數(shù)據(jù)挖掘概念,數(shù)據(jù)挖掘--從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù)，是統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)技術(shù)和人工智能技術(shù)的綜合。數(shù)據(jù)挖掘是從數(shù)據(jù)中自動(dòng)地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu)；數(shù)據(jù)挖掘大部分的價(jià)值在于利用數(shù)據(jù)挖掘技術(shù)改善預(yù)測(cè)模型。,數(shù)據(jù)挖掘與KDD,數(shù)據(jù)挖掘與KDD,知識(shí)發(fā)現(xiàn)（KD）輸出的是規(guī)則數(shù)據(jù)挖掘（DM）輸出的是模型

2、共同點(diǎn) 兩種方法輸入的都是學(xué)習(xí)集（learning sets）目的都是盡可能多的自動(dòng)化數(shù)據(jù)挖掘過(guò)程數(shù)據(jù)挖掘過(guò)程并不能完全自動(dòng)化，只能半自動(dòng)化,數(shù)據(jù)挖掘的社會(huì)需求,國(guó)民經(jīng)濟(jì)和社會(huì)的信息化,社會(huì)信息化后，社會(huì)的運(yùn)轉(zhuǎn)是軟件的運(yùn)轉(zhuǎn) 社會(huì)信息化后，社會(huì)的歷史是數(shù)據(jù)的歷史,數(shù)據(jù)挖掘的社會(huì)需求,有價(jià)值的知識(shí),可怕的數(shù)據(jù),數(shù)據(jù)挖掘的社會(huì)需求,數(shù)據(jù)爆炸，知識(shí)貧乏,數(shù)據(jù)挖掘的發(fā)展,1989 IJCAI會(huì)議：數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)討論專題 Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991) 1991-1994

3、KDD討論專題 Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996) 1995-1998 KDD國(guó)際會(huì)議 (KDD95-98) Journal of Data Mining and Knowledge Discovery (1997) 1998 ACM SIGKDD, SIGKDD1999-2002 會(huì)議,以及SIGKDD Explorations 數(shù)據(jù)挖掘方面更多的國(guó)際會(huì)議 PAKDD, PKDD, SIAM-Da

4、ta Mining, (IEEE) ICDM, DaWaK, SPIE-DM, etc.,數(shù)據(jù)挖掘技術(shù),技術(shù)分類預(yù)言（Predication）：用歷史預(yù)測(cè)未來(lái) 描述（Description）：了解數(shù)據(jù)中潛在的規(guī)律數(shù)據(jù)挖掘技術(shù) 關(guān)聯(lián)分析序列模式分類（預(yù)言）聚集異常檢測(cè),異常檢測(cè),異常檢測(cè)是數(shù)據(jù)挖掘中一個(gè)重要方面，用來(lái)發(fā)現(xiàn)”小的模式”(相對(duì)于聚類)，即數(shù)據(jù)集中間顯著不同于其它數(shù)據(jù)的對(duì)象。異常探測(cè)應(yīng)用電信和信用卡欺騙貸款審批藥物研究氣象預(yù)報(bào) 金融領(lǐng)域客戶分類網(wǎng)絡(luò)入侵檢測(cè) 故障檢測(cè)與診斷等,什么是異常（outlier）？,Hawkins(1980)給出了異常的本質(zhì)性的定義：異

5、常是在數(shù)據(jù)集中與眾不同的數(shù)據(jù)，使人懷疑這些數(shù)據(jù)并非隨機(jī)偏差，而是產(chǎn)生于完全不同的機(jī)制。聚類算法對(duì)異常的定義：異常是聚類嵌于其中的背景噪聲。異常檢測(cè)算法對(duì)異常的定義：異常是既不屬于聚類也不屬于背景噪聲的點(diǎn)。他們的行為與正常的行為有很大不同。,異常檢測(cè)方法的分類,基于統(tǒng)計(jì)（statistical-based)的方法基于距離 (distance-based)的方法基于偏差(deviation-based)的方法基于密度(density-based)的方法高維數(shù)據(jù)的異常探測(cè),數(shù)據(jù)挖掘系統(tǒng)的特征,數(shù)據(jù)的特征知識(shí)的特征算法的特征,礦山（數(shù)據(jù)）,挖掘工具（算法）,金子（知識(shí)）,,,數(shù)據(jù)的特征

6、,大容量 POS數(shù)據(jù)（某個(gè)超市每天要處理高達(dá)2000萬(wàn)筆交易）衛(wèi)星圖象（NASA的地球觀測(cè)衛(wèi)星以每小時(shí)50GB的速度發(fā)回?cái)?shù)據(jù)）互聯(lián)網(wǎng)數(shù)據(jù) 含噪音（不完全、不正確）異質(zhì)數(shù)據(jù)（多種數(shù)據(jù)類型混合的數(shù)據(jù)源，來(lái)自互聯(lián)網(wǎng)的數(shù)據(jù)是典型的例子）,系統(tǒng)的特征,知識(shí)發(fā)現(xiàn)系統(tǒng)需要一個(gè)前處理過(guò)程數(shù)據(jù)抽取數(shù)據(jù)清洗數(shù)據(jù)選擇數(shù)據(jù)轉(zhuǎn)換知識(shí)發(fā)現(xiàn)系統(tǒng)是一個(gè)自動(dòng)/半自動(dòng)過(guò)程知識(shí)發(fā)現(xiàn)系統(tǒng)要有很好的性能,知識(shí)（模式）的特征,知識(shí)發(fā)現(xiàn)系統(tǒng)能夠發(fā)現(xiàn)什么知識(shí)？計(jì)算學(xué)習(xí)理論COLT（Computational Learning Theory）以FOL為基礎(chǔ)的以發(fā)現(xiàn)關(guān)系為目的的歸納邏輯程序設(shè)計(jì) 現(xiàn)行的知識(shí)發(fā)現(xiàn)系統(tǒng)只能發(fā)現(xiàn)特

7、定模式的知識(shí) 規(guī)則分類關(guān)聯(lián),知識(shí)表示：規(guī)則,IF 條件 THEN 結(jié)論條件和結(jié)論的粒度（抽象度）可以有多種單值區(qū)間模糊值規(guī)則可以有確信度精確規(guī)則概率規(guī)則,知識(shí)表示：分類樹(shù),,,,,,,,,,分類條件1,分類條件2,分類條件3,,類1,類2,類3,類4,數(shù)據(jù)挖掘算法的特征,構(gòu)成數(shù)據(jù)挖掘算法的三要素模式記述語(yǔ)言：反映了算法可以發(fā)現(xiàn)什么樣的知識(shí) 模式評(píng)價(jià)：反映了什么樣的模式可以稱為知識(shí) 模式探索：包括針對(duì)某一特定模式對(duì)參數(shù)空間的探索和對(duì)模式空間的探索,數(shù)據(jù)挖掘的主要方法,分類（Classification）聚類(Clustering) 相關(guān)規(guī)則(Association Rule

8、) 回歸(Regression) 其他,數(shù)據(jù)挖掘系統(tǒng),數(shù)據(jù)挖掘系統(tǒng),第一代數(shù)據(jù)挖掘系統(tǒng) 支持一個(gè)或少數(shù)幾個(gè)數(shù)據(jù)挖掘算法，這些算法設(shè)計(jì)用來(lái)挖掘向量數(shù)據(jù)（vector-valued data），這些數(shù)據(jù)模型在挖掘時(shí)候，一般一次性調(diào)進(jìn)內(nèi)存進(jìn)行處理。許多這樣的系統(tǒng)已經(jīng)商業(yè)化。第二代數(shù)據(jù)挖掘系統(tǒng) 目前的研究，是改善第一代數(shù)據(jù)挖掘系統(tǒng)，開(kāi)發(fā)第二代數(shù)據(jù)挖掘系統(tǒng)。第二代數(shù)據(jù)挖掘系統(tǒng)支持?jǐn)?shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)，和它們具有高性能的接口，具有高的可擴(kuò)展性。例如，第二代系統(tǒng)能夠挖掘大數(shù)據(jù)集、更復(fù)雜的數(shù)據(jù)集、以及高維數(shù)據(jù)。這一代系統(tǒng)通過(guò)支持?jǐn)?shù)據(jù)挖掘模式（data mining schema）和數(shù)據(jù)挖掘查詢語(yǔ)言（DMQL）增

9、加系統(tǒng)的靈活性。,數(shù)據(jù)挖掘系統(tǒng),第三代數(shù)據(jù)挖掘系統(tǒng) 第三代的特征是能夠挖掘Internet/Extranet的分布式和高度異質(zhì)的數(shù)據(jù)，并且能夠有效地和操作型系統(tǒng)集成。這一代數(shù)據(jù)挖掘系統(tǒng)關(guān)鍵的技術(shù)之一是提供對(duì)建立在異質(zhì)系統(tǒng)上的多個(gè)預(yù)言模型以及管理這些預(yù)言模型的元數(shù)據(jù)提供第一級(jí)別（first class）的支持。第四代數(shù)據(jù)挖掘系統(tǒng) 第四代數(shù)據(jù)挖掘系統(tǒng)能夠挖掘嵌入式系統(tǒng)、移動(dòng)系統(tǒng)、和普遍存在（ubiquitous）計(jì)算設(shè)備產(chǎn)生的各種類型的數(shù)據(jù) 。,二、數(shù)據(jù)預(yù)處理,,為什么需要預(yù)處理,數(shù)據(jù) 不完整含觀測(cè)噪聲不一致包含其它不希望的成分數(shù)據(jù)清理通過(guò)填寫(xiě)空缺值，平滑噪聲數(shù)據(jù)，識(shí)別刪除孤立點(diǎn)，并解決

10、不一致來(lái)清理數(shù)據(jù)。,污染數(shù)據(jù)形成的原因,濫用縮寫(xiě)詞數(shù)據(jù)輸入錯(cuò)誤數(shù)據(jù)中的內(nèi)嵌控制信息不同的慣用語(yǔ) 重復(fù)記錄丟失值拼寫(xiě)變化不同的計(jì)量單位過(guò)時(shí)的編碼含有各種噪聲,數(shù)據(jù)清理的重要性,污染數(shù)據(jù)的普遍存在，使得在大型數(shù)據(jù)庫(kù)中維護(hù)數(shù)據(jù)的正確性和一致性成為一個(gè)及其困難的任務(wù)。垃圾進(jìn)、垃圾出,數(shù)據(jù)清理處理內(nèi)容,格式標(biāo)準(zhǔn)化異常數(shù)據(jù)清除錯(cuò)誤糾正重復(fù)數(shù)據(jù)的清除,數(shù)據(jù)規(guī)約,數(shù)據(jù)集的壓縮表示，但是能和原始數(shù)據(jù)集達(dá)到相同或基本相同的分析結(jié)果主要策略: 數(shù)據(jù)聚集維規(guī)約數(shù)據(jù)壓縮數(shù)值規(guī)約,空缺值,忽略元組人工填寫(xiě)空缺值使用固定值使用屬性平均值使用最有可能值,噪聲數(shù)據(jù),如何平滑數(shù)據(jù)，去掉噪聲

11、數(shù)據(jù)平滑技術(shù) 分箱聚類計(jì)算機(jī)和人工檢查相結(jié)合回歸,分箱,箱的深度：表示不同的箱里有相同個(gè)數(shù)的數(shù)據(jù)。箱的寬度：每個(gè)箱值的取值區(qū)間是個(gè)常數(shù)。平滑方法: 按箱平均值平滑按箱中值平滑按箱邊界值平滑,聚類,每個(gè)簇中的數(shù)據(jù)用其中心值代替忽略孤立點(diǎn) 先通過(guò)聚類等方法找出孤立點(diǎn)。這些孤立點(diǎn)可能包含有用的信息。人工再審查這些孤立點(diǎn),回歸,通過(guò)構(gòu)造函數(shù)來(lái)符合數(shù)據(jù)變化的趨勢(shì)，這樣可以用一個(gè)變量預(yù)測(cè)另一個(gè)變量。線性回歸多線性回歸,數(shù)據(jù)集成,將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來(lái)存放在一個(gè)一直得數(shù)據(jù)存貯中。實(shí)體識(shí)別實(shí)體和模式的匹配冗余：某個(gè)屬性可以由別的屬性推出。相關(guān)分析相關(guān)性rA,B . rA

12、,B0,正相關(guān)。A隨B的值得增大而增大 rA,B0,正相關(guān)。AB無(wú)關(guān) rA,B0,正相關(guān)。A隨B的值得增大而減少重復(fù) 同一數(shù)據(jù)存儲(chǔ)多次數(shù)據(jù)值沖突的檢測(cè)和處理,數(shù)據(jù)變換,平滑聚集數(shù)據(jù)概化規(guī)范化屬性構(gòu)造(特征構(gòu)造),最小最大規(guī)范化小數(shù)定標(biāo)規(guī)范化屬性構(gòu)造由給定的屬性構(gòu)造和添加新的屬性，以幫助提高精度和對(duì)高維數(shù)據(jù)結(jié)構(gòu)的理解,規(guī)范化,數(shù)據(jù)立方體聚集,尋找感興趣的維度進(jìn)行再聚集,維規(guī)約,刪除不相關(guān)的屬性（維）來(lái)減少數(shù)據(jù)量。屬性子集選擇找出最小屬性集合，使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性的原分布如何選??？貪心算法逐步向前選擇逐步后向刪除向前選擇和后向刪除相結(jié)合判

13、定樹(shù)歸納,數(shù)據(jù)壓縮,有損，無(wú)損小波變換將數(shù)據(jù)向量D轉(zhuǎn)換成為數(shù)值上不同的小波系數(shù)的向量D. 對(duì)D進(jìn)行剪裁，保留小波系數(shù)最強(qiáng)的部分。,主要成分分析,數(shù)值規(guī)約,回歸和對(duì)數(shù)線形模型線形回歸對(duì)數(shù)線形模型直方圖等寬等深 V-最優(yōu) maxDiff,數(shù)值規(guī)約,聚類多維索引樹(shù) ：對(duì)于給定的數(shù)據(jù)集合，索引樹(shù)動(dòng)態(tài)的劃分多維空間。選樣簡(jiǎn)單選擇n個(gè)樣本，不放回簡(jiǎn)單選擇n個(gè)樣本，放回聚類選樣分層選樣,離散化和概念分層,離散化技術(shù)用來(lái)減少給定連續(xù)屬性的個(gè)數(shù) 通常是遞歸的。大量時(shí)間花在排序上。對(duì)于給定的數(shù)值屬性，概念分層定義了該屬性的一個(gè)離散化的值。分箱直方圖分析,數(shù)值數(shù)據(jù)離散化,聚類分析

14、基于熵的離散化通過(guò)自然劃分分段 3-4-5規(guī)則如果一個(gè)區(qū)間最高有效位上包括3 6 9 個(gè)不同的值，劃分為3個(gè)等寬區(qū)間。 7個(gè)不同值，按2-3-3劃分為3個(gè)區(qū)間最高位包含2，4，8個(gè)不同值，劃分為4個(gè)等寬區(qū)間最高位包含1 ，5，10個(gè)不同值，劃分為5個(gè)等寬區(qū)間最高分層一般在第5個(gè)百分位到第95個(gè)百分位上進(jìn)行,分類數(shù)據(jù)的概念分層生成,分類數(shù)據(jù)是離散數(shù)據(jù)。一個(gè)分類屬性可能有有限個(gè)不同的值。方法由用戶和專家在模式級(jí)顯式的說(shuō)明屬性的部分序通過(guò)顯式的數(shù)據(jù)分組說(shuō)明分層結(jié)構(gòu)的一部分說(shuō)明屬性集，但不說(shuō)明他們的偏序只說(shuō)明部分的屬性集,三、數(shù)據(jù)挖掘算法分類與預(yù)測(cè),,分類 VS. 預(yù)測(cè),分類：

15、預(yù)測(cè)分類標(biāo)號(hào)（或離散值）根據(jù)訓(xùn)練數(shù)據(jù)集和類標(biāo)號(hào)屬性，構(gòu)建模型來(lái)分類現(xiàn)有數(shù)據(jù)，并用來(lái)分類新數(shù)據(jù) 預(yù)測(cè)：建立連續(xù)函數(shù)值模型，比如預(yù)測(cè)空缺值典型應(yīng)用信譽(yù)證實(shí) 目標(biāo)市場(chǎng) 醫(yī)療診斷性能預(yù)測(cè),數(shù)據(jù)分類：兩步過(guò)程,第一步，建立一個(gè)模型，描述預(yù)定數(shù)據(jù)類集和概念集假定每個(gè)元組屬于一個(gè)預(yù)定義的類，由一個(gè)類標(biāo)號(hào)屬性確定基本概念訓(xùn)練數(shù)據(jù)集：由為建立模型而被分析的數(shù)據(jù)元組形成訓(xùn)練樣本：訓(xùn)練數(shù)據(jù)集中的單個(gè)樣本（元組）學(xué)習(xí)模型可以用分類規(guī)則、判定樹(shù)或數(shù)學(xué)公式的形式提供第二步，使用模型，對(duì)將來(lái)的或未知的對(duì)象進(jìn)行分類首先評(píng)估模型的預(yù)測(cè)準(zhǔn)確率對(duì)每個(gè)測(cè)試樣本，將已知的類標(biāo)號(hào)和該樣本的學(xué)習(xí)模型類預(yù)測(cè)比較模

16、型在給定測(cè)試集上的準(zhǔn)確率是正確被模型分類的測(cè)試樣本的百分比測(cè)試集要獨(dú)立于訓(xùn)練樣本集，否則會(huì)出現(xiàn)“過(guò)分適應(yīng)數(shù)據(jù)”的情況,第一步：建立模型,訓(xùn)練數(shù) 據(jù)集,,,分類算法,,IF rank = professor OR years 6 THEN tenured = yes,分類規(guī)則,,,,第二步：用模型進(jìn)行分類,分類規(guī)則,測(cè)試集,,,,,未知數(shù)據(jù),(Jeff, Professor, 4),,,,Tenured?,準(zhǔn)備分類和預(yù)測(cè)的數(shù)據(jù),通過(guò)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，可以提高分類和預(yù)測(cè)過(guò)程的準(zhǔn)確性、有效性和可伸縮性數(shù)據(jù)清理消除或減少噪聲，處理空缺值，從而減少學(xué)習(xí)時(shí)的混亂相關(guān)性分析數(shù)據(jù)中的有些屬性可能與當(dāng)

17、前任務(wù)不相關(guān)；也有些屬性可能是冗余的；刪除這些屬性可以加快學(xué)習(xí)步驟，使學(xué)習(xí)結(jié)果更精確數(shù)據(jù)變換可以將數(shù)據(jù)概化到較高層概念，或?qū)?shù)據(jù)進(jìn)行規(guī)范化,比較分類方法,使用下列標(biāo)準(zhǔn)比較分類和預(yù)測(cè)方法預(yù)測(cè)的準(zhǔn)確率：模型正確預(yù)測(cè)新數(shù)據(jù)的類編號(hào)的能力速度：產(chǎn)生和使用模型的計(jì)算花銷魯棒性：給定噪聲數(shù)據(jù)或有空缺值的數(shù)據(jù)，模型正確預(yù)測(cè)的能力可伸縮性：對(duì)大量數(shù)據(jù)，有效的構(gòu)建模型的能力可解釋性：學(xué)習(xí)模型提供的理解和洞察的層次,用判定樹(shù)歸納分類,什么是判定樹(shù)？類似于流程圖的樹(shù)結(jié)構(gòu) 每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試每個(gè)分枝代表一個(gè)測(cè)試輸出每個(gè)樹(shù)葉節(jié)點(diǎn)代表類或類分布判定樹(shù)的生成由兩個(gè)階段組成判定樹(shù)構(gòu)建

18、開(kāi)始時(shí)，所有的訓(xùn)練樣本都在根節(jié)點(diǎn) 遞歸的通過(guò)選定的屬性，來(lái)劃分樣本（必須是離散值）樹(shù)剪枝許多分枝反映的是訓(xùn)練數(shù)據(jù)中的噪聲和孤立點(diǎn)，樹(shù)剪枝試圖檢測(cè)和剪去這種分枝判定樹(shù)的使用：對(duì)未知樣本進(jìn)行分類通過(guò)將樣本的屬性值與判定樹(shù)相比較,判定歸納樹(shù)算法,判定歸納樹(shù)算法（一個(gè)貪心算法）自頂向下的分治方式構(gòu)造判定樹(shù) 樹(shù)以代表訓(xùn)練樣本的單個(gè)根節(jié)點(diǎn)開(kāi)始使用分類屬性（如果是量化屬性，則需先進(jìn)行離散化）遞歸的通過(guò)選擇相應(yīng)的測(cè)試屬性，來(lái)劃分樣本，一旦一個(gè)屬性出現(xiàn)在一個(gè)節(jié)點(diǎn)上，就不在該節(jié)點(diǎn)的任何后代上出現(xiàn) 測(cè)試屬性是根據(jù)某種啟發(fā)信息或者是統(tǒng)計(jì)信息來(lái)進(jìn)行選擇（如：信息增益）遞歸劃分步驟停止的條件給定節(jié)點(diǎn)的

19、所有樣本屬于同一類沒(méi)有剩余屬性可以用來(lái)進(jìn)一步劃分樣本使用多數(shù)表決沒(méi)有剩余的樣本,詳細(xì)算法見(jiàn)P189,貝葉斯分類,貝葉斯分類利用統(tǒng)計(jì)學(xué)中的貝葉斯定理，來(lái)預(yù)測(cè)類成員的概率，即給定一個(gè)樣本，計(jì)算該樣本屬于一個(gè)特定的類的概率。樸素貝葉斯分類：假設(shè)每個(gè)屬性之間都是相互獨(dú)立的，并且每個(gè)屬性對(duì)非類問(wèn)題產(chǎn)生的影響都是一樣的。,后向傳播分類,后向傳播是一種神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法；神經(jīng)網(wǎng)絡(luò)是一組連接的輸入/輸出單元，每個(gè)連接都與一個(gè)權(quán)相連。在學(xué)習(xí)階段，通過(guò)調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)，使得能夠預(yù)測(cè)輸入樣本的正確標(biāo)號(hào)來(lái)學(xué)習(xí)。優(yōu)點(diǎn) 預(yù)測(cè)精度總的來(lái)說(shuō)較高健壯性好，訓(xùn)練樣本中包含錯(cuò)誤時(shí)也可正常工作輸出可能是離散值、連續(xù)值或者是

20、離散或量化屬性的向量值對(duì)目標(biāo)進(jìn)行分類較快缺點(diǎn) 訓(xùn)練（學(xué)習(xí)）時(shí)間長(zhǎng) 蘊(yùn)涵在學(xué)習(xí)的權(quán)中的符號(hào)含義很難理解很難根專業(yè)領(lǐng)域知識(shí)相整合,其他分類方法,k-最臨近分類給定一個(gè)未知樣本，k-最臨近分類法搜索模式空間，找出最接近未知樣本的k個(gè)訓(xùn)練樣本；然后使用k個(gè)最臨近者中最公共的類來(lái)預(yù)測(cè)當(dāng)前樣本的類標(biāo)號(hào) 基于案例的推理樣本或案例使用復(fù)雜的符號(hào)表示，對(duì)于新案例，先檢測(cè)是否存在同樣的訓(xùn)練案例；如果找不到，則搜索類似的訓(xùn)練案例遺傳算法結(jié)合生物進(jìn)化思想的算法粗糙集方法模糊集方法允許在分類規(guī)則中定義“模糊的”臨界值或邊界,什么是預(yù)測(cè)？,預(yù)測(cè)是構(gòu)造和使用模型評(píng)估無(wú)樣本類，或評(píng)估給定樣本可能具有的屬性

21、或值空間。預(yù)測(cè)和分類的異同相同點(diǎn) 兩者都需要構(gòu)建模型都用模型來(lái)估計(jì)未知值預(yù)測(cè)當(dāng)中主要的估計(jì)方法是回歸分析線性回歸和多元回歸非線性回歸不同點(diǎn) 分類法主要是用來(lái)預(yù)測(cè)類標(biāo)號(hào)（分類屬性值）預(yù)測(cè)法主要是用來(lái)估計(jì)連續(xù)值（量化屬性值）,回歸方法,線性回歸：Y = + X 其中和是回歸系數(shù)，可以根據(jù)給定的數(shù)據(jù)點(diǎn)，通過(guò)最小二乘法來(lái)求得多元回歸：Y = + 1X1 + 2 X2 線性回歸的擴(kuò)展，設(shè)計(jì)多個(gè)預(yù)測(cè)變量，可以用最小二乘法求得上式中的，1 和2 非線性回歸：Y = + 1X1 + 2 X22+ 3 X33 對(duì)不呈線性依賴的數(shù)據(jù)建模使用多項(xiàng)式回歸建模方法，然后進(jìn)行變量變換，將非線性模型轉(zhuǎn)換

22、為線性模型，然后用最小二乘法求解,,,評(píng)估分類法的準(zhǔn)確性,導(dǎo)出分類法后，再使用訓(xùn)練數(shù)據(jù)評(píng)估分類法，可能錯(cuò)誤的導(dǎo)致樂(lè)觀的估計(jì) 保持方法給定數(shù)據(jù)隨機(jī)劃分為兩個(gè)集合：訓(xùn)練集(2/3)和測(cè)試集(1/3) 訓(xùn)練集導(dǎo)出分類法，測(cè)試集對(duì)其準(zhǔn)確性進(jìn)行評(píng)估隨機(jī)子選樣：保持方法的一個(gè)變形，將保持方法重復(fù)k次，然后取準(zhǔn)確率的平均值 k-折交叉確認(rèn) 初始數(shù)據(jù)被劃分為k個(gè)不相交的，大小大致相同的子集S1,S2Sk 進(jìn)行k次訓(xùn)練和測(cè)試，第i次時(shí)，以Si做測(cè)試集，其他做訓(xùn)練集準(zhǔn)確率為k次迭代正確分類數(shù)除以初始數(shù)據(jù)集樣本總數(shù),提高分類法的準(zhǔn)確性,Bagging技術(shù)和boosting技術(shù)都通過(guò)將T個(gè)學(xué)習(xí)得到的分類法C1,

23、C2CT組合起來(lái)，從而創(chuàng)造一個(gè)改進(jìn)的分類法C* Bagging技術(shù) 對(duì)訓(xùn)練集S進(jìn)行T次迭代，每次通過(guò)放回取樣選取樣本集St，通過(guò)學(xué)習(xí)St得到分類法Ct 對(duì)于未知樣本X，每個(gè)分類法返回其類預(yù)測(cè)，作為一票 C*統(tǒng)計(jì)得票，并將得票最高的預(yù)測(cè)賦予X Boosting技術(shù) 每個(gè)訓(xùn)練樣本賦予一個(gè)權(quán)值 Ct的權(quán)值取決于其錯(cuò)誤率,四、數(shù)據(jù)挖掘算法聚類,,聚類分析,什么是聚類分析? 聚類分析中的數(shù)據(jù)類型主要聚類分析方法分類劃分方法（Partitioning Methods）分層方法基于密度的方法基于表格的方法基于模型（Model-Based）的聚類方法異常分析總結(jié),什么是聚類分析?,簇（Clus

24、ter）:一個(gè)數(shù)據(jù)對(duì)象的集合在同一個(gè)類中，對(duì)象之間0具有相似性；不同類的對(duì)象之間是相異的。聚類分析把一個(gè)給定的數(shù)據(jù)對(duì)象集合分成不同的簇；聚類是一種無(wú)監(jiān)督分類法: 沒(méi)有預(yù)先指定的類別；典型的應(yīng)用作為一個(gè)獨(dú)立的分析工具，用于了解數(shù)據(jù)的分布；作為其它算法的一個(gè)數(shù)據(jù)預(yù)處理步驟；,聚類的常規(guī)應(yīng)用,模式識(shí)別空間數(shù)據(jù)分析在GIS中，通過(guò)聚類發(fā)現(xiàn)特征空間來(lái)建立主題索引；在空間數(shù)據(jù)挖掘中，檢測(cè)并解釋空間中的簇；圖象處理經(jīng)濟(jì)學(xué) (尤其是市場(chǎng)研究方面) WWW 文檔分類分析WEB日志數(shù)據(jù)來(lái)發(fā)現(xiàn)相似的訪問(wèn)模式,應(yīng)用聚類分析的例子,市場(chǎng)銷售: 幫助市場(chǎng)人員發(fā)現(xiàn)客戶中的不同群體，然后用這些知識(shí)

25、來(lái)開(kāi)展一個(gè)目標(biāo)明確的市場(chǎng)計(jì)劃；土地使用: 在一個(gè)陸地觀察數(shù)據(jù)庫(kù)中標(biāo)識(shí)那些土地使用相似的地區(qū)；保險(xiǎn): 對(duì)購(gòu)買了汽車保險(xiǎn)的客戶，標(biāo)識(shí)那些有較高平均賠償成本的客戶；城市規(guī)劃: 根據(jù)類型、價(jià)格、地理位置等來(lái)劃分不同類型的住宅；地震研究: 根據(jù)地質(zhì)斷層的特點(diǎn)把已觀察到的地震中心分成不同的類；,聚類方法性能評(píng)價(jià),一個(gè)好的聚類方法要能產(chǎn)生高質(zhì)量的聚類結(jié)果簇，這些簇要具備以下兩個(gè)特點(diǎn)：高的簇內(nèi)相似性低的簇間相似性聚類結(jié)果的好壞取決于該聚類方法采用的相似性評(píng)估方法以及該方法的具體實(shí)現(xiàn)；聚類方法的好壞還取決與該方法是能發(fā)現(xiàn)某些還是所有的隱含模式；,聚類方法性能評(píng)價(jià),可伸縮性能夠處理不同類型的屬性

26、能發(fā)現(xiàn)任意形狀的簇在決定輸入?yún)?shù)的時(shí)候，盡量不需要特定的領(lǐng)域知識(shí)；能夠處理噪聲和異常對(duì)輸入數(shù)據(jù)對(duì)象的順序不敏感能處理高維數(shù)據(jù) 能產(chǎn)生一個(gè)好的、能滿足用戶指定約束的聚類結(jié)果結(jié)果是可解釋的、可理解的和可用的,兩種數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)矩陣 (two modes) 差異度矩陣 (one mode),評(píng)價(jià)聚類質(zhì)量,差異度/相似度矩陣: 相似度通常用距離函數(shù)來(lái)表示；有一個(gè)單獨(dú)的質(zhì)量評(píng)估函數(shù)來(lái)評(píng)判一個(gè)簇的好壞；對(duì)不同類型的變量，距離函數(shù)的定義通常是不同的，這在下面有詳細(xì)討論；根據(jù)實(shí)際的應(yīng)用和數(shù)據(jù)的語(yǔ)義，在計(jì)算距離的時(shí)候，不同的變量有不同的權(quán)值相聯(lián)系；很難定義“足夠相似了”或者“足夠好了” 只能

27、憑主觀確定；,聚類分析中的數(shù)據(jù)類型,區(qū)間標(biāo)度變量（Interval-scaled variables）: 二元變量（Binary variables）: 標(biāo)稱型，序數(shù)型和比例型變量（Nominal, ordinal, and ratio variables）: 混合類型變量（Variables of mixed types）:,區(qū)間標(biāo)度變量,數(shù)據(jù)標(biāo)準(zhǔn)化計(jì)算絕對(duì)偏差的平均值: 其中計(jì)算標(biāo)準(zhǔn)度量值 (z-score) 使用絕對(duì)偏差的平均值比使用標(biāo)準(zhǔn)偏差更健壯（robust）,計(jì)算對(duì)象之間的相異度,通常使用距離來(lái)衡量?jī)蓚€(gè)對(duì)象之間的相異度。常用的距離度量方法有: 明考斯基距離（ Minkowsk

28、i distance）: 其中 i = (xi1, xi2, , xip) 和 j = (xj1, xj2, , xjp) 是兩個(gè)p維的數(shù)據(jù)對(duì)象, q是一個(gè)正整數(shù)。當(dāng)q = 1時(shí), d 稱為曼哈坦距離（ Manhattan distance）,計(jì)算對(duì)象之間的相異度,當(dāng)q=2時(shí), d 就成為歐幾里德距離: 距離函數(shù)有如下特性： d(i,j) 0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j) d(i,k) + d(k,j) 可以根據(jù)每個(gè)變量的重要性賦予一個(gè)權(quán)重,序數(shù)型變量,一個(gè)序數(shù)型變量可以是離散的也可以是連續(xù)的離散的序數(shù)型變量類似于標(biāo)稱變量，除了它的M個(gè)狀態(tài)是以有意義的

29、序列排序的，比如職稱連續(xù)的序數(shù)型變量類似于區(qū)間標(biāo)度變量，但是它沒(méi)有單位，值的相對(duì)順序是必要的，而其實(shí)際大小并不重要。,序數(shù)型變量,相異度的計(jì)算與區(qū)間標(biāo)度變量的計(jì)算方法相類似將xif 用它對(duì)應(yīng)的秩代替將每個(gè)變量的值域映射到0.0，1.0上，使得每個(gè)變量都有相同的權(quán)重。這通過(guò)用zif來(lái)替代rif來(lái)實(shí)現(xiàn) 用前面所述的區(qū)間標(biāo)度變量的任一種距離計(jì)算方法來(lái)計(jì)算,比例標(biāo)度型變量,比例標(biāo)度型變量（Ratio-scaled variable） : 總是取正的度量值，有一個(gè)非線性的標(biāo)度，近似的遵循指數(shù)標(biāo)度，比如 AeBt or Ae-Bt 計(jì)算相異度的方法: 采用與處理區(qū)間標(biāo)度變量相同的方法不是一個(gè)好的

30、選擇進(jìn)行對(duì)數(shù)變換，對(duì)變換得到的值在采用與處理區(qū)間標(biāo)度變量相同的方法 yif = log(xif) 將其作為連續(xù)的序數(shù)型數(shù)據(jù)，將其秩作為區(qū)間標(biāo)度的值來(lái)對(duì)待。,混合類型的變量,一個(gè)數(shù)據(jù)庫(kù)可能包含了所有這6中類型的變量用以下公式計(jì)算對(duì)象i，j之間的相異度. 其中，p為對(duì)象中的變量個(gè)數(shù) 如果xif或xjf 缺失（即對(duì)象i或?qū)ο骿沒(méi)有變量f的值），或者xif = xjf =0，且變量f是不對(duì)稱的二元變量，則指示項(xiàng)ij(f)=0；否則ij(f)=1,混合類型的變量,f 是二元變量或標(biāo)稱變量: if xif = xjf dij(f) = 0, else dij(f) = 1 f 是區(qū)間標(biāo)度變量: dij

31、(f) = | xif-xjf |/maxhxhf-minhxhf 其中h遍取變量f的所有非空缺對(duì)象 f 是序數(shù)型或比例標(biāo)度型計(jì)算秩 rif 計(jì)算 zif并將其作為區(qū)間標(biāo)度變量值對(duì)待,主要聚類方法,Partitioning algorithms: Construct various partitions and then evaluate them by some criterion Hierarchy algorithms: Create a hierarchical decomposition of the set of data (or objects) using some crit

32、erion Density-based: based on connectivity and density functions Grid-based: based on a multiple-level granularity structure Model-based: A model is hypothesized for each of the clusters and the idea is to find the best fit of that model to each other,五、數(shù)據(jù)挖掘算法關(guān)聯(lián),,什么是關(guān)聯(lián)挖掘?,關(guān)聯(lián)規(guī)則挖掘：在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中，

33、查找存在于項(xiàng)目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性、或因果結(jié)構(gòu)。應(yīng)用：購(gòu)物籃分析、交叉銷售、產(chǎn)品目錄設(shè)計(jì)、 loss-leader analysis、聚集、分類等。舉例：規(guī)則形式： “Body Head support, confidence”. buys(x, “diapers”) buys(x, “beers”) 0.5%, 60% major(x, “CS”) takes(x, “DB”) grade(x, “A”) 1%, 75%,關(guān)聯(lián)規(guī)則：基本概念,給定: (1)交易數(shù)據(jù)庫(kù) (2)每筆交易是：一個(gè)項(xiàng)目列表 (消費(fèi)者一次購(gòu)買活動(dòng)中購(gòu)買的商品) 查找: 所有描述一個(gè)項(xiàng)目集合

34、與其他項(xiàng)目集合相關(guān)性的規(guī)則 E.g., 98% of people who purchase tires and auto accessories also get automotive services done 應(yīng)用 * 護(hù)理用品 (商店應(yīng)該怎樣提高護(hù)理用品的銷售？) 家用電器 * (其他商品的庫(kù)存有什么影響?) 在產(chǎn)品直銷中使用附加郵寄 Detecting “ping-pong”ing of patients, faulty “collisions”,規(guī)則度量：支持度與可信度,查找所有的規(guī)則 X & Y Z 具有最小支持度和可信度支持度, s, 一次交易中包含X 、 Y 、 Z的可能

35、性可信度, c, 包含X 、 Y的交易中也包含Z的條件概率,設(shè)最小支持度為50%, 最小可信度為 50%, 則可得到 A C (50%, 66.6%) C A (50%, 100%),,,,,,買尿布的客戶,二者都買的客戶,買啤酒的客戶,,關(guān)聯(lián)規(guī)則挖掘：路線圖,布爾 vs. 定量關(guān)聯(lián) (基于處理數(shù)據(jù)的類型) buys(x, “SQLServer”) buys(x, “DMBook”) buys(x, “DBMiner”) 0.2%, 60% age(x, “30..39”) income(x, “42..48K”) buys(x, “PC”) 1%, 75% 單維 vs. 多維關(guān)聯(lián) (

36、例子同上) 單層 vs. 多層分析那個(gè)品種牌子的啤酒與那個(gè)牌子的尿布有關(guān)系? 各種擴(kuò)展相關(guān)性、因果分析關(guān)聯(lián)并不一定意味著相關(guān)或因果最大模式和閉合相集添加約束如, 哪些“小東西”的銷售促發(fā)了“大家伙”的買賣？,關(guān)聯(lián)規(guī)則挖掘一個(gè)例子,對(duì)于 A C： support = support(A 、C) = 50% confidence = support(A 、C)/support(A) = 66.6% Apriori的基本思想: 頻繁項(xiàng)集的任何子集也一定是頻繁的,最小值尺度 50% 最小可信度 50%,關(guān)鍵步驟：挖掘頻繁集,頻繁集:是指滿足最小支持度的項(xiàng)目集合頻繁集的子集也一定是頻繁的

37、如, 如果AB 是頻繁集，則 A B 也一定是頻繁集從1到k（k-頻繁集）遞歸查找頻繁集用得到的頻繁集生成關(guān)聯(lián)規(guī)則,多層關(guān)聯(lián)規(guī)則,項(xiàng)通常具有層次底層的項(xiàng)通常支持度也低某些特定層的規(guī)則可能更有意義交易數(shù)據(jù)庫(kù)可以按照維或?qū)泳幋a 可以進(jìn)行共享的多維挖掘,挖掘多層關(guān)聯(lián)規(guī)則,自上而下，深度優(yōu)先的方法：先找高層的“強(qiáng)”規(guī)則：牛奶面包 20%, 60%. 再找他們底層的“弱”規(guī)則：酸奶黃面包 6%, 50%. 多層關(guān)聯(lián)規(guī)則的變種層次交叉的關(guān)聯(lián)規(guī)則：酸奶面包房黃面包不同種分層方法間的關(guān)聯(lián)規(guī)則：酸奶面包房面包,多層關(guān)聯(lián)規(guī)則,支持度不變: 在各層之間使用統(tǒng)一的支持度 + 一

38、個(gè)最小支持度閾值. 如果一個(gè)項(xiàng)集的父項(xiàng)集不具有最小支持度，那他本身也不可能滿足最小支持度。底層項(xiàng)不會(huì)成為頻繁集，如果支持度太高丟失底層關(guān)聯(lián)規(guī)則太低生成太多的高層關(guān)聯(lián)規(guī)則支持度遞減: 隨著層次的降低支持度遞減 4種搜索策略：層與層獨(dú)立用k-項(xiàng)集跨層過(guò)濾用項(xiàng)跨層過(guò)濾用項(xiàng)進(jìn)行可控跨層過(guò)濾,支持度不變,支持度不變多層挖掘,牛奶 support = 10%,酸奶 support = 6%,脫脂奶 support = 4%,,,層 1 min_sup = 5%,層 2 min_sup = 5%,支持度遞減,支持度遞減多層挖掘,酸奶 support = 6%,脫脂奶 support =

39、4%,,,層 1 min_sup = 5%,層 2 min_sup = 3%,牛奶 support = 10%,多層關(guān)聯(lián)：冗余過(guò)濾,由于“祖先”關(guān)系的原因，有些規(guī)則可能是多余的。例子牛奶白面包 support = 8%, confidence = 70% 酸奶白面包 support = 2%, confidence = 72% 我們稱第一個(gè)規(guī)則是第二個(gè)規(guī)則的祖先參考規(guī)則的祖先，如果他的支持度與我們“預(yù)期”的支持度近似的話，我們就說(shuō)這條規(guī)則是冗余的。,,多層挖掘：深度優(yōu)先,自頂向下，深度優(yōu)先的方法：先挖掘高層頻繁項(xiàng)：牛奶 (15%), 面包 (10%) 再挖掘他們底

40、層的相對(duì)較弱的頻繁項(xiàng)：酸奶 (5%), 白面包 (4%) 跨層時(shí)對(duì)支持度的不同處理方法，對(duì)應(yīng)了不同的算法: 層之間支持度不變：如果t的祖先是非頻繁的，則不用考慮t 支持度隨層遞減：則只考慮那些其祖先是頻繁的/不可忽略的項(xiàng),數(shù)據(jù)挖掘查詢的逐步精化,為什么要逐步精化挖掘操作的代價(jià)可能高或低，結(jié)果可能細(xì)致或粗糙在速度和質(zhì)量之間折衷：逐步精化超集覆蓋特征：預(yù)存儲(chǔ)所有正面答案允許進(jìn)一步正確性驗(yàn)證，而不必驗(yàn)證已經(jīng)錯(cuò)誤的 2或多步挖掘：先執(zhí)行粗糙的、容易的操作 (超集覆蓋) 然后在減少后的候選集上進(jìn)行計(jì)算量大的算法 (Koperski & Han, SSD95).,逐步求精空

41、間關(guān)聯(lián)規(guī)則挖掘,空間關(guān)系的層次： “g_close_to”: 鄰近, 接觸, 交叉, 包含先搜索粗糙的關(guān)系然后再精化,逐步求精空間關(guān)聯(lián)規(guī)則挖掘,空間關(guān)聯(lián)規(guī)則的兩步算法：步驟 1: 粗糙空間計(jì)算 (用于過(guò)濾) 用 MBR 或 R-tree 做粗糙估計(jì) 步驟 2: 細(xì)致空間算法 (用于精化) 只計(jì)算已經(jīng)通過(guò)空間計(jì)算的對(duì)象,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,多維關(guān)聯(lián)規(guī)則：概念,單維規(guī)則： buys(X, “milk”) buys(X, “bread”) 多維規(guī)則： 2個(gè)以上維/謂詞維間關(guān)聯(lián)規(guī)則 (維詞不重復(fù)) age(X,”19

42、-25”) occupation(X,“student”) buys(X,“coke”) 混合維關(guān)聯(lián)規(guī)則 (維詞重復(fù)) age(X,”19-25”) buys(X, “popcorn”) buys(X, “coke”) 類別屬性有限個(gè)值, 值之間無(wú)順序關(guān)系數(shù)量屬性數(shù)字的，值之間隱含了順序關(guān)系,,挖掘多維關(guān)聯(lián)的技術(shù),搜索頻繁k-維詞集合：如: age, occupation, buys 是一個(gè)3-維詞集合。按照對(duì) age 處理方式的不同，分為： 1. 用靜態(tài)方法把數(shù)值屬性離散化數(shù)值屬性可用預(yù)定義的概念層次加以離散化。 2. 帶數(shù)量的關(guān)聯(lián)規(guī)則根據(jù)數(shù)據(jù)的分布動(dòng)態(tài)的把數(shù)值屬性離散化到不

43、同的“箱”。 3. 基于距離的關(guān)聯(lián)規(guī)則用數(shù)據(jù)點(diǎn)之間的距離動(dòng)態(tài)的離散化,數(shù)值屬性的靜態(tài)離散化,在挖掘之前用概念層次先離散化數(shù)值被替換為區(qū)間范圍關(guān)系數(shù)據(jù)庫(kù)中，要找到所有頻繁k-維詞需要k或k+1次表掃描。適宜使用數(shù)據(jù)立方體 N維立方體的每個(gè)單元對(duì)應(yīng)一個(gè)維詞集合使用數(shù)據(jù)立方體速度更快,帶數(shù)量的關(guān)聯(lián)規(guī)則,age(X,”30-34”) income(X,”24K - 48K”) buys(X,”high resolution TV”),動(dòng)態(tài) 離散化數(shù)值屬性 Such that the confidence or compactness of the rules mined is maxi

44、mized. 2-維數(shù)量關(guān)聯(lián)規(guī)則： Aquan1 Aquan2 Acat 用2-維表格把“鄰近”的關(guān)聯(lián)規(guī)則組合起來(lái) 例子,ARCS (關(guān)聯(lián)規(guī)則聚集系統(tǒng)),,ARCS 流程 1. 分箱 2. 查找頻繁維詞集合 3. 聚集 4. 優(yōu)化,ARCS的局限性,數(shù)值屬性只能出現(xiàn)在規(guī)則的左側(cè) 左側(cè)只能有兩個(gè)屬性 (2維) ARCS 的改進(jìn) 不用基于柵格的方法等深分箱基于局部完整性測(cè)度的聚集 “Mining Quantitative Association Rules in Large Relational Tables” by R. Srikant and R. Agrawal.,基于距離的關(guān)聯(lián)規(guī)

45、則挖掘,分箱的方法沒(méi)有體現(xiàn)數(shù)據(jù)間隔的語(yǔ)義基于距離的分割是更有“意義”的離散化方法，考慮：區(qū)間內(nèi)密度或點(diǎn)的個(gè)數(shù) 區(qū)間內(nèi)點(diǎn)的“緊密程度,記SX 為 N 個(gè)元組 t1, t2, , tN 在屬性集 X 上的投影則 SX 的直徑: distx:距離量度,如歐幾里德距離或 Manhattan,聚集和距離度量,用直徑 d 評(píng)估聚集 CX 的密度，其中查找聚集和基于距離的規(guī)則用密度閾值 d0代替支持度采用修改過(guò)的 BIRCH 聚集算法,聚集和距離度量,關(guān)聯(lián)規(guī)則可視化Using Plane Graph,關(guān)聯(lián)規(guī)則可視化Using Rule Graph,六、序列模式挖掘,,序列模式概念,序列模式

46、的概念最早是由Agrawal和Srikant 提出的序列模式定義：給定一個(gè)由不同序列組成的集合，其中，每個(gè)序列由不同的元素按順序有序排列，每個(gè)元素由不同項(xiàng)目組成，同時(shí)給定一個(gè)用戶指定的最小支持度閾值，序列模式挖掘就是找出所有的頻繁子序列，即該子序列在序列集中的出現(xiàn)頻率不低于用戶指定的最小支持度閾值,序列模式實(shí)例,例1：在兩年前購(gòu)買了Ford 牌轎車的顧客，很有可能在今年采取貼舊換新的購(gòu)車行動(dòng) 例2：在購(gòu)買了自行車和購(gòu)物籃的所有客戶中，有70%的客戶會(huì)在兩個(gè)月后購(gòu)買打氣筒例3：工業(yè)過(guò)程控制領(lǐng)域：過(guò)程變量采樣值時(shí)時(shí)間序列；變量之間的關(guān)系是動(dòng)態(tài)的；系統(tǒng)故障模式；等等,序列模式應(yīng)用領(lǐng)域,應(yīng)用領(lǐng)域：

47、客戶購(gòu)買行為模式預(yù)測(cè) Web訪問(wèn)模式預(yù)測(cè) 疾病診斷自然災(zāi)害預(yù)測(cè) DNA序列分析工業(yè)控制,序列模式表示,符號(hào)化表示：項(xiàng)目集(Itemset)是各種項(xiàng)目組成的集合序列(Sequence)是不同項(xiàng)目集(ItemSet)的有序排列，序列s可以表示為s = ，sj(1 <= j <= l)為項(xiàng)目集(Itemset)，也稱為序列s的元素序列的元素(Element)可表示為(x1x2xm)， xk(1 <= k <= m)為不同的項(xiàng)目，如果一個(gè)序列只有一個(gè)項(xiàng)目，則括號(hào)可以省略一個(gè)序列包含的所有項(xiàng)目的個(gè)數(shù)稱為序列的長(zhǎng)度。長(zhǎng)度為l的序列記為l-序列,序列模式表示,符號(hào)化表示：設(shè) = ， = ，如

48、果存在整數(shù)1 <= j1 < j2 << jn <= m，使得a1 bj1，a2 bj2，， an bjn，則稱序列為序列的子序列，又稱序列包含序列，記為序列在序列數(shù)據(jù)庫(kù)S中的支持?jǐn)?shù)為序列數(shù)據(jù)庫(kù)S中包含序列的序列個(gè)數(shù)，記為Support() 給定支持度閾值，如果序列在序列數(shù)據(jù)庫(kù)中的支持?jǐn)?shù)不低于，則稱序列為序列模式長(zhǎng)度為l的序列模式記為l-模式,序列模式表示,例子：設(shè)序列數(shù)據(jù)庫(kù)如下圖所示，并設(shè)用戶指定的最小支持度min-support = 2。,序列是序列的子序列序列是長(zhǎng)度為3的序列模式,序列模式挖掘,問(wèn)題描述：給定序列數(shù)據(jù)庫(kù)和最小支持度閾值，序列模式挖掘就是要找出序列數(shù)據(jù)庫(kù)中所有的序列

49、模式系統(tǒng)規(guī)定：由于同一個(gè)元素中的項(xiàng)目之間排列沒(méi)有順序，為了表達(dá)的唯一性，我們將同一個(gè)元素內(nèi)部的不同項(xiàng)目按照字典順序排列,序列模式挖掘算法,序列模式挖掘的主要算法 GSP(Generalized Sequential Patterns)算法：類似于Apriori算法 PrefixSpan(Prefix-project Sequential Pattern mining)算法：采用分治的思想，不斷產(chǎn)生序列數(shù)據(jù)庫(kù)的多個(gè)更小的投影數(shù)據(jù)庫(kù)，然后在各個(gè)投影數(shù)據(jù)庫(kù)上進(jìn)行序列模式挖掘,序列模式挖掘算法,上述算法存在的主要問(wèn)題：缺少時(shí)間限制：用戶可能需要指定序列模式的相鄰元素之間的時(shí)間間隔。例如，一個(gè)序列模

50、式可能會(huì)發(fā)現(xiàn)客戶在購(gòu)買了物品A后的第三年購(gòu)買物品B。我們需要的卻是給定時(shí)間間隔內(nèi)用戶的購(gòu)買意向事務(wù)的定義過(guò)于嚴(yán)格：一個(gè)事務(wù)中包含在客戶的一次購(gòu)買行為中所購(gòu)買的所有物品。可能需要指定一個(gè)滑動(dòng)時(shí)間窗口，客戶在滑動(dòng)時(shí)間窗口的時(shí)間段內(nèi)的所有的購(gòu)買行為均作為一個(gè)事務(wù) 缺少分類層次：只能在項(xiàng)目的原始級(jí)別上進(jìn)行挖掘,七、數(shù)據(jù)挖掘軟件,,數(shù)據(jù)挖掘軟件的發(fā)展,數(shù)據(jù)挖掘軟件的發(fā)展,第一代數(shù)據(jù)挖掘軟件,特點(diǎn) 支持一個(gè)或少數(shù)幾個(gè)數(shù)據(jù)挖掘算法挖掘向量數(shù)據(jù)（vector-valued data）數(shù)據(jù)一般一次性調(diào)進(jìn)內(nèi)存進(jìn)行處理典型的系統(tǒng)如Salford Systems公司早期的CART系統(tǒng)(www.salford-

51、) 缺陷如果數(shù)據(jù)足夠大，并且頻繁的變化，這就需要利用數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)技術(shù)進(jìn)行管理，第一代系統(tǒng)顯然不能滿足需求。,數(shù)據(jù)挖掘軟件的發(fā)展,第一代數(shù)據(jù)挖掘軟件 CBA,新加坡國(guó)立大學(xué)?；陉P(guān)聯(lián)規(guī)則的分類算法，能從關(guān)系數(shù)據(jù)或者交易數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則，使用關(guān)聯(lián)規(guī)則進(jìn)行分類和預(yù)測(cè),二、數(shù)據(jù)挖掘軟件的發(fā)展,第二代數(shù)據(jù)挖掘軟件,特點(diǎn) 與數(shù)據(jù)庫(kù)管理系統(tǒng)（DBMS）集成支持?jǐn)?shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)，和它們具有高性能的接口，具有高的可擴(kuò)展性能夠挖掘大數(shù)據(jù)集、以及更復(fù)雜的數(shù)據(jù)集通過(guò)支持?jǐn)?shù)據(jù)挖掘模式（data mining schema）和數(shù)據(jù)挖掘查詢語(yǔ)言增加系統(tǒng)的靈活性典型的系統(tǒng)如DBMiner，能通過(guò)DMQL挖掘

52、語(yǔ)言進(jìn)行挖掘操作缺陷只注重模型的生成，如何和預(yù)言模型系統(tǒng)集成導(dǎo)致了第三代數(shù)據(jù)挖掘系統(tǒng)的開(kāi)發(fā),數(shù)據(jù)挖掘軟件的發(fā)展,第二代數(shù)據(jù)挖掘軟件 DBMiner,數(shù)據(jù)挖掘軟件的發(fā)展,第二代軟件 SAS Enterprise Miner,數(shù)據(jù)挖掘軟件的發(fā)展,第三代數(shù)據(jù)挖掘軟件,特點(diǎn) 和預(yù)言模型系統(tǒng)之間能夠無(wú)縫的集成，使得由數(shù)據(jù)挖掘軟件產(chǎn)生的模型的變化能夠及時(shí)反映到預(yù)言模型系統(tǒng)中由數(shù)據(jù)挖掘軟件產(chǎn)生的預(yù)言模型能夠自動(dòng)地被操作型系統(tǒng)吸收，從而與操作型系統(tǒng)中的預(yù)言模型相聯(lián)合提供決策支持的功能能夠挖掘網(wǎng)絡(luò)環(huán)境下（Internet/Extranet）的分布式和高度異質(zhì)的數(shù)據(jù)，并且能夠有效地和操作型系統(tǒng)集成缺陷

53、不能支持移動(dòng)環(huán)境,數(shù)據(jù)挖掘軟件的發(fā)展,第三代軟件 SPSS Clementine,以PMML的格式提供與預(yù)言模型系統(tǒng)的接口,數(shù)據(jù)挖掘軟件的發(fā)展,第四代數(shù)據(jù)挖掘軟件,特點(diǎn) 目前移動(dòng)計(jì)算越發(fā)顯得重要，將數(shù)據(jù)挖掘和移動(dòng)計(jì)算相結(jié)合是當(dāng)前的一個(gè)研究領(lǐng)域。第四代軟件能夠挖掘嵌入式系統(tǒng)、移動(dòng)系統(tǒng)、和普遍存在（ubiquitous）計(jì)算設(shè)備產(chǎn)生的各種類型的數(shù)據(jù) 第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見(jiàn)報(bào)導(dǎo)，PKDD2001上Kargupta發(fā)表了一篇在移動(dòng)環(huán)境下挖掘決策樹(shù)的論文，Kargupta是馬里蘭巴爾的摩州立大學(xué)（University of Maryland Baltimore County）正在研制的C

54、AREER數(shù)據(jù)挖掘項(xiàng)目的負(fù)責(zé)人，該項(xiàng)目研究期限是2001年4月到2006年4月，目的是開(kāi)發(fā)挖掘分布式和異質(zhì)數(shù)據(jù)（Ubiquitous設(shè)備）的第四代數(shù)據(jù)挖掘系統(tǒng)。,數(shù)據(jù)挖掘軟件的發(fā)展,第一代系統(tǒng)與第二代相比因?yàn)椴痪哂泻蛿?shù)據(jù)管理系統(tǒng)之間有效的接口，所以在數(shù)據(jù)預(yù)處理方面有一定缺陷第三、四代系統(tǒng)強(qiáng)調(diào)預(yù)測(cè)模型的使用和操作型環(huán)境的部署第二代系統(tǒng)提供數(shù)據(jù)管理系統(tǒng)和數(shù)據(jù)挖掘系統(tǒng)之間的有效接口第三代系統(tǒng)另外還提供數(shù)據(jù)挖掘系統(tǒng)和預(yù)言模型系統(tǒng)之間的有效的接口目前，隨著新的挖掘算法的研究和開(kāi)發(fā)，第一代數(shù)據(jù)挖掘系統(tǒng)仍然會(huì)出現(xiàn)，第二代系統(tǒng)是商業(yè)軟件的主流，部分第二代系統(tǒng)開(kāi)發(fā)商開(kāi)始研制相應(yīng)的第三代數(shù)據(jù)挖掘系統(tǒng)，比如

55、 IBM Intelligent Score Service。第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見(jiàn)報(bào)導(dǎo),數(shù)據(jù)挖掘軟件的發(fā)展,數(shù)據(jù)挖掘軟件發(fā)展的三個(gè)階段獨(dú)立的數(shù)據(jù)挖掘軟件橫向的數(shù)據(jù)挖掘工具集縱向的數(shù)據(jù)挖掘解決方案,數(shù)據(jù)挖掘軟件的發(fā)展,獨(dú)立的數(shù)據(jù)挖掘軟件（95年以前）,特點(diǎn) 獨(dú)立的數(shù)據(jù)挖掘軟件對(duì)應(yīng)第一代系統(tǒng)，出現(xiàn)在數(shù)據(jù)挖掘技術(shù)發(fā)展早期，研究人員開(kāi)發(fā)出一種新型的數(shù)據(jù)挖掘算法，就形成一個(gè)軟件。這類軟件要求用戶對(duì)具體的算法和數(shù)據(jù)挖掘技術(shù)有相當(dāng)?shù)牧私?，還要負(fù)責(zé)大量的數(shù)據(jù)預(yù)處理工作。比如C4.5決策樹(shù)，平行坐標(biāo)可視化（parallel-coordinate visualization）。,數(shù)據(jù)挖掘軟件

56、的發(fā)展,橫向的數(shù)據(jù)挖掘工具集（95年開(kāi)始）,發(fā)展原因隨著數(shù)據(jù)挖掘應(yīng)用的發(fā)展，人們逐漸認(rèn)識(shí)到數(shù)據(jù)挖掘軟件需要和以下三個(gè)方面緊密結(jié)合：1）數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)；2）多種類型的數(shù)據(jù)挖掘算法；3）數(shù)據(jù)清洗、轉(zhuǎn)換等預(yù)處理工作。隨著數(shù)據(jù)量的增加，需要利用數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)技術(shù)進(jìn)行管理，所以數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)結(jié)合是自然的發(fā)展。現(xiàn)實(shí)領(lǐng)域的問(wèn)題是多種多樣的，一種或少數(shù)數(shù)據(jù)挖掘算法難以解決挖掘的數(shù)據(jù)通常不符合算法的要求，需要有數(shù)據(jù)清洗、轉(zhuǎn)換等數(shù)據(jù)預(yù)處理的配合，才能得出有價(jià)值的模型,數(shù)據(jù)挖掘軟件的發(fā)展,橫向的數(shù)據(jù)挖掘工具集（95年開(kāi)始）,發(fā)展過(guò)程隨著這些需求的出現(xiàn)，1995年左右軟件開(kāi)發(fā)商開(kāi)始提供

57、稱之為“工具集”的數(shù)據(jù)挖掘軟件特點(diǎn) 此類工具集的特點(diǎn)是提供多種數(shù)據(jù)挖掘算法包括數(shù)據(jù)的轉(zhuǎn)換和可視化由于此類工具并非面向特定的應(yīng)用，是通用的算法集合，可以稱之為橫向的數(shù)據(jù)挖掘工具（Horizontal Data Mining Tools）由于此類工具并非面向特定的應(yīng)用，是通用的算法集合，所以稱之為橫向的數(shù)據(jù)挖掘工具典型的橫向工具有IBM Intelligent Miner、SPSS的Clementine、SAS的Enterprise Miner、SGI的MineSet、Oracle Darwin等,數(shù)據(jù)挖掘軟件的發(fā)展,橫向的數(shù)據(jù)挖掘工具集（95年開(kāi)始）,IBM Intelligent M

58、iner SPSS的Clementine SAS的Enterprise Miner SGI的MineSet Oracle Darwin,數(shù)據(jù)挖掘軟件的發(fā)展,縱向的數(shù)據(jù)挖掘解決方案（99年開(kāi)始）,發(fā)展原因隨著橫向的數(shù)據(jù)挖掘工具的使用日漸廣泛，人們也發(fā)現(xiàn)這類工具只有精通數(shù)數(shù)據(jù)挖掘算法的專家才能熟練使用，如果對(duì)算法不了解，難以得出好的模型從1999年開(kāi)始，大量的數(shù)據(jù)挖掘工具研制者開(kāi)始提供縱向的數(shù)據(jù)挖掘解決方案（Vertical Solution），即針對(duì)特定的應(yīng)用提供完整的數(shù)據(jù)挖掘方案對(duì)于縱向的解決方案，數(shù)據(jù)挖掘技術(shù)的應(yīng)用多數(shù)還是為了解決某些特定的難題，而嵌入在應(yīng)用系統(tǒng)中,數(shù)據(jù)挖掘軟件的發(fā)展,

59、縱向的數(shù)據(jù)挖掘解決方案（99年開(kāi)始）,在證券系統(tǒng)中嵌入神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)功能在欺詐檢測(cè)系統(tǒng)中嵌入欺詐行為的分類/識(shí)別模型在客戶關(guān)系管理系統(tǒng)中嵌入客戶成簇/分類功能或客戶行為分析功能在機(jī)器維護(hù)系統(tǒng)中嵌入監(jiān)/檢測(cè)或識(shí)別難以定性的設(shè)備故障功能在數(shù)據(jù)庫(kù)營(yíng)銷中嵌入選擇最可能購(gòu)買產(chǎn)品的客戶功能在機(jī)場(chǎng)管理系統(tǒng)中嵌入旅客人數(shù)預(yù)測(cè)、貨運(yùn)優(yōu)化功能在基因分析系統(tǒng)中嵌入DNA識(shí)別功能在制造/生產(chǎn)系統(tǒng)中嵌入質(zhì)量控制功能等,數(shù)據(jù)挖掘軟件的發(fā)展,縱向的數(shù)據(jù)挖掘解決方案（99年開(kāi)始）,KD1（主要用于零售業(yè)） Options&Choice(主要用于保險(xiǎn)業(yè)) HNC（欺詐行為偵測(cè)） Unica Model 1(主要用于

60、市場(chǎng)營(yíng)銷),數(shù)據(jù)挖掘軟件的發(fā)展,數(shù)據(jù)挖掘軟件的現(xiàn)狀,情況概覽 2002年9月，Amazon上關(guān)于數(shù)據(jù)挖掘的書(shū)有251本() 目前有數(shù)百個(gè)數(shù)據(jù)挖掘軟件產(chǎn)品（）數(shù)據(jù)挖掘應(yīng)用相對(duì)廣泛,數(shù)據(jù)挖掘軟件的現(xiàn)狀,國(guó)內(nèi)大部分處于科研階段各大學(xué)和科研機(jī)構(gòu)從事數(shù)據(jù)挖掘算法的研究國(guó)內(nèi)著作的數(shù)據(jù)挖掘方面的書(shū)較少（翻譯的有）數(shù)據(jù)挖掘討論組（）有一些公司在國(guó)外產(chǎn)品基礎(chǔ)上開(kāi)發(fā)的特定的應(yīng)用 IBM Intelligent Miner SAS Enterprise Miner 自主知識(shí)產(chǎn)權(quán)的數(shù)據(jù)挖掘軟件復(fù)旦德門(mén)（）等,八、數(shù)據(jù)挖掘應(yīng)用,,數(shù)據(jù)挖掘應(yīng)用,數(shù)據(jù)挖掘應(yīng)用,銀行美國(guó)銀行家協(xié)會(huì)(ABA)預(yù)測(cè)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖

61、掘技術(shù)在美國(guó)商業(yè)銀行的應(yīng)用增長(zhǎng)率是14.9。分析客戶使用分銷渠道的情況和分銷渠道的容量；建立利潤(rùn)評(píng)測(cè)模型；客戶關(guān)系優(yōu)化；風(fēng)險(xiǎn)控制等電子商務(wù) 網(wǎng)上商品推薦；個(gè)性化網(wǎng)頁(yè)；自適應(yīng)網(wǎng)站生物制藥、基因研究 DNA序列查詢和匹配；識(shí)別基因序列的共發(fā)生性電信欺詐甄別；客戶流失保險(xiǎn)、零售。。。。。。,數(shù)據(jù)挖掘應(yīng)用,,,數(shù)據(jù)挖掘,保險(xiǎn)客戶,證券客戶,銀行客戶,電信客戶,零售客戶,人類基因,植物基因,動(dòng)物基因,特殊群體基因,基因序列基因表達(dá)譜基因功能基因制藥 ...,數(shù)據(jù)挖掘應(yīng)用,為什么沒(méi)有廣泛使用？,數(shù)據(jù)挖掘正在快速的發(fā)展技術(shù)的研究和開(kāi)發(fā)已經(jīng)走在很前沿的地方數(shù)據(jù)挖掘應(yīng)用面已經(jīng)擴(kuò)充了很多

62、但是仍然沒(méi)有希望的高，為什么？希望在多少年內(nèi)達(dá)到數(shù)十億元的盈利？是一種增值服務(wù)（Not bread-and-butter）不能認(rèn)為高不可攀，所以不去過(guò)問(wèn) 是一門(mén)年輕的技術(shù)，需要和實(shí)際結(jié)合，解決現(xiàn)實(shí)問(wèn)題,數(shù)據(jù)挖掘應(yīng)用,國(guó)內(nèi)應(yīng)用存在的問(wèn)題,數(shù)據(jù)積累不充分、不全面業(yè)務(wù)模型構(gòu)建困難缺少有經(jīng)驗(yàn)的實(shí)施者,數(shù)據(jù)挖掘應(yīng)用,神經(jīng)網(wǎng)絡(luò) Neural Networks,聚類分析 Clustering,Open Accnt,Add New Product,Decrease Usage,???,,Time,序列分析 Sequence Analysis,決策樹(shù) Decision Trees,傾向性分析,客戶保留

63、客戶生命周期管理目標(biāo)市場(chǎng) 價(jià)格彈性分析,客戶細(xì)分市場(chǎng)細(xì)分,傾向性分析客戶保留目標(biāo)市場(chǎng) 欺詐檢測(cè),關(guān)聯(lián)分析 Association,市場(chǎng)組合分析套裝產(chǎn)品分析目錄設(shè)計(jì) 交叉銷售,數(shù)據(jù)挖掘應(yīng)用,聚集（Cluster）聚集是把整個(gè)數(shù)據(jù)庫(kù)分成不同的群組。它的目的是要群與群之間差別很明顯，而同一個(gè)群之間的數(shù)據(jù)盡量相似。常用技術(shù)：神經(jīng)元網(wǎng)絡(luò)、K均值、最近鄰,數(shù)據(jù)挖掘應(yīng)用,異常檢測(cè) 及時(shí)發(fā)現(xiàn)有欺詐嫌疑的異常行為，正確進(jìn)行欺詐問(wèn)題的評(píng)估，對(duì)欺詐者實(shí)施控制和強(qiáng)制措施。技術(shù)：決策樹(shù)，神經(jīng)元網(wǎng)絡(luò)，異常因子LOF檢測(cè),客戶消費(fèi)異常行為分析模型,數(shù)據(jù)挖掘應(yīng)用,客戶分析業(yè)務(wù)模型交叉銷售客戶響應(yīng) 客戶

64、流失客戶利潤(rùn) 信用卡分析業(yè)務(wù)模型客戶信用等級(jí)評(píng)估客戶透支分析客戶利潤(rùn)分析客戶消費(fèi)行為分析客戶消費(fèi)異常行為分析,數(shù)據(jù)挖掘應(yīng)用,數(shù)據(jù)挖掘應(yīng)用,客戶響應(yīng)模型基本概念,響應(yīng)率分析: 分析客戶對(duì)某種新服務(wù)或者新產(chǎn)品的感興趣情況. 為什么要進(jìn)行響應(yīng)率分析: 通過(guò)響應(yīng)率分析能夠有效的降低市場(chǎng)推廣的費(fèi)用,同時(shí)能夠更加有針對(duì)性的面對(duì)目標(biāo)市場(chǎng).達(dá)到以最小的投入獲得最佳效果的目的,數(shù)據(jù)挖掘應(yīng)用,用哪一種數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)？,響應(yīng)率分析是為了對(duì)某項(xiàng)市場(chǎng)營(yíng)銷（新產(chǎn)品銷售）活動(dòng)找到最合適的響應(yīng)客戶，需要預(yù)測(cè)哪些客戶能夠響應(yīng)，以及響應(yīng)的可能性是多少。因此，需要構(gòu)建預(yù)言模型分類是預(yù)言模型的一種技術(shù)，可以利用分類

65、技術(shù)構(gòu)建客戶響應(yīng)率模型決策樹(shù) 神經(jīng)網(wǎng)絡(luò) 貝葉斯分類 ,數(shù)據(jù)挖掘未來(lái)發(fā)展,與數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)集成與預(yù)言模型系統(tǒng)集成挖掘各種復(fù)雜類型的數(shù)據(jù) 與應(yīng)用相結(jié)合研制和開(kāi)發(fā)數(shù)據(jù)挖掘標(biāo)準(zhǔn) 支持移動(dòng)環(huán)境,數(shù)據(jù)挖掘應(yīng)用時(shí)間序列模式挖掘,,工業(yè)過(guò)程變量時(shí)間序列,生產(chǎn)過(guò)程的類型連續(xù)過(guò)程：工藝參數(shù)（設(shè)定值）均為常量。批量過(guò)程：工藝參數(shù)（設(shè)定值）通常為變量。工藝參數(shù)的數(shù)據(jù)類型數(shù)值型、邏輯型、枚舉型產(chǎn)品質(zhì)量的數(shù)據(jù)類型邏輯型：只判斷產(chǎn)品的好壞數(shù)值型：給出產(chǎn)品質(zhì)量好壞的程度,批量型生產(chǎn)過(guò)程,質(zhì)量檢驗(yàn)！,預(yù)熱階段,加熱階段,均熱階段,,連續(xù)型生產(chǎn)過(guò)程,數(shù)據(jù)挖掘?qū)ο蟮幕緲?gòu)成,,,,,,樣本的抽?。ㄅ可a(chǎn)

66、過(guò)程）,,,,,,,,,t,t,x1(t),y1,y2,y3,x2(t),x3(t),X,Y,,,連續(xù)生產(chǎn)過(guò)程的樣本抽取,連續(xù)過(guò)程批量過(guò)程,,,,,,T1,T2,T3,,,,,,,v,,,,x1,x2,x3,,,質(zhì)量檢驗(yàn)！,0,t1,t2,t3,,,,,,如何“組裝”時(shí)間序列？,關(guān)于生產(chǎn)質(zhì)量改變的模式假設(shè),生產(chǎn)質(zhì)量不良的原因是工藝參數(shù)設(shè)計(jì)或控制有問(wèn)題：設(shè)計(jì)階段：工藝參數(shù)設(shè)計(jì)有錯(cuò)誤；控制階段：工藝參數(shù)未能控制在設(shè)計(jì)值；上述因素都可通過(guò)生產(chǎn)過(guò)程中工藝參數(shù)的時(shí)間序列實(shí)測(cè)樣本反映出來(lái)。工藝參數(shù)的時(shí)間序列中某些特征的改變，引起生產(chǎn)質(zhì)量從量變到質(zhì)變。時(shí)間序列的特征，可以用模式來(lái)描述。時(shí)間序列的模式改變，是生產(chǎn)質(zhì)量不良的原因。數(shù)據(jù)挖掘的目的，就是要尋找引起生產(chǎn)質(zhì)量不良的工藝參數(shù)模式。,時(shí)間序列的模式抽取,目的：將時(shí)間序列樣本集合轉(zhuǎn)換為特征模式樣本集合，每一種模式（或若干種模式的一種組合）用一個(gè)整數(shù)來(lái)編碼，從而將數(shù)據(jù)挖掘的對(duì)象從時(shí)間序列空間轉(zhuǎn)換為整數(shù)空間。其中，mi 為 xi (t) 所包含的特征模式的集合。注意： mi 不再是時(shí)間序列 mi 可能是多元素的集合，即 xi(t)

展開(kāi)閱讀全文

溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

備案號(hào):蜀ICP備2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務(wù)平臺(tái)，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請(qǐng)立即通知裝配圖網(wǎng)，我們立即給予刪除！

《數(shù)據(jù)挖掘技術(shù)》PPT課件.ppt

最新文檔

相關(guān)資源

相關(guān)搜索