機(jī)械專業(yè)外文文獻(xiàn)翻譯-外文翻譯---不完整測量數(shù)據(jù)的概念建構(gòu) 中文版
《機(jī)械專業(yè)外文文獻(xiàn)翻譯-外文翻譯---不完整測量數(shù)據(jù)的概念建構(gòu) 中文版》由會員分享,可在線閱讀,更多相關(guān)《機(jī)械專業(yè)外文文獻(xiàn)翻譯-外文翻譯---不完整測量數(shù)據(jù)的概念建構(gòu) 中文版(12頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
不完整測量數(shù)據(jù)的概念建構(gòu) 王壽宏,王海 摘要 : 對資料挖掘來說,未經(jīng)加工的調(diào)查數(shù)據(jù)通常是不完整的。資料挖掘中缺失數(shù)據(jù)的問題在知識發(fā)現(xiàn)過程中常被忽略。這篇文章介紹了在不完整調(diào)查數(shù)據(jù)中資料挖掘的基礎(chǔ)概念,以及計劃知識發(fā)現(xiàn)中的咨詢過程,和在調(diào)查資料挖掘咨詢功能在概念解釋上的發(fā)展趨勢。這篇文章通過一個事例,論證了通過使用人工智力工具譬如自組織映射,不完整數(shù)據(jù)的概念解釋可以完成。 數(shù)據(jù)挖掘就是分析數(shù)據(jù)以圖從中找出有用模型的過程。而數(shù)據(jù)挖掘與傳統(tǒng)的 統(tǒng)計分析有所不同,因?yàn)閿?shù)據(jù)挖掘的目的是找出對數(shù)據(jù)所有 者或數(shù)據(jù)挖掘員有價 值而又確定的關(guān)系。鑒于數(shù)據(jù)的維數(shù)和數(shù)據(jù)量本身的巨大,傳統(tǒng)的的統(tǒng)計分析方 法在數(shù)據(jù)挖掘時有其局限性。為滿足數(shù)據(jù)挖掘的最新需要,在數(shù)據(jù)挖掘領(lǐng)域里面 已經(jīng)廣泛采用基于人 數(shù)據(jù)挖掘時有很多非統(tǒng)計技術(shù)?;?經(jīng)網(wǎng)絡(luò)的自組織映射 (是其中一種比較有前途的方法?;诩杭夹g(shù)的 對其他方法來說有優(yōu)勢。通常數(shù)據(jù)挖掘技術(shù)處理一些十分高維的數(shù)據(jù),也就是說做數(shù)據(jù)挖掘的數(shù)據(jù)庫通常是由很多變量決定的?!熬S數(shù)災(zāi)難”使得對數(shù)據(jù)關(guān)系的統(tǒng)計分析變得毫無意義,這也使得 統(tǒng)計方法變得無能為力了。然而 而被認(rèn)為是處理多維數(shù)據(jù)的有效方法。更為重要的是 種特色是其他任何數(shù)據(jù)分析方法都不具備的。它允許數(shù)據(jù)挖掘者分析該問題域中的集群。 測量只是數(shù)據(jù)采集中的一種普通數(shù)據(jù)獲取方法。在數(shù)據(jù)挖掘的中,我們得到的調(diào)研數(shù)據(jù)集通常很難滿足每個變量都有填寫完全的觀測結(jié)果。一般地,被調(diào)查者只部分地完成調(diào)研和問卷調(diào)查的內(nèi)容。當(dāng)事實(shí)上我們無法再次面向被調(diào)查者完成調(diào)研和問卷調(diào)查的全部內(nèi)容時,我們并不知道缺失數(shù)據(jù)的嚴(yán)重性 ,但這是數(shù)據(jù)掘中有待發(fā)現(xiàn)的最重要部分之一。事實(shí)上,在知識工程領(lǐng)域缺失數(shù)據(jù)是一個重要而具有爭議的問題。 通過集群分析在挖掘由不完整數(shù)據(jù)構(gòu)成的調(diào)查數(shù)據(jù)庫過程中,缺失數(shù)據(jù)的類 型及缺失數(shù)據(jù)對數(shù)據(jù)挖掘的潛在影響是一門學(xué)問。例如,數(shù)據(jù)挖掘者通常希望能 知道集群分析的可信程度;一些有價值的類型通常是什么時候和怎樣丟失的;以 及丟失有價值數(shù)據(jù)的時候哪些變量與之有關(guān)系。這些有價值東西在缺失數(shù)據(jù)集部 分被充分發(fā)掘之后才能發(fā)現(xiàn)。 這篇文章討論了知識發(fā)現(xiàn)中在發(fā)掘調(diào)研數(shù)據(jù)庫過程中數(shù)據(jù)缺失的問題,并介 紹了概念解釋的概 念基礎(chǔ),以及建議設(shè)立基于 下部分是這樣安排的:第二部分討論數(shù)據(jù)缺失與數(shù)據(jù)挖掘的關(guān)系問題;第三部分介紹數(shù)據(jù)挖掘中 四部分說明了挖掘不完整數(shù)據(jù)的 4個概念的知識發(fā)現(xiàn);并提供了應(yīng)用 五部分建立用于操控 六部分介紹一個例子,該例子應(yīng)用咨詢工具對一個學(xué)生判斷測量的數(shù)據(jù)集進(jìn)行熟練操作 后,第七部分作了結(jié)束語。 2 數(shù)據(jù)缺失問題 不完整數(shù)據(jù)集普遍存在于數(shù)據(jù)挖掘中。數(shù)據(jù)缺失的解決辦法有許多 種 ,其中對付不完整數(shù)據(jù)的一種方便辦法是將那些已記錄沒有價值的數(shù)據(jù)集排除掉。然而這忽略了這些記錄中潛在的有用信息。萬一缺失數(shù)據(jù)的比重較大,從篩選過的數(shù)據(jù)中得出的結(jié)論就會有偏頗或引起誤導(dǎo)。 另一種處理丟失數(shù)據(jù)的簡單方法是用一類通用的“未知”來代替所有丟失數(shù) 據(jù)項(xiàng)。數(shù)據(jù)挖掘中,不確定的“未知”通常在丟失數(shù)據(jù)項(xiàng)中引起混亂和誤解。 對付缺失數(shù)據(jù)的第三種辦法是排除數(shù)據(jù)域中沒有價值的數(shù)據(jù)。對于時序數(shù)列,可觀察到的相鄰數(shù)據(jù)點(diǎn)可以插補(bǔ)。一般情況下,數(shù)據(jù)域中預(yù)期值可用于統(tǒng)計測量。然而,數(shù)據(jù)挖掘中,調(diào)研數(shù)據(jù)類型通 常是隊(duì)、類,有多項(xiàng)選擇的,二進(jìn)制的。這些例子中,插補(bǔ)及特殊缺失數(shù)據(jù)變量的使用通常是不夠的。更為重要的是, 研究表明,解決缺失數(shù)據(jù)的有效辦法應(yīng)該總是獨(dú)立于問題之外去研究。 新近,發(fā)現(xiàn)損缺失數(shù)據(jù)集的合計概念方向有了精確的方法。這些方法與傳統(tǒng) 逼近法處理缺失數(shù)據(jù)截然不同,它著眼于缺失數(shù)據(jù)的整體,而不是個別缺失的價 值。這些方法的這個高級特征使不完整數(shù)據(jù)的數(shù)據(jù)挖掘得以加強(qiáng)。然而這些統(tǒng)計 方法有其局限性。首先,得假定缺失價值存在于隨機(jī)方式或者新遵循一定的分配 儀式。這些關(guān)于數(shù)據(jù)分配嚴(yán)格假定通常是無效的,特別對不完 善數(shù)據(jù)的測定。第 二,這些數(shù)學(xué)模型通常是數(shù)據(jù)驅(qū)動,而不是“問題領(lǐng)域驅(qū)動”。實(shí)際上,由于數(shù) 據(jù)挖掘的目標(biāo)常常與具體問題域有關(guān)聯(lián),一個單獨(dú)普通概念建構(gòu)算法不足以應(yīng)付 數(shù)據(jù)挖掘的多樣目標(biāo)。 數(shù)據(jù)庫的知識發(fā)現(xiàn)是鑒別有效的、新奇的、有潛在作用并最終可以理解的數(shù) 據(jù)模式的有實(shí)際意義的過程。根據(jù)這個定義,這項(xiàng)研究強(qiáng)調(diào)利用不完整數(shù)據(jù)進(jìn)行 數(shù)據(jù)挖掘概念構(gòu)建的兩個方面。首先,利用不完整數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘中,有效、 新奇、有用的標(biāo)準(zhǔn)隨問題而定。那就是,一個數(shù)據(jù)模式不單獨(dú)依賴于該模式估計 的統(tǒng)計力,也依賴于數(shù)據(jù)挖掘者。第二, 通過對建立于計算機(jī)和人類認(rèn)識理論的 組合空間的啟發(fā)式研究,可以完成基于不完整數(shù)據(jù)的概念建構(gòu)。人機(jī)協(xié)作進(jìn)行概 念建構(gòu)就是在數(shù)據(jù)挖掘者和計算機(jī)之間發(fā)掘出新奇、似是而非、有用的、相關(guān)的 和有趣味性與缺失數(shù)據(jù)相關(guān)的知識的人機(jī)交互式過程。 照我們看來,數(shù)據(jù)挖掘與傳統(tǒng)統(tǒng)計在處理缺失數(shù)據(jù)方面有很多不同。 (1)數(shù)據(jù)挖掘試圖從數(shù)據(jù)中去發(fā)掘出無疑的、潛在的有用模式,是由于數(shù)據(jù)挖掘者的新奇目標(biāo)在于缺失數(shù)據(jù)而不在于估計個別缺失數(shù)據(jù)的價值。 (2)數(shù)據(jù)挖掘是人類知識發(fā)現(xiàn)環(huán)道中心環(huán)節(jié)工具 ,該過程是通過人機(jī)交互 而認(rèn) 識到由集合水平上缺失數(shù)據(jù)引起的沖擊,更甚于僅用基于未經(jīng)證實(shí)的假設(shè)的數(shù)學(xué) 方法得出的結(jié)論。 映射組織( 假如有一個很大多維集調(diào)研的例子,通常就會有很大一部分觀察資料丟失 價值,然而并非所有的缺失數(shù)據(jù)都引起數(shù)據(jù)挖掘者的興趣。因此,對于一個有巨 大數(shù)據(jù)來說,任何簡單的強(qiáng)力搜索缺失數(shù)據(jù)的方法都是不可行,而且,當(dāng)數(shù)據(jù)挖 掘者通過數(shù)據(jù)挖掘僅為了找出問題或者發(fā)展概念時該方法是沒有用的。為明確問 題或創(chuàng)建概念,數(shù)據(jù)挖掘者需要一種工具來觀察可利用數(shù)據(jù)與缺失數(shù)據(jù)的確定模 式。 由于自映射組織( 流行的 此在群集分組中廣泛應(yīng)用。更為重要的是, 數(shù)據(jù)挖掘者提供數(shù)據(jù)的可視化,用來觀察多維數(shù)據(jù)。研究表明, 別是, 用在多變量測量數(shù)據(jù)的集群分析。這個研究更進(jìn)一步,把完整數(shù)據(jù)的概念建構(gòu)是為了研究缺失數(shù)據(jù)的模式,如同這些缺失數(shù)據(jù)對基于完整數(shù)據(jù)的挖掘結(jié)果的潛在沖擊。下面例子說明, 通過無人監(jiān)督(競爭的)學(xué)習(xí)過程 ,學(xué)會一定有用的特征, 以及把多維數(shù)據(jù)繪制到低維圖片,這樣數(shù)據(jù)挖掘者可觀測到集群圖片。圖 1描述了研究中應(yīng)用二層 層節(jié)點(diǎn)(輸入節(jié)點(diǎn))通過采樣數(shù)據(jù)點(diǎn)接收輸入數(shù)值。高層節(jié)點(diǎn)(輸出節(jié)點(diǎn))在無人監(jiān)督學(xué)習(xí)后回饋輸入的組織映象。每個低層節(jié)點(diǎn)都經(jīng)過一個可變聯(lián)接權(quán)量,聯(lián)結(jié)到每個高層節(jié)點(diǎn)。 始時聯(lián)結(jié)承載較小隨機(jī)數(shù)學(xué)。輸入節(jié)點(diǎn)接收由采樣數(shù)據(jù)點(diǎn)引入的輸入代表向量。輸入向量經(jīng)過聯(lián)接傳送到輸出節(jié)點(diǎn)。激活的輸出節(jié)點(diǎn)依賴于輸入。 在勝者通吃的競爭制度中,與輸入向量有最相似的權(quán)量的輸出節(jié)點(diǎn)被激活。在學(xué)習(xí)階段,權(quán)量依照 權(quán)量更新僅存在于激活的輸出節(jié)點(diǎn)以及拓?fù)溧忺c(diǎn)(如圖 1)。在這種一維空間輸出事例中,我們假定了一個線性鄰域。該鄰域開始很大,尺寸隨時間慢慢減小。因?yàn)閷W(xué)習(xí)速度將趨于零,學(xué)習(xí)進(jìn)程也將最終集于一點(diǎn)。 引入足夠的輸入向量后,權(quán)量將指定群集以便本地群集密度函數(shù)趨于接近輸 入向量的密度函數(shù)。由于共享相似拓?fù)涞墓?jié)點(diǎn)對相似輸入敏感,所以權(quán)量得組織。因而 時,在預(yù)先并不了解 聚類中心的情況下,也體現(xiàn)真實(shí)自映射組織聚類。讀者可到 12章中看更詳細(xì)內(nèi)容。 4、不完整數(shù)據(jù)的概念建構(gòu) 這篇文章中,不完整數(shù)據(jù)的概念建構(gòu)通過兩個階段來完成的。首先, 示了引入聚類的數(shù)據(jù)的不同尋常的模式?;谶@些聚類,數(shù)據(jù)挖掘者能鑒別出明確的數(shù)據(jù)模式,并清晰說清楚問題。其次,與正被討論的聚類有關(guān)聯(lián)的缺失價值的不完整數(shù)據(jù),構(gòu)造出新概念。這一段中,數(shù)據(jù)挖掘者估計了缺失數(shù)據(jù)對問題鑒別以及發(fā)展與缺失數(shù)據(jù)相關(guān)的知識的沖擊。第一階段的任務(wù)跟大部分 篇文章 集中目標(biāo)于第二階段,并計劃了不完整數(shù)據(jù)數(shù)據(jù)挖掘的概念建構(gòu)的方法。下一步,我們建造四個概念作為不完整數(shù)據(jù)數(shù)據(jù)挖掘的知識發(fā)現(xiàn)。如同本文后面所講的,通過人協(xié)作和基于些概念能夠建造出來。 靠性 依照正被調(diào)查的問題,可靠性概念顯示了缺失數(shù)據(jù)的范圍。有兩個指數(shù)應(yīng)用 于該概念。 S/ 使用的聚類鑒定的完整價值的數(shù)據(jù)采樣的數(shù)量。顯然,值越高,聚類的觀測可靠性越低。 i)/CV(i) i)是變量 V(i)是使用的聚類鑒定的采樣變量 i 的數(shù)值。再則,根據(jù)變量 i, i)/CV(i)的值越大,聚類的觀測可靠性越低。 匿 隱匿的概念揭示一次觀測結(jié)果的值在一定范圍內(nèi)變化意味著將在另一個變量中丟失價值。 i)|x(j)=(a,b) i)是變量 x(j)是變量 ( a,b)是 x(j)的值的范圍。 索引揭示了測量疑問的不確定答案的程度,例如“未知”和 “中立的”,或者組織缺失數(shù)據(jù)的意圖,例如“不想告訴”。 求運(yùn)算 反求運(yùn)算的概念揭示了變量同時更可能缺失值。 i,j)/ i) i,j)是變量 i 和 j 的漏測值 , i)是變量 個概念揭示兩個變量的漏測值的相互關(guān)系。 i,j)/ i)的值越大,漏測值之間的相互關(guān)系越緊密。 件效應(yīng) 條件效應(yīng)這個概念揭示了聚類鑒別的潛在變化,若缺失價值已完成。 P | )(=k P 是數(shù)據(jù)挖掘者感覺到的聚類的變化量, )(代表變量 i 的所有漏測值,而 k 是測量中可能出現(xiàn) 的可能值。特別地,k=p, 刻度的最大值, 刻度的最小值,而 漏測值來說,賦予 據(jù)挖掘者可能觀測到聚類的變化,然后重新限定問題。 簡言之,不完整數(shù)據(jù)的概念建構(gòu)是一門學(xué)問的發(fā)展過程。不完整數(shù)據(jù)中建造一個新概念,需要數(shù)據(jù)挖掘者去明確建構(gòu)中的特別問題。漏測值的四個概念是可靠性、隱匿性、求反運(yùn)算及條件效應(yīng)。下一步我們逐步展開不完整數(shù)據(jù)概念建構(gòu)中的質(zhì)疑。我們質(zhì)疑的目的是使數(shù)據(jù)挖掘者能夠通過使用 而建造 出新的與問題相關(guān)的概念。 5、概念建構(gòu)的詢問處理 結(jié)構(gòu)化查詢語言( 種查詢工具具有特征,這種標(biāo)準(zhǔn)查詢語言常用于相關(guān)數(shù)據(jù)庫管理系統(tǒng)。對于數(shù)據(jù)挖掘,由于數(shù)據(jù)庫信息檢索的最終目標(biāo)是通過應(yīng)用多變技術(shù)的明確表達(dá)的知識,創(chuàng)造一種單純的標(biāo)準(zhǔn)查詢語言能滿足數(shù)據(jù)挖掘的各個目的是不太可能的。然而,為了維持人機(jī)協(xié)作高效運(yùn)轉(zhuǎn),數(shù)據(jù)挖掘中可視化詢問處理很必要。這個研究通過基于 展一套查詢函數(shù)來幫助數(shù)據(jù)挖掘者建造與缺失數(shù)據(jù)相關(guān)的概念。 基于 這使資料庫、 序與詢問處理有可能整合為一個單純環(huán)境。應(yīng)用微軟的 靠電子表格,數(shù)據(jù)得以儲存;通過宏指令( 序得以執(zhí)行;圖形函數(shù)支持?jǐn)?shù)據(jù)可視化;宏指令也使得查詢處理函數(shù)能夠運(yùn)行。圖 2描述了系統(tǒng)結(jié)構(gòu)的技術(shù)細(xì)節(jié)。解決了基于 軟件問題,系統(tǒng)結(jié)構(gòu)變得簡單而易于執(zhí)行。然而,從實(shí)際應(yīng)用的觀點(diǎn)來看,軟件系統(tǒng)限制了數(shù)據(jù)挖掘中數(shù)據(jù)庫的規(guī)模。 七組查詢函數(shù)已發(fā)展起來,對應(yīng)于上一節(jié)所描述數(shù)據(jù)挖掘中的四個概念以及一般操作函數(shù)。通過圖形用戶界面,數(shù)據(jù)挖掘者使用詢問處理系統(tǒng)。 得完整數(shù)據(jù)的聚類 數(shù)據(jù)挖掘者使用查詢函數(shù)來觀測聚類及鑒定不用懷疑的完整價值數(shù)據(jù)集模式?;谀切┚垲悾瑪?shù)據(jù)挖掘者明確問題所在。數(shù)據(jù)挖掘者能夠選擇適合 設(shè)置拓?fù)浜?類的數(shù)量非常依賴于自然數(shù)據(jù)和 數(shù)間的復(fù)雜關(guān)系。然而,通過減少 據(jù)挖掘者通常能夠減少聚類的數(shù)量;反之亦然。 應(yīng)用這個查詢函數(shù),數(shù)據(jù)挖掘者能夠描繪所查詢的 于一個聚類的邊界線在圖中通常是模糊不清的,對聚類的描繪只能基于他或她對聚類的感知。在內(nèi)部, 對應(yīng)觀測采樣,輪廓與聚類的 使電腦程序追溯聚類到數(shù)據(jù)成為可能。查詢函數(shù)返回該聚類的變量的值的范圍。 查詢是為了保存和更正的 一般操作,如同設(shè)置數(shù)據(jù)樣值的參數(shù)、變量。數(shù)據(jù)挖掘者能夠把一系列的 明 據(jù)挖掘者想知道的是觀測到的聚類的可靠性如何。這個查詢允許數(shù)據(jù)挖掘者去查明 訓(xùn)所用變量。如果 據(jù)挖掘者能夠發(fā)現(xiàn)個別變量的可靠性,如下面所述的。 明 (i)/CV(i) 數(shù)據(jù)挖掘者可能對某一變量感興趣。應(yīng)用這個查詢,他能夠根據(jù)這個別的變量來核查聚類的觀測是否可靠。 查明 (i)/x(j)=(a,b) 該查詢函數(shù)能夠讓數(shù)據(jù)挖掘者查明一個變量的缺失值與別一變量的值的范圍之間的相互關(guān)系。這種關(guān)系提供如數(shù)值什么時候會丟失之類的信息。應(yīng)用該查詢,數(shù)據(jù)挖掘者詳細(xì)查明兩個變量如缺失值之間可能的相互關(guān)系、已一個變量知值的范圍及在其他變量中發(fā)現(xiàn)有缺失值的觀測的數(shù)量。 查明 (I,j)/ i) 該查詢函數(shù)能夠讓數(shù)據(jù)挖掘者找出兩個變量間缺失值的 相互聯(lián)系。應(yīng)用該查詢,數(shù)據(jù)挖掘者首先選擇兩個與問題相關(guān)的變量進(jìn)行調(diào)查,然后查明這兩個變量可能總共多久一次丟失值。 查明 )(| =k 該查詢函數(shù)允許數(shù)據(jù)挖掘者用假定值代替缺失值,及觀察聚類的變化。假定值可能是最大與最小值中間的任何數(shù)。與返回詳細(xì)數(shù)據(jù)不同,查詢函數(shù)返回多樣的映射以便數(shù)據(jù)挖掘者用不同的 于假定分析試驗(yàn),數(shù)據(jù)挖掘者能夠在感知缺失值在確定問題中的沖擊。 6、用一個例子來學(xué)習(xí)概念建構(gòu) 這一節(jié)中我們用一個例子來闡明不完整測量數(shù)據(jù) 的概念建構(gòu)中基于 查詢系統(tǒng)的應(yīng)用。學(xué)生的教師調(diào)查法在大學(xué)中廣泛應(yīng)用于估評教授的教學(xué)質(zhì)量。研究中沿用的數(shù)據(jù)來自加拿大大學(xué)一個學(xué)生對教師調(diào)查法(附件 A)。在這個例子中二十一個問題描述了一個教師的表現(xiàn)特征。每個問題都有五個等級的答案讓學(xué)生回答。一個問題得高分表明問題的答案是積極的。這些問題的加權(quán)平均數(shù)由聯(lián)系于評價教學(xué)效果的多種數(shù)據(jù)組成。學(xué)校教學(xué)中心的一個任務(wù)是了解教學(xué)中的問題,以便采取相應(yīng)方法(例如,教學(xué)研究會及研究所)去攻克這些問題。 由于二十個問題與一個班級學(xué)期教學(xué)效果評估相關(guān),二十個變量組成 后一個問題與教師分級相關(guān)。研究中,該變量用于與低效教學(xué)相關(guān)的選擇,而這些教學(xué)基于該問題全部測量數(shù)據(jù)的中間值。 表 1 概念建構(gòu)的例子 聚類 (采樣 %) 問題相關(guān)變量 基于完整數(shù)據(jù)的問題鑒別 不完整數(shù)據(jù)的概念建構(gòu) 1 (生測試結(jié)果需要更 多令人信服的解釋 測試和分配不能夠?qū)? 學(xué)生提供反饋?zhàn)饔? 對即時分級不滿意的學(xué)生, 通常對他們能否得到對 工作有益注解漠不關(guān)心 2 (該更好規(guī)劃測試和分配 對課程學(xué)習(xí)經(jīng)驗(yàn)忽略看法 的學(xué)生通常對適當(dāng)測試或 者布置規(guī)劃漠不關(guān)心 3 (V1,能很好描述困難概念;特 別是,課本沒有給出太多幫 助時 雖然 缺失值率最高, 缺失值對問題鑒定不具 嚴(yán)重沖擊 收集 3823 個無效教學(xué)質(zhì)量觀測采樣數(shù)據(jù)后可確認(rèn)這個學(xué)校的教學(xué)問題。這些數(shù)據(jù)中, 2788個是完整的。 用 300 個 200個初始化領(lǐng)域節(jié)點(diǎn)后,初始學(xué)習(xí)率是 2000個學(xué)習(xí)疊代后, 個聚類表明有一組存在低值,該值在進(jìn)一步分析后排除幾乎所有變量后得出的。三個聚類有蘊(yùn)含意義。 根據(jù)聚類分析,發(fā)現(xiàn)接收到低值的變量 v1, 較特別,與無效教學(xué)有關(guān),如表 1中前三行所述。 然后不完整數(shù)據(jù)用于建造該問題的新概念。 1: 雖然觀測資料的不完整率達(dá)對整個測量來說高達(dá) 37%,根據(jù)關(guān)系密切的變量( v1, 這說明最初識別的問題通常有效的。 2: i)/ )(失值率最高是 這說明這變量(例如,無用的課本和教學(xué)材料)指示的無效教學(xué)的可靠性可能不如其他相關(guān)變量可靠。 3: )(|)( (a,b) 然而, 缺失值來 自觀測函數(shù) x(1,3。這說明不滿意即時分級通常對他們能否收到對他們工作有益意見漠不關(guān)心。 4: )(|),( M 然而 14(|)19,14( M =密相聯(lián)在一塊。這說明忽略課程學(xué)習(xí)經(jīng)驗(yàn)的看法的學(xué)生,通常對測試或分配要適當(dāng)計劃漠不關(guān)心。 )(| =k 這個例子中, 失值最高 (達(dá) 。數(shù)據(jù)挖掘者可能 想了解缺失數(shù)據(jù)的潛在沖擊。在完整數(shù)據(jù)中, 最小值是 1,最大值是 5, 概率分布是, , , , 。設(shè)置好的試驗(yàn)數(shù)據(jù)用來為 完整數(shù)據(jù)中應(yīng)用相同的 撲,假定分析試驗(yàn)是引導(dǎo)。 如圖 3 所示,這個例子的全部的結(jié)論是, 這個例子中,缺失值新的概念建構(gòu)在表 1的第四欄中總結(jié)出來了。 這個例子闡述了被提議的概念 建構(gòu)方法的使用,并提供一個提議方案的實(shí)驗(yàn)試驗(yàn)。容易看出,這個例子研究的數(shù)據(jù)挖掘的數(shù)值范圍相當(dāng)小。一般來說,比起這個例子來,數(shù)據(jù)挖掘應(yīng)用于在規(guī)模和維數(shù)大得多的數(shù)據(jù)集。 7. 結(jié)論 在數(shù)據(jù)挖掘領(lǐng)域,不完整數(shù)據(jù)通常受到不公正對待。這篇文章提議不完整數(shù)據(jù)的概念建構(gòu),并提及了四個種類的缺失值概念。對于問題鑒別、數(shù)據(jù)隱藏意圖、兩個變量的缺失值求反運(yùn)算以及缺失數(shù)據(jù)的條件效應(yīng),這些是可靠的。由于 被選作概念建構(gòu)的工具?;?類分析,這篇文章接著建議七類查詢函數(shù)來建構(gòu)不完整 數(shù)據(jù)概念。使用這些查詢函數(shù),數(shù)據(jù)挖掘者能夠建構(gòu)與數(shù)據(jù)挖掘問題鑒別相關(guān)的新的概念。雖然與真實(shí)事例不同,但它已被證明,概念建構(gòu)的模式能更好用在知識發(fā)現(xiàn)方面。 知識發(fā)現(xiàn)在數(shù)據(jù)庫是個正在成長的領(lǐng)域。一般來說,知識發(fā)現(xiàn)開始于原始的問題鑒別。然而問題鑒別典型地證實(shí)為數(shù)據(jù)庫和一般統(tǒng)計算法力所不及的。在知識發(fā)現(xiàn)過程中,必須建造新的概念使數(shù)據(jù)不那么神秘??傊煌暾麛?shù)據(jù)的概念建構(gòu)為知識發(fā)展提供有效的技術(shù),因而,基于數(shù)據(jù)細(xì)節(jié)問題領(lǐng)域和挖掘者的對缺失數(shù)據(jù)的感知,他能夠說明數(shù)據(jù)挖掘的結(jié)果。以后的工作包括在數(shù)據(jù)庫系統(tǒng)主機(jī)上執(zhí) 行軟件系統(tǒng),并進(jìn)一步評估被提議在更大范圍的數(shù)據(jù)集的方法。- 1.請仔細(xì)閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
5 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 機(jī)械 專業(yè) 外文 文獻(xiàn) 翻譯 完整 測量 數(shù)據(jù) 概念 建構(gòu) 中文版
鏈接地址:http://m.appdesigncorp.com/p-16929.html