知識(shí)發(fā)現(xiàn)
目錄
1.知識(shí)發(fā)現(xiàn)的概述
基于數(shù)據(jù)庫的知識(shí)發(fā)現(xiàn)(KDD)和數(shù)據(jù)挖掘還存在著混淆,通常這兩個(gè)術(shù)語替換使用。KDD表示將低層數(shù)據(jù)轉(zhuǎn)換為高層知識(shí)的整個(gè)過程??梢詫DD簡單定義為:KDD是確定數(shù)據(jù)中有效的、新穎的、潛在有用的、基本可理解的模式的特定過程。而數(shù)據(jù)挖掘可認(rèn)為是觀察數(shù)據(jù)中模式或模型的抽取,這是對(duì)數(shù)據(jù)挖掘的一般解釋。雖然數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)過程的核心,但它通常僅占KDD的一部分(大約是15% 到25%) 。因此數(shù)據(jù)挖掘僅僅是整個(gè)KDD過程的一個(gè)步驟,對(duì)于到底有多少步以及哪一步必須包括在KDD過程中沒有確切的定義。然而,通用的過程應(yīng)該接收原始數(shù)據(jù)輸入,選擇重要的數(shù)據(jù)項(xiàng),縮減、預(yù)處理和濃縮數(shù)據(jù)組,將數(shù)據(jù)轉(zhuǎn)換為合適的格式,從數(shù)據(jù)中找到模式,評(píng)價(jià)解釋發(fā)現(xiàn)結(jié)果。
2.知識(shí)發(fā)現(xiàn)的基本任務(wù)
1)數(shù)據(jù)分類。分類是數(shù)據(jù)挖掘研究的重要分支之一,是一種有效的數(shù)據(jù)分析方法。分類的目標(biāo)是通過分析訓(xùn)練數(shù)據(jù)集,構(gòu)造一個(gè)分類模型(即分類器),該模型能夠把數(shù)據(jù)庫中的數(shù)據(jù)記錄映射到一個(gè)給定的類別,從而可以l立用于數(shù)據(jù)預(yù)測。
2)數(shù)據(jù)聚類。當(dāng)要分析的數(shù)據(jù)缺乏必要的描述信息,或者根本就無法組織成任何分類模式時(shí),利用聚類函數(shù)把一組個(gè)體按照相似性歸成若干類,這樣就可以自動(dòng)找到類。聚類和分類類似,都是將數(shù)據(jù)進(jìn)行分組。但與分類不同的是,聚類中的組不是預(yù)先定義的,而是根據(jù)實(shí)際數(shù)據(jù)的特征按照數(shù)據(jù)之間的相似性來定義的。
3)衰退和預(yù)報(bào)。這是一種特殊類型的分類,可以看作是根據(jù)過去和當(dāng)前的數(shù)據(jù)預(yù)測未來的數(shù)據(jù)狀態(tài)。通過對(duì)用衰減統(tǒng)計(jì)技術(shù)建模的數(shù)字值的預(yù)測,學(xué)習(xí)一種(線性或非線性)功能將數(shù)據(jù)項(xiàng)映射為一個(gè)數(shù)字預(yù)測變量。
4)關(guān)聯(lián)和相關(guān)性。是指發(fā)現(xiàn)大規(guī)模數(shù)據(jù)集中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)關(guān)系。關(guān)聯(lián)規(guī)則是指通過對(duì)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分析,從某一數(shù)據(jù)對(duì)象的信息來推斷另一數(shù)據(jù)對(duì)象的信息,尋找出重復(fù)出現(xiàn)概率很高的知識(shí)模式,常用一個(gè)帶有置信度因子的參數(shù)來描述這種不確定的關(guān)系。
5)順序發(fā)現(xiàn)。通常指確定數(shù)據(jù)組中的順序模式。當(dāng)數(shù)據(jù)的特定類型的關(guān)系已被發(fā)現(xiàn)時(shí),這些模式同關(guān)聯(lián)和相關(guān)性相似。但對(duì)關(guān)系基于時(shí)間序列的數(shù)據(jù)組,順序發(fā)現(xiàn)和關(guān)聯(lián)就不同了。概括總結(jié):順序發(fā)現(xiàn)是將數(shù)據(jù)映射為有關(guān)數(shù)據(jù)組的簡練描述的子集或映射為數(shù)據(jù)庫中一組特定用戶數(shù)據(jù)的高度概括的數(shù)據(jù)。
6)描述和辨別。是指發(fā)現(xiàn)一組特征規(guī)則,其中的每一條都是或者顯示數(shù)據(jù)組的特征或者從對(duì)比類中區(qū)別試驗(yàn)類的概念的命題。
7)時(shí)間序列分析。其任務(wù)是發(fā)現(xiàn)屬性值的發(fā)展趨向,如從股票價(jià)格指數(shù)的金融數(shù)據(jù)、客戶數(shù)據(jù)和醫(yī)學(xué)數(shù)據(jù)等。它是用來搜尋相似模式以發(fā)現(xiàn)和預(yù)測特定模式的風(fēng)險(xiǎn)、因果關(guān)系和趨勢。
3.知識(shí)發(fā)現(xiàn)的知識(shí)類型
1)廣義型知識(shí)(Generalization)。是根據(jù)數(shù)據(jù)的微觀特性發(fā)現(xiàn)其表征的、帶有普遍性的、高層次概念的、中觀或宏觀的知識(shí)。
2)分類型知識(shí)(Classification&Clustering)。反映同類事物共同性質(zhì)的特征型知識(shí)和不同事物之間差異型特征知識(shí)。用于反映數(shù)據(jù)的匯聚模式或根據(jù)對(duì)象的屬性區(qū)分其所屬類別。
3)關(guān)聯(lián)型知識(shí)(Association)。是反映一個(gè)事件和其他事件之間依賴或關(guān)聯(lián)的知識(shí),又稱依賴(Dependency)關(guān)系。這類知識(shí)可用于數(shù)據(jù)庫中的歸一化,查詢優(yōu)化等。
4)預(yù)測型知識(shí)(Prediction)。通過時(shí)間序列型數(shù)據(jù),由歷史的和當(dāng)前的數(shù)據(jù)去預(yù)測未來的情況。它實(shí)際上是一種以時(shí)間為關(guān)鍵屬性的關(guān)聯(lián)知識(shí)。
5)偏差型知識(shí)(Deviation)。通過分析標(biāo)準(zhǔn)類以外的特例、數(shù)據(jù)聚類外的離群值、實(shí)際觀測值和系統(tǒng)預(yù)測值間的顯著差別,對(duì)差異和極端特例進(jìn)行描述。
4.知識(shí)發(fā)現(xiàn)技術(shù)
到目前為止已經(jīng)出現(xiàn)了許多知識(shí)發(fā)現(xiàn)技術(shù),分類方法也有很多種,按被挖掘?qū)ο蠓钟谢陉P(guān)系數(shù)據(jù)庫、多媒體數(shù)據(jù)庫;按挖掘的方法分有數(shù)據(jù)驅(qū)動(dòng)型、查詢驅(qū)動(dòng)型和交互型;按知識(shí)類型分有關(guān)聯(lián)規(guī)則、特征挖掘、分類、聚類、總結(jié)知識(shí)、趨勢分析、偏差分析、文本采掘。知識(shí)發(fā)現(xiàn)技術(shù)可分為兩類:基于算法的方法和基于可視化的方法 。大多數(shù)基于算法的方法是在人工智能、信息檢索、數(shù)據(jù)庫、統(tǒng)計(jì)學(xué)、模糊集和粗糙集理論等領(lǐng)域中發(fā)展來的。
典型的基于算法的知識(shí)發(fā)現(xiàn)技術(shù)包括:或然性和最大可能性估計(jì)的貝葉斯理論 、衰退分析、最近鄰、決策樹、K一方法聚類、關(guān)聯(lián)規(guī)則挖掘 、Web和搜索引擎、數(shù)據(jù)倉庫和聯(lián)機(jī)分析處理(On—line Analytical Processing,OLAP) 、神經(jīng)網(wǎng)絡(luò)、遺傳算法、模糊分類和聚類、粗糙分類和規(guī)則歸納等。這些技術(shù)都很成熟,并且在相關(guān)書籍文章上都有詳細(xì)介紹。這里介紹一種基于可視化的方法。
基于可視化方法是在圖形學(xué)、科學(xué)可視化和信息可視化等領(lǐng)域發(fā)展起來的,包括:①幾何投射技術(shù)。是指通過使用基本的組成分析、因素分析、多維度縮放比例來發(fā)現(xiàn)多維數(shù)據(jù)集的有趣投影。②基于圖標(biāo)技術(shù)。是指將每個(gè)多維數(shù)據(jù)項(xiàng)映射為圖形、色彩或其他圖標(biāo)來改進(jìn)對(duì)數(shù)據(jù)和模式的表達(dá)。③面向像素的技術(shù)。其中每個(gè)屬性只由一個(gè)有色像素表示,或者屬性取值范圍映射為一個(gè)固定的彩色圖。④ 層次技術(shù)。指細(xì)分多維空間,并用層次方式給出子空間。⑤基于圖表技術(shù)。是指通過使用查詢語言和抽取技術(shù)以圖表形式有效給出數(shù)據(jù)集。⑥ 混合技術(shù)。是指將上述兩種或多種技術(shù)合并到一起的技術(shù)。
5.知識(shí)發(fā)現(xiàn)過程的步驟
知識(shí)發(fā)現(xiàn)過程的多種描述.它們只是在組織和表達(dá)方式上有所不同,在內(nèi)容上并沒有非常本質(zhì)的區(qū)別。知識(shí)發(fā)現(xiàn)過程包括以下步驟:
1.問題的理解和定義:數(shù)據(jù)挖掘人員與領(lǐng)域?qū)<液献鳎畬?duì)問題進(jìn)行深入的分析.以確定可能的解決途徑和對(duì)學(xué)習(xí)結(jié)果的評(píng)測方法。
2.相關(guān)數(shù)據(jù)收集和提取:根據(jù)問題的定義收集有關(guān)的數(shù)據(jù)。在數(shù)據(jù)提取過程中,可以利用數(shù)據(jù)庫的查詢功能以加快數(shù)據(jù)的提取速度。
3.?dāng)?shù)據(jù)探索和清理:了解數(shù)據(jù)庫中字段的含義及其與其他字段的關(guān)系。對(duì)提取出的數(shù)據(jù)進(jìn)行合法性檢查并清理含有錯(cuò)誤的數(shù)據(jù)。
4.?dāng)?shù)據(jù)工程:對(duì)數(shù)據(jù)進(jìn)行再加工.主要包括選擇相關(guān)的屬性子集并剔除冗余屬性、根據(jù)知識(shí)發(fā)現(xiàn)任務(wù)對(duì)數(shù)據(jù)進(jìn)行采樣以減少學(xué)習(xí)量以及對(duì)數(shù)據(jù)的表述方式進(jìn)行轉(zhuǎn)換以適于學(xué)習(xí)算法等。為了使數(shù)據(jù)與任務(wù)達(dá)到最佳的匹配.這個(gè)步驟可能反復(fù)多次。
5.算法選擇:根據(jù)數(shù)據(jù)和所要解決的問題選擇合適的數(shù)據(jù)挖掘算法.并決定如何在這些數(shù)據(jù)上使用該算法。
6.運(yùn)行數(shù)據(jù)挖掘算法:根據(jù)選定的數(shù)據(jù)挖掘算法對(duì)經(jīng)過處理后的數(shù)據(jù)進(jìn)行模式提取。
7.結(jié)果的評(píng)價(jià):對(duì)學(xué)習(xí)結(jié)果的評(píng)價(jià)依賴于需要解決的問題.由領(lǐng)域?qū)<覍?duì)發(fā)現(xiàn)的模式的新穎性和有效性進(jìn)行評(píng)價(jià)。數(shù)據(jù)挖掘是KDD 過程的一個(gè)基本步驟.它包括特定的從數(shù)據(jù)庫中發(fā)現(xiàn)模式的挖掘算法。KDD過程使用數(shù)據(jù)挖掘算法根據(jù)特定的度量方法和閾值從數(shù)據(jù)庫中提取或識(shí)別出知識(shí),這個(gè)過程包括對(duì)數(shù)據(jù)庫的預(yù)處理、樣本劃分和數(shù)據(jù)變換。
6.知識(shí)發(fā)現(xiàn)的應(yīng)用
事實(shí)上知識(shí)發(fā)現(xiàn)的潛在應(yīng)用是十分廣闊的.已經(jīng)遠(yuǎn)遠(yuǎn)超出了最初的”貨架子工程”。從工業(yè)到農(nóng)業(yè),從天文到地理 從預(yù)測預(yù)報(bào)到?jīng)Q策支持,KDD都發(fā)揮著越來越重要的作用。目前許多計(jì)算機(jī)軟件開發(fā)商都已經(jīng)推出了其數(shù)據(jù)挖掘產(chǎn)品,如IBM.Microsoft,SPSS.SGI,SLPInfoware,SAS(ObjectBusiness)等。數(shù)據(jù)挖掘作為信息處理的高新技術(shù)已經(jīng)在實(shí)際應(yīng)用中嶄露頭角。
1、商業(yè)方面?!必浖茏庸こ獭笔荎DD最初成功應(yīng)用的典范。也正是因?yàn)樵谏虡I(yè)方面的成功應(yīng)用不斷刺激著KDD的發(fā)展,進(jìn)而拓展到越來越廣闊的應(yīng)用領(lǐng)域。如今商業(yè).特別是銷售業(yè)和服務(wù)行業(yè),仍然是KDD應(yīng)用最廣泛的領(lǐng)域之一。目前主要應(yīng)用于銷售預(yù)測、庫存需求、零售點(diǎn)選擇、價(jià)格分析和銷售模式分析。例如賓館酒店通過對(duì)消費(fèi)特別高和特別低的顧客進(jìn)行偏離模式分析,可以發(fā)現(xiàn)一些有趣的消費(fèi)模式:AutOm at edW a—ge ring公司使用AdvancedSoftwa reAppI ications的ModeIMaX預(yù)測模型.結(jié)合地理信息分析開發(fā)了Lo—tieryMachineSi[eSelection.以決定在佛羅里達(dá)州安裝彩票機(jī)的最佳地點(diǎn)。
2、農(nóng)業(yè)方面。農(nóng)業(yè)是一個(gè)大型復(fù)雜系統(tǒng) 我國農(nóng)業(yè)部門數(shù)十年來積累了大量的關(guān)于土肥、氣象、病蟲害、市場信息等方面的數(shù)據(jù)、實(shí)例和經(jīng)驗(yàn)知識(shí).但基本上沒有得到充分利用。通過KDD可以從中發(fā)現(xiàn)許多有價(jià)值和有規(guī)律的知識(shí)。如通過對(duì)病蟲害數(shù)據(jù)庫的分析,可以發(fā)現(xiàn)病蟲害的影響因素、遷移或蔓延規(guī)律等.從而遏制災(zāi)害的發(fā)生、擴(kuò)展或降低災(zāi)害損失,通過對(duì)國際國內(nèi)市場信息的挖掘來指導(dǎo)農(nóng)業(yè)生產(chǎn)規(guī)劃等。
3、醫(yī)學(xué)生物方面。醫(yī)療保健行業(yè)有大量數(shù)據(jù)需要處理,但這個(gè)行業(yè)的數(shù)據(jù)由不同的信息系統(tǒng)管理,數(shù)據(jù)組織性差 而且類型復(fù)雜。如醫(yī)療診斷數(shù)據(jù),可能包括文本、數(shù)值,圖像等,都給應(yīng)用帶來了一些困難。目前KDD在醫(yī)藥方面主要用于醫(yī)療診斷分析、藥物成分一效用分析、新藥研制和藥物生產(chǎn)工藝控制優(yōu)化等。
4、金融保險(xiǎn)方面。金融事務(wù)需要收集和處理大量數(shù)據(jù) 對(duì)這些數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)其數(shù)據(jù)模式及特征.然后可能發(fā)現(xiàn)某個(gè)客戶.消費(fèi)群體或組織的金融和商業(yè)興趣,并可觀察金融市場的變化趨勢。KDD在金融領(lǐng)域應(yīng)用廣泛,如金融、股票市場分析和預(yù)測,賬戶分類、銀行擔(dān)保和信用評(píng)估等。
5、通訊、媒體方面。如線路故障的預(yù)測、收視率的影響因素、網(wǎng)站入侵檢測、Web信息發(fā)現(xiàn)等。
6、國防軍事方面。如軍事情報(bào)資料分析.指揮自動(dòng)化與輔助決策、戰(zhàn)爭風(fēng)險(xiǎn)預(yù)測、武器攻擊效果分析、地理數(shù)據(jù)分析等。
7、其他方面。如工業(yè)生產(chǎn)中設(shè)備故障診斷.生產(chǎn)工藝優(yōu)化:科學(xué)研究中的數(shù)據(jù)處理與分析.氣象分析和預(yù)報(bào)等。