登錄

數(shù)據(jù)挖掘

百科 > 信息技術(shù) > 數(shù)據(jù)挖掘

1.數(shù)據(jù)挖掘概述

數(shù)據(jù)挖掘(Data Mining,DM)又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discover in Database,KDD),是目前人工智能和數(shù)據(jù)庫(kù)領(lǐng)域研究的熱點(diǎn)問(wèn)題,所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫(kù)的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息的非平凡過(guò)程。數(shù)據(jù)挖掘是一種決策支持過(guò)程,它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、可視化技術(shù)等,高度自動(dòng)化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),做出正確的決策。

2.數(shù)據(jù)挖掘常用的方法

利用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析、Web頁(yè)挖掘等, 它們分別從不同的角度對(duì)數(shù)據(jù)進(jìn)行挖掘。

①分類。分類是找出數(shù)據(jù)庫(kù)中一組數(shù)據(jù)對(duì)象的共同特點(diǎn)并按照分類模式將其劃分為不同的類,其目的是通過(guò)分類模型,將數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類別。它可以應(yīng)用到客戶的分類、客戶的屬性和特征分析、客戶滿意度分析、客戶的購(gòu)買趨勢(shì)預(yù)測(cè)等,如一個(gè)汽車零售商將客戶按照對(duì)汽車的喜好劃分成不同的類,這樣營(yíng)銷人員就可以將新型汽車的廣告手冊(cè)直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)機(jī)會(huì)。

②回歸分析?;貧w分析方法反映的是事務(wù)數(shù)據(jù)庫(kù)中屬性值在時(shí)間上的特征,產(chǎn)生一個(gè)將數(shù)據(jù)項(xiàng)映射到一個(gè)實(shí)值預(yù)測(cè)變量的函數(shù),發(fā)現(xiàn)變量或?qū)傩蚤g的依賴關(guān)系,其主要研究問(wèn)題包括數(shù)據(jù)序列的趨勢(shì)特征、數(shù)據(jù)序列的預(yù)測(cè)以及數(shù)據(jù)間的相關(guān)關(guān)系等。它可以應(yīng)用到市場(chǎng)營(yíng)銷的各個(gè)方面,如客戶尋求、保持和預(yù)防客戶流失活動(dòng)、產(chǎn)品生命周期分析、銷售趨勢(shì)預(yù)測(cè)及有針對(duì)性的促銷活動(dòng)等。

③聚類。聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個(gè)類別,其目的是使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可能小。它可以應(yīng)用到客戶群體的分類、客戶背景分析、客戶購(gòu)買趨勢(shì)預(yù)測(cè)、市場(chǎng)的細(xì)分等。

④關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)之間所存在的關(guān)系的規(guī)則,即根據(jù)一個(gè)事務(wù)中某些項(xiàng)的出現(xiàn)可導(dǎo)出另一些項(xiàng)在同一事務(wù)中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。在客戶關(guān)系管理中,通過(guò)對(duì)企業(yè)的客戶數(shù)據(jù)庫(kù)里的大量數(shù)據(jù)進(jìn)行挖掘,可以從大量的記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,找出影響市場(chǎng)營(yíng)銷效果的關(guān)鍵因素,為產(chǎn)品定位、定價(jià)與定制客戶群,客戶尋求、細(xì)分與保持,市場(chǎng)營(yíng)銷與推銷,營(yíng)銷風(fēng)險(xiǎn)評(píng)估和詐騙預(yù)測(cè)等決策支持提供參考依據(jù)。

⑤特征。特征分析是從數(shù)據(jù)庫(kù)中的一組數(shù)據(jù)中提取出關(guān)于這些數(shù)據(jù)的特征式,這些特征式表達(dá)了該數(shù)據(jù)集的總體特征。如營(yíng)銷人員通過(guò)對(duì)客戶流失因素的特征提取,可以得到導(dǎo)致客戶流失的一系列原因和主要特征,利用這些特征可以有效地預(yù)防客戶的流失。

⑥變化和偏差分析。偏差包括很大一類潛在有趣的知識(shí),如分類中的反常實(shí)例,模式的例外,觀察結(jié)果對(duì)期望的偏差等,其目的是尋找觀察結(jié)果與參照量之間有意義的差別。在企業(yè)危機(jī)管理及其預(yù)警中,管理者更感興趣的是那些意外規(guī)則。意外規(guī)則的挖掘可以應(yīng)用到各種異常信息的發(fā)現(xiàn)、分析、識(shí)別、評(píng)價(jià)和預(yù)警等方面。

⑦Web頁(yè)挖掘。隨著Internet的迅速發(fā)展及Web 的全球普及, 使得Web上的信息量無(wú)比豐富,通過(guò)對(duì)Web的挖掘,可以利用Web 的海量數(shù)據(jù)進(jìn)行分析,收集政治、經(jīng)濟(jì)、政策、科技、金融、各種市場(chǎng)、競(jìng)爭(zhēng)對(duì)手、供求信息、客戶等有關(guān)的信息,集中精力分析和處理那些對(duì)企業(yè)有重大或潛在重大影響的外部環(huán)境信息和內(nèi)部經(jīng)營(yíng)信息,并根據(jù)分析結(jié)果找出企業(yè)管理過(guò)程中出現(xiàn)的各種問(wèn)題和可能引起危機(jī)的先兆,對(duì)這些信息進(jìn)行分析和處理,以便識(shí)別、分析、評(píng)價(jià)和管理危機(jī)。

3.數(shù)據(jù)挖掘的功能

數(shù)據(jù)挖掘通過(guò)預(yù)測(cè)未來(lái)趨勢(shì)及行為,做出前攝的、基于知識(shí)的決策。數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)隱含的、有意義的知識(shí),主要有以下五類功能。

1、自動(dòng)預(yù)測(cè)趨勢(shì)和行為

數(shù)據(jù)挖掘自動(dòng)在大型數(shù)據(jù)庫(kù)中尋找預(yù)測(cè)性信息,以往需要進(jìn)行大量手工分析的問(wèn)題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。一個(gè)典型的例子是市場(chǎng)預(yù)測(cè)問(wèn)題,數(shù)據(jù)挖掘使用過(guò)去有關(guān)促銷的數(shù)據(jù)來(lái)尋找未來(lái)投資中回報(bào)最大的用戶,其它可預(yù)測(cè)的問(wèn)題包括預(yù)報(bào)破產(chǎn)以及認(rèn)定對(duì)指定事件最可能作出反應(yīng)的群體。

2、關(guān)聯(lián)分析

數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類重要的可被發(fā)現(xiàn)的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫(kù)中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。

3、聚類

數(shù)據(jù)庫(kù)中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強(qiáng)了人們對(duì)客觀現(xiàn)實(shí)的認(rèn)識(shí),是概念描述和偏差分析的先決條件。聚類技術(shù)主要包括傳統(tǒng)的模式識(shí)別方法和數(shù)學(xué)分類學(xué)。80年代初,Mchalski提出了概念聚類技術(shù)牞其要點(diǎn)是,在劃分對(duì)象時(shí)不僅考慮對(duì)象之間的距離,還要求劃分出的類具有某種內(nèi)涵描述,從而避免了傳統(tǒng)技術(shù)的某些片面性。

4、概念描述

概念描述就是對(duì)某類對(duì)象的內(nèi)涵進(jìn)行描述,并概括這類對(duì)象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對(duì)象的共同特征,后者描述不同類對(duì)象之間的區(qū)別。生成一個(gè)類的特征性描述只涉及該類對(duì)象中所有對(duì)象的共性。生成區(qū)別性描述的方法很多,如決策樹(shù)方法、遺傳算法等。

5、偏差檢測(cè)

數(shù)據(jù)庫(kù)中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫(kù)中檢測(cè)這些偏差很有意義。偏差包括很多潛在的知識(shí),如分類中的反常實(shí)例、不滿足規(guī)則的特例、觀測(cè)結(jié)果與模型預(yù)測(cè)值的偏差、量值隨時(shí)間的變化等。偏差檢測(cè)的基本方法是,尋找觀測(cè)結(jié)果與參照值之間有意義的差別。

4.數(shù)據(jù)挖掘常用技術(shù)

1、人工神經(jīng)網(wǎng)絡(luò)

2、決策樹(shù)

3、遺傳算法

4、近鄰算法

5、規(guī)則推導(dǎo)

5.數(shù)據(jù)挖掘的流程

1、數(shù)據(jù)挖掘環(huán)境

數(shù)據(jù)挖掘是指一個(gè)完整的過(guò)程,該過(guò)程從大型數(shù)據(jù)庫(kù)中挖掘先前未知的,有效的,可實(shí)用的信息,并使用這些信息做出決策或豐富知識(shí). 數(shù)據(jù)挖掘環(huán)境可示意如下圖:

數(shù)據(jù)挖掘環(huán)境框圖.gif

2、數(shù)據(jù)挖掘過(guò)程圖

下圖描述了數(shù)據(jù)挖掘的基本過(guò)程和主要步驟

Image:數(shù)據(jù)挖掘的基本過(guò)程和主要步驟.gif

數(shù)據(jù)挖掘的基本過(guò)程和主要步驟

3、數(shù)據(jù)挖掘過(guò)程工作量

在數(shù)據(jù)挖掘中被研究的業(yè)務(wù)對(duì)象是整個(gè)過(guò)程的基礎(chǔ),它驅(qū)動(dòng)了整個(gè)數(shù)據(jù)挖掘過(guò)程,也是檢驗(yàn)最后結(jié)果和指引分析人員完成數(shù)據(jù)挖掘的依據(jù)和顧問(wèn).圖2各步驟是按一定順序完成的,當(dāng)然整個(gè)過(guò)程中還會(huì)存在步驟間的反饋.數(shù)據(jù)挖掘的過(guò)程并不是自動(dòng)的,絕大多數(shù)的工作需要人工完成.圖3給出了各步驟在整個(gè)過(guò)程中的工作量之比.可以看到,60%的時(shí)間用在數(shù)據(jù)準(zhǔn)備上,這說(shuō)明了數(shù)據(jù)挖掘?qū)?shù)據(jù)的嚴(yán)格要求,而后挖掘工作僅占總工作量的10%.

Image:數(shù)據(jù)挖掘過(guò)程工作量比例.gif

圖3數(shù)據(jù)挖掘過(guò)程工作量比例

4、數(shù)據(jù)挖掘過(guò)程簡(jiǎn)介

過(guò)程中各步驟的大體內(nèi)容如下:

(1). 確定業(yè)務(wù)對(duì)象

清晰地定義出業(yè)務(wù)問(wèn)題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步.挖掘的最后結(jié)構(gòu)是不可預(yù)測(cè)的,但要探索的問(wèn)題應(yīng)是有預(yù)見(jiàn)的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會(huì)成功的.

(2). 數(shù)據(jù)準(zhǔn)備

1)、數(shù)據(jù)的選擇

搜索所有與業(yè)務(wù)對(duì)象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù).

2)、數(shù)據(jù)的預(yù)處理

研究數(shù)據(jù)的質(zhì)量,為進(jìn)一步的分析作準(zhǔn)備.并確定將要進(jìn)行的挖掘操作的類型.

3)、數(shù)據(jù)的轉(zhuǎn)換

將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型.這個(gè)分析模型是針對(duì)挖掘算法建立的.建立一個(gè)真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵.

(3). 數(shù)據(jù)挖掘

對(duì)所得到的經(jīng)過(guò)轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘.除了完善從選擇合適的挖掘算法外,其余一切工作都能自動(dòng)地完成.

(4). 結(jié)果分析

解釋并評(píng)估結(jié)果.其使用的分析方法一般應(yīng)作數(shù)據(jù)挖掘操作而定,通常會(huì)用到可視化技術(shù).

(5). 知識(shí)的同化

將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去.

5、數(shù)據(jù)挖掘需要的人員

數(shù)據(jù)挖掘過(guò)程的分步實(shí)現(xiàn),不同的步會(huì)需要是有不同專長(zhǎng)的人員,他們大體可以分為三類.

業(yè)務(wù)分析人員:要求精通業(yè)務(wù),能夠解釋業(yè)務(wù)對(duì)象,并根據(jù)各業(yè)務(wù)對(duì)象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務(wù)需求.

數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術(shù),并對(duì)統(tǒng)計(jì)學(xué)有較熟練的掌握,有能力把業(yè)務(wù)需求轉(zhuǎn)化為數(shù)據(jù)挖掘的各步操作,并為每步操作選擇合適的技術(shù).

數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術(shù),并從數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中收集數(shù)據(jù).

從上可見(jiàn),數(shù)據(jù)挖掘是一個(gè)多種專家合作的過(guò)程,也是一個(gè)在資金上和技術(shù)上高投入的過(guò)程.這一過(guò)程要反復(fù)進(jìn)行牞在反復(fù)過(guò)程中,不斷地趨近事物的本質(zhì),不斷地優(yōu)先問(wèn)題的解決方案。數(shù)據(jù)重組和細(xì)分添加和拆分記錄選取數(shù)據(jù)樣本可視化數(shù)據(jù)探索聚類分析神經(jīng)網(wǎng)絡(luò)、決策樹(shù)數(shù)理統(tǒng)計(jì)、時(shí)間序列結(jié)論綜合解釋評(píng)價(jià)數(shù)據(jù)知識(shí)數(shù)據(jù)取樣數(shù)據(jù)探索數(shù)據(jù)調(diào)整模型化評(píng)價(jià)。

6.數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別

數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報(bào)表、聯(lián)機(jī)應(yīng)用分析)的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒(méi)有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí).數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知,有效和可實(shí)用三個(gè)特征.

先前未知的信息是指該信息是預(yù)先未曾預(yù)料到的,既數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺(jué)發(fā)現(xiàn)的信息或知識(shí),甚至是違背直覺(jué)的信息或知識(shí),挖掘出的信息越是出乎意料,就可能越有價(jià)值.在商業(yè)應(yīng)用中最典型的例子就是一家連鎖店通過(guò)數(shù)據(jù)挖掘發(fā)現(xiàn)了小孩尿布和啤酒之間有著驚人的聯(lián)系.

7.數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)

大部分情況下,數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉(cāng)庫(kù)中拿到數(shù)據(jù)挖掘庫(kù)或數(shù)據(jù)集市中(見(jiàn)圖1)。從數(shù)據(jù)倉(cāng)庫(kù)中直接得到進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)有許多好處。就如我們后面會(huì)講到的,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)清理和數(shù)據(jù)挖掘的數(shù)據(jù)清理差不多,如果數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)時(shí)已經(jīng)清理過(guò),那很可能在做數(shù)據(jù)挖掘時(shí)就沒(méi)必要在清理一次了,而且所有的數(shù)據(jù)不一致的問(wèn)題都已經(jīng)被你解決了。

數(shù)據(jù)挖掘

數(shù)據(jù)挖掘庫(kù)可能是你的數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)邏輯上的子集,而不一定非得是物理上單獨(dú)的數(shù)據(jù)庫(kù)。但如果你的數(shù)據(jù)倉(cāng)庫(kù)的計(jì)算資源已經(jīng)很緊張,那你最好還是建立一個(gè)單獨(dú)的數(shù)據(jù)挖掘庫(kù)。

當(dāng)然為了數(shù)據(jù)挖掘你也不必非得建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)不是必需的。建立一個(gè)巨大的數(shù)據(jù)倉(cāng)庫(kù),把各個(gè)不同源的數(shù)據(jù)統(tǒng)一在一起,解決所有的數(shù)據(jù)沖突問(wèn)題,然后把所有的數(shù)據(jù)導(dǎo)到一個(gè)數(shù)據(jù)倉(cāng)庫(kù)內(nèi),是一項(xiàng)巨大的工程,可能要用幾年的時(shí)間花上百萬(wàn)的錢才能完成。只是為了數(shù)據(jù)挖掘,你可以把一個(gè)或幾個(gè)事務(wù)數(shù)據(jù)庫(kù)導(dǎo)到一個(gè)只讀的數(shù)據(jù)庫(kù)中,就把它當(dāng)作數(shù)據(jù)集市,然后在他上面進(jìn)行數(shù)據(jù)挖掘。

數(shù)據(jù)挖掘

8.數(shù)據(jù)挖掘和在線分析處理(OLAP)

一個(gè)經(jīng)常問(wèn)的問(wèn)題是,數(shù)據(jù)挖掘和OLAP到底有何不同。下面將會(huì)解釋,他們是完全不同的工具,基于的技術(shù)也大相徑庭。

OLAP是決策支持領(lǐng)域的一部分。傳統(tǒng)的查詢和報(bào)表工具是告訴你數(shù)據(jù)庫(kù)中都有什么(what happened),OLAP則更進(jìn)一步告訴你下一步會(huì)怎么樣(What next)、和如果我采取這樣的措施又會(huì)怎么樣(What if)。用戶首先建立一個(gè)假設(shè),然后用OLAP檢索數(shù)據(jù)庫(kù)來(lái)驗(yàn)證這個(gè)假設(shè)是否正確。比如,一個(gè)分析師想找到什么原因?qū)е铝速J款拖欠,他可能先做一個(gè)初始的假定,認(rèn)為低收入的人信用度也低,然后用OLAP來(lái)驗(yàn)證他這個(gè)假設(shè)。如果這個(gè)假設(shè)沒(méi)有被證實(shí),他可能去察看那些高負(fù)債的賬戶,如果還不行,他也許要把收入和負(fù)債一起考慮,一直進(jìn)行下去,直到找到他想要的結(jié)果或放棄。

也就是說(shuō),OLAP分析師是建立一系列的假設(shè),然后通過(guò)OLAP來(lái)證實(shí)或推翻這些假設(shè)來(lái)最終得到自己的結(jié)論。OLAP分析過(guò)程在本質(zhì)上是一個(gè)演繹推理的過(guò)程。但是如果分析的變量達(dá)到幾十或上百個(gè),那么再用OLAP手動(dòng)分析驗(yàn)證這些假設(shè)將是一件非常困難和痛苦的事情。

數(shù)據(jù)挖掘與OLAP不同的地方是,數(shù)據(jù)挖掘不是用于驗(yàn)證某個(gè)假定的模式(模型)的正確性,而是在數(shù)據(jù)庫(kù)中自己尋找模型。他在本質(zhì)上是一個(gè)歸納的過(guò)程。比如,一個(gè)用數(shù)據(jù)挖掘工具的分析師想找到引起貸款拖欠的風(fēng)險(xiǎn)因素。數(shù)據(jù)挖掘工具可能幫他找到高負(fù)債和低收入是引起這個(gè)問(wèn)題的因素,甚至還可能發(fā)現(xiàn)一些分析師從來(lái)沒(méi)有想過(guò)或試過(guò)的其他因素,比如年齡。

數(shù)據(jù)挖掘和OLAP具有一定的互補(bǔ)性。在利用數(shù)據(jù)挖掘出來(lái)的結(jié)論采取行動(dòng)之前,你也許要驗(yàn)證一下如果采取這樣的行動(dòng)會(huì)給公司帶來(lái)什么樣的影響,那么OLAP工具能回答你的這些問(wèn)題。

而且在知識(shí)發(fā)現(xiàn)的早期階段,OLAP工具還有其他一些用途??梢詭湍闾剿鲾?shù)據(jù),找到哪些是對(duì)一個(gè)問(wèn)題比較重要的變量,發(fā)現(xiàn)異常數(shù)據(jù)和互相影響的變量。這都能幫你更好的理解你的數(shù)據(jù),加快知識(shí)發(fā)現(xiàn)的過(guò)程。

9.數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)和統(tǒng)計(jì)

數(shù)據(jù)挖掘利用了人工智能(AI)和統(tǒng)計(jì)分析的進(jìn)步所帶來(lái)的好處。這兩門學(xué)科都致力于模式發(fā)現(xiàn)和預(yù)測(cè)。

數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計(jì)分析技術(shù)。相反,他是統(tǒng)計(jì)分析方法學(xué)的延伸和擴(kuò)展。大多數(shù)的統(tǒng)計(jì)分析技術(shù)都基于完善的數(shù)學(xué)理論和高超的技巧,預(yù)測(cè)的準(zhǔn)確度還是令人滿意的,但對(duì)使用者的要求很高。而隨著計(jì)算機(jī)計(jì)算能力的不斷增強(qiáng),我們有可能利用計(jì)算機(jī)強(qiáng)大的計(jì)算能力只通過(guò)相對(duì)簡(jiǎn)單和固定的方法完成同樣的功能。

一些新興的技術(shù)同樣在知識(shí)發(fā)現(xiàn)領(lǐng)域取得了很好的效果,如神經(jīng)元網(wǎng)絡(luò)和決策樹(shù),在足夠多的數(shù)據(jù)和計(jì)算能力下,他們幾乎不用人的關(guān)照自動(dòng)就能完成許多有價(jià)值的功能。

數(shù)據(jù)挖掘就是利用了統(tǒng)計(jì)和人工智能技術(shù)的應(yīng)用程序,他把這些高深復(fù)雜的技術(shù)封裝起來(lái),使人們不用自己掌握這些技術(shù)也能完成同樣的功能,并且更專注于自己所要解決的問(wèn)題。

10.軟硬件發(fā)展對(duì)數(shù)據(jù)挖掘的影響

使數(shù)據(jù)挖掘這件事情成為可能的關(guān)鍵一點(diǎn)是計(jì)算機(jī)性能價(jià)格比的巨大進(jìn)步。在過(guò)去的幾年里磁盤存儲(chǔ)器的價(jià)格幾乎降低了99%,這在很大程度上改變了企業(yè)界對(duì)數(shù)據(jù)收集和存儲(chǔ)的態(tài)度。如果每兆的價(jià)格是¥10,那存放1TB的價(jià)格是¥10,000,000,但當(dāng)每兆的價(jià)格降為1毛錢時(shí),存儲(chǔ)同樣的數(shù)據(jù)只有¥100,000!

計(jì)算機(jī)計(jì)算能力價(jià)格的降低同樣非常顯著。每一代芯片的誕生都會(huì)把CPU的計(jì)算能力提高一大步。內(nèi)存RAM也同樣降價(jià)迅速,幾年之內(nèi)每兆內(nèi)存的價(jià)格由幾百塊錢降到現(xiàn)在只要幾塊錢。通常PC都有64M內(nèi)存,工作站達(dá)到了256M,擁有上G內(nèi)存的服務(wù)器已經(jīng)不是什么新鮮事了。

在單個(gè)CPU計(jì)算能力大幅提升的同時(shí),基于多個(gè)CPU的并行系統(tǒng)也取得了很大的進(jìn)步。目前幾乎所有的服務(wù)器都支持多個(gè)CPU,這些SMP服務(wù)器簇甚至能讓成百上千個(gè)CPU同時(shí)工作。

基于并行系統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)也給數(shù)據(jù)挖掘技術(shù)的應(yīng)用帶來(lái)了便利。如果你有一個(gè)龐大而復(fù)雜的數(shù)據(jù)挖掘問(wèn)題要求通過(guò)訪問(wèn)數(shù)據(jù)庫(kù)取得數(shù)據(jù),那么效率最高的辦法就是利用一個(gè)本地的并行數(shù)據(jù)庫(kù)。

所有這些都為數(shù)據(jù)挖掘的實(shí)施掃清了道路,隨著時(shí)間的延續(xù),我們相信這條道路會(huì)越來(lái)越平坦。

11.數(shù)據(jù)挖掘在企業(yè)危機(jī)管理中的應(yīng)用

危機(jī)管理是管理領(lǐng)域新出現(xiàn)的一個(gè)熱點(diǎn)研究領(lǐng)域,它是以市場(chǎng)競(jìng)爭(zhēng)中危機(jī)的出現(xiàn)為研究起點(diǎn),分析企業(yè)危機(jī)產(chǎn)生的原因和過(guò)程,研究企業(yè)預(yù)防危機(jī)、應(yīng)付危機(jī)、解決危機(jī)的手段和策略,以增強(qiáng)企業(yè)的免疫力、應(yīng)變力和競(jìng)爭(zhēng)力,使管理者能夠及時(shí)準(zhǔn)確地獲取所需要的信息,迅速捕捉到企業(yè)可能發(fā)生危機(jī)的一切可能事件和先兆,進(jìn)而采取有效的規(guī)避措施,在危機(jī)發(fā)生之前對(duì)其進(jìn)行控制,趨利避害,從而使企業(yè)能夠適應(yīng)迅速變化的市場(chǎng)環(huán)境,保持長(zhǎng)久的競(jìng)爭(zhēng)優(yōu)勢(shì)。但是由于危機(jī)產(chǎn)生的原因復(fù)雜,種類繁多,許多因素難以量化,而且危機(jī)管理中帶有大量不確定因素的半結(jié)構(gòu)化問(wèn)題和非結(jié)構(gòu)化問(wèn)題,很多因素由于沒(méi)有歷史數(shù)據(jù)和相應(yīng)的統(tǒng)計(jì)資料,很難進(jìn)行科學(xué)地計(jì)算和評(píng)估,因此需要應(yīng)用其它技術(shù)和方法來(lái)加強(qiáng)企業(yè)的危機(jī)管理工作。

隨著計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)、通訊技術(shù)、Internet技術(shù)的迅速發(fā)展和電子商務(wù)、辦公自動(dòng)化、管理信息系統(tǒng)、Internet 的普及等,企業(yè)業(yè)務(wù)操作流程日益自動(dòng)化,企業(yè)經(jīng)營(yíng)過(guò)程中產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)和由此產(chǎn)生的信息是企業(yè)的寶貴財(cái)富,它如實(shí)地記錄著企業(yè)經(jīng)營(yíng)的本質(zhì)狀況。但是面對(duì)如此大量的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)分析方法,如數(shù)據(jù)檢索、統(tǒng)計(jì)分析等只能獲得數(shù)據(jù)的表層信息,不能獲得其內(nèi)在的、深層次的信息,管理者面臨著數(shù)據(jù)豐富而知識(shí)貧乏的困境。如何從這些數(shù)據(jù)中挖掘出對(duì)企業(yè)經(jīng)營(yíng)決策有用的知識(shí)是非常重要的,數(shù)據(jù)挖掘便是為適應(yīng)這種需要應(yīng)運(yùn)而生的。

數(shù)據(jù)挖掘是一種新的信息處理技術(shù),其主要特點(diǎn)是對(duì)企業(yè)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助經(jīng)營(yíng)決策的關(guān)鍵性數(shù)據(jù),它在企業(yè)危機(jī)管理中得到了比較普遍的應(yīng)用,具體可以應(yīng)用到以下幾個(gè)方面。

1.利用Web頁(yè)挖掘搜集外部環(huán)境信息

信息是危機(jī)管理的關(guān)鍵因素。在危機(jī)管理過(guò)程中,可以利用Web 頁(yè)挖掘技術(shù)對(duì)企業(yè)外部環(huán)境信息進(jìn)行收集、整理和分析,盡可能地收集政治、經(jīng)濟(jì)、政策、科技、金融、各種市場(chǎng)、競(jìng)爭(zhēng)對(duì)手、供求信息、消費(fèi)者等與企業(yè)發(fā)展有關(guān)的信息,集中精力分析處理那些對(duì)企業(yè)發(fā)展有重大或潛在重大影響的外部環(huán)境信息,抓住轉(zhuǎn)瞬即逝的市場(chǎng)機(jī)遇,獲得企業(yè)危機(jī)的先兆信息,采取有效措施規(guī)避危機(jī),促使企業(yè)健康、持續(xù)地發(fā)展。

2.利用數(shù)據(jù)挖掘分析企業(yè)經(jīng)營(yíng)信息

利用數(shù)據(jù)挖掘技術(shù)、數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和聯(lián)機(jī)分析技術(shù),管理者能夠充分利用企業(yè)數(shù)據(jù)倉(cāng)庫(kù)中的海量數(shù)據(jù)進(jìn)行分析,并根據(jù)分析結(jié)果找出企業(yè)經(jīng)營(yíng)過(guò)程中出現(xiàn)的各種問(wèn)題和可能引起危機(jī)的先兆,如經(jīng)營(yíng)不善、觀念滯后、產(chǎn)品失敗、戰(zhàn)略決策失誤、財(cái)務(wù)危機(jī)等內(nèi)部因素引起企業(yè)人、財(cái)、物、產(chǎn)、供、銷的相對(duì)和諧平衡體遭到重大破壞,對(duì)企業(yè)的生存、發(fā)展構(gòu)成嚴(yán)重威脅的信息,及時(shí)做出正確的決策,調(diào)整經(jīng)營(yíng)戰(zhàn)略,以適應(yīng)不斷變化的市場(chǎng)需求。

3.利用數(shù)據(jù)挖掘識(shí)別、分析和預(yù)防危機(jī)

危機(jī)管理的精髓在于預(yù)防。利用數(shù)據(jù)挖掘技術(shù)對(duì)企業(yè)經(jīng)營(yíng)的各方面的風(fēng)險(xiǎn)、威脅和危險(xiǎn)進(jìn)行識(shí)別和分析,如產(chǎn)品質(zhì)量和責(zé)任、環(huán)境、健康和人身安全、財(cái)務(wù)、營(yíng)銷、自然災(zāi)害、經(jīng)營(yíng)欺詐、人員及計(jì)算機(jī)故障等,對(duì)每一種風(fēng)險(xiǎn)進(jìn)行分類,并決定如何管理各類風(fēng)險(xiǎn);準(zhǔn)確地預(yù)測(cè)企業(yè)所面臨的各種風(fēng)險(xiǎn),并對(duì)每一種風(fēng)險(xiǎn)、威脅和危險(xiǎn)的大小及發(fā)生概率進(jìn)行評(píng)價(jià),建立各類風(fēng)險(xiǎn)管理的優(yōu)先次序,以有限的資源、時(shí)間和資金來(lái)管理最嚴(yán)重的一種或某幾類風(fēng)險(xiǎn);制定危機(jī)管理的策略和方法,擬定危機(jī)應(yīng)急計(jì)劃和危機(jī)管理隊(duì)伍,做好危機(jī)預(yù)防工作。

4.利用數(shù)據(jù)挖掘技術(shù)改善客戶關(guān)系管理

客戶滿意度歷來(lái)就是衡量一個(gè)企業(yè)服務(wù)質(zhì)量好壞的重要尺度,特別是當(dāng)客戶的反饋意見(jiàn)具有廣泛效應(yīng)的時(shí)候更是如此。目前很多企業(yè)利用營(yíng)銷中心、新聞組、 BBS以及呼叫中心等收集客戶的投訴和意見(jiàn),并對(duì)這些投訴和意見(jiàn)進(jìn)行分析,以發(fā)現(xiàn)客戶關(guān)系管理中存在的問(wèn)題,如果有足夠多的客戶都在抱怨同一個(gè)問(wèn)題,管理者就有理由對(duì)其展開(kāi)調(diào)查,為企業(yè)及時(shí)捕捉到發(fā)生危機(jī)的一切可能事件和先兆,從而挽救客戶關(guān)系,避免經(jīng)營(yíng)危機(jī)。

5.利用數(shù)據(jù)挖掘進(jìn)行信用風(fēng)險(xiǎn)分析和欺詐甄別

客戶信用風(fēng)險(xiǎn)分析和欺詐行為預(yù)測(cè)對(duì)企業(yè)的財(cái)務(wù)安全是非常重要的,使用企業(yè)信息系統(tǒng)中數(shù)據(jù)庫(kù)的數(shù)據(jù),利用數(shù)據(jù)挖掘中的變化和偏差分析技術(shù)進(jìn)行客戶信用風(fēng)險(xiǎn)分析和欺詐行為預(yù)測(cè),分析這些風(fēng)險(xiǎn)為什么會(huì)發(fā)生?哪些因素會(huì)導(dǎo)致這些風(fēng)險(xiǎn)?這些風(fēng)險(xiǎn)主要來(lái)自于何處?如何預(yù)測(cè)到可能發(fā)生的風(fēng)險(xiǎn)?采取何種措施減少風(fēng)險(xiǎn)的發(fā)生?通過(guò)評(píng)價(jià)這些風(fēng)險(xiǎn)的嚴(yán)重性、發(fā)生的可能性及控制這些風(fēng)險(xiǎn)的成本,匯總對(duì)各種風(fēng)險(xiǎn)的評(píng)價(jià)結(jié)果,進(jìn)而建立一套信用風(fēng)險(xiǎn)管理的戰(zhàn)略和監(jiān)督體系,設(shè)計(jì)并完善信用風(fēng)險(xiǎn)管理能力,準(zhǔn)確、及時(shí)地對(duì)各種信用風(fēng)險(xiǎn)進(jìn)行監(jiān)視、評(píng)價(jià)、預(yù)警和管理,進(jìn)而采取有效的規(guī)避和監(jiān)督措施,在信用風(fēng)險(xiǎn)發(fā)生之前對(duì)其進(jìn)行預(yù)警和控制,趨利避害,做好信用風(fēng)險(xiǎn)的防范工作。

6.利用數(shù)據(jù)挖掘控制危機(jī)

危機(jī)一旦爆發(fā),來(lái)勢(shì)迅猛,損失嚴(yán)重,因此危機(jī)發(fā)生以后,要采取有力的措施控制危機(jī),管理者可以利用先進(jìn)的信息技術(shù)如基于Web 的挖掘技術(shù)、各種搜索引擎工具、E-mail自動(dòng)處理工具、基于人工智能的信息內(nèi)容的自動(dòng)分類、聚類以及基于深層次自然語(yǔ)言理解的知識(shí)檢索、問(wèn)答式知識(shí)檢索系統(tǒng)等快速地獲取危機(jī)管理所需要的各種信息,以便向客戶、社區(qū)、新聞界發(fā)布有關(guān)的危機(jī)管理信息,并在各種媒體尤其是公司的網(wǎng)站上公布企業(yè)的詳細(xì)風(fēng)險(xiǎn)防御和危機(jī)管理計(jì)劃,使全體員工能夠及時(shí)獲取危機(jī)管理信息及危機(jī)最新的進(jìn)展情況。這樣企業(yè)的高層管理人員、公關(guān)人員、危機(jī)管理人員和全體員工就能隨時(shí)有準(zhǔn)備地應(yīng)付任何復(fù)雜情況和危急形勢(shì)的壓力,對(duì)出現(xiàn)的危機(jī)立即做出反應(yīng),使危機(jī)的損失降到最低。

危機(jī)就是危險(xiǎn)和機(jī)遇,企業(yè)的每一次危機(jī)既包含了導(dǎo)致失敗的根源,又蘊(yùn)藏著成功的種子,發(fā)現(xiàn)、培育,進(jìn)而收獲潛在的成功機(jī)會(huì),就是危機(jī)管理的精髓;而錯(cuò)誤地估計(jì)形勢(shì),并令事態(tài)進(jìn)一步惡化,則是不良危機(jī)管理的典型特征。企業(yè)應(yīng)加強(qiáng)危機(jī)管理工作,利用先進(jìn)的數(shù)據(jù)挖掘技術(shù)加強(qiáng)企業(yè)的危機(jī)管理工作,以便準(zhǔn)確及時(shí)地獲取所需要的危機(jī)信息,迅速捕捉到企業(yè)可能發(fā)生危機(jī)的一切事件和征兆,進(jìn)而采取有效的規(guī)避措施,在危機(jī)發(fā)生之前對(duì)其進(jìn)行控制,趨利避害,從而使企業(yè)能夠適應(yīng)迅速變化的市場(chǎng)環(huán)境,保持長(zhǎng)久的競(jìng)爭(zhēng)優(yōu)勢(shì),實(shí)現(xiàn)可持續(xù)發(fā)展戰(zhàn)略。

評(píng)論  |   0條評(píng)論