登錄

數(shù)據(jù)挖掘

百科 > 信息技術(shù) > 數(shù)據(jù)挖掘

1.數(shù)據(jù)挖掘概述

數(shù)據(jù)挖掘(Data Mining,DM)又稱數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(Knowledge Discover in Database,KDD),是目前人工智能和數(shù)據(jù)庫領(lǐng)域研究的熱點(diǎn)問題,所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息的非平凡過程。數(shù)據(jù)挖掘是一種決策支持過程,它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫、可視化技術(shù)等,高度自動(dòng)化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場策略,減少風(fēng)險(xiǎn),做出正確的決策。

2.數(shù)據(jù)挖掘常用的方法

利用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析、Web頁挖掘等, 它們分別從不同的角度對數(shù)據(jù)進(jìn)行挖掘。

①分類。分類是找出數(shù)據(jù)庫中一組數(shù)據(jù)對象的共同特點(diǎn)并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類別。它可以應(yīng)用到客戶的分類、客戶的屬性和特征分析、客戶滿意度分析、客戶的購買趨勢預(yù)測等,如一個(gè)汽車零售商將客戶按照對汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)機(jī)會(huì)。

②回歸分析?;貧w分析方法反映的是事務(wù)數(shù)據(jù)庫中屬性值在時(shí)間上的特征,產(chǎn)生一個(gè)將數(shù)據(jù)項(xiàng)映射到一個(gè)實(shí)值預(yù)測變量的函數(shù),發(fā)現(xiàn)變量或?qū)傩蚤g的依賴關(guān)系,其主要研究問題包括數(shù)據(jù)序列的趨勢特征、數(shù)據(jù)序列的預(yù)測以及數(shù)據(jù)間的相關(guān)關(guān)系等。它可以應(yīng)用到市場營銷的各個(gè)方面,如客戶尋求、保持和預(yù)防客戶流失活動(dòng)、產(chǎn)品生命周期分析、銷售趨勢預(yù)測及有針對性的促銷活動(dòng)等。

③聚類。聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個(gè)類別,其目的是使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可能小。它可以應(yīng)用到客戶群體的分類、客戶背景分析、客戶購買趨勢預(yù)測、市場的細(xì)分等。

④關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫中數(shù)據(jù)項(xiàng)之間所存在的關(guān)系的規(guī)則,即根據(jù)一個(gè)事務(wù)中某些項(xiàng)的出現(xiàn)可導(dǎo)出另一些項(xiàng)在同一事務(wù)中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。在客戶關(guān)系管理中,通過對企業(yè)的客戶數(shù)據(jù)庫里的大量數(shù)據(jù)進(jìn)行挖掘,可以從大量的記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,找出影響市場營銷效果的關(guān)鍵因素,為產(chǎn)品定位、定價(jià)與定制客戶群,客戶尋求、細(xì)分與保持,市場營銷與推銷,營銷風(fēng)險(xiǎn)評估和詐騙預(yù)測等決策支持提供參考依據(jù)。

⑤特征。特征分析是從數(shù)據(jù)庫中的一組數(shù)據(jù)中提取出關(guān)于這些數(shù)據(jù)的特征式,這些特征式表達(dá)了該數(shù)據(jù)集的總體特征。如營銷人員通過對客戶流失因素的特征提取,可以得到導(dǎo)致客戶流失的一系列原因和主要特征,利用這些特征可以有效地預(yù)防客戶的流失。

⑥變化和偏差分析。偏差包括很大一類潛在有趣的知識(shí),如分類中的反常實(shí)例,模式的例外,觀察結(jié)果對期望的偏差等,其目的是尋找觀察結(jié)果與參照量之間有意義的差別。在企業(yè)危機(jī)管理及其預(yù)警中,管理者更感興趣的是那些意外規(guī)則。意外規(guī)則的挖掘可以應(yīng)用到各種異常信息的發(fā)現(xiàn)、分析、識(shí)別、評價(jià)和預(yù)警等方面。

⑦Web頁挖掘。隨著Internet的迅速發(fā)展及Web 的全球普及, 使得Web上的信息量無比豐富,通過對Web的挖掘,可以利用Web 的海量數(shù)據(jù)進(jìn)行分析,收集政治、經(jīng)濟(jì)、政策、科技、金融、各種市場、競爭對手、供求信息、客戶等有關(guān)的信息,集中精力分析和處理那些對企業(yè)有重大或潛在重大影響的外部環(huán)境信息和內(nèi)部經(jīng)營信息,并根據(jù)分析結(jié)果找出企業(yè)管理過程中出現(xiàn)的各種問題和可能引起危機(jī)的先兆,對這些信息進(jìn)行分析和處理,以便識(shí)別、分析、評價(jià)和管理危機(jī)。

3.數(shù)據(jù)挖掘的功能

數(shù)據(jù)挖掘通過預(yù)測未來趨勢及行為,做出前攝的、基于知識(shí)的決策。數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識(shí),主要有以下五類功能。

1、自動(dòng)預(yù)測趨勢和行為

數(shù)據(jù)挖掘自動(dòng)在大型數(shù)據(jù)庫中尋找預(yù)測性信息,以往需要進(jìn)行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。一個(gè)典型的例子是市場預(yù)測問題,數(shù)據(jù)挖掘使用過去有關(guān)促銷的數(shù)據(jù)來尋找未來投資中回報(bào)最大的用戶,其它可預(yù)測的問題包括預(yù)報(bào)破產(chǎn)以及認(rèn)定對指定事件最可能作出反應(yīng)的群體。

2、關(guān)聯(lián)分析

數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。

3、聚類

數(shù)據(jù)庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強(qiáng)了人們對客觀現(xiàn)實(shí)的認(rèn)識(shí),是概念描述和偏差分析的先決條件。聚類技術(shù)主要包括傳統(tǒng)的模式識(shí)別方法和數(shù)學(xué)分類學(xué)。80年代初,Mchalski提出了概念聚類技術(shù)牞其要點(diǎn)是,在劃分對象時(shí)不僅考慮對象之間的距離,還要求劃分出的類具有某種內(nèi)涵描述,從而避免了傳統(tǒng)技術(shù)的某些片面性。

4、概念描述

概念描述就是對某類對象的內(nèi)涵進(jìn)行描述,并概括這類對象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。生成一個(gè)類的特征性描述只涉及該類對象中所有對象的共性。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。

5、偏差檢測

數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的知識(shí),如分類中的反常實(shí)例、不滿足規(guī)則的特例、觀測結(jié)果與模型預(yù)測值的偏差、量值隨時(shí)間的變化等。偏差檢測的基本方法是,尋找觀測結(jié)果與參照值之間有意義的差別。

4.數(shù)據(jù)挖掘常用技術(shù)

1、人工神經(jīng)網(wǎng)絡(luò)

2、決策樹

3、遺傳算法

4、近鄰算法

5、規(guī)則推導(dǎo)

5.數(shù)據(jù)挖掘的流程

1、數(shù)據(jù)挖掘環(huán)境

數(shù)據(jù)挖掘是指一個(gè)完整的過程,該過程從大型數(shù)據(jù)庫中挖掘先前未知的,有效的,可實(shí)用的信息,并使用這些信息做出決策或豐富知識(shí). 數(shù)據(jù)挖掘環(huán)境可示意如下圖:

數(shù)據(jù)挖掘環(huán)境框圖.gif

2、數(shù)據(jù)挖掘過程圖

下圖描述了數(shù)據(jù)挖掘的基本過程和主要步驟

Image:數(shù)據(jù)挖掘的基本過程和主要步驟.gif

數(shù)據(jù)挖掘的基本過程和主要步驟

3、數(shù)據(jù)挖掘過程工作量

在數(shù)據(jù)挖掘中被研究的業(yè)務(wù)對象是整個(gè)過程的基礎(chǔ),它驅(qū)動(dòng)了整個(gè)數(shù)據(jù)挖掘過程,也是檢驗(yàn)最后結(jié)果和指引分析人員完成數(shù)據(jù)挖掘的依據(jù)和顧問.圖2各步驟是按一定順序完成的,當(dāng)然整個(gè)過程中還會(huì)存在步驟間的反饋.數(shù)據(jù)挖掘的過程并不是自動(dòng)的,絕大多數(shù)的工作需要人工完成.圖3給出了各步驟在整個(gè)過程中的工作量之比.可以看到,60%的時(shí)間用在數(shù)據(jù)準(zhǔn)備上,這說明了數(shù)據(jù)挖掘?qū)?shù)據(jù)的嚴(yán)格要求,而后挖掘工作僅占總工作量的10%.

Image:數(shù)據(jù)挖掘過程工作量比例.gif

圖3數(shù)據(jù)挖掘過程工作量比例

4、數(shù)據(jù)挖掘過程簡介

過程中各步驟的大體內(nèi)容如下:

(1). 確定業(yè)務(wù)對象

清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步.挖掘的最后結(jié)構(gòu)是不可預(yù)測的,但要探索的問題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會(huì)成功的.

(2). 數(shù)據(jù)準(zhǔn)備

1)、數(shù)據(jù)的選擇

搜索所有與業(yè)務(wù)對象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù).

2)、數(shù)據(jù)的預(yù)處理

研究數(shù)據(jù)的質(zhì)量,為進(jìn)一步的分析作準(zhǔn)備.并確定將要進(jìn)行的挖掘操作的類型.

3)、數(shù)據(jù)的轉(zhuǎn)換

將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型.這個(gè)分析模型是針對挖掘算法建立的.建立一個(gè)真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵.

(3). 數(shù)據(jù)挖掘

對所得到的經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘.除了完善從選擇合適的挖掘算法外,其余一切工作都能自動(dòng)地完成.

(4). 結(jié)果分析

解釋并評估結(jié)果.其使用的分析方法一般應(yīng)作數(shù)據(jù)挖掘操作而定,通常會(huì)用到可視化技術(shù).

(5). 知識(shí)的同化

將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去.

5、數(shù)據(jù)挖掘需要的人員

數(shù)據(jù)挖掘過程的分步實(shí)現(xiàn),不同的步會(huì)需要是有不同專長的人員,他們大體可以分為三類.

業(yè)務(wù)分析人員:要求精通業(yè)務(wù),能夠解釋業(yè)務(wù)對象,并根據(jù)各業(yè)務(wù)對象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務(wù)需求.

數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術(shù),并對統(tǒng)計(jì)學(xué)有較熟練的掌握,有能力把業(yè)務(wù)需求轉(zhuǎn)化為數(shù)據(jù)挖掘的各步操作,并為每步操作選擇合適的技術(shù).

數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術(shù),并從數(shù)據(jù)庫或數(shù)據(jù)倉庫中收集數(shù)據(jù).

從上可見,數(shù)據(jù)挖掘是一個(gè)多種專家合作的過程,也是一個(gè)在資金上和技術(shù)上高投入的過程.這一過程要反復(fù)進(jìn)行牞在反復(fù)過程中,不斷地趨近事物的本質(zhì),不斷地優(yōu)先問題的解決方案。數(shù)據(jù)重組和細(xì)分添加和拆分記錄選取數(shù)據(jù)樣本可視化數(shù)據(jù)探索聚類分析神經(jīng)網(wǎng)絡(luò)、決策樹數(shù)理統(tǒng)計(jì)、時(shí)間序列結(jié)論綜合解釋評價(jià)數(shù)據(jù)知識(shí)數(shù)據(jù)取樣數(shù)據(jù)探索數(shù)據(jù)調(diào)整模型化評價(jià)。

6.數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別

數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報(bào)表、聯(lián)機(jī)應(yīng)用分析)的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí).數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知,有效和可實(shí)用三個(gè)特征.

先前未知的信息是指該信息是預(yù)先未曾預(yù)料到的,既數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識(shí),甚至是違背直覺的信息或知識(shí),挖掘出的信息越是出乎意料,就可能越有價(jià)值.在商業(yè)應(yīng)用中最典型的例子就是一家連鎖店通過數(shù)據(jù)挖掘發(fā)現(xiàn)了小孩尿布和啤酒之間有著驚人的聯(lián)系.

7.數(shù)據(jù)挖掘和數(shù)據(jù)倉庫

大部分情況下,數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉庫中拿到數(shù)據(jù)挖掘庫或數(shù)據(jù)集市中(見圖1)。從數(shù)據(jù)倉庫中直接得到進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)有許多好處。就如我們后面會(huì)講到的,數(shù)據(jù)倉庫的數(shù)據(jù)清理和數(shù)據(jù)挖掘的數(shù)據(jù)清理差不多,如果數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉庫時(shí)已經(jīng)清理過,那很可能在做數(shù)據(jù)挖掘時(shí)就沒必要在清理一次了,而且所有的數(shù)據(jù)不一致的問題都已經(jīng)被你解決了。

數(shù)據(jù)挖掘

數(shù)據(jù)挖掘庫可能是你的數(shù)據(jù)倉庫的一個(gè)邏輯上的子集,而不一定非得是物理上單獨(dú)的數(shù)據(jù)庫。但如果你的數(shù)據(jù)倉庫的計(jì)算資源已經(jīng)很緊張,那你最好還是建立一個(gè)單獨(dú)的數(shù)據(jù)挖掘庫。

當(dāng)然為了數(shù)據(jù)挖掘你也不必非得建立一個(gè)數(shù)據(jù)倉庫,數(shù)據(jù)倉庫不是必需的。建立一個(gè)巨大的數(shù)據(jù)倉庫,把各個(gè)不同源的數(shù)據(jù)統(tǒng)一在一起,解決所有的數(shù)據(jù)沖突問題,然后把所有的數(shù)據(jù)導(dǎo)到一個(gè)數(shù)據(jù)倉庫內(nèi),是一項(xiàng)巨大的工程,可能要用幾年的時(shí)間花上百萬的錢才能完成。只是為了數(shù)據(jù)挖掘,你可以把一個(gè)或幾個(gè)事務(wù)數(shù)據(jù)庫導(dǎo)到一個(gè)只讀的數(shù)據(jù)庫中,就把它當(dāng)作數(shù)據(jù)集市,然后在他上面進(jìn)行數(shù)據(jù)挖掘。

數(shù)據(jù)挖掘

8.數(shù)據(jù)挖掘和在線分析處理(OLAP)

一個(gè)經(jīng)常問的問題是,數(shù)據(jù)挖掘和OLAP到底有何不同。下面將會(huì)解釋,他們是完全不同的工具,基于的技術(shù)也大相徑庭。

OLAP是決策支持領(lǐng)域的一部分。傳統(tǒng)的查詢和報(bào)表工具是告訴你數(shù)據(jù)庫中都有什么(what happened),OLAP則更進(jìn)一步告訴你下一步會(huì)怎么樣(What next)、和如果我采取這樣的措施又會(huì)怎么樣(What if)。用戶首先建立一個(gè)假設(shè),然后用OLAP檢索數(shù)據(jù)庫來驗(yàn)證這個(gè)假設(shè)是否正確。比如,一個(gè)分析師想找到什么原因?qū)е铝速J款拖欠,他可能先做一個(gè)初始的假定,認(rèn)為低收入的人信用度也低,然后用OLAP來驗(yàn)證他這個(gè)假設(shè)。如果這個(gè)假設(shè)沒有被證實(shí),他可能去察看那些高負(fù)債的賬戶,如果還不行,他也許要把收入和負(fù)債一起考慮,一直進(jìn)行下去,直到找到他想要的結(jié)果或放棄。

也就是說,OLAP分析師是建立一系列的假設(shè),然后通過OLAP來證實(shí)或推翻這些假設(shè)來最終得到自己的結(jié)論。OLAP分析過程在本質(zhì)上是一個(gè)演繹推理的過程。但是如果分析的變量達(dá)到幾十或上百個(gè),那么再用OLAP手動(dòng)分析驗(yàn)證這些假設(shè)將是一件非常困難和痛苦的事情。

數(shù)據(jù)挖掘與OLAP不同的地方是,數(shù)據(jù)挖掘不是用于驗(yàn)證某個(gè)假定的模式(模型)的正確性,而是在數(shù)據(jù)庫中自己尋找模型。他在本質(zhì)上是一個(gè)歸納的過程。比如,一個(gè)用數(shù)據(jù)挖掘工具的分析師想找到引起貸款拖欠的風(fēng)險(xiǎn)因素。數(shù)據(jù)挖掘工具可能幫他找到高負(fù)債和低收入是引起這個(gè)問題的因素,甚至還可能發(fā)現(xiàn)一些分析師從來沒有想過或試過的其他因素,比如年齡。

數(shù)據(jù)挖掘和OLAP具有一定的互補(bǔ)性。在利用數(shù)據(jù)挖掘出來的結(jié)論采取行動(dòng)之前,你也許要驗(yàn)證一下如果采取這樣的行動(dòng)會(huì)給公司帶來什么樣的影響,那么OLAP工具能回答你的這些問題。

而且在知識(shí)發(fā)現(xiàn)的早期階段,OLAP工具還有其他一些用途??梢詭湍闾剿鲾?shù)據(jù),找到哪些是對一個(gè)問題比較重要的變量,發(fā)現(xiàn)異常數(shù)據(jù)和互相影響的變量。這都能幫你更好的理解你的數(shù)據(jù),加快知識(shí)發(fā)現(xiàn)的過程。

9.數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)和統(tǒng)計(jì)

數(shù)據(jù)挖掘利用了人工智能(AI)和統(tǒng)計(jì)分析的進(jìn)步所帶來的好處。這兩門學(xué)科都致力于模式發(fā)現(xiàn)和預(yù)測。

數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計(jì)分析技術(shù)。相反,他是統(tǒng)計(jì)分析方法學(xué)的延伸和擴(kuò)展。大多數(shù)的統(tǒng)計(jì)分析技術(shù)都基于完善的數(shù)學(xué)理論和高超的技巧,預(yù)測的準(zhǔn)確度還是令人滿意的,但對使用者的要求很高。而隨著計(jì)算機(jī)計(jì)算能力的不斷增強(qiáng),我們有可能利用計(jì)算機(jī)強(qiáng)大的計(jì)算能力只通過相對簡單和固定的方法完成同樣的功能。

一些新興的技術(shù)同樣在知識(shí)發(fā)現(xiàn)領(lǐng)域取得了很好的效果,如神經(jīng)元網(wǎng)絡(luò)和決策樹,在足夠多的數(shù)據(jù)和計(jì)算能力下,他們幾乎不用人的關(guān)照自動(dòng)就能完成許多有價(jià)值的功能。

數(shù)據(jù)挖掘就是利用了統(tǒng)計(jì)和人工智能技術(shù)的應(yīng)用程序,他把這些高深復(fù)雜的技術(shù)封裝起來,使人們不用自己掌握這些技術(shù)也能完成同樣的功能,并且更專注于自己所要解決的問題。

10.軟硬件發(fā)展對數(shù)據(jù)挖掘的影響

使數(shù)據(jù)挖掘這件事情成為可能的關(guān)鍵一點(diǎn)是計(jì)算機(jī)性能價(jià)格比的巨大進(jìn)步。在過去的幾年里磁盤存儲(chǔ)器的價(jià)格幾乎降低了99%,這在很大程度上改變了企業(yè)界對數(shù)據(jù)收集和存儲(chǔ)的態(tài)度。如果每兆的價(jià)格是¥10,那存放1TB的價(jià)格是¥10,000,000,但當(dāng)每兆的價(jià)格降為1毛錢時(shí),存儲(chǔ)同樣的數(shù)據(jù)只有¥100,000!

計(jì)算機(jī)計(jì)算能力價(jià)格的降低同樣非常顯著。每一代芯片的誕生都會(huì)把CPU的計(jì)算能力提高一大步。內(nèi)存RAM也同樣降價(jià)迅速,幾年之內(nèi)每兆內(nèi)存的價(jià)格由幾百塊錢降到現(xiàn)在只要幾塊錢。通常PC都有64M內(nèi)存,工作站達(dá)到了256M,擁有上G內(nèi)存的服務(wù)器已經(jīng)不是什么新鮮事了。

在單個(gè)CPU計(jì)算能力大幅提升的同時(shí),基于多個(gè)CPU的并行系統(tǒng)也取得了很大的進(jìn)步。目前幾乎所有的服務(wù)器都支持多個(gè)CPU,這些SMP服務(wù)器簇甚至能讓成百上千個(gè)CPU同時(shí)工作。

基于并行系統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)也給數(shù)據(jù)挖掘技術(shù)的應(yīng)用帶來了便利。如果你有一個(gè)龐大而復(fù)雜的數(shù)據(jù)挖掘問題要求通過訪問數(shù)據(jù)庫取得數(shù)據(jù),那么效率最高的辦法就是利用一個(gè)本地的并行數(shù)據(jù)庫。

所有這些都為數(shù)據(jù)挖掘的實(shí)施掃清了道路,隨著時(shí)間的延續(xù),我們相信這條道路會(huì)越來越平坦。

11.數(shù)據(jù)挖掘在企業(yè)危機(jī)管理中的應(yīng)用

危機(jī)管理是管理領(lǐng)域新出現(xiàn)的一個(gè)熱點(diǎn)研究領(lǐng)域,它是以市場競爭中危機(jī)的出現(xiàn)為研究起點(diǎn),分析企業(yè)危機(jī)產(chǎn)生的原因和過程,研究企業(yè)預(yù)防危機(jī)、應(yīng)付危機(jī)、解決危機(jī)的手段和策略,以增強(qiáng)企業(yè)的免疫力、應(yīng)變力和競爭力,使管理者能夠及時(shí)準(zhǔn)確地獲取所需要的信息,迅速捕捉到企業(yè)可能發(fā)生危機(jī)的一切可能事件和先兆,進(jìn)而采取有效的規(guī)避措施,在危機(jī)發(fā)生之前對其進(jìn)行控制,趨利避害,從而使企業(yè)能夠適應(yīng)迅速變化的市場環(huán)境,保持長久的競爭優(yōu)勢。但是由于危機(jī)產(chǎn)生的原因復(fù)雜,種類繁多,許多因素難以量化,而且危機(jī)管理中帶有大量不確定因素的半結(jié)構(gòu)化問題和非結(jié)構(gòu)化問題,很多因素由于沒有歷史數(shù)據(jù)和相應(yīng)的統(tǒng)計(jì)資料,很難進(jìn)行科學(xué)地計(jì)算和評估,因此需要應(yīng)用其它技術(shù)和方法來加強(qiáng)企業(yè)的危機(jī)管理工作。

隨著計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)、通訊技術(shù)、Internet技術(shù)的迅速發(fā)展和電子商務(wù)、辦公自動(dòng)化、管理信息系統(tǒng)、Internet 的普及等,企業(yè)業(yè)務(wù)操作流程日益自動(dòng)化,企業(yè)經(jīng)營過程中產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)和由此產(chǎn)生的信息是企業(yè)的寶貴財(cái)富,它如實(shí)地記錄著企業(yè)經(jīng)營的本質(zhì)狀況。但是面對如此大量的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)分析方法,如數(shù)據(jù)檢索、統(tǒng)計(jì)分析等只能獲得數(shù)據(jù)的表層信息,不能獲得其內(nèi)在的、深層次的信息,管理者面臨著數(shù)據(jù)豐富而知識(shí)貧乏的困境。如何從這些數(shù)據(jù)中挖掘出對企業(yè)經(jīng)營決策有用的知識(shí)是非常重要的,數(shù)據(jù)挖掘便是為適應(yīng)這種需要應(yīng)運(yùn)而生的。

數(shù)據(jù)挖掘是一種新的信息處理技術(shù),其主要特點(diǎn)是對企業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助經(jīng)營決策的關(guān)鍵性數(shù)據(jù),它在企業(yè)危機(jī)管理中得到了比較普遍的應(yīng)用,具體可以應(yīng)用到以下幾個(gè)方面。

1.利用Web頁挖掘搜集外部環(huán)境信息

信息是危機(jī)管理的關(guān)鍵因素。在危機(jī)管理過程中,可以利用Web 頁挖掘技術(shù)對企業(yè)外部環(huán)境信息進(jìn)行收集、整理和分析,盡可能地收集政治、經(jīng)濟(jì)、政策、科技、金融、各種市場、競爭對手、供求信息、消費(fèi)者等與企業(yè)發(fā)展有關(guān)的信息,集中精力分析處理那些對企業(yè)發(fā)展有重大或潛在重大影響的外部環(huán)境信息,抓住轉(zhuǎn)瞬即逝的市場機(jī)遇,獲得企業(yè)危機(jī)的先兆信息,采取有效措施規(guī)避危機(jī),促使企業(yè)健康、持續(xù)地發(fā)展。

2.利用數(shù)據(jù)挖掘分析企業(yè)經(jīng)營信息

利用數(shù)據(jù)挖掘技術(shù)、數(shù)據(jù)倉庫技術(shù)和聯(lián)機(jī)分析技術(shù),管理者能夠充分利用企業(yè)數(shù)據(jù)倉庫中的海量數(shù)據(jù)進(jìn)行分析,并根據(jù)分析結(jié)果找出企業(yè)經(jīng)營過程中出現(xiàn)的各種問題和可能引起危機(jī)的先兆,如經(jīng)營不善、觀念滯后、產(chǎn)品失敗、戰(zhàn)略決策失誤、財(cái)務(wù)危機(jī)等內(nèi)部因素引起企業(yè)人、財(cái)、物、產(chǎn)、供、銷的相對和諧平衡體遭到重大破壞,對企業(yè)的生存、發(fā)展構(gòu)成嚴(yán)重威脅的信息,及時(shí)做出正確的決策,調(diào)整經(jīng)營戰(zhàn)略,以適應(yīng)不斷變化的市場需求。

3.利用數(shù)據(jù)挖掘識(shí)別、分析和預(yù)防危機(jī)

危機(jī)管理的精髓在于預(yù)防。利用數(shù)據(jù)挖掘技術(shù)對企業(yè)經(jīng)營的各方面的風(fēng)險(xiǎn)、威脅和危險(xiǎn)進(jìn)行識(shí)別和分析,如產(chǎn)品質(zhì)量和責(zé)任、環(huán)境、健康和人身安全、財(cái)務(wù)、營銷、自然災(zāi)害、經(jīng)營欺詐、人員及計(jì)算機(jī)故障等,對每一種風(fēng)險(xiǎn)進(jìn)行分類,并決定如何管理各類風(fēng)險(xiǎn);準(zhǔn)確地預(yù)測企業(yè)所面臨的各種風(fēng)險(xiǎn),并對每一種風(fēng)險(xiǎn)、威脅和危險(xiǎn)的大小及發(fā)生概率進(jìn)行評價(jià),建立各類風(fēng)險(xiǎn)管理的優(yōu)先次序,以有限的資源、時(shí)間和資金來管理最嚴(yán)重的一種或某幾類風(fēng)險(xiǎn);制定危機(jī)管理的策略和方法,擬定危機(jī)應(yīng)急計(jì)劃和危機(jī)管理隊(duì)伍,做好危機(jī)預(yù)防工作。

4.利用數(shù)據(jù)挖掘技術(shù)改善客戶關(guān)系管理

客戶滿意度歷來就是衡量一個(gè)企業(yè)服務(wù)質(zhì)量好壞的重要尺度,特別是當(dāng)客戶的反饋意見具有廣泛效應(yīng)的時(shí)候更是如此。目前很多企業(yè)利用營銷中心、新聞組、 BBS以及呼叫中心等收集客戶的投訴和意見,并對這些投訴和意見進(jìn)行分析,以發(fā)現(xiàn)客戶關(guān)系管理中存在的問題,如果有足夠多的客戶都在抱怨同一個(gè)問題,管理者就有理由對其展開調(diào)查,為企業(yè)及時(shí)捕捉到發(fā)生危機(jī)的一切可能事件和先兆,從而挽救客戶關(guān)系,避免經(jīng)營危機(jī)。

5.利用數(shù)據(jù)挖掘進(jìn)行信用風(fēng)險(xiǎn)分析和欺詐甄別

客戶信用風(fēng)險(xiǎn)分析和欺詐行為預(yù)測對企業(yè)的財(cái)務(wù)安全是非常重要的,使用企業(yè)信息系統(tǒng)中數(shù)據(jù)庫的數(shù)據(jù),利用數(shù)據(jù)挖掘中的變化和偏差分析技術(shù)進(jìn)行客戶信用風(fēng)險(xiǎn)分析和欺詐行為預(yù)測,分析這些風(fēng)險(xiǎn)為什么會(huì)發(fā)生?哪些因素會(huì)導(dǎo)致這些風(fēng)險(xiǎn)?這些風(fēng)險(xiǎn)主要來自于何處?如何預(yù)測到可能發(fā)生的風(fēng)險(xiǎn)?采取何種措施減少風(fēng)險(xiǎn)的發(fā)生?通過評價(jià)這些風(fēng)險(xiǎn)的嚴(yán)重性、發(fā)生的可能性及控制這些風(fēng)險(xiǎn)的成本,匯總對各種風(fēng)險(xiǎn)的評價(jià)結(jié)果,進(jìn)而建立一套信用風(fēng)險(xiǎn)管理的戰(zhàn)略和監(jiān)督體系,設(shè)計(jì)并完善信用風(fēng)險(xiǎn)管理能力,準(zhǔn)確、及時(shí)地對各種信用風(fēng)險(xiǎn)進(jìn)行監(jiān)視、評價(jià)、預(yù)警和管理,進(jìn)而采取有效的規(guī)避和監(jiān)督措施,在信用風(fēng)險(xiǎn)發(fā)生之前對其進(jìn)行預(yù)警和控制,趨利避害,做好信用風(fēng)險(xiǎn)的防范工作。

6.利用數(shù)據(jù)挖掘控制危機(jī)

危機(jī)一旦爆發(fā),來勢迅猛,損失嚴(yán)重,因此危機(jī)發(fā)生以后,要采取有力的措施控制危機(jī),管理者可以利用先進(jìn)的信息技術(shù)如基于Web 的挖掘技術(shù)、各種搜索引擎工具、E-mail自動(dòng)處理工具、基于人工智能的信息內(nèi)容的自動(dòng)分類、聚類以及基于深層次自然語言理解的知識(shí)檢索、問答式知識(shí)檢索系統(tǒng)等快速地獲取危機(jī)管理所需要的各種信息,以便向客戶、社區(qū)、新聞界發(fā)布有關(guān)的危機(jī)管理信息,并在各種媒體尤其是公司的網(wǎng)站上公布企業(yè)的詳細(xì)風(fēng)險(xiǎn)防御和危機(jī)管理計(jì)劃,使全體員工能夠及時(shí)獲取危機(jī)管理信息及危機(jī)最新的進(jìn)展情況。這樣企業(yè)的高層管理人員、公關(guān)人員、危機(jī)管理人員和全體員工就能隨時(shí)有準(zhǔn)備地應(yīng)付任何復(fù)雜情況和危急形勢的壓力,對出現(xiàn)的危機(jī)立即做出反應(yīng),使危機(jī)的損失降到最低。

危機(jī)就是危險(xiǎn)和機(jī)遇,企業(yè)的每一次危機(jī)既包含了導(dǎo)致失敗的根源,又蘊(yùn)藏著成功的種子,發(fā)現(xiàn)、培育,進(jìn)而收獲潛在的成功機(jī)會(huì),就是危機(jī)管理的精髓;而錯(cuò)誤地估計(jì)形勢,并令事態(tài)進(jìn)一步惡化,則是不良危機(jī)管理的典型特征。企業(yè)應(yīng)加強(qiáng)危機(jī)管理工作,利用先進(jìn)的數(shù)據(jù)挖掘技術(shù)加強(qiáng)企業(yè)的危機(jī)管理工作,以便準(zhǔn)確及時(shí)地獲取所需要的危機(jī)信息,迅速捕捉到企業(yè)可能發(fā)生危機(jī)的一切事件和征兆,進(jìn)而采取有效的規(guī)避措施,在危機(jī)發(fā)生之前對其進(jìn)行控制,趨利避害,從而使企業(yè)能夠適應(yīng)迅速變化的市場環(huán)境,保持長久的競爭優(yōu)勢,實(shí)現(xiàn)可持續(xù)發(fā)展戰(zhàn)略。

評論  |   0條評論