登錄

數(shù)據(jù)預(yù)處理

百科 > 信息技術(shù) > 數(shù)據(jù)預(yù)處理

1.什么是數(shù)據(jù)預(yù)處理

  數(shù)據(jù)預(yù)處理是指在主要的處理以前對數(shù)據(jù)進(jìn)行的一些處理。數(shù)據(jù)預(yù)處理的主要過程有數(shù)據(jù)抽取(Extraction)、數(shù)據(jù)轉(zhuǎn)換(Transformation)和數(shù)據(jù)加載(Loading),也稱為ETL,這個過程是負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)抽取到臨時中間層進(jìn)行轉(zhuǎn)換、集成等處理,最后加載列數(shù)據(jù)倉庫數(shù)據(jù)集市中,成為聯(lián)機分析處理數(shù)據(jù)挖掘的基礎(chǔ)。

2.數(shù)據(jù)預(yù)處理的起源

  數(shù)據(jù)庫作為企業(yè)信息的存儲樞紐,不僅為企業(yè)的日常業(yè)務(wù)提供各種各樣的數(shù)據(jù)服務(wù),而巳也是企業(yè)經(jīng)營決策的基礎(chǔ),數(shù)據(jù)庫管理系統(tǒng)因此衍生出以事務(wù)型處理為主、以決策支持及聯(lián)機分析處理為主的兩種不同數(shù)據(jù)庫系統(tǒng)。20世紀(jì)70年代開始出現(xiàn)的關(guān)系數(shù)據(jù)庫(傳統(tǒng)數(shù)據(jù)庫)無法承擔(dān)將日常業(yè)務(wù)處理中所收集到的各種數(shù)據(jù)轉(zhuǎn)變?yōu)榫哂?a href="/wiki/%E5%95%86%E4%B8%9A%E4%BB%B7%E5%80%BC" title="商業(yè)價值">商業(yè)價值的信息。其原因是傳統(tǒng)數(shù)據(jù)庫的處理方式與決策支持中的數(shù)據(jù)路求不相稱,主要體現(xiàn)在以下幾個方面:

  (1)系統(tǒng)響應(yīng)問題。在傳統(tǒng)數(shù)據(jù)庫中,用戶對數(shù)據(jù)的操作時間短暫,能保證較高的系統(tǒng)響應(yīng)時間,但決策分析問題的解決則需要遍歷數(shù)據(jù)庫中大部分的數(shù)據(jù),消耗大量的系統(tǒng)資源,這是OLTP系統(tǒng)無法承擔(dān)的。

  (2)數(shù)據(jù)需求問題。決策支持需要全面、正確的集成數(shù)據(jù),這包括內(nèi)部各部門的有關(guān)數(shù)據(jù)和企業(yè)外部的、甚至競爭對手的相關(guān)數(shù)據(jù),但是在傳統(tǒng)數(shù)據(jù)庫中只存儲了本部門的事務(wù)處理數(shù)據(jù)。

  (3)決策問題相關(guān)的集成數(shù)據(jù)。若每次用戶決策分析都需要進(jìn)行一次數(shù)據(jù)的集成,將極大地降低系統(tǒng)運行的效率。

  (4)操作問題。傳統(tǒng)數(shù)據(jù)庫中的用戶只能使用系統(tǒng)所提供的有限參數(shù)進(jìn)行數(shù)據(jù)操作,訪問受到很大的限制,而決策分析人員希望以專業(yè)用戶的身份,用各種工具對數(shù)據(jù)進(jìn)行多種形式的操作,結(jié)果以商務(wù)智能的方式表達(dá)出來。

  現(xiàn)代的商務(wù)智能系統(tǒng)的目的就是要通過數(shù)據(jù)分析來輔助用戶決策,這些數(shù)據(jù)的來源、格式不一樣,影響了系統(tǒng)實施,提高了數(shù)據(jù)整合的難度。那么,對于傳統(tǒng)的數(shù)據(jù)庫就需要有一個全面的解決方案,來解決數(shù)據(jù)的一致性與集成化問題,可以使用戶能夠從已有傳統(tǒng)環(huán)境與平臺中采集數(shù)據(jù),并利用一個單一解決方案對其進(jìn)行高效的轉(zhuǎn)換。

3.數(shù)據(jù)預(yù)處理的內(nèi)容

  在構(gòu)建商務(wù)智能系統(tǒng)時,如何正確有效地將分散在各個不同數(shù)據(jù)源中的信息整合到系統(tǒng)中成為整個系統(tǒng)成敗的關(guān)鍵,直接影響到系統(tǒng)的運行效率和最終結(jié)果。數(shù)據(jù)預(yù)處理正是解決這一問題的有力方案。數(shù)據(jù)預(yù)處理包含3方面的內(nèi)容:一是“抽取(Extraction)”,指的是將數(shù)據(jù)從各種原始的業(yè)務(wù)系統(tǒng)中讀取出來,這是所有工作的前提;二是“轉(zhuǎn)換(Transformation)”,指按照預(yù)先設(shè)汁好的規(guī)則將抽取的數(shù)據(jù)進(jìn)行轉(zhuǎn)換,使本來異構(gòu)的數(shù)據(jù)格式能統(tǒng)一起來;三是“加載(Loading)”,將轉(zhuǎn)換完的數(shù)據(jù)按計劃導(dǎo)入到數(shù)據(jù)倉庫中。

  數(shù)據(jù)預(yù)處理就是指把數(shù)據(jù)從數(shù)據(jù)源依照一定的規(guī)則裝入到數(shù)據(jù)倉庫的過程,這個過程的實質(zhì)就是符合特定規(guī)則的數(shù)據(jù)流動過程,從不同異構(gòu)數(shù)據(jù)源流向統(tǒng)一的目標(biāo)數(shù)據(jù)。數(shù)據(jù)倉庫的構(gòu)建中,數(shù)據(jù)預(yù)處理是關(guān)鍵的一環(huán),它是整個數(shù)據(jù)倉序的生命線.一直貫穿于項目始終。如果將數(shù)據(jù)倉庫比喻為高樓,那么數(shù)據(jù)預(yù)處理就是地基,建億數(shù)據(jù)倉庫的首要問題,要考慮從不同類型的源系統(tǒng)中提取數(shù)據(jù)以及要將數(shù)據(jù)存儲在一個相當(dāng)規(guī)模的目標(biāo)數(shù)據(jù)庫中,這個過程就是數(shù)據(jù)預(yù)處理過程。

  (1)數(shù)據(jù)抽取

  數(shù)據(jù)拙取部分是將數(shù)據(jù)從各個不同的數(shù)據(jù)源抽取到ODS(Operational Data Store,操作型數(shù)據(jù)存儲)中,在抽取的過程中需要挑選不同的抽取方法,盡可能地提高數(shù)據(jù)預(yù)處理的遠(yuǎn)行效率。如果已經(jīng)并清楚了數(shù)據(jù)是從幾個業(yè)務(wù)系統(tǒng)中來,各個業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫服務(wù)器遠(yuǎn)行什么DBMS,是否存在手工數(shù)據(jù),手工數(shù)據(jù)量有多大,是否存在非結(jié)構(gòu)化的數(shù)據(jù)等相關(guān)的信息,就可以根據(jù)這些信息開始進(jìn)行數(shù)據(jù)抽取部分的設(shè)計。

  (2)數(shù)據(jù)轉(zhuǎn)換

  數(shù)據(jù)轉(zhuǎn)換部分實際就是利用有關(guān)技術(shù),如數(shù)理統(tǒng)計、數(shù)據(jù)挖掘或預(yù)定義的數(shù)據(jù)轉(zhuǎn)換規(guī)則將源數(shù)據(jù)轉(zhuǎn)化成滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)。數(shù)據(jù)預(yù)處理中,花費時間最長的就是數(shù)據(jù)的轉(zhuǎn)換部分,一般情況下這部分的上作量要占整個數(shù)據(jù)預(yù)處理的2/3。在大多數(shù)情況下,數(shù)據(jù)轉(zhuǎn)換是將數(shù)據(jù)匯總,以位它更布意義。在轉(zhuǎn)換結(jié)構(gòu)中,確保能找出一種最好的方法保證數(shù)據(jù)從傳統(tǒng)的數(shù)據(jù)存儲器到數(shù)據(jù)倉庫的同步。

  (3)數(shù)據(jù)加載

  數(shù)據(jù)加載部分是將轉(zhuǎn)換后的數(shù)據(jù)加載到數(shù)據(jù)倉庫中。數(shù)據(jù)加載策略包括加載周期和數(shù)據(jù)追加策略,數(shù)據(jù)加載周期要綜合考慮經(jīng)營分析需求和系統(tǒng)訓(xùn)載的代價,對不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)采用不同的加載周期,但必須保持間一時間業(yè)務(wù)數(shù)據(jù)的完整件和一致性。

評論  |   0條評論