登錄

數(shù)據(jù)倉(cāng)庫(kù)

百科 > 信息技術(shù) > 數(shù)據(jù)倉(cāng)庫(kù)

1.什么是數(shù)據(jù)倉(cāng)庫(kù)

數(shù)據(jù)倉(cāng)庫(kù)之父比爾·恩門(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立數(shù)據(jù)倉(cāng)庫(kù)》)一書(shū)中所提出的定義被廣泛接受,數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的(Subject Oriented)、集成的(Integrate)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策

數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)過(guò)程而不是一個(gè)項(xiàng)目;數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)環(huán)境,而不是一件產(chǎn)品。數(shù)據(jù)倉(cāng)庫(kù)提供用戶用于決策支持的當(dāng)前和歷史數(shù)據(jù),這些數(shù)據(jù)在傳統(tǒng)的操作型數(shù)據(jù)庫(kù)中很難或不能得到。數(shù)據(jù)倉(cāng)庫(kù)技術(shù)是為了有效的把操作形數(shù)據(jù)集成到統(tǒng)一的環(huán)境中以提供決策型數(shù)據(jù)訪問(wèn),的各種技術(shù)和模塊的總稱。所做的一切都是為了讓用戶更快更方便查詢所需要的信息,提供決策支持。

2.數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)

1、面向主題

操作型數(shù)據(jù)庫(kù)的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織的。

2、集成的

數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是在對(duì)原有分散的數(shù)據(jù)庫(kù)數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過(guò)系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。

3、相對(duì)穩(wěn)定的

數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)以后,一般情況下將被長(zhǎng)期保留,也就是數(shù)據(jù)倉(cāng)庫(kù)中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。

4、反映歷史變化

數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過(guò)去某一時(shí)點(diǎn)(如開(kāi)始應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)的時(shí)點(diǎn))到目前的各個(gè)階段的信息,通過(guò)這些信息,可以對(duì)企業(yè)的發(fā)展歷程和未來(lái)趨勢(shì)做出定量分析和預(yù)測(cè)。

3.數(shù)據(jù)倉(cāng)庫(kù)的組成

1、數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)

數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)庫(kù)是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)環(huán)境的核心,是數(shù)據(jù)存放的地方和提供對(duì)數(shù)據(jù)檢索的支持。相對(duì)于操縱型數(shù)據(jù)庫(kù)來(lái)說(shuō)其突出的特點(diǎn)是對(duì)海量數(shù)據(jù)的支持和快速的檢索技術(shù)。

2、數(shù)據(jù)抽取工具

數(shù)據(jù)抽取工具把數(shù)據(jù)從各種各樣的存儲(chǔ)方式中拿出來(lái),進(jìn)行必要的轉(zhuǎn)化、整理,再存放到數(shù)據(jù)倉(cāng)庫(kù)內(nèi)。對(duì)各種不同數(shù)據(jù)存儲(chǔ)方式的訪問(wèn)能力是數(shù)據(jù)抽取工具的關(guān)鍵,應(yīng)能生成COBOL程序、MVS作業(yè)控制語(yǔ)言(JCL)、UNIX腳本、和SQL語(yǔ)句等,以訪問(wèn)不同的數(shù)據(jù)。數(shù)據(jù)轉(zhuǎn)換都包括,刪除對(duì)決策應(yīng)用沒(méi)有意義的數(shù)據(jù)段;轉(zhuǎn)換到統(tǒng)一的數(shù)據(jù)名稱和定義;計(jì)算統(tǒng)計(jì)和衍生數(shù)據(jù);給缺值數(shù)據(jù)賦給缺省值;把不同的數(shù)據(jù)定義方式統(tǒng)一。

3、元數(shù)據(jù)

元數(shù)據(jù)是描述數(shù)據(jù)倉(cāng)庫(kù)內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)??蓪⑵浒从猛镜牟煌譃閮深悾夹g(shù)元數(shù)據(jù)和商業(yè)元數(shù)據(jù)。

技術(shù)元數(shù)據(jù)是數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)和管理人員用于開(kāi)發(fā)和日常管理數(shù)據(jù)倉(cāng)庫(kù)是用的數(shù)據(jù)。包括:數(shù)據(jù)源信息;數(shù)據(jù)轉(zhuǎn)換的描述;數(shù)據(jù)倉(cāng)庫(kù)內(nèi)對(duì)象和數(shù)據(jù)結(jié)構(gòu)的定義;數(shù)據(jù)清理和數(shù)據(jù)更新時(shí)用的規(guī)則;源數(shù)據(jù)到目的數(shù)據(jù)的映射;用戶訪問(wèn)權(quán)限,數(shù)據(jù)備份歷史記錄,數(shù)據(jù)導(dǎo)入歷史記錄,信息發(fā)布?xì)v史記錄等。

商業(yè)元數(shù)據(jù)從商業(yè)業(yè)務(wù)的角度描述了數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。包括:業(yè)務(wù)主題的描述,包含的數(shù)據(jù)、查詢、報(bào)表;

元數(shù)據(jù)為訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)提供了一個(gè)信息目錄(informationdirectory),這個(gè)目錄全面描述了數(shù)據(jù)倉(cāng)庫(kù)中都有什么數(shù)據(jù)、這些數(shù)據(jù)怎么得到的、和怎么訪問(wèn)這些數(shù)據(jù)。是數(shù)據(jù)倉(cāng)庫(kù)運(yùn)行和維護(hù)的中心,數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器利用他來(lái)存貯和更新數(shù)據(jù),用戶通過(guò)他來(lái)了解和訪問(wèn)數(shù)據(jù)。

4、訪問(wèn)工具

為用戶訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)提供手段。有數(shù)據(jù)查詢和報(bào)表工具;應(yīng)用開(kāi)發(fā)工具;經(jīng)理信息系統(tǒng)(EIS)工具;聯(lián)機(jī)分析處理(OLAP)工具;數(shù)據(jù)挖掘工具。

5、數(shù)據(jù)集市(Data Marts)

為了特定的應(yīng)用目的或應(yīng)用范圍,而從數(shù)據(jù)倉(cāng)庫(kù)中獨(dú)立出來(lái)的一部分?jǐn)?shù)據(jù),也可稱為部門數(shù)據(jù)或主題數(shù)據(jù)(subjectarea)。在數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施過(guò)程中往往可以從一個(gè)部門的數(shù)據(jù)集市著手,以后再用幾個(gè)數(shù)據(jù)集市組成一個(gè)完整的數(shù)據(jù)倉(cāng)庫(kù)。需要注意的就是再實(shí)施不同的數(shù)據(jù)集市時(shí),同一含義的字段定義一定要相容,這樣再以后實(shí)施數(shù)據(jù)倉(cāng)庫(kù)時(shí)才不會(huì)造成大麻煩。

數(shù)據(jù)倉(cāng)庫(kù)管理:安全和特權(quán)管理;跟蹤數(shù)據(jù)的更新;數(shù)據(jù)質(zhì)量檢查;管理和更新元數(shù)據(jù);審計(jì)和報(bào)告數(shù)據(jù)倉(cāng)庫(kù)的使用和狀態(tài);刪除數(shù)據(jù);復(fù)制、分割和分發(fā)數(shù)據(jù);備份和恢復(fù);存儲(chǔ)管理。

信息發(fā)布系統(tǒng):把數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)或其他相關(guān)的數(shù)據(jù)發(fā)送給不同的地點(diǎn)或用戶。基于Web的信息發(fā)布系統(tǒng)是對(duì)付多用戶訪問(wèn)的最有效方法。

4.數(shù)據(jù)倉(cāng)庫(kù)的步驟

1、數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)步驟

1)選擇合適的主題(所要解決問(wèn)題的領(lǐng)域)。

2)明確定義fact表。

3)確定和確認(rèn)維。

4)choosing the facts。

5)計(jì)算并存儲(chǔ)fact表中的衍生數(shù)據(jù)段。

6)rounding out the dimension tables。

7)choosing the duration of the database。

8)the need to tracks lowly changing dimensions。

9)確定查詢優(yōu)先級(jí)和查詢模式。

2、數(shù)據(jù)倉(cāng)庫(kù)的建立步驟

1)收集和分析業(yè)務(wù)需求。

2)建立數(shù)據(jù)模型和數(shù)據(jù)倉(cāng)庫(kù)的物理設(shè)計(jì)。

3)定義數(shù)據(jù)源。

4)選擇數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和平臺(tái)。

5)從操作型數(shù)據(jù)庫(kù)中抽取、凈化、和轉(zhuǎn)換數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)。

6)選擇訪問(wèn)和報(bào)表工具。

7)選擇數(shù)據(jù)庫(kù)連接軟件。

8)選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件。

9)更新數(shù)據(jù)倉(cāng)庫(kù) 。

5.數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市

有關(guān)決策支持型數(shù)據(jù)庫(kù)的數(shù)據(jù)集市是面向企業(yè)中的某個(gè)部門或是項(xiàng)目小組的。一些專家顧問(wèn)將數(shù)據(jù)集市的建造描述為建立數(shù)據(jù)倉(cāng)庫(kù)全過(guò)程中的一步。首先,一個(gè)儲(chǔ)存企業(yè)全部信息的數(shù)據(jù)倉(cāng)庫(kù)被創(chuàng)建,其中,數(shù)據(jù)均具備有組織的、一致的、不變的格式。數(shù)據(jù)集市隨后被創(chuàng)立,其目的是為不同部門提供他們所需要的那部分信息。數(shù)據(jù)倉(cāng)庫(kù)聚集了所有詳細(xì)的信息,而數(shù)據(jù)集市中的數(shù)據(jù)則是針對(duì)用戶們的特定需求總結(jié)而出的。

而另外一些專家則認(rèn)為數(shù)據(jù)集市的建立并不需要首先建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù)。在這個(gè)模型中,數(shù)據(jù)直接由事務(wù)型數(shù)據(jù)庫(kù)轉(zhuǎn)入數(shù)據(jù)集市中。一個(gè)公司可能建立有多個(gè)數(shù)據(jù)集市,而彼此之間毫無(wú)聯(lián)系。

這種不在建立數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上創(chuàng)建數(shù)據(jù)集市的方式會(huì)更便宜、更快速,因?yàn)樗囊?guī)模更加易于管理。

第二種觀點(diǎn)的缺陷在于無(wú)法實(shí)現(xiàn)最初創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)的最主要的目的——將企業(yè)所有的數(shù)據(jù)統(tǒng)一為一致的格式?,F(xiàn)有的事務(wù)處理系統(tǒng)的數(shù)據(jù)往往是不一致、冗余的。如果首先建立起一個(gè)全公司范圍的數(shù)據(jù)倉(cāng)庫(kù),組織就能夠獲得一個(gè)統(tǒng)一關(guān)于企業(yè)的活動(dòng)和客戶的知識(shí)庫(kù)。如果先建立起一個(gè)個(gè)獨(dú)立的數(shù)據(jù)集市,那么數(shù)據(jù)倉(cāng)庫(kù)的諸多優(yōu)勢(shì)都能夠得以實(shí)現(xiàn),但是企業(yè)遠(yuǎn)遠(yuǎn)無(wú)法做到對(duì)數(shù)據(jù)的一致的儲(chǔ)存。

評(píng)論  |   0條評(píng)論