登錄

數(shù)據(jù)倉庫

百科 > 信息技術(shù) > 數(shù)據(jù)倉庫

1.什么是數(shù)據(jù)倉庫

數(shù)據(jù)倉庫之父比爾·恩門(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立數(shù)據(jù)倉庫》)一書中所提出的定義被廣泛接受,數(shù)據(jù)倉庫是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策

數(shù)據(jù)倉庫是一個過程而不是一個項目;數(shù)據(jù)倉庫是一個環(huán)境,而不是一件產(chǎn)品。數(shù)據(jù)倉庫提供用戶用于決策支持的當前和歷史數(shù)據(jù),這些數(shù)據(jù)在傳統(tǒng)的操作型數(shù)據(jù)庫中很難或不能得到。數(shù)據(jù)倉庫技術(shù)是為了有效的把操作形數(shù)據(jù)集成到統(tǒng)一的環(huán)境中以提供決策型數(shù)據(jù)訪問,的各種技術(shù)和模塊的總稱。所做的一切都是為了讓用戶更快更方便查詢所需要的信息,提供決策支持。

2.數(shù)據(jù)倉庫的特點

1、面向主題

操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進行組織的。

2、集成的

數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個企業(yè)的一致的全局信息。

3、相對穩(wěn)定的

數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個數(shù)據(jù)進入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。

4、反映歷史變化

數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點(如開始應(yīng)用數(shù)據(jù)倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。

3.數(shù)據(jù)倉庫的組成

1、數(shù)據(jù)倉庫數(shù)據(jù)庫

數(shù)據(jù)倉庫的數(shù)據(jù)庫是整個數(shù)據(jù)倉庫環(huán)境的核心,是數(shù)據(jù)存放的地方和提供對數(shù)據(jù)檢索的支持。相對于操縱型數(shù)據(jù)庫來說其突出的特點是對海量數(shù)據(jù)的支持和快速的檢索技術(shù)。

2、數(shù)據(jù)抽取工具

數(shù)據(jù)抽取工具把數(shù)據(jù)從各種各樣的存儲方式中拿出來,進行必要的轉(zhuǎn)化、整理,再存放到數(shù)據(jù)倉庫內(nèi)。對各種不同數(shù)據(jù)存儲方式的訪問能力是數(shù)據(jù)抽取工具的關(guān)鍵,應(yīng)能生成COBOL程序、MVS作業(yè)控制語言(JCL)、UNIX腳本、和SQL語句等,以訪問不同的數(shù)據(jù)。數(shù)據(jù)轉(zhuǎn)換都包括,刪除對決策應(yīng)用沒有意義的數(shù)據(jù)段;轉(zhuǎn)換到統(tǒng)一的數(shù)據(jù)名稱和定義;計算統(tǒng)計和衍生數(shù)據(jù);給缺值數(shù)據(jù)賦給缺省值;把不同的數(shù)據(jù)定義方式統(tǒng)一。

3、元數(shù)據(jù)

元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)??蓪⑵浒从猛镜牟煌譃閮深悾夹g(shù)元數(shù)據(jù)和商業(yè)元數(shù)據(jù)。

技術(shù)元數(shù)據(jù)是數(shù)據(jù)倉庫的設(shè)計和管理人員用于開發(fā)和日常管理數(shù)據(jù)倉庫是用的數(shù)據(jù)。包括:數(shù)據(jù)源信息;數(shù)據(jù)轉(zhuǎn)換的描述;數(shù)據(jù)倉庫內(nèi)對象和數(shù)據(jù)結(jié)構(gòu)的定義;數(shù)據(jù)清理和數(shù)據(jù)更新時用的規(guī)則;源數(shù)據(jù)到目的數(shù)據(jù)的映射;用戶訪問權(quán)限,數(shù)據(jù)備份歷史記錄,數(shù)據(jù)導入歷史記錄,信息發(fā)布歷史記錄等。

商業(yè)元數(shù)據(jù)從商業(yè)業(yè)務(wù)的角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù)。包括:業(yè)務(wù)主題的描述,包含的數(shù)據(jù)、查詢、報表;

元數(shù)據(jù)為訪問數(shù)據(jù)倉庫提供了一個信息目錄(informationdirectory),這個目錄全面描述了數(shù)據(jù)倉庫中都有什么數(shù)據(jù)、這些數(shù)據(jù)怎么得到的、和怎么訪問這些數(shù)據(jù)。是數(shù)據(jù)倉庫運行和維護的中心,數(shù)據(jù)倉庫服務(wù)器利用他來存貯和更新數(shù)據(jù),用戶通過他來了解和訪問數(shù)據(jù)。

4、訪問工具

為用戶訪問數(shù)據(jù)倉庫提供手段。有數(shù)據(jù)查詢和報表工具;應(yīng)用開發(fā)工具;經(jīng)理信息系統(tǒng)(EIS)工具;聯(lián)機分析處理(OLAP)工具;數(shù)據(jù)挖掘工具。

5、數(shù)據(jù)集市(Data Marts)

為了特定的應(yīng)用目的或應(yīng)用范圍,而從數(shù)據(jù)倉庫中獨立出來的一部分數(shù)據(jù),也可稱為部門數(shù)據(jù)或主題數(shù)據(jù)(subjectarea)。在數(shù)據(jù)倉庫的實施過程中往往可以從一個部門的數(shù)據(jù)集市著手,以后再用幾個數(shù)據(jù)集市組成一個完整的數(shù)據(jù)倉庫。需要注意的就是再實施不同的數(shù)據(jù)集市時,同一含義的字段定義一定要相容,這樣再以后實施數(shù)據(jù)倉庫時才不會造成大麻煩。

數(shù)據(jù)倉庫管理:安全和特權(quán)管理;跟蹤數(shù)據(jù)的更新;數(shù)據(jù)質(zhì)量檢查;管理和更新元數(shù)據(jù);審計和報告數(shù)據(jù)倉庫的使用和狀態(tài);刪除數(shù)據(jù);復(fù)制、分割和分發(fā)數(shù)據(jù);備份和恢復(fù);存儲管理。

信息發(fā)布系統(tǒng):把數(shù)據(jù)倉庫中的數(shù)據(jù)或其他相關(guān)的數(shù)據(jù)發(fā)送給不同的地點或用戶?;赪eb的信息發(fā)布系統(tǒng)是對付多用戶訪問的最有效方法。

4.數(shù)據(jù)倉庫的步驟

1、數(shù)據(jù)倉庫的設(shè)計步驟

1)選擇合適的主題(所要解決問題的領(lǐng)域)。

2)明確定義fact表。

3)確定和確認維。

4)choosing the facts。

5)計算并存儲fact表中的衍生數(shù)據(jù)段。

6)rounding out the dimension tables。

7)choosing the duration of the database。

8)the need to tracks lowly changing dimensions。

9)確定查詢優(yōu)先級和查詢模式。

2、數(shù)據(jù)倉庫的建立步驟

1)收集和分析業(yè)務(wù)需求。

2)建立數(shù)據(jù)模型和數(shù)據(jù)倉庫的物理設(shè)計。

3)定義數(shù)據(jù)源。

4)選擇數(shù)據(jù)倉庫技術(shù)和平臺。

5)從操作型數(shù)據(jù)庫中抽取、凈化、和轉(zhuǎn)換數(shù)據(jù)到數(shù)據(jù)倉庫。

6)選擇訪問和報表工具。

7)選擇數(shù)據(jù)庫連接軟件。

8)選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件。

9)更新數(shù)據(jù)倉庫 。

5.數(shù)據(jù)倉庫和數(shù)據(jù)集市

有關(guān)決策支持型數(shù)據(jù)庫的數(shù)據(jù)集市是面向企業(yè)中的某個部門或是項目小組的。一些專家顧問將數(shù)據(jù)集市的建造描述為建立數(shù)據(jù)倉庫全過程中的一步。首先,一個儲存企業(yè)全部信息的數(shù)據(jù)倉庫被創(chuàng)建,其中,數(shù)據(jù)均具備有組織的、一致的、不變的格式。數(shù)據(jù)集市隨后被創(chuàng)立,其目的是為不同部門提供他們所需要的那部分信息。數(shù)據(jù)倉庫聚集了所有詳細的信息,而數(shù)據(jù)集市中的數(shù)據(jù)則是針對用戶們的特定需求總結(jié)而出的。

而另外一些專家則認為數(shù)據(jù)集市的建立并不需要首先建立一個數(shù)據(jù)倉庫。在這個模型中,數(shù)據(jù)直接由事務(wù)型數(shù)據(jù)庫轉(zhuǎn)入數(shù)據(jù)集市中。一個公司可能建立有多個數(shù)據(jù)集市,而彼此之間毫無聯(lián)系。

這種不在建立數(shù)據(jù)倉庫的基礎(chǔ)上創(chuàng)建數(shù)據(jù)集市的方式會更便宜、更快速,因為它的規(guī)模更加易于管理。

第二種觀點的缺陷在于無法實現(xiàn)最初創(chuàng)建數(shù)據(jù)倉庫的最主要的目的——將企業(yè)所有的數(shù)據(jù)統(tǒng)一為一致的格式。現(xiàn)有的事務(wù)處理系統(tǒng)的數(shù)據(jù)往往是不一致、冗余的。如果首先建立起一個全公司范圍的數(shù)據(jù)倉庫,組織就能夠獲得一個統(tǒng)一關(guān)于企業(yè)的活動和客戶的知識庫。如果先建立起一個個獨立的數(shù)據(jù)集市,那么數(shù)據(jù)倉庫的諸多優(yōu)勢都能夠得以實現(xiàn),但是企業(yè)遠遠無法做到對數(shù)據(jù)的一致的儲存。

評論  |   0條評論