登錄

數(shù)據(jù)集市

百科 > 信息技術(shù) > 數(shù)據(jù)集市

1.數(shù)據(jù)集市概述

數(shù)據(jù)集市也叫數(shù)據(jù)市場(chǎng),是一個(gè)從操作的數(shù)據(jù)和其他的為某個(gè)特殊的專業(yè)人員團(tuán)體服務(wù)的數(shù)據(jù)源中收集數(shù)據(jù)的倉(cāng)庫(kù)。從范圍上來(lái)說(shuō),數(shù)據(jù)是從企業(yè)范圍的數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù),或者是更加專業(yè)的數(shù)據(jù)倉(cāng)庫(kù)中抽取出來(lái)的。數(shù)據(jù)中心的重點(diǎn)就在于它迎合了專業(yè)用戶群體的特殊需求,在分析、內(nèi)容、表現(xiàn),以及易用方面。數(shù)據(jù)中心的用戶希望數(shù)據(jù)是由他們熟悉的術(shù)語(yǔ)表現(xiàn)的。

數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)集成的、面向主題的數(shù)據(jù)集合,設(shè)計(jì)的目的是支持DSS(決策支持系統(tǒng))功能。在數(shù)據(jù)倉(cāng)庫(kù)里,每個(gè)數(shù)據(jù)單元都和特定的時(shí)間相關(guān)。數(shù)據(jù)倉(cāng)庫(kù)包括原子級(jí)別的數(shù)據(jù)和輕度匯總的數(shù)據(jù),是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時(shí)間不斷變化(不同時(shí)間)的數(shù)據(jù)集合,用以支持經(jīng)營(yíng)管理中的決策制定過(guò)程。

那么數(shù)據(jù)集市就是企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)子集,他主要面向部門級(jí)業(yè)務(wù),并且只面向某個(gè)特定的主題。為了解決靈活性和性能之間的矛盾,數(shù)據(jù)集市就是數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)中增加的一種小型的部門或工作組級(jí)別的數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)集市存儲(chǔ)為特定用戶預(yù)先計(jì)算好的數(shù)據(jù),從而滿足用戶對(duì)性能的需求。數(shù)據(jù)集市可以在一定程度上緩解訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)的瓶頸。

2.數(shù)據(jù)集市的特征

  • 數(shù)據(jù)集市的特征包括規(guī)模小
  • 有特定的應(yīng)用
  • 面向部門
  • 由業(yè)務(wù)部門定義、設(shè)計(jì)和開(kāi)發(fā)
  • 業(yè)務(wù)部門管理和維護(hù)
  • 能快速實(shí)現(xiàn)
  • 購(gòu)買較便宜
  • 投資快速回收
  • 工具集的緊密集成
  • 提供更詳細(xì)的、預(yù)先存在的、數(shù)據(jù)倉(cāng)庫(kù)的摘要子集
  • 可升級(jí)到完整的數(shù)據(jù)倉(cāng)庫(kù)

3.數(shù)據(jù)集市中數(shù)據(jù)的結(jié)構(gòu)

數(shù)據(jù)集市中數(shù)據(jù)的結(jié)構(gòu)通常被描述為星型結(jié)構(gòu)或雪花結(jié)構(gòu)。一個(gè)星型結(jié)構(gòu)包含兩個(gè)基本部分——一個(gè)事實(shí)表和各種支持維表。

事實(shí)表

事實(shí)表描述數(shù)據(jù)集市中最密集的數(shù)據(jù)。在電話公司中,用于呼叫的數(shù)據(jù)是典型的最密集數(shù)據(jù);在銀行中,與賬目核對(duì)和自動(dòng)柜員機(jī)有關(guān)的數(shù)據(jù)是典型的最密集數(shù)據(jù)。對(duì)于零售業(yè)而言,銷售和庫(kù)存數(shù)據(jù)是最密集的數(shù)據(jù)等等。

事實(shí)表是預(yù)先被連接到一起的多種類型數(shù)據(jù)的組合體,它包括:一個(gè)反映事實(shí)表建立目的的實(shí)體的主鍵,如一張訂單、一次銷售、一個(gè)電話等等,主鍵信息,連接事實(shí)表與維表的外鍵,外鍵攜帶的非鍵值外部數(shù)據(jù)。如果這種非鍵外部數(shù)據(jù)經(jīng)常用于事實(shí)表中的數(shù)據(jù)分析,它就會(huì)被包括在事實(shí)表的范圍內(nèi)。事實(shí)表是高度索引化的。事實(shí)表中出現(xiàn)30到40條索引非常常見(jiàn)。有時(shí)實(shí)事表的每列都建了索引,這樣作的結(jié)果是使事實(shí)表中的數(shù)據(jù)非常容易讀取。但是,導(dǎo)入索引所需的資源數(shù)量必須為等式提供因數(shù)。通常,事實(shí)表的數(shù)據(jù)不能更改,但可以輸入數(shù)據(jù),一旦正確輸入一個(gè)記錄,就不能更改此記錄的任何內(nèi)容了。

維表

維表是圍繞著事實(shí)表建立的。維表包含非密集型數(shù)據(jù),它通過(guò)外鍵與事實(shí)表相連。典型的維表建立在數(shù)據(jù)集市的基礎(chǔ)上,包括產(chǎn)品目錄、客戶名單、廠商列表等等。

數(shù)據(jù)集市中的數(shù)據(jù)來(lái)源于企業(yè)數(shù)據(jù)倉(cāng)庫(kù)。所有數(shù)據(jù),除了一個(gè)例外,在導(dǎo)入到數(shù)據(jù)集市之前都應(yīng)該經(jīng)過(guò)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)。這個(gè)例外就是用于數(shù)據(jù)集市的特定數(shù)據(jù),它不能用于數(shù)據(jù)倉(cāng)庫(kù)的其他地方。外部數(shù)據(jù)通常屬于這類范疇。如果情況不是這樣,數(shù)據(jù)就會(huì)用于決策支持系統(tǒng)的其他地方,那么這些數(shù)據(jù)就必須經(jīng)過(guò)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)。

數(shù)據(jù)集市包含兩種類型的數(shù)據(jù),通常是詳細(xì)數(shù)據(jù)和匯總數(shù)據(jù)。

詳細(xì)數(shù)據(jù)

就像前面描述過(guò)的一樣,數(shù)據(jù)集市中的詳細(xì)數(shù)據(jù)包含在星型結(jié)構(gòu)中。值得一提的是,當(dāng)數(shù)據(jù)通過(guò)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)時(shí),星型結(jié)構(gòu)就會(huì)很好的匯總。在這種情況下,企業(yè)數(shù)據(jù)倉(cāng)庫(kù)包含必需的基本數(shù)據(jù),而數(shù)據(jù)集市則包含更高間隔尺寸的數(shù)據(jù)。但是,在數(shù)據(jù)集市使用者的心目中,星型結(jié)構(gòu)的數(shù)據(jù)和數(shù)據(jù)獲取時(shí)一樣詳細(xì)。

匯總數(shù)據(jù)

數(shù)據(jù)集市包含的第二種類型數(shù)據(jù)是匯總數(shù)據(jù)。分析人員通常從星型結(jié)構(gòu)中的數(shù)據(jù)創(chuàng)建各種匯總數(shù)據(jù)。典型的匯總可能是銷售區(qū)域的月銷售總額。因?yàn)閰R總的基礎(chǔ)不斷發(fā)展變化,所以歷史數(shù)據(jù)就在數(shù)據(jù)集市中。但是這些歷史數(shù)據(jù)優(yōu)勢(shì)在于它存儲(chǔ)的概括水平。星型結(jié)構(gòu)中保存的歷史數(shù)據(jù)非常少。

數(shù)據(jù)集市以企業(yè)數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ)進(jìn)行更新。對(duì)于數(shù)據(jù)集市來(lái)說(shuō)大約每周更新一次非常平常。但是,數(shù)據(jù)集市的更新時(shí)間可以少于一周也可以多于一周,這主要是由數(shù)據(jù)集市所屬部門的需求來(lái)決定的。

4.數(shù)據(jù)集市的常見(jiàn)問(wèn)題

數(shù)據(jù)集市怎么建

建立不同規(guī)格的數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市的成本,國(guó)外的咨詢機(jī)構(gòu)有專門的評(píng)估,在一定程度上可以借鑒。但是這些結(jié)果在國(guó)內(nèi)也許并不適用,因?yàn)閲?guó)情不同,在國(guó)內(nèi)的構(gòu)建成本需要專門的調(diào)研。以我們?yōu)槠髽I(yè)構(gòu)建的客戶主題數(shù)據(jù)集市為例,一般成本在20萬(wàn)元到50萬(wàn)元人民幣之間。

數(shù)據(jù)集市的設(shè)計(jì)可以采用迭代式的方法。在迭代式開(kāi)發(fā)中,每個(gè)迭代為上一次的結(jié)果增加了新的功能。功能增加的順序要考慮到迭代平衡以及盡早發(fā)現(xiàn)重大風(fēng)險(xiǎn)。通俗地說(shuō),就是在正式交貨之前多次給客戶交付不完善的中間產(chǎn)品“試用”。這些中間產(chǎn)品會(huì)有一些功能還沒(méi)有添加進(jìn)去、還不穩(wěn)定,但是客戶提出修改意見(jiàn)以后,開(kāi)發(fā)人員能夠更好地理解客戶的需求。如此反復(fù),使得產(chǎn)品在質(zhì)量上能夠逐漸逼近客戶的要求。這種開(kāi)發(fā)方法周期長(zhǎng)、成本高,但是它能夠避免整個(gè)項(xiàng)目推倒重來(lái)的風(fēng)險(xiǎn),比較適合大項(xiàng)目、高風(fēng)險(xiǎn)項(xiàng)目。

理論上講,應(yīng)該有一個(gè)總的數(shù)據(jù)倉(cāng)庫(kù)的概念,然后才有數(shù)據(jù)集市。實(shí)際建設(shè)數(shù)據(jù)集市的時(shí)候,國(guó)內(nèi)很少這么做。國(guó)內(nèi)一般會(huì)先從數(shù)據(jù)集市入手,就某一個(gè)特定的主題(比如企業(yè)的客戶信息)先做數(shù)據(jù)集市,再建設(shè)數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市建立的先后次序之分,是和設(shè)計(jì)方法緊密相關(guān)的。而數(shù)據(jù)倉(cāng)庫(kù)作為工程學(xué)科,并沒(méi)有對(duì)錯(cuò)之分,主要判別方式應(yīng)該是能否解決目前存在的實(shí)際問(wèn)題,并為今后可能發(fā)生的問(wèn)題保持一定的可伸縮性。

數(shù)據(jù)集市能不能 “獨(dú)立”

企業(yè)規(guī)劃數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的時(shí)候,往往會(huì)遇到很多數(shù)據(jù)倉(cāng)庫(kù)軟件供應(yīng)商。各供應(yīng)商除了推銷相關(guān)的軟件工具外, 同時(shí)也會(huì)向企業(yè)灌輸許多概念。其中,數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市是最常見(jiàn)的兩個(gè)術(shù)語(yǔ)了。各個(gè)供應(yīng)商術(shù)語(yǔ)定義不統(tǒng)一、銷售策略不一樣,這往往會(huì)給企業(yè)帶來(lái)很大的混淆。最典型的問(wèn)題是:到底是先上一個(gè)企業(yè)級(jí)的數(shù)據(jù)倉(cāng)庫(kù)呢?還是先上一個(gè)部門級(jí)的數(shù)據(jù)集市?這其實(shí)是是否要上獨(dú)立型數(shù)據(jù)集市的問(wèn)題。

數(shù)據(jù)集市可以分為兩種類型——獨(dú)立型數(shù)據(jù)集市和從屬型數(shù)據(jù)集市。獨(dú)立型數(shù)據(jù)集市直接從操作型環(huán)境獲取數(shù)據(jù),從屬型數(shù)據(jù)集市從企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)獲取數(shù)據(jù),帶有從屬型數(shù)據(jù)集市的體系結(jié)構(gòu)。

數(shù)據(jù)倉(cāng)庫(kù)規(guī)模大、周期長(zhǎng),一些規(guī)模比較小的企業(yè)用戶難以承擔(dān)。因此,作為快速解決企業(yè)當(dāng)前存在的實(shí)際問(wèn)題的一種有效方法,獨(dú)立型數(shù)據(jù)集市成為一種既成事實(shí)。獨(dú)立型數(shù)據(jù)集市是為滿足特定用戶(一般是部門級(jí)別的)的需求而建立的一種分析型環(huán)境,它能夠快速地解決某些具體的問(wèn)題,而且投資規(guī)模也比數(shù)據(jù)倉(cāng)庫(kù)小很多。

獨(dú)立型數(shù)據(jù)集市的存在會(huì)給人造成一種錯(cuò)覺(jué),似乎可以先獨(dú)立地構(gòu)建數(shù)據(jù)集市,當(dāng)數(shù)據(jù)集市達(dá)到一定的規(guī)模再直接轉(zhuǎn)換為數(shù)據(jù)倉(cāng)庫(kù)。有些銷售人員會(huì)推銷這種觀點(diǎn),其實(shí)質(zhì)卻常常是因?yàn)榻⑵髽I(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的銷售周期太長(zhǎng)以至于不好操作。

多個(gè)獨(dú)立的數(shù)據(jù)集市的累積,是不能形成一個(gè)企業(yè)級(jí)的數(shù)據(jù)倉(cāng)庫(kù)的,這是由數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市本身的特點(diǎn)決定的—數(shù)據(jù)集市為各個(gè)部門或工作組所用,各個(gè)集市之間存在不一致性是難免的。因?yàn)槊撾x數(shù)據(jù)倉(cāng)庫(kù)的緣故,當(dāng)多個(gè)獨(dú)立型數(shù)據(jù)集市增長(zhǎng)到一定規(guī)模之后,由于沒(méi)有統(tǒng)一的數(shù)據(jù)倉(cāng)庫(kù)協(xié)調(diào),企業(yè)只會(huì)又增加一些信息孤 島,仍然不能以整個(gè)企業(yè)的視圖分析數(shù)據(jù)。借用Inmon的比喻:我們不可能將大海里的小魚(yú)堆在一起就構(gòu)成一頭大鯨魚(yú),這也說(shuō)明了數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市有本質(zhì)的不同。

如果企業(yè)最終想建設(shè)一個(gè)全企業(yè)統(tǒng)一的數(shù)據(jù)倉(cāng)庫(kù),想要以整個(gè)企業(yè)的視圖分析數(shù)據(jù),獨(dú)立型數(shù)據(jù)集市恐怕不是合適的選擇;也就是說(shuō)“先獨(dú)立地構(gòu)建數(shù)據(jù)集市,當(dāng)數(shù)據(jù)集市達(dá)到一定的規(guī)模再直接轉(zhuǎn)換為數(shù)據(jù)倉(cāng)庫(kù)”是不合適的。從長(zhǎng)遠(yuǎn)的角度看,從屬型數(shù)據(jù)集市在體系結(jié)構(gòu)上比獨(dú)立型數(shù)據(jù)集市更穩(wěn)定,可以說(shuō)是數(shù)據(jù)集市未來(lái)建設(shè)的主要方向。

5.為何要構(gòu)建數(shù)據(jù)集市?

快速發(fā)展的、充滿競(jìng)爭(zhēng)的商業(yè)世界對(duì)于及時(shí)、準(zhǔn)確的信息有著永無(wú)止境的需求,一些IT專家對(duì)此認(rèn)為其必然結(jié)果就是創(chuàng)建數(shù)據(jù)集市。其他專家卻質(zhì)疑用戶和客戶所要付出的工作和成本。畢竟,難道不能直接從遺留系統(tǒng)和在線事務(wù)處理(On Line Transaction Processing,OLTP)系統(tǒng)通過(guò)特定的報(bào)表獲得相同的信息嗎?在EDS 的商業(yè)智能小組里,我們就經(jīng)常被問(wèn)到這一問(wèn)題。經(jīng)驗(yàn)讓我們有許多機(jī)會(huì)使我們的同行和客戶了解這項(xiàng)有用技術(shù)的價(jià)值。

那么,一個(gè)組織為何要構(gòu)建數(shù)據(jù)集市呢?雖然OLTP和遺留系統(tǒng)擁有寶貴的信息,但是可能難以從這些系統(tǒng)中提取有意義的信息并且速度也較慢。而且這些系統(tǒng)雖然一般可支持預(yù)先定義操作的報(bào)表,但卻經(jīng)常無(wú)法支持一個(gè)組織對(duì)于歷史的、聯(lián)合的、“智能的”或易于訪問(wèn)的信息的需求。因?yàn)閿?shù)據(jù)分布在許多跨系統(tǒng)和平臺(tái)的表中,而且通常是“臟的”,包含了不一致的和無(wú)效的值,使得難于分析。數(shù)據(jù)集市將合并不同系統(tǒng)的數(shù)據(jù)源來(lái)滿足業(yè)務(wù)信息需求。

若能有效地得以實(shí)現(xiàn),數(shù)據(jù)集市將可以快速且方便地訪問(wèn)簡(jiǎn)單信息以及系統(tǒng)的和歷史的視圖。一個(gè)設(shè)計(jì)良好的數(shù)據(jù)集市將會(huì):

  • 發(fā)布特定用戶群體所需的信息,且無(wú)需受制于源系統(tǒng)的大量需求和操作性危機(jī)。
  • 支持訪問(wèn)非易變(nonvolatile)的業(yè)務(wù)信息。(非易變的信息是以預(yù)定的時(shí)間間隔進(jìn)行更新的,并且不受OLTP系統(tǒng)進(jìn)行中的更新的影響。)
  • 調(diào)和來(lái)自于組織里多個(gè)運(yùn)行系統(tǒng)的信息,比如賬目、銷售、庫(kù)存和客戶管理以及組織外部的行業(yè)數(shù)據(jù)。
  • 通過(guò)默認(rèn)有效值、使各系統(tǒng)的值保持一致以及添加描述以使隱含代碼有意義,從而提供凈化的(cleansed)數(shù)據(jù)。
  • 為即席分析和預(yù)定義報(bào)表提供合理的查詢響應(yīng)時(shí)間(不同于OLTP系統(tǒng)中所需的調(diào)優(yōu)需求)。
  • 通過(guò)提供對(duì)于遺留系統(tǒng)和OLTP應(yīng)用程序的選擇來(lái)減少對(duì)這些應(yīng)用程序的要求,以獲得更多所需信息。
評(píng)論  |   0條評(píng)論