數(shù)據(jù)集成
1.數(shù)據(jù)集成概述[1]
就大型企業(yè)和政府部門(mén)的信息化而言,信息系統(tǒng)建設(shè)通常具有階段性和分布性的特點(diǎn),這就導(dǎo)致“信息孤島”現(xiàn)象的存在。“信息孤島”是指不同軟件間,尤其是不同部門(mén)間的數(shù)據(jù)信息不能共享,造成系統(tǒng)中存在大量冗余數(shù)據(jù)、垃圾數(shù)據(jù),無(wú)法保證數(shù)據(jù)的一致性,嚴(yán)重地阻礙了企業(yè)信息化建設(shè)的整體進(jìn)程。為解決這一問(wèn)題,人們開(kāi)始關(guān)注數(shù)據(jù)集成研究。
數(shù)據(jù)集成就是將若干個(gè)分散的數(shù)據(jù)源中的數(shù)據(jù),邏輯地或物理地集成到一個(gè)統(tǒng)一的數(shù)據(jù)集合中。數(shù)據(jù)集成的核心任務(wù)是要將互相關(guān)聯(lián)的分布式異構(gòu)數(shù)據(jù)源集成到一起,使用戶(hù)能夠以透明的方式訪問(wèn)這些數(shù)據(jù)源。集成是指維護(hù)數(shù)據(jù)源整體上的數(shù)據(jù)一致性、提高信息共享利用的效率;透明的方式是指用戶(hù)無(wú)需關(guān)心如何實(shí)現(xiàn)對(duì)異構(gòu)數(shù)據(jù)源數(shù)據(jù)的訪問(wèn),只關(guān)心以何種方式訪問(wèn)何種數(shù)據(jù)。實(shí)現(xiàn)數(shù)據(jù)集成的系統(tǒng)稱(chēng)作數(shù)據(jù)集成系統(tǒng)(見(jiàn)下圖),它為用戶(hù)提供統(tǒng)一的數(shù)據(jù)源訪問(wèn)接口,執(zhí)行用戶(hù)對(duì)數(shù)據(jù)源的訪問(wèn)請(qǐng)求。
數(shù)據(jù)集成的數(shù)據(jù)源主要指DBMS,廣義上也包括各類(lèi)XML文檔、HTML文檔、電子郵件、普通文件等結(jié)構(gòu)化、半結(jié)構(gòu)化信息。數(shù)據(jù)集成是信息系統(tǒng)集成的基礎(chǔ)和關(guān)鍵。好的數(shù)據(jù)集成系統(tǒng)要保證用戶(hù)以低代價(jià)、高效率使用異構(gòu)的數(shù)據(jù)。要實(shí)現(xiàn)這個(gè)目標(biāo),必須解決數(shù)據(jù)集成中的~些難題。
數(shù)據(jù)集成的難點(diǎn)可以歸納為以下主要方面:
1)異構(gòu)性。被集成的數(shù)據(jù)源通常是獨(dú)立開(kāi)發(fā)的,數(shù)據(jù)模型異構(gòu),給集成帶來(lái)很大困難。這些異構(gòu)性主要表現(xiàn)在:數(shù)據(jù)語(yǔ)義、相同語(yǔ)義數(shù)據(jù)的表達(dá)形式、數(shù)據(jù)源的使用環(huán)境等。
2)分布性。數(shù)據(jù)源是異地分布的,依賴(lài)網(wǎng)絡(luò)傳輸數(shù)據(jù),這就存在網(wǎng)絡(luò)傳輸?shù)男阅芎桶踩缘葐?wèn)題。
3)自治性。各個(gè)數(shù)據(jù)源有很強(qiáng)的自治性,它們可以在不通知集成系統(tǒng)的前提下改變自身的結(jié)構(gòu)和數(shù)據(jù),給數(shù)據(jù)集成系統(tǒng)的魯棒性提出挑戰(zhàn)。
數(shù)據(jù)源的異構(gòu)性一直是困擾很多數(shù)據(jù)集成系統(tǒng)的核心問(wèn)題,也是人們?cè)跀?shù)據(jù)集成方面研究的熱點(diǎn)。異構(gòu)性的難點(diǎn)主要表現(xiàn)在語(yǔ)法異構(gòu)和語(yǔ)義異構(gòu)上。語(yǔ)法異構(gòu)一般指源數(shù)據(jù)和目的數(shù)據(jù)之間命名規(guī)則及數(shù)據(jù)類(lèi)型存在不同。對(duì)數(shù)據(jù)庫(kù)而言,命名規(guī)則指表名和字段名。語(yǔ)法異構(gòu)相對(duì)簡(jiǎn)單,只要實(shí)現(xiàn)字段到字段、記錄到記錄的映射,解決其中的名字沖突和數(shù)據(jù)類(lèi)型沖突。這種映射都很直接,比較容易實(shí)現(xiàn)。因此,語(yǔ)法異構(gòu)無(wú)需關(guān)心數(shù)據(jù)的內(nèi)容和含義,只要知道數(shù)據(jù)結(jié)構(gòu)信息,完成源數(shù)據(jù)結(jié)構(gòu)到目的數(shù)據(jù)結(jié)構(gòu)之間的映射就可以了。
當(dāng)數(shù)據(jù)集成要考慮數(shù)據(jù)的內(nèi)容和含義時(shí),就進(jìn)入到語(yǔ)義異構(gòu)的層次上。語(yǔ)義異構(gòu)要比語(yǔ)法異構(gòu)復(fù)雜的多,它往往是需要破壞字段的原子性,即需要直接處理數(shù)據(jù)內(nèi)容。常見(jiàn)的語(yǔ)義異構(gòu)包括以下一些方式:字段拆分、字段合并、字段數(shù)據(jù)格式變換、記錄間字段轉(zhuǎn)移等。語(yǔ)法異構(gòu)和語(yǔ)義異構(gòu)的區(qū)別可以追溯到數(shù)據(jù)源建模時(shí)的差異:當(dāng)數(shù)據(jù)源的實(shí)體關(guān)系模型相同,只是命名規(guī)則不同時(shí),造成的只是數(shù)據(jù)源之間的語(yǔ)法異構(gòu);當(dāng)數(shù)據(jù)源構(gòu)建實(shí)體模型時(shí),若采用不同的粒度劃分、不同的實(shí)體間關(guān)系以及不同的字段數(shù)據(jù)語(yǔ)義表示,必然會(huì)造成數(shù)據(jù)源間的語(yǔ)義異構(gòu),給數(shù)據(jù)集成帶來(lái)很大麻煩。
事實(shí)上,現(xiàn)實(shí)中數(shù)據(jù)集成系統(tǒng)的語(yǔ)法異構(gòu)現(xiàn)象是普遍存在的。上面提到的幾種語(yǔ)法異構(gòu)屬于較為規(guī)則的語(yǔ)法異構(gòu),可以用特定的映射方法解決這些問(wèn)題。還有一些不常見(jiàn)或不易被發(fā)現(xiàn)的語(yǔ)法異構(gòu),例如數(shù)據(jù)源在構(gòu)建時(shí)隱含了一些約束信息,在數(shù)據(jù)集成時(shí),這些約束不易被發(fā)現(xiàn),往往會(huì)造成錯(cuò)誤的產(chǎn)生。如某個(gè)數(shù)據(jù)項(xiàng)用來(lái)定義月份,隱含著其值只能在1~12之間,而集成時(shí)如果忽略了這一約束,很可能造成荒謬的結(jié)果。此外,復(fù)雜的關(guān)系模型也會(huì)造成很多語(yǔ)義異構(gòu)現(xiàn)象。
2.數(shù)據(jù)集成的分類(lèi)[2]
數(shù)據(jù)集成可以分為下述4個(gè)層次。
- 1.基本數(shù)據(jù)集成
基本數(shù)據(jù)集成面臨的問(wèn)題很多。
通用標(biāo)識(shí)符問(wèn)題是數(shù)據(jù)集成時(shí)遇到的最難的問(wèn)題之一。由于同一業(yè)務(wù)實(shí)體存在于多個(gè)系統(tǒng)源中,并且沒(méi)有明確的辦法確認(rèn)這些實(shí)體是同一實(shí)體時(shí),就會(huì)產(chǎn)生這類(lèi)問(wèn)題。處理該問(wèn)題的辦法如下。
(1)隔離。保證實(shí)體的每次出現(xiàn)都指派一個(gè)唯一標(biāo)識(shí)符。
(2)調(diào)和。確認(rèn)哪些實(shí)體是相同的,并且將該實(shí)體的各次出現(xiàn)合并起來(lái)。
當(dāng)目標(biāo)元素有多個(gè)來(lái)源時(shí),指定某一系統(tǒng)在沖突時(shí)占主導(dǎo)地位。
數(shù)據(jù)丟失問(wèn)題是最常見(jiàn)的問(wèn)題之一,一般解決的辦法是為丟失的數(shù)據(jù)產(chǎn)生一個(gè)非常接近實(shí)際的估計(jì)值來(lái)進(jìn)行處理。
- 2.多級(jí)視圖集成
多級(jí)視圖機(jī)制有助于對(duì)數(shù)據(jù)源之間的關(guān)系進(jìn)行集成:底層數(shù)據(jù)表示方式為局部模型的局部格式,如關(guān)系和文件;中間數(shù)據(jù)表示為公共模式格式,如擴(kuò)展關(guān)系模型或?qū)ο竽P停桓呒?jí)數(shù)據(jù)表示為綜合模型格式。
視圖的集成化過(guò)程為兩級(jí)映射:
(1)數(shù)據(jù)從局部數(shù)據(jù)庫(kù)中,經(jīng)過(guò)數(shù)據(jù)翻譯、轉(zhuǎn)換并集成為符合公共模型格式的中間視圖。
(2)進(jìn)行語(yǔ)義沖突消除、數(shù)據(jù)集成和數(shù)據(jù)導(dǎo)出處理,將中間視圖集成為綜合視圖。
- 3.模式集成
模型合并屬于數(shù)據(jù)庫(kù)設(shè)計(jì)問(wèn)題,其設(shè)計(jì)的好壞常視設(shè)計(jì)者的經(jīng)驗(yàn)而定,在實(shí)際應(yīng)用中很少有成熟的理論指導(dǎo)。
實(shí)際應(yīng)用中,數(shù)據(jù)源的模式集成和數(shù)據(jù)庫(kù)設(shè)計(jì)仍有相當(dāng)?shù)牟罹啵缒J郊蓵r(shí)出現(xiàn)的命名、單位、結(jié)構(gòu)和抽象層次等沖突問(wèn)題,就無(wú)法照搬模式設(shè)計(jì)的經(jīng)驗(yàn)。
在眾多互操作系統(tǒng)中,模式集成的基本框架如屬性等價(jià)、關(guān)聯(lián)等價(jià)和類(lèi)等價(jià)可最終歸于屬性等價(jià)。
- 4.多粒度數(shù)據(jù)集成
多粒度數(shù)據(jù)集成是異構(gòu)數(shù)據(jù)集成中最難處理的問(wèn)題,理想的多粒度數(shù)據(jù)集成模式是自動(dòng)逐步抽象。
數(shù)據(jù)綜合(或數(shù)據(jù)抽象)指由高精度數(shù)據(jù)經(jīng)過(guò)抽象形成精度較低、但是粒度較大的數(shù)據(jù)。其作用過(guò)程為從多個(gè)較高精度的局部數(shù)據(jù)中,獲得較低精度的全局?jǐn)?shù)據(jù)。在這個(gè)過(guò)程中,要對(duì)各局域中的數(shù)據(jù)進(jìn)行綜合,提取其主要特征。數(shù)據(jù)綜合集成的過(guò)程實(shí)際上是特征提取和歸并的過(guò)程。
數(shù)據(jù)細(xì)化指通過(guò)由一定精度的數(shù)據(jù)獲取精度較高的數(shù)據(jù),實(shí)現(xiàn)該過(guò)程的主要途徑有:時(shí)空轉(zhuǎn)換,相關(guān)分析或者由綜合中數(shù)據(jù)變動(dòng)的記錄進(jìn)行恢復(fù)。數(shù)據(jù)集成是最終實(shí)現(xiàn)數(shù)據(jù)共享和輔助決策的基礎(chǔ)。
3.常見(jiàn)數(shù)據(jù)集成方法[1]
- 1.聯(lián)邦數(shù)據(jù)庫(kù)
聯(lián)邦數(shù)據(jù)庫(kù)是早期人們采用的一種模式集成方法。模式集成是人們最早采用的數(shù)據(jù)集成方法。其基本思想是,在構(gòu)建集成系統(tǒng)時(shí)將各數(shù)據(jù)源的數(shù)據(jù)視圖集成為全局模式,使用戶(hù)能夠按照全局模式透明地訪問(wèn)各數(shù)據(jù)源的數(shù)據(jù)。全局模式描述了數(shù)據(jù)源共享數(shù)據(jù)的結(jié)構(gòu)、語(yǔ)義及操作等。用戶(hù)直接在全局模式的基礎(chǔ)上提交請(qǐng)求,由數(shù)據(jù)集成系統(tǒng)處理這些請(qǐng)求,轉(zhuǎn)換成各個(gè)數(shù)據(jù)源在本地?cái)?shù)據(jù)視圖基礎(chǔ)上能夠執(zhí)行的請(qǐng)求。模式集成方法的特點(diǎn)是直接為用戶(hù)提供透明的數(shù)據(jù)訪問(wèn)方法。由于用戶(hù)使用的全局模式是虛擬的數(shù)據(jù)源視圖,一些學(xué)者也把模式集成方法稱(chēng)為虛擬視圖集成方法。模式集成要解決兩個(gè)基本問(wèn)題:構(gòu)建全局模式與數(shù)據(jù)源數(shù)據(jù)視圖間的映射關(guān)系;處理用戶(hù)在全局模式基礎(chǔ)上的查詢(xún)請(qǐng)求。
模式集成過(guò)程需要將原來(lái)異構(gòu)的數(shù)據(jù)模式作適當(dāng)?shù)霓D(zhuǎn)換,消除數(shù)據(jù)源間的異構(gòu)性,映射成全局模式。全局模式與數(shù)據(jù)源數(shù)據(jù)視圖問(wèn)映射的構(gòu)建方法有兩種:全局視圖法和局部視圖法。全局視圖法中的全局模式是在數(shù)據(jù)源數(shù)據(jù)視圖基礎(chǔ)上建立的,。它由一系列元素組成,每個(gè)元素對(duì)應(yīng)一個(gè)數(shù)據(jù)源,表示相應(yīng)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)和操作;局部視圖法先構(gòu)建全局模式,數(shù)據(jù)源的數(shù)據(jù)視圖則是在全局模式基礎(chǔ)上定義,由全局模式按一定的規(guī)則推理得到。用戶(hù)在全局模式基礎(chǔ)上查詢(xún)請(qǐng)求需要被映射成各個(gè)數(shù)據(jù)源能夠執(zhí)行的查詢(xún)請(qǐng)求。
在聯(lián)邦數(shù)據(jù)庫(kù)中,數(shù)據(jù)源之間共享自己的一部分?jǐn)?shù)據(jù)模式,形成一個(gè)聯(lián)邦模式(見(jiàn)圖)。聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)按集成度可分為兩類(lèi):采用緊密耦合聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)和采用松散耦合聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)。緊密耦合聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)使用統(tǒng)一的全局模式,將各數(shù)據(jù)源的數(shù)據(jù)模式映射到全局?jǐn)?shù)據(jù)模式上,解決了數(shù)據(jù)源間的異構(gòu)性。這種方法集成度較高,用戶(hù)參與少;缺點(diǎn)是構(gòu)建一個(gè)全局?jǐn)?shù)據(jù)模式的算法復(fù)雜,擴(kuò)展性差。松散耦合聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)比較特殊,沒(méi)有全局模式,采用聯(lián)邦模式。該方法提供統(tǒng)一的查詢(xún)語(yǔ)言,將很多異梅性問(wèn)題交給用戶(hù)自己去解決。松散耦合方法對(duì)數(shù)據(jù)的集成度不高,但其數(shù)據(jù)源的自治性強(qiáng)、動(dòng)態(tài)性能好,集成系統(tǒng)不需要維護(hù)一個(gè)全局模式。
- 2.中間件集成方法
中間件集成方法是目前比較流行的數(shù)據(jù)集成方法,中間件模式通過(guò)統(tǒng)一的全局數(shù)據(jù)模型來(lái)訪問(wèn)異構(gòu)的數(shù)據(jù)庫(kù)、遺留系統(tǒng)、Web資源等。中間件位于異構(gòu)數(shù)據(jù)源系統(tǒng)(數(shù)據(jù)層)和應(yīng)用程序(應(yīng)用層)之間,向下協(xié)調(diào)各數(shù)據(jù)源系統(tǒng),向上為訪問(wèn)集成數(shù)據(jù)的應(yīng)用提供統(tǒng)’一數(shù)據(jù)模式和數(shù)據(jù)訪問(wèn)的通用接口。各數(shù)據(jù)源的應(yīng)用仍然完成它們的任務(wù),中間件系統(tǒng)則主要集中為異構(gòu)數(shù)據(jù)源提供一個(gè)高層次檢索服務(wù)。它同樣使用全局?jǐn)?shù)據(jù)模式,通過(guò)在中間層提供一個(gè)統(tǒng)一的數(shù)據(jù)邏輯視圖來(lái)隱藏底層的數(shù)據(jù)細(xì)節(jié),使得用戶(hù)可以把集成數(shù)據(jù)源看為一個(gè)統(tǒng)一的整體。這種模型下的關(guān)鍵問(wèn)題是如何構(gòu)造這個(gè)邏輯視圖并使得不同數(shù)據(jù)源之間能映射到這個(gè)中間層。
G.Wiederhold最早給出了基于中間件的集成方法的構(gòu)架。與聯(lián)邦數(shù)據(jù)庫(kù)不同,中間件系統(tǒng)不僅能夠集成結(jié)構(gòu)化的數(shù)據(jù)源信息,還可以集成半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)源中的信息,如Web信息。美國(guó)斯坦福大學(xué)Garcia—Molina等人在1994年開(kāi)發(fā)了TSIMMIS系統(tǒng),就是一個(gè)典型的中間件集成系統(tǒng)。
典型的基于中間件的數(shù)據(jù)集成系統(tǒng),如下圖所示,主要包括中間件和封裝器,其中每個(gè)數(shù)據(jù)源對(duì)應(yīng)一個(gè)封裝器,中間件通過(guò)封裝器和各個(gè)數(shù)據(jù)源交互。用戶(hù)在全局?jǐn)?shù)據(jù)模式的基礎(chǔ)上向中間件發(fā)出查詢(xún)請(qǐng)求。中間件處理用戶(hù)請(qǐng)求,將其轉(zhuǎn)換成各個(gè)數(shù)據(jù)源能夠處理的子查詢(xún)請(qǐng)求,并對(duì)此過(guò)程進(jìn)行優(yōu)化,以提高查詢(xún)處理的并發(fā)性,減少響應(yīng)時(shí)間。封裝器對(duì)特定數(shù)據(jù)源進(jìn)行了封裝,將其數(shù)據(jù)模型轉(zhuǎn)換為系統(tǒng)所采用的通用模型,并提供一致的訪問(wèn)機(jī)制。中間件將各個(gè)子查詢(xún)請(qǐng)求發(fā)送給封裝器,由封裝器來(lái)和其封裝的數(shù)據(jù)源交互,執(zhí)行子查詢(xún)請(qǐng)求,并將結(jié)果返回給中間件。
中間件注重于全局查詢(xún)的處理和優(yōu)化,相對(duì)于聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)的優(yōu)勢(shì)在于:它能夠集成非數(shù)據(jù)庫(kù)形式的數(shù)據(jù)源,有很好的查詢(xún)性能,自治性強(qiáng);中間件集成的缺點(diǎn)在于它通常是只讀的,而聯(lián)邦數(shù)據(jù)庫(kù)對(duì)讀寫(xiě)都支持。
- 3.數(shù)據(jù)倉(cāng)庫(kù)方法
數(shù)據(jù)倉(cāng)庫(kù)方法是一種典型的數(shù)據(jù)復(fù)制方法。該方法將各個(gè)數(shù)據(jù)源的數(shù)據(jù)復(fù)制到同一處,即數(shù)據(jù)倉(cāng)庫(kù)。用戶(hù)則像訪問(wèn)普通數(shù)據(jù)庫(kù)一樣直接訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù),如圖所示。
數(shù)據(jù)倉(cāng)庫(kù)是在數(shù)據(jù)庫(kù)已經(jīng)大量存在的情況下,為了進(jìn)一步挖掘數(shù)據(jù)資源和決策需要而產(chǎn)生的。目前,大部分?jǐn)?shù)據(jù)倉(cāng)庫(kù)還是用關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)來(lái)管理的,但它決不是所謂的“大型數(shù)據(jù)庫(kù)”。數(shù)據(jù)倉(cāng)庫(kù)方案建設(shè)的目的,是將前端查詢(xún)和分析作為基礎(chǔ),由于有較大的冗余,所以需要的存儲(chǔ)容量也較大。數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)環(huán)境,而不是一件產(chǎn)品,提供用戶(hù)用于決策支持的當(dāng)前和歷史數(shù)據(jù),這些數(shù)據(jù)在傳統(tǒng)的操作型數(shù)據(jù)庫(kù)中很難或不能得到。
數(shù)據(jù)倉(cāng)庫(kù)技術(shù)是為了有效地把操作型數(shù)據(jù)集成到統(tǒng)一的環(huán)境中以提供決策型數(shù)據(jù)訪問(wèn)的各種技術(shù)和模塊的總稱(chēng)。所做的一切都是為了讓用戶(hù)更快、更方便地查詢(xún)所需要的信息,提供決策支持。
簡(jiǎn)而言之,從內(nèi)容和設(shè)計(jì)的原則來(lái)講,傳統(tǒng)的操作型數(shù)據(jù)庫(kù)是面向事務(wù)設(shè)計(jì)的,數(shù)據(jù)庫(kù)中通常存儲(chǔ)在線交易數(shù)據(jù),設(shè)計(jì)時(shí)盡量避免冗余,一般采用符合范式的規(guī)則來(lái)設(shè)計(jì)。而數(shù)據(jù)倉(cāng)庫(kù)是面向主題設(shè)計(jì)的,數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的一般是歷史數(shù)據(jù),在設(shè)計(jì)時(shí)有意引入冗余,采用反范式的方式來(lái)設(shè)計(jì)。
另一方面,從設(shè)計(jì)的目的來(lái)講,數(shù)據(jù)庫(kù)是為捕獲數(shù)據(jù)而設(shè)計(jì),而數(shù)據(jù)倉(cāng)庫(kù)是為分析數(shù)據(jù)而設(shè)計(jì),它的兩個(gè)基本的元素是維表和事實(shí)表。維是看問(wèn)題的角度,例如時(shí)間、部門(mén),維表中存放的就是這些角度的定義;事實(shí)表里放著要查詢(xún)的數(shù)據(jù),同時(shí)有維的ID。
4.數(shù)據(jù)集成的作用
數(shù)據(jù)集成對(duì)于企業(yè)信息系統(tǒng)的作用
數(shù)據(jù)集成的出現(xiàn)使企業(yè)能夠?qū)⒑蠖说腅RP信息遷移到Internet上。數(shù)據(jù)集成產(chǎn)品在一個(gè)公司的Internet計(jì)算機(jī)與SAP、Oracle和PeopleSoft等公司的后端系統(tǒng)之間提供“高速緩存”或數(shù)據(jù)分級(jí)。
數(shù)據(jù)集成提供了在一個(gè)企業(yè)主計(jì)算機(jī)上存儲(chǔ)的后端信息的一幅鏡像。當(dāng)一個(gè)Internet客戶(hù)需要檢查一項(xiàng)訂單的狀態(tài)時(shí),這項(xiàng)查詢(xún)就被轉(zhuǎn)移到數(shù)據(jù)集成軟件。因此,并非總需要訪問(wèn)該企業(yè)的主計(jì)算機(jī)。數(shù)據(jù)集成軟件擁有足夠的智能,知道什么時(shí)候與主計(jì)算機(jī)保持同步以便使數(shù)據(jù)不斷更新。為電子商務(wù)應(yīng)用集成ERP數(shù)據(jù)是通過(guò)數(shù)據(jù)分級(jí)和直接訪問(wèn)ERP數(shù)據(jù)這兩者的結(jié)合來(lái)完成的,它包括使用一個(gè)數(shù)據(jù)服務(wù)器和一些數(shù)據(jù)高速緩存器。數(shù)據(jù)集成軟件以智能方式將直接實(shí)時(shí)的和分批的數(shù)據(jù)存取方法混和起來(lái),以便從一個(gè)ERP系統(tǒng)中抽取數(shù)據(jù)。
數(shù)據(jù)從一個(gè)或多個(gè)源前進(jìn)到一個(gè)或多個(gè)目標(biāo)表以及信息類(lèi)型(如XML),數(shù)據(jù)移動(dòng)的步驟包括確定應(yīng)該從中抽取數(shù)據(jù)的源、數(shù)據(jù)應(yīng)當(dāng)進(jìn)行的轉(zhuǎn)換以及向什么地方發(fā)送數(shù)據(jù)。用戶(hù)通過(guò)一個(gè)圖形用戶(hù)接口來(lái)指定數(shù)據(jù)映射和轉(zhuǎn)換。
由用戶(hù)定義的程序控制每一塊數(shù)據(jù)的移動(dòng)并確定這種移動(dòng)之間的內(nèi)部相關(guān)性。例如,如果一個(gè)目標(biāo)表依靠其他目標(biāo)表的值,則使用一些程序來(lái)指定一個(gè)數(shù)據(jù)服務(wù)器應(yīng)當(dāng)按什么次序來(lái)管理這些目標(biāo)表中的單個(gè)數(shù)據(jù)移動(dòng)。數(shù)據(jù)移動(dòng)可以被設(shè)計(jì)來(lái)以批量方式或?qū)崟r(shí)方式運(yùn)行,并由管理員來(lái)創(chuàng)建和管理,以控制ERP、電子商務(wù)、客戶(hù)關(guān)系管理、供應(yīng)鏈管理以及通信應(yīng)用之間的數(shù)據(jù)移動(dòng)。數(shù)據(jù)移動(dòng)使用分布式查詢(xún)優(yōu)化、多線程、存儲(chǔ)器內(nèi)數(shù)據(jù)轉(zhuǎn)換和并行流水線操作來(lái)提供很高的數(shù)據(jù)通過(guò)量和可伸縮性。例如,要管理抽取程序并從SAP軟件中來(lái)執(zhí)行批量數(shù)據(jù)抽取,可使用優(yōu)化的ABAP代碼(SAP的專(zhuān)有編程語(yǔ)言),不需要開(kāi)發(fā)和維護(hù)定制的ABAP代碼。