書目數(shù)據(jù)庫
目錄
1.什么是書目數(shù)據(jù)庫[1]
書目數(shù)據(jù)庫是存儲某個領域的二次文獻(如目錄、題錄,文摘等書目數(shù)據(jù))的一類數(shù)據(jù)庫,有時又稱為二次文獻數(shù)據(jù)庫,或簡稱文獻數(shù)據(jù)庫。主要提供文獻的題名、作者、出處等基本書目信息,有的提供文獻,常見的書目型數(shù)據(jù)庫有:《生物文摘》、《全國報刊索引》、《中國學術(shù)期刊文摘》、《科學文摘》等。
2.書目數(shù)據(jù)庫的發(fā)展背景[2]
在各種數(shù)據(jù)庫之中,書目數(shù)據(jù)庫是出現(xiàn)較早的一類數(shù)據(jù)庫。從1964年第一個書目數(shù)據(jù)庫——MEDLARS開發(fā)成功并投入檢索服務以來,世界各國已建立了數(shù)目眾多、種類多樣的書目數(shù)據(jù)庫。在可提供聯(lián)機檢索的數(shù)據(jù)庫中,書目數(shù)據(jù)庫也占據(jù)著主體地位,幾乎覆蓋了全部專業(yè)領域的各類文獻。書目數(shù)據(jù)庫之所以增長如此迅速,影響如此之大,是有其特定的歷史背景的。
第一,書目數(shù)據(jù)庫的出現(xiàn)和發(fā)展有其情報政策背景。在當代,信息被公認為是財富和實力的象征,控制和處理信息的能力被認為是一個國家科技發(fā)展水平、社會進步程度和國際地位的標志。世界各國特別是發(fā)達國家都把信息作為一種戰(zhàn)略武器,控制信息成為國家的基本政策,也成為民間產(chǎn)業(yè)的關(guān)心重點。這是書目數(shù)據(jù)庫發(fā)展的情報政策背景。
第二,書目數(shù)據(jù)庫的發(fā)展也有其一定的社會原因。在資本主義國家,通貨膨脹使圖書館經(jīng)費日感短缺,書刊的漲價十分驚人,而科技圖書的出版數(shù)量卻在不斷增加,許多圖書館感到無力采購讀者所需要的書刊,不得不加強館際互借、照相復制等工作,此外,還致力于建立合作網(wǎng)絡,實現(xiàn)資源共享。這方面采取的一個措施,就是建立和利用機讀數(shù)據(jù)庫。如美國國會從1969年起發(fā)行機讀目錄(MARC)磁帶,俄亥俄學院圖書館中心OCLC在國會圖書館MARC磁帶的基礎上進行共享編目,建立反映該網(wǎng)絡各成員館藏書的機讀數(shù)據(jù)庫,并且由此導致了像洛克希德、系統(tǒng)發(fā)展公司及書目檢索服務公司等這些情報檢索服務商的發(fā)展,從而為機讀數(shù)據(jù)庫的大幅度增長鋪平了道路。
第三,書目數(shù)據(jù)庫的發(fā)展更有其技術(shù)背景。書目數(shù)據(jù)庫同計算機化的照相排版技術(shù)相結(jié)合,使得那些傳統(tǒng)的印刷型文摘索引的出版者同時也生產(chǎn)同印刷型檢索工具相對應的機讀型檢索工;艮,即書目數(shù)據(jù)庫,并以磁帶形式發(fā)行。另外,計算機性能的提高和價格的不斷下降,也有力地推動了書目數(shù)據(jù)庫的發(fā)展并提高了它的利用率。
3.書目數(shù)據(jù)庫的種類[3]
書目數(shù)據(jù)庫按其存儲信息的性質(zhì)可以劃分為文摘索引數(shù)據(jù)庫和圖書館目錄數(shù)據(jù)庫兩種類型。
①文摘索引數(shù)據(jù)庫
文摘索引數(shù)據(jù)庫的內(nèi)容與書本式文摘索引相同,主要是簡單記載有關(guān)領域某一時期發(fā)表的文章,供人們檢索和查詢。它提供文獻確定的來源信息,即文摘對應的原始文獻,但一般不提供原始文獻的館藏信息。
②圖書館目錄數(shù)據(jù)庫
圖書館目錄數(shù)據(jù)庫,通常又稱為機讀目錄(Machine ReadableCatalogue,MARC)。它是指以特定代碼形式和特定結(jié)構(gòu)預三錄在計算機存儲載體上的、用計算機識別和處理的目錄。簡單地說,就是一種經(jīng)過人們編輯、組織,以機讀形式出現(xiàn)的書目記錄的集合。它將傳統(tǒng)卡片目錄的內(nèi)容以標準數(shù)據(jù)形式記錄在計算機的存儲載體上,通過計算機進行識別,以供用戶查閱。機讀目錄主要記載特定圖書館實際收藏的各文獻資料的書目信息和存儲地址,它是一般用戶利用計算機查找圖書館資料的工具,更是作為圖書館業(yè)務部門的業(yè)務管理工具。它的數(shù)據(jù)內(nèi)容詳細,除文獻外表特征的描述信息外,還有許多管理信息、館藏信息等附加信息,而且具有比較統(tǒng)一的記錄格式。
4.書目數(shù)據(jù)庫的特點[3]
書目數(shù)據(jù)庫相比其他類型的書目產(chǎn)品和其他類型的數(shù)據(jù)庫,主要有以下特點:
①便于對書目數(shù)據(jù)的管理和維護。與傳統(tǒng)的書目相比,書目數(shù)據(jù)庫是將文獻的各種特征信息用特定的代碼形式和結(jié)構(gòu)存儲在有關(guān)媒體上,并能通過計算機的硬件識別的一種形式。它可以應用計算機軟件對那些從媒體上輸入計算機的代碼按不同的要求進行加工、編輯和輸出,隨時供用戶使用,從而使資料數(shù)據(jù)得到更大程度的有序化和可操縱化,從而便于書目數(shù)據(jù)的管理和維護。
②檢索快捷,具有較高的查全與查準率。同手工檢索比較,利用計算機從書目數(shù)據(jù)庫進行檢索不僅可以大大節(jié)省時間,而且由于書目數(shù)據(jù)庫在存儲密度、便于處理等方面的優(yōu)越性,使它可以達到更大的標引深度和更及時的更新,從而保證了較高的查準率與查全率,使檢索者在避免遺漏重要資料方面增強了信心。
③數(shù)據(jù)結(jié)構(gòu)簡單,記錄格式固定,生產(chǎn)費用低廉。相對其他類型的數(shù)據(jù)庫,書目數(shù)據(jù)庫結(jié)構(gòu)比較簡單,記錄格式也比較固定,生產(chǎn)費用相對較低,這也是書目數(shù)據(jù)庫的另一優(yōu)勢所在。
④便于產(chǎn)生其他類型的書目產(chǎn)品。書目數(shù)據(jù)庫除可供情報檢索之外,還可輸出卡片或書本式目錄以及縮微膠片目錄(COM目錄)。各種機讀目錄可以自動地合并,并便于復制和運輸傳遞。另外,還可以利用書目數(shù)據(jù)庫方便地形成各種輔助索引。
除此之外,數(shù)據(jù)量大、連續(xù)性、累積性強、交換方便也是書目數(shù)據(jù)庫的重要特性。
5.書目數(shù)據(jù)庫的用途[3]
首先,書目數(shù)據(jù)庫最重要的用途是進行情報檢索服務。聯(lián)機檢索是其提供的檢索服務中最重要的一種,它通過提供多種檢索人口,滿足讀者多方位、多角度的文獻檢索需求,用戶可以通過系統(tǒng)終端訪問有關(guān)聯(lián)機書目數(shù)據(jù)庫,獲得自己感興趣的文摘、題錄等。聯(lián)機檢索服務機構(gòu)可以通過提供上述服務來獲取一定的利益,而數(shù)據(jù)庫生產(chǎn)者則通過收取數(shù)據(jù)使用費的方式來回收自己的投資。除聯(lián)機檢索外,書目數(shù)據(jù)庫還可用于批式檢索服務,如定題服務(SDl)和回溯檢索服務。
其次,書目數(shù)據(jù)庫可以用來生產(chǎn)其他形式的檢索工具,如出版書本式的檢索工具或卡片式目錄、縮微膠片目錄和光盤數(shù)據(jù)庫。
最后,還可以通過對書目數(shù)據(jù)庫的半成品或成品進行二次開發(fā),使數(shù)據(jù)產(chǎn)生新的組合,確立新的結(jié)構(gòu),從而獲得特定1需要的多種專題數(shù)據(jù)庫或?qū)iT類型的數(shù)據(jù)庫。這種通過二次開發(fā)方式建成的數(shù)據(jù)庫一般規(guī)模較小,國外有人將其稱之為微數(shù)據(jù)庫(miicrodata·base)。當然對于微數(shù)據(jù)庫而言,其建設的主要問題不是技術(shù)問題,而是數(shù)據(jù)庫的版權(quán)問題,在建設中應當充分加以考慮。
6.書目數(shù)據(jù)庫的存在形式[3]
目前供發(fā)行的書目數(shù)據(jù)庫主要以三種形式存在:
?、僮鳛槁?lián)機系統(tǒng)的數(shù)據(jù)庫。即這種數(shù)據(jù)庫被裝入聯(lián)機檢索系統(tǒng),可進行聯(lián)機訪問。這種數(shù)據(jù)庫的規(guī)模可能是最大的,有的可包含數(shù)百萬篇文獻記錄。
?、谧鳛?a href="/wiki/%E5%85%89%E7%9B%98%E6%A3%80%E7%B4%A2" title="光盤檢索">光盤檢索系統(tǒng)中的數(shù)據(jù)庫。這種數(shù)據(jù)庫的載體是CD—ROM光盤,因而發(fā)行具有相對獨立性。數(shù)據(jù)庫的規(guī)模屬中等,因為每片光盤的容量為500多兆字節(jié),所包含的文獻記錄可達數(shù)十萬篇。
③作為單獨發(fā)行或提供服務的專業(yè)或?qū)iT文獻類型的數(shù)據(jù)庫。這種數(shù)據(jù)庫的規(guī)模較小,適用于在微機上運行,往往配有相應的檢索軟件,自成系統(tǒng)。
7.書目數(shù)據(jù)庫的建設過程[3]
書目數(shù)據(jù)庫的建設是一個較為復雜的過程,更是一種集知識、技術(shù)和勞動密集于一身的產(chǎn)業(yè)。它主要包括數(shù)據(jù)庫的總體:設計、數(shù)據(jù)的獲取與加工整理、數(shù)據(jù)庫的建立、數(shù)據(jù)庫的維護與更新以及數(shù)據(jù)庫的評價五部分內(nèi)容。
(1)數(shù)據(jù)庫的總體設計
①數(shù)據(jù)庫的邏輯設計
邏輯設計主要用來確定所建立的書目數(shù)據(jù)庫的用戶類型、內(nèi)容范圍和功能要求。首先要確定用戶類型,他們各有何特點和特定需要。他們的需求決定了數(shù)據(jù)庫的內(nèi)容范圍和功能。內(nèi)容范1司是指數(shù)據(jù)庫應覆蓋哪些領域和哪些情報源,數(shù)據(jù)庫內(nèi)應收錄什么類型的數(shù)據(jù),記錄的數(shù)量等。功能要求包括書目數(shù)據(jù)庫的更新、校驗、檢索、輸出、存取控制和數(shù)據(jù)保護等措施。
②數(shù)據(jù)庫的技術(shù)設計
技術(shù)設計主要用來確定數(shù)據(jù)庫的總體結(jié)構(gòu),庫內(nèi)各種:文檔的結(jié)構(gòu),文檔之間的關(guān)系,存取路徑的選擇和文檔的物理組織;桿式及存儲空間的分配等。
數(shù)據(jù)庫總體結(jié)構(gòu)是指庫內(nèi)包括的文檔數(shù)量、文檔類型、各文檔之間的邏輯關(guān)系,以及數(shù)據(jù)流程。
文檔結(jié)構(gòu)設計是指確定文檔的記錄內(nèi)容和格式,包括字段組成、字段定義、長度、劃分可檢字段與不可檢字段、設立字段標識等。一般地,一條書目記錄應含有文獻號、題名、著者、出版、語種、文摘、主題詞、分類號等各種必要的字段,且一般包括文獻出處。不同的圖書情報機構(gòu)在書目加工時對原始數(shù)據(jù)的取舍有很大差異。為了統(tǒng)一起見,可參閱新修訂的國家標準GB2901推薦的標準格式以及通用國際目錄信息交換標準IS02709。
文檔的物理組織方式設計是指根據(jù)計算機數(shù)據(jù)處理方式、操作系統(tǒng)提供的文件組織方式、存取方式、服務程序以及對存取時間、處理時間的要求,確定各種文檔物理存儲方式,以加快數(shù)據(jù)庫對數(shù)據(jù)的存取速度。
存取路徑的選擇是指確定檢索途徑或檢索點以及相應的工作文檔,根據(jù)檢索點來設定索引文檔,定義其中的記錄。一般說來,每一類檢索點都需要一種索引文檔來支持。
(2)數(shù)據(jù)的獲取與加工整理
數(shù)據(jù)的獲取與加工整理,也可稱為數(shù)據(jù)準備階段,是:幅目數(shù)據(jù)庫建設的一個重要環(huán)節(jié)。它的成功與否決定了書目數(shù)據(jù)庫的最終價值。數(shù)據(jù)準備通常包括數(shù)據(jù)采集、鑒選、著錄、標引、文摘加工和審核六大步驟,如下圖所示:
數(shù)據(jù)準備流程圖
首先是數(shù)據(jù)的采集,即根據(jù)設計方案規(guī)定的數(shù)據(jù)庫內(nèi)容范圍和數(shù)據(jù)類型,采集所需要的數(shù)據(jù)。收集的對象根據(jù)需要而定,可能是普通書刊、特種文獻、內(nèi)部出版物、機讀磁帶、軟盤或光盤。采集手段有訂購、交換或利用行政手段收集下屬機構(gòu)的數(shù)據(jù),或利用現(xiàn)有的傳統(tǒng)數(shù)據(jù)(如書本式文摘、題錄、目錄、指南等)。收集工作應主要面向圖書館和收藏豐富的資料單位,做到快速、全面、準確,確保數(shù)據(jù)來源的可靠性、準確性和完整性。
鑒選是決定書目數(shù)據(jù)庫具體內(nèi)容范圍的基本方式之一。鑒別真?zhèn)?、分清良莠是必要的,不能“有書必錄”。對于低水平或明顯有錯誤的文獻應當摒棄。在選擇時,可以文獻類型為準則,也可以學科為準則,或以問題或任務為準則。以文獻類型為準則,可以專收一種類型文獻,如研究報告數(shù)據(jù)庫、專利文獻數(shù)據(jù)庫等,也可以收錄多種類型的文獻;以學科為準,就是所謂“面向?qū)W科的數(shù)據(jù)庫”,如(化學文摘}數(shù)據(jù)庫,《核物理文摘》數(shù)據(jù)庫等;以問題為準的數(shù)據(jù)庫,如環(huán)境數(shù)據(jù)庫,《污染文摘)數(shù)據(jù)庫等;以任務為準的,有所謂面向任務的數(shù)據(jù)庫,如{航空航天文摘)數(shù)據(jù)庫等。
其次是書目數(shù)據(jù)的著錄。著錄是對文獻內(nèi)容和形式特征進行分析、選擇和記錄的過程。為了提高書目數(shù)據(jù)庫的質(zhì)量和資源共享的便利性,書目數(shù)據(jù)的著錄應按統(tǒng)一的著錄原則和標準進行,例如我國有國家標準GB3792.1—83《文獻著錄總則》,GB37921—83(檢索期刊條目著錄規(guī)則》等,只有遵循了統(tǒng)一的標準進行書目數(shù)據(jù)的著錄,才能保證書目數(shù)據(jù)庫中的全部記錄符合標準化和規(guī)范化的要求。
標引是給數(shù)據(jù)庫中的各個記錄賦予內(nèi)容特征標識的過程。主要是要給出分類號、主題詞和自由詞等。標引可以是人工標引,即標引員針對文獻內(nèi)容,根據(jù)一定的分類表或主題詞表給出標引詞;也可以是完全或部分由計算機參與的自動標引或半自動標引。自動標i引的原理是,將分類表或詞表及有關(guān)規(guī)則存儲在計算機中,通過編制的程序自動完成標引工作,對于在計算機標引過程中進行適當人:工干預的標引就是所謂的半自動標引了。對于中文文獻來說,進行自動標引,首先要解決詞的自動切分問題。此外,標引還有另一種方式,稱為“無標引”或“全標引”,如單漢字檢索方式中每個漢字都由計算機做倒排檔,因此不需人工參與,故被稱為“無標引”。而從計算機的角度來說,對每個漢字均作了標引詞的處理,所以也可理解為“全標引”。相對于中文文獻,西文文獻的自動標引和全標引實現(xiàn)起來就要簡單多了。
之后是文摘的編寫。文摘的編寫加工也十分重要。編寫文摘應當一針見血,簡明扼要。文摘可以由文獻著者自行撰寫,附于文獻之前,也可以由文摘員進行撰寫。文摘的編寫也應當標準化,我國有國家標準CB6447—86《文摘編寫規(guī)則》作為編寫依據(jù)。文摘有報道性文摘、指示性文摘以及報道—指示性文摘等多種類型,不同類型的文摘對編寫和長度有不同的要求。編寫時應根據(jù)具體的需要進行相應的編寫。
數(shù)據(jù)準備階段的最后一關(guān)是審核修正。審核修正是指記錄正式數(shù)據(jù)庫之前的把關(guān)工作。這須由較高水平的人來進行。審核的內(nèi)容包括數(shù)據(jù)項是否完備、準確,有關(guān)的著錄是否符合標準,標引深度是否適當,等等。
經(jīng)過了這六大步驟,數(shù)據(jù)的準備工作就已基本完成,下一步就應進行數(shù)據(jù)庫的正式建立工作了。
(3)數(shù)據(jù)庫的建立
?、儆布渲门c軟件選擇
進行書目數(shù)據(jù)庫的開發(fā),必須配有相應的計算機系統(tǒng),應根據(jù)需要購買性能良好的計算機硬件設備。當然,通常情況下,計算機主機系統(tǒng)是已經(jīng)存在的,建庫者要做的是完成必要的終端和外設與主機系統(tǒng)的連接,例如,安裝光盤驅(qū)動設備,掃描和打印設備等。如果建庫工作是在聯(lián)機網(wǎng)絡的節(jié)點上進行,那么還要完成設備與網(wǎng)絡的連接工作,解決網(wǎng)絡數(shù)據(jù)通訊問題。
解決了硬件問題后,建庫者需要選擇適當?shù)慕◣旌蜋z索軟件。建庫軟件的獲取一般有兩種途徑,一種是購買現(xiàn)成的數(shù)據(jù)庫管理系統(tǒng)軟件,另一種是自行編制。當然目前大多采取的都是前一種途徑,即直接購買現(xiàn)成的數(shù)據(jù)庫管理軟件。我國圖書情報部門比較流行的是采用聯(lián)合國教科文組織推出的CDS/ISIS軟件。
?、跀?shù)據(jù)錄入
數(shù)據(jù)錄人就是將前面所說的文獻處理結(jié)果轉(zhuǎn)化成機讀數(shù)據(jù)的過程。數(shù)據(jù)錄入通常有兩種方式:自動錄入和平工錄入。
手工錄入的方式是對非機讀書目信息的錄入。計算機系統(tǒng)顯示出一個類似于工作單的表格,上面有用戶定義的字段名稱,用戶只需在這些字段名稱之后用鍵盤錄入相應數(shù)據(jù)即可。為了加速錄人工作,用戶也可以用其他文字處理軟件(如MICROSOFTWORD)對書目數(shù)據(jù)進行錄入,之后再做成批轉(zhuǎn)換;另外還可以利用光學字符識別技術(shù)(OCR),讓計算機根據(jù)一定的印刷或打印字體將文本轉(zhuǎn)化為機讀形式。
自動錄入的方式用于對光盤數(shù)據(jù)庫、磁帶數(shù)據(jù)庫或其他類型的機讀數(shù)據(jù)庫的數(shù)據(jù)進行轉(zhuǎn)錄或套錄。所謂套錄,就是從一個或幾個計算機中獲得數(shù)據(jù)庫的數(shù)據(jù),傳送到另一計算機中,并將其存儲在后者的磁盤或磁帶等存儲介質(zhì)上的一種過程或手段。具體地說,就是從聯(lián)機檢索系統(tǒng)或光盤中的數(shù)據(jù)庫中套錄下一些書目信息,然后,再將這些書目信息進行編輯、歸并、格式轉(zhuǎn)換等再處理,使數(shù)據(jù)產(chǎn)生新的組合,確立新的結(jié)構(gòu),從而獲得適合特定需要的書目數(shù)據(jù)庫。這種套錄建庫方式,也稱為書目數(shù)據(jù)庫的二次開發(fā)。信息技術(shù)和數(shù)據(jù)庫業(yè)的發(fā)展,促進了套錄的誕生和推廣。目前供發(fā)行和服務的書目數(shù)據(jù)庫,不管以何種形式出現(xiàn),大多可以用適當?shù)姆椒ū惶卒洝_@種套錄建庫優(yōu)勢在于,建庫周期短、投資少、易上規(guī)模、重復勞動少,使信息資源得到極大程度的共享。但它可能涉及到的產(chǎn)權(quán)問題也應引起重視,切勿顧此失彼,帶來未曾預計的損失。
當手工或自動錄入數(shù)據(jù)后,在建庫軟件的支持下,計算機自動生成書目數(shù)據(jù)庫的各種順序文檔。這種數(shù)據(jù)庫內(nèi)的書目信息有其復雜的計算機能識別、處理的機內(nèi)記錄格式,內(nèi)容主要包括:一條記錄的總長度,書目數(shù)據(jù)的實際起始地址,每個字段的名稱、長度,字段間的分隔符、結(jié)束符、記錄狀態(tài)的標識符等。另外,數(shù)據(jù)庫所需的各種索引倒排文檔也無需人工干預,而由建庫程序自行完成。
③程序檢查
程序檢查是指計算機自動對錄入的文本進行形式上的審查,例:如,括號是否配對,定義了數(shù)字形式的字段是否出現(xiàn)文字;定長字段長度是否符合要求,字段的數(shù)據(jù)形式,如ⅡSBN號,是否正確,各種標識符號是否有錯,是否出現(xiàn)了系統(tǒng)禁止使用的專用字符或非法字符等。計算機對數(shù)據(jù)的校驗可分別在不同階段進行。
經(jīng)過了這三道工序,書目數(shù)據(jù)庫就已經(jīng)基本建成了。但在正式投入使用之前,還需要進行試運行。根據(jù)規(guī)劃設計要求,選取一定的檢索實例進行檢驗,通過設計者、使用者和有關(guān)專家的鑒定之后,才算完成數(shù)據(jù)庫的建立工作。
(4)書目數(shù)據(jù)庫的維護與更新
書目數(shù)據(jù)庫投入運行后,由于不斷地對文檔進行插人、刪除、修改等操作,可能會使文檔的時空性能變壞,或者是由于原來的文檔組織方式已不能適應新的要求,或者新書目的激增使得原來的數(shù)據(jù)量已不能滿足用戶的需求,故而必須定期地對書目數(shù)據(jù)庫進行維護與更新,以適應用戶要求和文獻生產(chǎn)情況的變化。維護主要是指對數(shù)據(jù)庫系統(tǒng)硬件設備的維修、保養(yǎng)和對系統(tǒng)軟件功能的修改和擴充。更新主要是指對數(shù)據(jù)庫的數(shù)據(jù)進行添加和重新組織,它對書目數(shù)據(jù)庫的存在和使用,保證書目數(shù)據(jù)的質(zhì)量有著尤為重要的意義。
數(shù)據(jù)庫的數(shù)據(jù)往往不是個別進行插入、刪除和修改,而是定期、批量地進行。這種數(shù)據(jù)庫的更新,不僅要對順序文檔進行更新,而且還必須對所有相關(guān)的倒排檔及索引文件進行重組,這就要求要對新追加的大量數(shù)據(jù)進行一系列加工處理后重裝文獻庫。重裝雖然要開銷一定的維護時間,但可以保證檢索的快速性,因而是值得的。另外。數(shù)據(jù)庫的更新工作還要隨文檔的存儲方式而:導。順序文檔一般采用尾接擴充法,就是將新的書目記錄依次尾接;莊文檔后面;索引或倒排文檔通常采用重裝方法,即將新加記錄抽詞排序后的文檔與原來的排序文檔歸并,然后重新總體排序,建立索引。
另外,在數(shù)據(jù)庫的維護中一定要重視數(shù)據(jù)庫及其文檔的備份工作。一般地,順序文檔和倒排文檔都應該保存2—3份副本,即不僅保留本次更新的副本,而且要保留前1—2次更新時的副本。這樣,如果由于硬件故障等原因使得數(shù)據(jù)庫文檔不能正常使用時,就可用副本重裝一次,從而保證數(shù)據(jù)庫的正常運行。
(5)書目數(shù)據(jù)庫的性能指標和評價準則
一個書目數(shù)據(jù)庫建成后,其構(gòu)造是否合理,建設是否成功,要依據(jù)一定的性能指標和評價準則進行評估。這里我們將簡要介紹一些目前得到普遍認可的數(shù)據(jù)庫性能指標與評價準則。
?、贁?shù)據(jù)收錄的完備性
它是指根據(jù)數(shù)據(jù)庫的主題范圍,看其收錄的文獻數(shù)據(jù)是否完整或基本完整。其中最重要的是數(shù)據(jù)收錄的覆蓋面。例如,一個特定的書目數(shù)據(jù)庫,其收錄是否包括所有類型的出版物,還是某一特定類型的出版物;它所收錄的文獻包括哪些文種,其時間跨度又有多長;它對核心出版物、一般出版物、邊緣相關(guān)出版物的收錄和覆蓋面各有多大。
收錄完備性是數(shù)據(jù)庫質(zhì)量的首要指標。因為用戶使用書目數(shù)據(jù)庫的目的,是要獲得與自己特定情報需求相關(guān)的全面資料,如果數(shù)據(jù)庫本身收錄的數(shù)據(jù)就不夠全面,那么即便用戶非常專業(yè),進行了細致的檢索,所獲得的檢索結(jié)果也是不符合要求的。
?、跀?shù)據(jù)的準確性
書目數(shù)據(jù)庫中所收錄的數(shù)據(jù)必須非常準確,這體現(xiàn)在它與原始材料的一致性、著錄的標準性等多個方面。數(shù)據(jù)庫不同于利用手工檢索的書目文獻,在手工檢索的文獻中,用戶對著錄格式的差異、同一詞拼寫上的不同、字符設備的出入等在一定程度上可以容忍和理解,但在利用計算機進行機檢時,這些因素,甚至一個括號使用的不同,都會對用戶的利用產(chǎn)生很大影響,無論對建庫還是檢索都會造成一定的混亂。如果說數(shù)據(jù)庫收錄材料覆蓋面的高低是取得用戶信賴的量方面的因素,那么,數(shù)據(jù)庫中數(shù)據(jù)的準確性,則是取得用戶信賴的質(zhì)方面的因素。它的混亂將導致用戶對整個數(shù)據(jù)庫價值的否認。
?、蹟?shù)據(jù)庫的時效性
在這里主要是指數(shù)據(jù)庫的時差,即從一篇文獻出版發(fā)表到納人數(shù)據(jù)庫之間的時間差距。數(shù)據(jù)庫的時差就是全庫文獻的平均時間差距。不同學科領域?qū)r差的要求和敏感性有所不同,對于迅速發(fā)展中的學科,如計算機、網(wǎng)絡科學,及對現(xiàn)實性要求比較高的信息,如報紙信息,數(shù)據(jù)庫時差的縮短尤其重要。對于情報用戶來說,如果他們首先看到了原始文獻,然后才從數(shù)據(jù)庫中檢索到該文獻的信息,用戶就會感到該數(shù)據(jù)庫中的信息缺乏新穎性。因此,對一般用戶來說的新穎率(即用戶最先從庫中了解到的信息占庫中所有信息的百分比)是數(shù)據(jù)庫時效性的另一種衡量指標。很顯然,數(shù)據(jù)庫的時效性與數(shù)據(jù)庫的更新周期有密切的關(guān)系。更新周期短,自然能縮短數(shù)據(jù)庫的時差,提高新穎率。
?、軘?shù)據(jù)信息含量的充分性
信息含量的充分性,主要是指書目數(shù)據(jù)庫中款目苦錄:的完備與充分性。例如,為每篇文獻記錄設置了多少個項目(字段),是否設有摘要,摘要的詳略如何。顯然,款目中的信息含量越充分,則越有助于用戶了解該文獻的外表特征與內(nèi)容特征,從而有助于用戶確認一篇文獻,判斷該文獻對自己檢索目的的切題程度和價值,判斷有無閱讀原文的需要。數(shù)據(jù)信息含量的高低,是數(shù)據(jù)庫內(nèi)在質(zhì)量的標志之一。
?、菰~表和標引的適當性
詞表和標引的適當性主要是指書目數(shù)據(jù)庫采用的控制同表的質(zhì)量和標引深度的適度性。一般書目數(shù)據(jù)庫均會采用一定的控制詞表(包括分類表)作為標引的依據(jù),因此詞表本身的質(zhì)量是制約數(shù)據(jù)庫質(zhì)量的根本性因素之一。標引是根據(jù)文獻內(nèi)容給出詞表中有關(guān)詞(分類號)的過程。標引的深度就是為一篇文獻記錄賦予檢索詞的數(shù)目。從用戶角度來說,標引深度也就是能檢索到該文獻內(nèi)容特征的檢索點數(shù)。檢索點的充分與否,關(guān)系到檢索的查全性能與查準性能。無論是詞表還是標引,適度是很重要的。如果詞表與標引太簡單粗淺,自然無法對數(shù)據(jù)進行充分完全的描述,因而不能滿足查準性能的要求;但如若詞表與標引太細太繁,則不僅會增加詞表編制及標引工作的成本,增加數(shù)據(jù)庫占用空間,而且也可能導致誤檢率的提高。
除了上述五點之外,數(shù)據(jù)庫的經(jīng)濟成本、著錄格式的標準與交換性、數(shù)據(jù)庫設計的合理性等也都可以作為書目數(shù)據(jù)庫的性能指標和評價準則。