登錄

書目數(shù)據(jù)庫(kù)

百科 > 信息管理術(shù)語(yǔ) > 書目數(shù)據(jù)庫(kù)

1.什么是書目數(shù)據(jù)庫(kù)[1]

  書目數(shù)據(jù)庫(kù)是存儲(chǔ)某個(gè)領(lǐng)域的二次文獻(xiàn)(如目錄、題錄,文摘等書目數(shù)據(jù))的一類數(shù)據(jù)庫(kù),有時(shí)又稱為二次文獻(xiàn)數(shù)據(jù)庫(kù),或簡(jiǎn)稱文獻(xiàn)數(shù)據(jù)庫(kù)。主要提供文獻(xiàn)的題名、作者、出處等基本書目信息,有的提供文獻(xiàn),常見的書目型數(shù)據(jù)庫(kù)有:《生物文摘》、《全國(guó)報(bào)刊索引》、《中國(guó)學(xué)術(shù)期刊文摘》、《科學(xué)文摘》等。

2.書目數(shù)據(jù)庫(kù)的發(fā)展背景[2]

  在各種數(shù)據(jù)庫(kù)之中,書目數(shù)據(jù)庫(kù)是出現(xiàn)較早的一類數(shù)據(jù)庫(kù)。從1964年第一個(gè)書目數(shù)據(jù)庫(kù)——MEDLARS開發(fā)成功并投入檢索服務(wù)以來,世界各國(guó)已建立了數(shù)目眾多、種類多樣的書目數(shù)據(jù)庫(kù)。在可提供聯(lián)機(jī)檢索的數(shù)據(jù)庫(kù)中,書目數(shù)據(jù)庫(kù)也占據(jù)著主體地位,幾乎覆蓋了全部專業(yè)領(lǐng)域的各類文獻(xiàn)。書目數(shù)據(jù)庫(kù)之所以增長(zhǎng)如此迅速,影響如此之大,是有其特定的歷史背景的。

  第一,書目數(shù)據(jù)庫(kù)的出現(xiàn)和發(fā)展有其情報(bào)政策背景。在當(dāng)代,信息被公認(rèn)為是財(cái)富和實(shí)力的象征,控制和處理信息的能力被認(rèn)為是一個(gè)國(guó)家科技發(fā)展水平、社會(huì)進(jìn)步程度和國(guó)際地位的標(biāo)志。世界各國(guó)特別是發(fā)達(dá)國(guó)家都把信息作為一種戰(zhàn)略武器,控制信息成為國(guó)家的基本政策,也成為民間產(chǎn)業(yè)的關(guān)心重點(diǎn)。這是書目數(shù)據(jù)庫(kù)發(fā)展的情報(bào)政策背景。

  第二,書目數(shù)據(jù)庫(kù)的發(fā)展也有其一定的社會(huì)原因。在資本主義國(guó)家,通貨膨脹使圖書館經(jīng)費(fèi)日感短缺,書刊的漲價(jià)十分驚人,而科技圖書的出版數(shù)量卻在不斷增加,許多圖書館感到無(wú)力采購(gòu)讀者所需要的書刊,不得不加強(qiáng)館際互借、照相復(fù)制等工作,此外,還致力于建立合作網(wǎng)絡(luò),實(shí)現(xiàn)資源共享。這方面采取的一個(gè)措施,就是建立和利用機(jī)讀數(shù)據(jù)庫(kù)。如美國(guó)國(guó)會(huì)從1969年起發(fā)行機(jī)讀目錄(MARC)磁帶,俄亥俄學(xué)院圖書館中心OCLC在國(guó)會(huì)圖書館MARC磁帶的基礎(chǔ)上進(jìn)行共享編目,建立反映該網(wǎng)絡(luò)各成員館藏書的機(jī)讀數(shù)據(jù)庫(kù),并且由此導(dǎo)致了像洛克希德、系統(tǒng)發(fā)展公司及書目檢索服務(wù)公司等這些情報(bào)檢索服務(wù)商的發(fā)展,從而為機(jī)讀數(shù)據(jù)庫(kù)的大幅度增長(zhǎng)鋪平了道路。

  第三,書目數(shù)據(jù)庫(kù)的發(fā)展更有其技術(shù)背景。書目數(shù)據(jù)庫(kù)同計(jì)算機(jī)化的照相排版技術(shù)相結(jié)合,使得那些傳統(tǒng)的印刷型文摘索引的出版者同時(shí)也生產(chǎn)同印刷型檢索工具相對(duì)應(yīng)的機(jī)讀型檢索工;艮,即書目數(shù)據(jù)庫(kù),并以磁帶形式發(fā)行。另外,計(jì)算機(jī)性能的提高和價(jià)格的不斷下降,也有力地推動(dòng)了書目數(shù)據(jù)庫(kù)的發(fā)展并提高了它的利用率。

3.書目數(shù)據(jù)庫(kù)的種類[3]

  書目數(shù)據(jù)庫(kù)按其存儲(chǔ)信息的性質(zhì)可以劃分為文摘索引數(shù)據(jù)庫(kù)和圖書館目錄數(shù)據(jù)庫(kù)兩種類型。

  ①文摘索引數(shù)據(jù)庫(kù)

  文摘索引數(shù)據(jù)庫(kù)的內(nèi)容與書本式文摘索引相同,主要是簡(jiǎn)單記載有關(guān)領(lǐng)域某一時(shí)期發(fā)表的文章,供人們檢索和查詢。它提供文獻(xiàn)確定的來源信息,即文摘對(duì)應(yīng)的原始文獻(xiàn),但一般不提供原始文獻(xiàn)的館藏信息。

  ②圖書館目錄數(shù)據(jù)庫(kù)

  圖書館目錄數(shù)據(jù)庫(kù),通常又稱為機(jī)讀目錄(Machine ReadableCatalogue,MARC)。它是指以特定代碼形式和特定結(jié)構(gòu)預(yù)三錄在計(jì)算機(jī)存儲(chǔ)載體上的、用計(jì)算機(jī)識(shí)別和處理的目錄。簡(jiǎn)單地說,就是一種經(jīng)過人們編輯、組織,以機(jī)讀形式出現(xiàn)的書目記錄的集合。它將傳統(tǒng)卡片目錄的內(nèi)容以標(biāo)準(zhǔn)數(shù)據(jù)形式記錄在計(jì)算機(jī)的存儲(chǔ)載體上,通過計(jì)算機(jī)進(jìn)行識(shí)別,以供用戶查閱。機(jī)讀目錄主要記載特定圖書館實(shí)際收藏的各文獻(xiàn)資料的書目信息和存儲(chǔ)地址,它是一般用戶利用計(jì)算機(jī)查找圖書館資料的工具,更是作為圖書館業(yè)務(wù)部門的業(yè)務(wù)管理工具。它的數(shù)據(jù)內(nèi)容詳細(xì),除文獻(xiàn)外表特征的描述信息外,還有許多管理信息、館藏信息等附加信息,而且具有比較統(tǒng)一的記錄格式。

4.書目數(shù)據(jù)庫(kù)的特點(diǎn)[3]

  書目數(shù)據(jù)庫(kù)相比其他類型的書目產(chǎn)品和其他類型的數(shù)據(jù)庫(kù),主要有以下特點(diǎn):

  ①便于對(duì)書目數(shù)據(jù)的管理和維護(hù)。與傳統(tǒng)的書目相比,書目數(shù)據(jù)庫(kù)是將文獻(xiàn)的各種特征信息用特定的代碼形式和結(jié)構(gòu)存儲(chǔ)在有關(guān)媒體上,并能通過計(jì)算機(jī)的硬件識(shí)別的一種形式。它可以應(yīng)用計(jì)算機(jī)軟件對(duì)那些從媒體上輸入計(jì)算機(jī)的代碼按不同的要求進(jìn)行加工、編輯和輸出,隨時(shí)供用戶使用,從而使資料數(shù)據(jù)得到更大程度的有序化和可操縱化,從而便于書目數(shù)據(jù)的管理和維護(hù)。

  ②檢索快捷,具有較高的查全與查準(zhǔn)率。手工檢索比較,利用計(jì)算機(jī)從書目數(shù)據(jù)庫(kù)進(jìn)行檢索不僅可以大大節(jié)省時(shí)間,而且由于書目數(shù)據(jù)庫(kù)在存儲(chǔ)密度、便于處理等方面的優(yōu)越性,使它可以達(dá)到更大的標(biāo)引深度和更及時(shí)的更新,從而保證了較高的查準(zhǔn)率查全率,使檢索者在避免遺漏重要資料方面增強(qiáng)了信心。

  ③數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單,記錄格式固定,生產(chǎn)費(fèi)用低廉。相對(duì)其他類型的數(shù)據(jù)庫(kù),書目數(shù)據(jù)庫(kù)結(jié)構(gòu)比較簡(jiǎn)單,記錄格式也比較固定,生產(chǎn)費(fèi)用相對(duì)較低,這也是書目數(shù)據(jù)庫(kù)的另一優(yōu)勢(shì)所在。

  ④便于產(chǎn)生其他類型的書目產(chǎn)品。書目數(shù)據(jù)庫(kù)除可供情報(bào)檢索之外,還可輸出卡片或書本式目錄以及縮微膠片目錄(COM目錄)。各種機(jī)讀目錄可以自動(dòng)地合并,并便于復(fù)制和運(yùn)輸傳遞。另外,還可以利用書目數(shù)據(jù)庫(kù)方便地形成各種輔助索引。

  除此之外,數(shù)據(jù)量大、連續(xù)性、累積性強(qiáng)、交換方便也是書目數(shù)據(jù)庫(kù)的重要特性。

5.書目數(shù)據(jù)庫(kù)的用途[3]

  首先,書目數(shù)據(jù)庫(kù)最重要的用途是進(jìn)行情報(bào)檢索服務(wù)。聯(lián)機(jī)檢索是其提供的檢索服務(wù)中最重要的一種,它通過提供多種檢索人口,滿足讀者多方位、多角度的文獻(xiàn)檢索需求,用戶可以通過系統(tǒng)終端訪問有關(guān)聯(lián)機(jī)書目數(shù)據(jù)庫(kù),獲得自己感興趣的文摘、題錄等。聯(lián)機(jī)檢索服務(wù)機(jī)構(gòu)可以通過提供上述服務(wù)來獲取一定的利益,而數(shù)據(jù)庫(kù)生產(chǎn)者則通過收取數(shù)據(jù)使用費(fèi)的方式來回收自己的投資。除聯(lián)機(jī)檢索外,書目數(shù)據(jù)庫(kù)還可用于批式檢索服務(wù),如定題服務(wù)(SDl)和回溯檢索服務(wù)。

  其次,書目數(shù)據(jù)庫(kù)可以用來生產(chǎn)其他形式的檢索工具,如出版書本式的檢索工具或卡片式目錄、縮微膠片目錄和光盤數(shù)據(jù)庫(kù)。

  最后,還可以通過對(duì)書目數(shù)據(jù)庫(kù)的半成品成品進(jìn)行二次開發(fā),使數(shù)據(jù)產(chǎn)生新的組合,確立新的結(jié)構(gòu),從而獲得特定1需要的多種專題數(shù)據(jù)庫(kù)或?qū)iT類型的數(shù)據(jù)庫(kù)。這種通過二次開發(fā)方式建成的數(shù)據(jù)庫(kù)一般規(guī)模較小,國(guó)外有人將其稱之為微數(shù)據(jù)庫(kù)(miicrodata·base)。當(dāng)然對(duì)于微數(shù)據(jù)庫(kù)而言,其建設(shè)的主要問題不是技術(shù)問題,而是數(shù)據(jù)庫(kù)的版權(quán)問題,在建設(shè)中應(yīng)當(dāng)充分加以考慮。

6.書目數(shù)據(jù)庫(kù)的存在形式[3]

  目前供發(fā)行的書目數(shù)據(jù)庫(kù)主要以三種形式存在:

 ?、僮鳛槁?lián)機(jī)系統(tǒng)的數(shù)據(jù)庫(kù)。即這種數(shù)據(jù)庫(kù)被裝入聯(lián)機(jī)檢索系統(tǒng),可進(jìn)行聯(lián)機(jī)訪問。這種數(shù)據(jù)庫(kù)的規(guī)模可能是最大的,有的可包含數(shù)百萬(wàn)篇文獻(xiàn)記錄。

  ②作為光盤檢索系統(tǒng)中的數(shù)據(jù)庫(kù)。這種數(shù)據(jù)庫(kù)的載體是CDROM光盤,因而發(fā)行具有相對(duì)獨(dú)立性。數(shù)據(jù)庫(kù)的規(guī)模屬中等,因?yàn)槊科獗P的容量為500多兆字節(jié),所包含的文獻(xiàn)記錄可達(dá)數(shù)十萬(wàn)篇。

 ?、圩鳛閱为?dú)發(fā)行或提供服務(wù)的專業(yè)或?qū)iT文獻(xiàn)類型的數(shù)據(jù)庫(kù)。這種數(shù)據(jù)庫(kù)的規(guī)模較小,適用于在微機(jī)上運(yùn)行,往往配有相應(yīng)的檢索軟件,自成系統(tǒng)。

7.書目數(shù)據(jù)庫(kù)的建設(shè)過程[3]

  書目數(shù)據(jù)庫(kù)的建設(shè)是一個(gè)較為復(fù)雜的過程,更是一種集知識(shí)、技術(shù)和勞動(dòng)密集于一身的產(chǎn)業(yè)。它主要包括數(shù)據(jù)庫(kù)的總體:設(shè)計(jì)、數(shù)據(jù)的獲取與加工整理、數(shù)據(jù)庫(kù)的建立、數(shù)據(jù)庫(kù)的維護(hù)與更新以及數(shù)據(jù)庫(kù)的評(píng)價(jià)五部分內(nèi)容。

  (1)數(shù)據(jù)庫(kù)的總體設(shè)計(jì)

 ?、贁?shù)據(jù)庫(kù)的邏輯設(shè)計(jì)

  邏輯設(shè)計(jì)主要用來確定所建立的書目數(shù)據(jù)庫(kù)的用戶類型、內(nèi)容范圍和功能要求。首先要確定用戶類型,他們各有何特點(diǎn)和特定需要。他們的需求決定了數(shù)據(jù)庫(kù)的內(nèi)容范圍和功能。內(nèi)容范1司是指數(shù)據(jù)庫(kù)應(yīng)覆蓋哪些領(lǐng)域和哪些情報(bào)源,數(shù)據(jù)庫(kù)內(nèi)應(yīng)收錄什么類型的數(shù)據(jù),記錄的數(shù)量等。功能要求包括書目數(shù)據(jù)庫(kù)的更新、校驗(yàn)、檢索、輸出、存取控制和數(shù)據(jù)保護(hù)等措施。

 ?、跀?shù)據(jù)庫(kù)的技術(shù)設(shè)計(jì)

  技術(shù)設(shè)計(jì)主要用來確定數(shù)據(jù)庫(kù)的總體結(jié)構(gòu),庫(kù)內(nèi)各種:文檔的結(jié)構(gòu),文檔之間的關(guān)系,存取路徑的選擇和文檔的物理組織;桿式及存儲(chǔ)空間的分配等。

  數(shù)據(jù)庫(kù)總體結(jié)構(gòu)是指庫(kù)內(nèi)包括的文檔數(shù)量、文檔類型、各文檔之間的邏輯關(guān)系,以及數(shù)據(jù)流程。

  文檔結(jié)構(gòu)設(shè)計(jì)是指確定文檔的記錄內(nèi)容和格式,包括字段組成、字段定義、長(zhǎng)度、劃分可檢字段與不可檢字段、設(shè)立字段標(biāo)識(shí)等。一般地,一條書目記錄應(yīng)含有文獻(xiàn)號(hào)、題名、著者、出版、語(yǔ)種、文摘、主題詞、分類號(hào)等各種必要的字段,且一般包括文獻(xiàn)出處。不同的圖書情報(bào)機(jī)構(gòu)在書目加工時(shí)對(duì)原始數(shù)據(jù)的取舍有很大差異。為了統(tǒng)一起見,可參閱新修訂的國(guó)家標(biāo)準(zhǔn)GB2901推薦的標(biāo)準(zhǔn)格式以及通用國(guó)際目錄信息交換標(biāo)準(zhǔn)IS02709。

  文檔的物理組織方式設(shè)計(jì)是指根據(jù)計(jì)算機(jī)數(shù)據(jù)處理方式、操作系統(tǒng)提供的文件組織方式、存取方式、服務(wù)程序以及對(duì)存取時(shí)間、處理時(shí)間的要求,確定各種文檔物理存儲(chǔ)方式,以加快數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)的存取速度。

  存取路徑的選擇是指確定檢索途徑或檢索點(diǎn)以及相應(yīng)的工作文檔,根據(jù)檢索點(diǎn)來設(shè)定索引文檔,定義其中的記錄。一般說來,每一類檢索點(diǎn)都需要一種索引文檔來支持。

  (2)數(shù)據(jù)的獲取與加工整理

  數(shù)據(jù)的獲取與加工整理,也可稱為數(shù)據(jù)準(zhǔn)備階段,是:幅目數(shù)據(jù)庫(kù)建設(shè)的一個(gè)重要環(huán)節(jié)。它的成功與否決定了書目數(shù)據(jù)庫(kù)的最終價(jià)值。數(shù)據(jù)準(zhǔn)備通常包括數(shù)據(jù)采集、鑒選、著錄、標(biāo)引、文摘加工和審核六大步驟,如下圖所示:

Image:數(shù)據(jù)準(zhǔn)備流程圖.jpg

           數(shù)據(jù)準(zhǔn)備流程圖

  首先是數(shù)據(jù)的采集,即根據(jù)設(shè)計(jì)方案規(guī)定的數(shù)據(jù)庫(kù)內(nèi)容范圍和數(shù)據(jù)類型,采集所需要的數(shù)據(jù)。收集的對(duì)象根據(jù)需要而定,可能是普通書刊、特種文獻(xiàn)、內(nèi)部出版物、機(jī)讀磁帶、軟盤或光盤。采集手段有訂購(gòu)、交換或利用行政手段收集下屬機(jī)構(gòu)的數(shù)據(jù),或利用現(xiàn)有的傳統(tǒng)數(shù)據(jù)(如書本式文摘、題錄、目錄、指南等)。收集工作應(yīng)主要面向圖書館和收藏豐富的資料單位,做到快速、全面、準(zhǔn)確,確保數(shù)據(jù)來源的可靠性、準(zhǔn)確性和完整性。

  鑒選是決定書目數(shù)據(jù)庫(kù)具體內(nèi)容范圍的基本方式之一。鑒別真?zhèn)巍⒎智辶驾潜匾?,不能“有書必錄”。?duì)于低水平或明顯有錯(cuò)誤的文獻(xiàn)應(yīng)當(dāng)摒棄。在選擇時(shí),可以文獻(xiàn)類型為準(zhǔn)則,也可以學(xué)科為準(zhǔn)則,或以問題或任務(wù)為準(zhǔn)則。以文獻(xiàn)類型為準(zhǔn)則,可以專收一種類型文獻(xiàn),如研究報(bào)告數(shù)據(jù)庫(kù)、專利文獻(xiàn)數(shù)據(jù)庫(kù)等,也可以收錄多種類型的文獻(xiàn);以學(xué)科為準(zhǔn),就是所謂“面向?qū)W科的數(shù)據(jù)庫(kù)”,如(化學(xué)文摘}數(shù)據(jù)庫(kù),《核物理文摘》數(shù)據(jù)庫(kù)等;以問題為準(zhǔn)的數(shù)據(jù)庫(kù),如環(huán)境數(shù)據(jù)庫(kù),《污染文摘)數(shù)據(jù)庫(kù)等;以任務(wù)為準(zhǔn)的,有所謂面向任務(wù)的數(shù)據(jù)庫(kù),如{航空航天文摘)數(shù)據(jù)庫(kù)等。

  其次是書目數(shù)據(jù)的著錄。著錄是對(duì)文獻(xiàn)內(nèi)容和形式特征進(jìn)行分析、選擇和記錄的過程。為了提高書目數(shù)據(jù)庫(kù)的質(zhì)量和資源共享的便利性,書目數(shù)據(jù)的著錄應(yīng)按統(tǒng)一的著錄原則和標(biāo)準(zhǔn)進(jìn)行,例如我國(guó)有國(guó)家標(biāo)準(zhǔn)GB3792.1—83《文獻(xiàn)著錄總則》,GB37921—83(檢索期刊條目著錄規(guī)則》等,只有遵循了統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行書目數(shù)據(jù)的著錄,才能保證書目數(shù)據(jù)庫(kù)中的全部記錄符合標(biāo)準(zhǔn)化規(guī)范化的要求。

  標(biāo)引是給數(shù)據(jù)庫(kù)中的各個(gè)記錄賦予內(nèi)容特征標(biāo)識(shí)的過程。主要是要給出分類號(hào)、主題詞和自由詞等。標(biāo)引可以是人工標(biāo)引,即標(biāo)引員針對(duì)文獻(xiàn)內(nèi)容,根據(jù)一定的分類表或主題詞表給出標(biāo)引詞;也可以是完全或部分由計(jì)算機(jī)參與的自動(dòng)標(biāo)引或半自動(dòng)標(biāo)引。自動(dòng)標(biāo)i引的原理是,將分類表或詞表及有關(guān)規(guī)則存儲(chǔ)在計(jì)算機(jī)中,通過編制的程序自動(dòng)完成標(biāo)引工作,對(duì)于在計(jì)算機(jī)標(biāo)引過程中進(jìn)行適當(dāng)人:工干預(yù)的標(biāo)引就是所謂的半自動(dòng)標(biāo)引了。對(duì)于中文文獻(xiàn)來說,進(jìn)行自動(dòng)標(biāo)引,首先要解決詞的自動(dòng)切分問題。此外,標(biāo)引還有另一種方式,稱為“無(wú)標(biāo)引”或“全標(biāo)引”,如單漢字檢索方式中每個(gè)漢字都由計(jì)算機(jī)做倒排檔,因此不需人工參與,故被稱為“無(wú)標(biāo)引”。而從計(jì)算機(jī)的角度來說,對(duì)每個(gè)漢字均作了標(biāo)引詞的處理,所以也可理解為“全標(biāo)引”。相對(duì)于中文文獻(xiàn),西文文獻(xiàn)的自動(dòng)標(biāo)引和全標(biāo)引實(shí)現(xiàn)起來就要簡(jiǎn)單多了。

  之后是文摘的編寫。文摘的編寫加工也十分重要。編寫文摘應(yīng)當(dāng)一針見血,簡(jiǎn)明扼要。文摘可以由文獻(xiàn)著者自行撰寫,附于文獻(xiàn)之前,也可以由文摘員進(jìn)行撰寫。文摘的編寫也應(yīng)當(dāng)標(biāo)準(zhǔn)化,我國(guó)有國(guó)家標(biāo)準(zhǔn)CB6447—86《文摘編寫規(guī)則》作為編寫依據(jù)。文摘有報(bào)道性文摘、指示性文摘以及報(bào)道—指示性文摘等多種類型,不同類型的文摘對(duì)編寫和長(zhǎng)度有不同的要求。編寫時(shí)應(yīng)根據(jù)具體的需要進(jìn)行相應(yīng)的編寫。

  數(shù)據(jù)準(zhǔn)備階段的最后一關(guān)是審核修正。審核修正是指記錄正式數(shù)據(jù)庫(kù)之前的把關(guān)工作。這須由較高水平的人來進(jìn)行。審核的內(nèi)容包括數(shù)據(jù)項(xiàng)是否完備、準(zhǔn)確,有關(guān)的著錄是否符合標(biāo)準(zhǔn),標(biāo)引深度是否適當(dāng),等等。

  經(jīng)過了這六大步驟,數(shù)據(jù)的準(zhǔn)備工作就已基本完成,下一步就應(yīng)進(jìn)行數(shù)據(jù)庫(kù)的正式建立工作了。

  (3)數(shù)據(jù)庫(kù)的建立

 ?、儆布渲门c軟件選擇

  進(jìn)行書目數(shù)據(jù)庫(kù)的開發(fā),必須配有相應(yīng)的計(jì)算機(jī)系統(tǒng),應(yīng)根據(jù)需要購(gòu)買性能良好的計(jì)算機(jī)硬件設(shè)備。當(dāng)然,通常情況下,計(jì)算機(jī)主機(jī)系統(tǒng)是已經(jīng)存在的,建庫(kù)者要做的是完成必要的終端和外設(shè)與主機(jī)系統(tǒng)的連接,例如,安裝光盤驅(qū)動(dòng)設(shè)備,掃描和打印設(shè)備等。如果建庫(kù)工作是在聯(lián)機(jī)網(wǎng)絡(luò)的節(jié)點(diǎn)上進(jìn)行,那么還要完成設(shè)備與網(wǎng)絡(luò)的連接工作,解決網(wǎng)絡(luò)數(shù)據(jù)通訊問題。

  解決了硬件問題后,建庫(kù)者需要選擇適當(dāng)?shù)慕◣?kù)和檢索軟件。建庫(kù)軟件的獲取一般有兩種途徑,一種是購(gòu)買現(xiàn)成的數(shù)據(jù)庫(kù)管理系統(tǒng)軟件,另一種是自行編制。當(dāng)然目前大多采取的都是前一種途徑,即直接購(gòu)買現(xiàn)成的數(shù)據(jù)庫(kù)管理軟件。我國(guó)圖書情報(bào)部門比較流行的是采用聯(lián)合國(guó)教科文組織推出的CDS/ISIS軟件。

 ?、跀?shù)據(jù)錄入

  數(shù)據(jù)錄人就是將前面所說的文獻(xiàn)處理結(jié)果轉(zhuǎn)化成機(jī)讀數(shù)據(jù)的過程。數(shù)據(jù)錄入通常有兩種方式:自動(dòng)錄入和平工錄入。

  手工錄入的方式是對(duì)非機(jī)讀書目信息的錄入。計(jì)算機(jī)系統(tǒng)顯示出一個(gè)類似于工作單的表格,上面有用戶定義的字段名稱,用戶只需在這些字段名稱之后用鍵盤錄入相應(yīng)數(shù)據(jù)即可。為了加速錄人工作,用戶也可以用其他文字處理軟件(如MICROSOFTWORD)對(duì)書目數(shù)據(jù)進(jìn)行錄入,之后再做成批轉(zhuǎn)換;另外還可以利用光學(xué)字符識(shí)別技術(shù)(OCR),讓計(jì)算機(jī)根據(jù)一定的印刷或打印字體將文本轉(zhuǎn)化為機(jī)讀形式。

  自動(dòng)錄入的方式用于對(duì)光盤數(shù)據(jù)庫(kù)、磁帶數(shù)據(jù)庫(kù)或其他類型的機(jī)讀數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行轉(zhuǎn)錄或套錄。所謂套錄,就是從一個(gè)或幾個(gè)計(jì)算機(jī)中獲得數(shù)據(jù)庫(kù)的數(shù)據(jù),傳送到另一計(jì)算機(jī)中,并將其存儲(chǔ)在后者的磁盤或磁帶等存儲(chǔ)介質(zhì)上的一種過程或手段。具體地說,就是從聯(lián)機(jī)檢索系統(tǒng)或光盤中的數(shù)據(jù)庫(kù)中套錄下一些書目信息,然后,再將這些書目信息進(jìn)行編輯、歸并、格式轉(zhuǎn)換等再處理,使數(shù)據(jù)產(chǎn)生新的組合,確立新的結(jié)構(gòu),從而獲得適合特定需要的書目數(shù)據(jù)庫(kù)。這種套錄建庫(kù)方式,也稱為書目數(shù)據(jù)庫(kù)的二次開發(fā)。信息技術(shù)和數(shù)據(jù)庫(kù)業(yè)的發(fā)展,促進(jìn)了套錄的誕生和推廣。目前供發(fā)行和服務(wù)的書目數(shù)據(jù)庫(kù),不管以何種形式出現(xiàn),大多可以用適當(dāng)?shù)姆椒ū惶卒洝_@種套錄建庫(kù)優(yōu)勢(shì)在于,建庫(kù)周期短、投資少、易上規(guī)模、重復(fù)勞動(dòng)少,使信息資源得到極大程度的共享。但它可能涉及到的產(chǎn)權(quán)問題也應(yīng)引起重視,切勿顧此失彼,帶來未曾預(yù)計(jì)的損失。

  當(dāng)手工或自動(dòng)錄入數(shù)據(jù)后,在建庫(kù)軟件的支持下,計(jì)算機(jī)自動(dòng)生成書目數(shù)據(jù)庫(kù)的各種順序文檔。這種數(shù)據(jù)庫(kù)內(nèi)的書目信息有其復(fù)雜的計(jì)算機(jī)能識(shí)別、處理的機(jī)內(nèi)記錄格式,內(nèi)容主要包括:一條記錄的總長(zhǎng)度,書目數(shù)據(jù)的實(shí)際起始地址,每個(gè)字段的名稱、長(zhǎng)度,字段間的分隔符、結(jié)束符、記錄狀態(tài)的標(biāo)識(shí)符等。另外,數(shù)據(jù)庫(kù)所需的各種索引倒排文檔也無(wú)需人工干預(yù),而由建庫(kù)程序自行完成。

 ?、鄢绦驒z查

  程序檢查是指計(jì)算機(jī)自動(dòng)對(duì)錄入的文本進(jìn)行形式上的審查,例:如,括號(hào)是否配對(duì),定義了數(shù)字形式的字段是否出現(xiàn)文字;定長(zhǎng)字段長(zhǎng)度是否符合要求,字段的數(shù)據(jù)形式,如ⅡSBN號(hào),是否正確,各種標(biāo)識(shí)符號(hào)是否有錯(cuò),是否出現(xiàn)了系統(tǒng)禁止使用的專用字符或非法字符等。計(jì)算機(jī)對(duì)數(shù)據(jù)的校驗(yàn)可分別在不同階段進(jìn)行。

  經(jīng)過了這三道工序,書目數(shù)據(jù)庫(kù)就已經(jīng)基本建成了。但在正式投入使用之前,還需要進(jìn)行試運(yùn)行。根據(jù)規(guī)劃設(shè)計(jì)要求,選取一定的檢索實(shí)例進(jìn)行檢驗(yàn),通過設(shè)計(jì)者、使用者和有關(guān)專家的鑒定之后,才算完成數(shù)據(jù)庫(kù)的建立工作。

  (4)書目數(shù)據(jù)庫(kù)的維護(hù)與更新

  書目數(shù)據(jù)庫(kù)投入運(yùn)行后,由于不斷地對(duì)文檔進(jìn)行插人、刪除、修改等操作,可能會(huì)使文檔的時(shí)空性能變壞,或者是由于原來的文檔組織方式已不能適應(yīng)新的要求,或者新書目的激增使得原來的數(shù)據(jù)量已不能滿足用戶的需求,故而必須定期地對(duì)書目數(shù)據(jù)庫(kù)進(jìn)行維護(hù)與更新,以適應(yīng)用戶要求和文獻(xiàn)生產(chǎn)情況的變化。維護(hù)主要是指對(duì)數(shù)據(jù)庫(kù)系統(tǒng)硬件設(shè)備的維修、保養(yǎng)和對(duì)系統(tǒng)軟件功能的修改和擴(kuò)充。更新主要是指對(duì)數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行添加和重新組織,它對(duì)書目數(shù)據(jù)庫(kù)的存在和使用,保證書目數(shù)據(jù)的質(zhì)量有著尤為重要的意義。

  數(shù)據(jù)庫(kù)的數(shù)據(jù)往往不是個(gè)別進(jìn)行插入、刪除和修改,而是定期、批量地進(jìn)行。這種數(shù)據(jù)庫(kù)的更新,不僅要對(duì)順序文檔進(jìn)行更新,而且還必須對(duì)所有相關(guān)的倒排檔及索引文件進(jìn)行重組,這就要求要對(duì)新追加的大量數(shù)據(jù)進(jìn)行一系列加工處理后重裝文獻(xiàn)庫(kù)。重裝雖然要開銷一定的維護(hù)時(shí)間,但可以保證檢索的快速性,因而是值得的。另外。數(shù)據(jù)庫(kù)的更新工作還要隨文檔的存儲(chǔ)方式而:導(dǎo)。順序文檔一般采用尾接擴(kuò)充法,就是將新的書目記錄依次尾接;莊文檔后面;索引或倒排文檔通常采用重裝方法,即將新加記錄抽詞排序后的文檔與原來的排序文檔歸并,然后重新總體排序,建立索引。

  另外,在數(shù)據(jù)庫(kù)的維護(hù)中一定要重視數(shù)據(jù)庫(kù)及其文檔的備份工作。一般地,順序文檔和倒排文檔都應(yīng)該保存2—3份副本,即不僅保留本次更新的副本,而且要保留前1—2次更新時(shí)的副本。這樣,如果由于硬件故障等原因使得數(shù)據(jù)庫(kù)文檔不能正常使用時(shí),就可用副本重裝一次,從而保證數(shù)據(jù)庫(kù)的正常運(yùn)行。

  (5)書目數(shù)據(jù)庫(kù)的性能指標(biāo)和評(píng)價(jià)準(zhǔn)則

  一個(gè)書目數(shù)據(jù)庫(kù)建成后,其構(gòu)造是否合理,建設(shè)是否成功,要依據(jù)一定的性能指標(biāo)和評(píng)價(jià)準(zhǔn)則進(jìn)行評(píng)估。這里我們將簡(jiǎn)要介紹一些目前得到普遍認(rèn)可的數(shù)據(jù)庫(kù)性能指標(biāo)與評(píng)價(jià)準(zhǔn)則。

 ?、贁?shù)據(jù)收錄的完備性

  它是指根據(jù)數(shù)據(jù)庫(kù)的主題范圍,看其收錄的文獻(xiàn)數(shù)據(jù)是否完整或基本完整。其中最重要的是數(shù)據(jù)收錄的覆蓋面。例如,一個(gè)特定的書目數(shù)據(jù)庫(kù),其收錄是否包括所有類型的出版物,還是某一特定類型的出版物;它所收錄的文獻(xiàn)包括哪些文種,其時(shí)間跨度又有多長(zhǎng);它對(duì)核心出版物、一般出版物、邊緣相關(guān)出版物的收錄和覆蓋面各有多大。

  收錄完備性是數(shù)據(jù)庫(kù)質(zhì)量的首要指標(biāo)。因?yàn)橛脩羰褂脮繑?shù)據(jù)庫(kù)的目的,是要獲得與自己特定情報(bào)需求相關(guān)的全面資料,如果數(shù)據(jù)庫(kù)本身收錄的數(shù)據(jù)就不夠全面,那么即便用戶非常專業(yè),進(jìn)行了細(xì)致的檢索,所獲得的檢索結(jié)果也是不符合要求的。

 ?、跀?shù)據(jù)的準(zhǔn)確性

  書目數(shù)據(jù)庫(kù)中所收錄的數(shù)據(jù)必須非常準(zhǔn)確,這體現(xiàn)在它與原始材料的一致性、著錄的標(biāo)準(zhǔn)性等多個(gè)方面。數(shù)據(jù)庫(kù)不同于利用手工檢索的書目文獻(xiàn),在手工檢索的文獻(xiàn)中,用戶對(duì)著錄格式的差異、同一詞拼寫上的不同、字符設(shè)備的出入等在一定程度上可以容忍和理解,但在利用計(jì)算機(jī)進(jìn)行機(jī)檢時(shí),這些因素,甚至一個(gè)括號(hào)使用的不同,都會(huì)對(duì)用戶的利用產(chǎn)生很大影響,無(wú)論對(duì)建庫(kù)還是檢索都會(huì)造成一定的混亂。如果說數(shù)據(jù)庫(kù)收錄材料覆蓋面的高低是取得用戶信賴的量方面的因素,那么,數(shù)據(jù)庫(kù)中數(shù)據(jù)的準(zhǔn)確性,則是取得用戶信賴的質(zhì)方面的因素。它的混亂將導(dǎo)致用戶對(duì)整個(gè)數(shù)據(jù)庫(kù)價(jià)值的否認(rèn)。

 ?、蹟?shù)據(jù)庫(kù)的時(shí)效性

  在這里主要是指數(shù)據(jù)庫(kù)的時(shí)差,即從一篇文獻(xiàn)出版發(fā)表到納人數(shù)據(jù)庫(kù)之間的時(shí)間差距。數(shù)據(jù)庫(kù)的時(shí)差就是全庫(kù)文獻(xiàn)的平均時(shí)間差距。不同學(xué)科領(lǐng)域?qū)r(shí)差的要求和敏感性有所不同,對(duì)于迅速發(fā)展中的學(xué)科,如計(jì)算機(jī)、網(wǎng)絡(luò)科學(xué),及對(duì)現(xiàn)實(shí)性要求比較高的信息,如報(bào)紙信息,數(shù)據(jù)庫(kù)時(shí)差的縮短尤其重要。對(duì)于情報(bào)用戶來說,如果他們首先看到了原始文獻(xiàn),然后才從數(shù)據(jù)庫(kù)中檢索到該文獻(xiàn)的信息,用戶就會(huì)感到該數(shù)據(jù)庫(kù)中的信息缺乏新穎性。因此,對(duì)一般用戶來說的新穎率(即用戶最先從庫(kù)中了解到的信息占庫(kù)中所有信息的百分比)是數(shù)據(jù)庫(kù)時(shí)效性的另一種衡量指標(biāo)。很顯然,數(shù)據(jù)庫(kù)的時(shí)效性與數(shù)據(jù)庫(kù)的更新周期有密切的關(guān)系。更新周期短,自然能縮短數(shù)據(jù)庫(kù)的時(shí)差,提高新穎率。

 ?、軘?shù)據(jù)信息含量的充分性

  信息含量的充分性,主要是指書目數(shù)據(jù)庫(kù)中款目苦錄:的完備與充分性。例如,為每篇文獻(xiàn)記錄設(shè)置了多少個(gè)項(xiàng)目(字段),是否設(shè)有摘要,摘要的詳略如何。顯然,款目中的信息含量越充分,則越有助于用戶了解該文獻(xiàn)的外表特征與內(nèi)容特征,從而有助于用戶確認(rèn)一篇文獻(xiàn),判斷該文獻(xiàn)對(duì)自己檢索目的的切題程度和價(jià)值,判斷有無(wú)閱讀原文的需要。數(shù)據(jù)信息含量的高低,是數(shù)據(jù)庫(kù)內(nèi)在質(zhì)量的標(biāo)志之一。

 ?、菰~表和標(biāo)引的適當(dāng)性

  詞表和標(biāo)引的適當(dāng)性主要是指書目數(shù)據(jù)庫(kù)采用的控制同表的質(zhì)量和標(biāo)引深度的適度性。一般書目數(shù)據(jù)庫(kù)均會(huì)采用一定的控制詞表(包括分類表)作為標(biāo)引的依據(jù),因此詞表本身的質(zhì)量是制約數(shù)據(jù)庫(kù)質(zhì)量的根本性因素之一。標(biāo)引是根據(jù)文獻(xiàn)內(nèi)容給出詞表中有關(guān)詞(分類號(hào))的過程。標(biāo)引的深度就是為一篇文獻(xiàn)記錄賦予檢索詞的數(shù)目。從用戶角度來說,標(biāo)引深度也就是能檢索到該文獻(xiàn)內(nèi)容特征的檢索點(diǎn)數(shù)。檢索點(diǎn)的充分與否,關(guān)系到檢索的查全性能與查準(zhǔn)性能。無(wú)論是詞表還是標(biāo)引,適度是很重要的。如果詞表與標(biāo)引太簡(jiǎn)單粗淺,自然無(wú)法對(duì)數(shù)據(jù)進(jìn)行充分完全的描述,因而不能滿足查準(zhǔn)性能的要求;但如若詞表與標(biāo)引太細(xì)太繁,則不僅會(huì)增加詞表編制及標(biāo)引工作的成本,增加數(shù)據(jù)庫(kù)占用空間,而且也可能導(dǎo)致誤檢率的提高。

  除了上述五點(diǎn)之外,數(shù)據(jù)庫(kù)的經(jīng)濟(jì)成本、著錄格式的標(biāo)準(zhǔn)與交換性、數(shù)據(jù)庫(kù)設(shè)計(jì)的合理性等也都可以作為書目數(shù)據(jù)庫(kù)的性能指標(biāo)和評(píng)價(jià)準(zhǔn)則。

評(píng)論  |   0條評(píng)論