登錄

全文數(shù)據(jù)庫

百科 > 信息管理術(shù)語 > 全文數(shù)據(jù)庫

1.什么是全文數(shù)據(jù)庫[1]

  全文數(shù)據(jù)庫是指存儲原始文獻全文或其中主要部分的一種源數(shù)據(jù)庫,簡稱全文庫。收錄文獻以期刊論文、會議論文、學(xué)位論文、政府出版物、研究報告、法律條文和案例、商業(yè)信息、圖書為主。如EBSCO全文數(shù)據(jù)庫、中國人大報資料中心復(fù)印報刊資料全文數(shù)據(jù)庫、維普的中文科技期刊數(shù)據(jù)庫、萬方的中國學(xué)位論文全文數(shù)據(jù)庫、超星數(shù)字圖書館等。

2.全文數(shù)據(jù)庫的種類[2]

  按出版方式劃分,全文數(shù)據(jù)庫可分為兩類:一類是與印刷型文獻平行出版的全文庫,另一類是純電子出版物,無相應(yīng)的印刷型文本。

  按存貯內(nèi)容劃分,全文數(shù)據(jù)庫有直接原文型和文摘型。前者直接存貯文獻的正文,有時甚至還包括正文以外的其它信息,如腳注、參考文獻目錄、文摘等。文摘型就是原文經(jīng)過壓縮提煉,改寫成若干篇一定長度的摘要?,F(xiàn)在的全文數(shù)據(jù)庫多為直接原文型。

  按應(yīng)用領(lǐng)域劃分,目前主要有以下類型:

  1、法律法規(guī)全文庫或條例庫

  法律信息多年來一直是全文檢索的領(lǐng)先者。眾所周知,法律條文中的每句話甚至每個字都是很重要的。有的甚至可以說是一言九鼎,而實際生活中各種法律多如牛毛,手工查找非常困難,書目數(shù)據(jù)庫又不能直接提供原文。所以,法律界對全文數(shù)據(jù)庫的需求最為迫切。美國Mead數(shù)據(jù)中心的LEXIX系統(tǒng)和西部出版公司的WESTLAW系統(tǒng),是美國的兩個主要的商業(yè)性法律全文數(shù)據(jù)庫檢索系統(tǒng)。國內(nèi)比較有影響的是《法律之星》和《中國法律法規(guī)數(shù)據(jù)庫》。

  2、新聞資料數(shù)據(jù)庫

  在商業(yè)性的信息檢索系統(tǒng)中,也廣泛提供報紙、新聞公報之類的材料。

  3、雜志和參考書數(shù)據(jù)庫

  從1983年起,DIALOG信息檢索服務(wù)公司和書目檢索服務(wù)公司(BRS)開始將專業(yè)雜志和參考書增加到它們的服務(wù)中來。如BRS系統(tǒng)中的美國化學(xué)學(xué)會原始期刊數(shù)據(jù)庫、DIALOG系統(tǒng)中的通俗期刊全文庫。我國也出現(xiàn)廠這種檢索方式,如清華大學(xué)出版的《中悶學(xué)術(shù)期刊(光盤版)》全文數(shù)據(jù)庫。

  4、商情全文庫

  如英國Datasolve公司的市場新聞和研究報告全文庫,美國《哈佛商業(yè)評論》全文庫。

  5、醫(yī)學(xué)文獻全文庫

  如國際研究交流系統(tǒng)(1RCS)的醫(yī)學(xué)雜志摘錄庫,BRS系統(tǒng)的急救醫(yī)學(xué)文庫(Critical Care Medical library)。

3.全文數(shù)據(jù)庫的特點[3]

  與其它數(shù)據(jù)庫相比,全文數(shù)據(jù)庫有許多特點,主要表現(xiàn)在:

  (1)包含信息的原始性。庫中信息基本上是未加工的原始文獻,因而具有客觀性。

  (2)信息檢索的徹底性。任何詞、句、字皆可檢索,還有可能看到某些邊緣性信息。

  (3)檢索語言的自然性??墒褂米匀徽Z言檢索,并可使用布爾檢索和位置檢索,因而要涉及自然語言的理解。

  (4)數(shù)據(jù)結(jié)構(gòu)基本上是非結(jié)構(gòu)化的,除了某些可規(guī)范的數(shù)據(jù)外,大量文本屬于非結(jié)構(gòu)化的,不便于關(guān)系數(shù)據(jù)庫的處理。

  (5)專業(yè)的全文數(shù)據(jù)庫系統(tǒng)一般都采用“自動切詞”技術(shù)。

  (6)好的全文數(shù)據(jù)庫還備有知識庫,可具有推理能力和聯(lián)想式檢索。

  (7)基本上是封閉性的,數(shù)據(jù)不需更新,具有較大的穩(wěn)定性。

  (8)全文數(shù)據(jù)庫占用的存儲空間非常龐大,系統(tǒng)開銷大,如何提高檢索速度是一大難題。

評論  |   0條評論