登錄

全文檢索

百科 > 計算機 > 全文檢索

1.什么是全文檢索[1]

  全文檢索是指以全部文本信息作為檢索對象的一種信息檢索技術(shù)。

2.全文檢索的特點[2]

  1.全文檢索的研究內(nèi)容

  全文檢索主要指研究對整個文檔信息的表示、存儲、組織和訪問,即根據(jù)用戶的查詢要求,從信息數(shù)據(jù)庫中檢索出相關(guān)信息資料。

  全文檢索的中心環(huán)節(jié)是文件內(nèi)容表達(dá)、信息查詢的獲得以及相關(guān)信息的匹配。一個好的全文信息檢索系統(tǒng)不僅要求將輸出信息進(jìn)行相關(guān)性排列,還應(yīng)該能夠根據(jù)用戶的意圖、興趣和特點自適應(yīng)和智能化地調(diào)整匹配機制,獲得用戶滿意的檢索輸出。

  按檢索對象來區(qū)分,全文檢索可分為基于文本和基于Web兩種類型。

  全文檢索的關(guān)鍵是文檔的索引,即如何將源文檔中所有基本元素的信息以適當(dāng)?shù)男问接涗浀剿饕龓熘?。在中文文檔中,基本元素可以是單個漢字,也可以是詞或詞組。根據(jù)索引庫中索引的元素不同,可以將全文檢索分為基于字表的全文檢索和基于詞表盼全文檢索兩種類型。

  2.全文檢索的優(yōu)勢

  與其他的檢索系統(tǒng)相比,全文檢索系統(tǒng)具有以下的優(yōu)勢:

  (1)查全率高于一般的計算機檢索系統(tǒng)

  如關(guān)鍵字索引檢索系統(tǒng),它們只對一條信息中具有檢索意義的語詞進(jìn)行標(biāo)引,它的標(biāo)引深度總是有限的,無法滿足人們對信息查全率的高要求;而全文檢索系統(tǒng)可以對文本中的每個字、詞進(jìn)行標(biāo)引,其標(biāo)引的深度達(dá)到了極限。

  (2)全文檢索系統(tǒng)能實現(xiàn)計算機自動標(biāo)引

  主題詞索引法和關(guān)鍵詞索引法是采用人工賦詞標(biāo)引的方法,這些方法需要標(biāo)引人員手工對各種信息進(jìn)行加工處理,給出檢索標(biāo)識,所以效率低;而且標(biāo)引質(zhì)量由于手工的參與,帶有很大的局限性。而全文檢索系統(tǒng)可采用計算機自動抽取文本中的字、詞進(jìn)行標(biāo)引,從而大大加快了標(biāo)引的速度。

  (3)檢索界面友好

  基于www的全文檢索系統(tǒng),一方面,通過采用成熟的數(shù)據(jù)庫技術(shù),提供了靈活的信息處理機制;另一方面,通過使用Web技術(shù),可以向用戶提供美觀、大方、通俗、易用的用戶檢索界面,整個檢索過程對用戶是透明化的,用戶所要關(guān)注的是自己所輸入的檢索詞,并在檢索過程中,還能夠給用戶相對應(yīng)的一系列支持,如相近檢索詞等,使用戶不需要擁有很多檢索的知識,就可以進(jìn)行信息的檢索。

  (4)全文檢索系統(tǒng)提供多種檢索功能

  全文檢索系統(tǒng)除提供一般的“AND”、“OR”、“NOT”邏輯檢索功能外,還能具備位置邏輯檢索、字符串檢索、截詞檢索等多種檢索功能。

  (5)全文檢索系統(tǒng)更加靈活

  全文檢索技術(shù)將在原始文獻(xiàn)的標(biāo)題和正文中的每一個有意義的詞都作為檢索入口,允許對原始文獻(xiàn)中的任何章節(jié)、段落、句子、詞或字進(jìn)行檢索,提供了極高的標(biāo)引深度。它允許用戶利用自然語言進(jìn)行檢索,增大了用戶的自由度。

  3.全文檢索存在的問題

  雖然全文檢索技術(shù)在Web搜索引擎中取得了輝煌的成績,但仍存在不足,主要有:

  (1)對同一頁面的重復(fù)檢索即同一檢索詞檢索出的多條檢索結(jié)果可能是同一個地址。而這種重復(fù)的現(xiàn)象,基本有以下兩種情況:

  ①標(biāo)題、頁面內(nèi)容及URL地址完全相同,這種重復(fù)現(xiàn)象在全文檢索系統(tǒng)發(fā)展初期比較突出,但目前已經(jīng)較少。

  ②雖然在URL上略有區(qū)別,但實際上指向的地址卻是同一站點的同一頁面內(nèi)容,這種重復(fù)現(xiàn)象在各種搜索引擎中比較常見。如在google搜索引擎中輸入關(guān)鍵詞“科研”,就出現(xiàn)以下內(nèi)容:“中國教育和科研計算機網(wǎng)”2006年3月10日,URL地址為http://www.edu.cn/;“Home Page科研發(fā)展”2006年3月10日,URL地址為http://www.edu.cn/index.shtml。兩個URL地址雖然不同,但是指向的卻是同一個站點中的同一個頁面內(nèi)容。隨著全文檢索技術(shù)的發(fā)展,各個檢索系統(tǒng)已普遍具有較好的去重功能,但這種重復(fù)的情況仍然存在。

  (2)查準(zhǔn)率還有待提高

  由于全文檢索技術(shù)的全詞匹配和語詞本身的特點,會導(dǎo)致查準(zhǔn)率不高。例如,某個用戶想檢索我國長江流域的一些資料,如以“長江”作為檢索詞,則“長江日報”或是“長江大學(xué)”也會被搜索引擎認(rèn)為是檢索結(jié)果,從而降低了查準(zhǔn)率。對于這種現(xiàn)象,需要對搜索引擎構(gòu)造一個詞典,將可能出現(xiàn)的誤檢詞總結(jié)起來作為一個詞典存放,將檢索結(jié)果中的詞和詞典中的詞一一對照,將“長江日報”和“長江大學(xué)”等誤檢詞帶出的結(jié)果自動屏蔽,從而提高檢索的查準(zhǔn)率。造成查準(zhǔn)率低的另一原因則是由網(wǎng)頁的制作者造成的,由于有的檢索引擎允許web頁面制作者自定義關(guān)鍵詞及摘要,這樣就導(dǎo)致關(guān)鍵詞和摘要缺乏一定的規(guī)范性,從而直接導(dǎo)致查準(zhǔn)率不高。另外,由于各搜索引擎的索引工作由程序自動根據(jù)web頁面中的關(guān)鍵詞的詞頻及關(guān)鍵詞的位置等因素確定索引關(guān)鍵詞,因此,一些Web頁面制作者為了提高自己的Web頁面的命中率以及和大量熱門關(guān)鍵詞的相關(guān)度,通過復(fù)制網(wǎng)站或網(wǎng)頁的內(nèi)容并分配以不同域名和服務(wù)器,以此欺騙搜索引擎對同一站點或同一頁面進(jìn)行多次索引,從而進(jìn)一步導(dǎo)致查準(zhǔn)率降低。

  (3)數(shù)據(jù)更新已成為檢索不容忽視的問題

  在龐大的Web空問,每天都有大量的網(wǎng)站和網(wǎng)頁的變動,一個好的檢索工具必須能及時對這些網(wǎng)站和網(wǎng)頁的變動進(jìn)行新陳代謝,剔除過時的網(wǎng)頁和網(wǎng)站,否則就會導(dǎo)致大量的無效地址和錯誤鏈接,直接影響到搜索的結(jié)果和質(zhì)量。對于錯誤的鏈接,一方面要提高數(shù)據(jù)庫更新速度,另一方面應(yīng)該由廣大的網(wǎng)絡(luò)用戶進(jìn)行測試信息反饋。事實上,國內(nèi)大多數(shù)Web搜索引擎并沒有一種真正行之有效的檢索用戶反饋機制,由于web資源的更新速度太快,僅僅依靠檢索站點本身的精力和時間根本無法有效地跟上Web的數(shù)據(jù)更新,所以應(yīng)該依靠用戶的反饋意見進(jìn)行有效的“垃圾清掃”,并且給予這些用戶一定的獎勵,這樣使廣大檢索用戶也投身到提高檢索質(zhì)量的工作中。

  (4)檢索結(jié)果過多

  大部分檢索引擎都在強調(diào)將更多的站點呈現(xiàn)給用戶,然而站點質(zhì)量良莠不齊的現(xiàn)象也會對用戶使用網(wǎng)上信息資源產(chǎn)生潛在影響。隨著web資源的不斷增多,一個檢索詞可以帶出幾百個網(wǎng)站和成千上萬的網(wǎng)頁。而用戶在使用這種全文檢索系統(tǒng)時,通常只會點擊檢索結(jié)果中的前面幾頁,而很少注意后面的鏈接,長久下去,就會造成很多排在檢索結(jié)果后面的站點或頁面得不到有效的利用。顯然,質(zhì)量良好的站點應(yīng)該優(yōu)先呈現(xiàn)給用戶,這就對檢索結(jié)果的排序提出了要求。一方面應(yīng)該存在一個權(quán)威的網(wǎng)站評估機構(gòu),對網(wǎng)上的各類站點進(jìn)行評論和評分,將質(zhì)量好的站點優(yōu)先推薦給用戶,網(wǎng)絡(luò)用戶也可以對各類站點進(jìn)行投票和評分,分?jǐn)?shù)高的網(wǎng)站將獲得優(yōu)先顯示的特權(quán)。另一方面,建立先進(jìn)的數(shù)學(xué)分析模型,除了對網(wǎng)頁的鏈接數(shù)進(jìn)行分析以外,還要判斷這些鏈接的質(zhì)量,同時分析網(wǎng)站的結(jié)構(gòu)客戶的點擊行為,以及準(zhǔn)確識別大量的針對搜索引擎的“作弊”行為,建立合理的算法,對這些網(wǎng)站和網(wǎng)頁進(jìn)行智能化排序。

3.全文檢索的發(fā)展趨勢[2]

  從檢索技術(shù)本身來看,如何更好地解決語詞的切分問題以及語義理解、句法理解問題,提高全文檢索系統(tǒng)的檢索性能,乃至實現(xiàn)具有學(xué)習(xí)、分析、理解、推理機制的智能化和基于知識庫推理機制的信息檢索系統(tǒng),才是未來全文信息檢索系統(tǒng)發(fā)展的主要趨勢

  (1)智能檢索

  智能檢索能根據(jù)用戶提出的任意字、詞,直接對文獻(xiàn)資料的內(nèi)容進(jìn)行多角度、多側(cè)面的檢索,它的檢索目標(biāo)是自動根據(jù)用戶的提示(如最初的檢索項)而搜索出相關(guān)的文檔?!跋嚓P(guān)”的確定方式有概念關(guān)聯(lián)和非概念關(guān)聯(lián)兩種。概念關(guān)聯(lián)指兩個詞之間在語義上有確定的聯(lián)系,這種聯(lián)系既可以通過同義詞表來實現(xiàn),也可以通過某種算法在語料庫中自動抽取;非概念關(guān)聯(lián)指兩個詞之間的聯(lián)系可能是暫時的,如中國與亞運會在2000~2006年的文獻(xiàn)中是關(guān)聯(lián)的,而其他時間則不是。智能檢索還可以進(jìn)一步采用人工智能技術(shù)、自然語言處理技術(shù)等,有廣闊的發(fā)展空間,它的使用將使全文檢索的查詢效率進(jìn)一步提高。目前基于文本的關(guān)鍵詞智能檢索系統(tǒng)主要是基于智能Agent,它以用戶需求為先導(dǎo),根據(jù)用戶特定的需求以及在一段時間內(nèi)的偏好為衡量標(biāo)準(zhǔn)來篩選信息,并提供友好的自然語言查詢。當(dāng)用戶查詢請求不明確時,智能代理Agent會利用知識庫中的推理機制推斷用戶的潛在需求,并進(jìn)行搜索。

  (2)知識檢索

  知識檢索能夠在對蘊含在信息中的知識和知識關(guān)聯(lián)進(jìn)行分析的基礎(chǔ)上,在知識處理技術(shù)和知識組織技術(shù)的支持下,實現(xiàn)基于語義理解的智能化查詢。它綜合應(yīng)用信息科學(xué)、人工智能、認(rèn)知科學(xué)及語言學(xué)等多學(xué)科的先進(jìn)理論與技術(shù),基于知識和知識組織,融合知識處理和多媒體信息處理等多種方法與技術(shù),是一種能充分表達(dá)和優(yōu)化用戶需求,高效存取所有媒體類型的知識源(文本、圖像、視頻、聲音等),并能準(zhǔn)確精選用戶需要結(jié)果的高級信息檢索方法。

  (3)基于XML的信息檢索

  Web搜索引擎的全文檢索技術(shù)發(fā)展至今,多是基于詞語匹配層次上,網(wǎng)絡(luò)信息的檢索效果一直沒有顯著提高,傳統(tǒng)的HTML置標(biāo)(tag)關(guān)注的只是信息在輸出設(shè)備上的呈現(xiàn)形式,而對信息內(nèi)容本身的結(jié)構(gòu)化關(guān)注不夠,這直接導(dǎo)致了以搜索引擎為代表的網(wǎng)絡(luò)信息檢索工具(系統(tǒng))采用全文檢索技術(shù)對網(wǎng)頁中的每一個字或詞建立索引時,難以考慮語詞的上下文關(guān)系及其具體含義,增大了在無關(guān)信息中查詢到檢索用詞的可能性。因此,要從根本上改善網(wǎng)絡(luò)信息檢索工具的檢索效果,應(yīng)該考慮從網(wǎng)頁項目和結(jié)構(gòu)的標(biāo)準(zhǔn)化,以及從索引機制的完善做起。而可擴(kuò)展標(biāo)記語言XML在這方面有著獨到的優(yōu)勢和特點,正逐步成為網(wǎng)絡(luò)信息發(fā)布的頁面語言。

  XML已經(jīng)作為一種標(biāo)準(zhǔn)在出版和數(shù)據(jù)交換中得到應(yīng)用,為更好的信息檢索創(chuàng)造了很好的機會。XML能夠用結(jié)構(gòu)化、機器可讀的格式來顯示數(shù)據(jù)的語義。一些機構(gòu)已經(jīng)開始定義標(biāo)準(zhǔn)模式來獲得許多域的語義,而一些內(nèi)容提供商開始用XML和標(biāo)準(zhǔn)模式來發(fā)布信息。于是,有關(guān)專業(yè)人士指出,“XML將引發(fā)其對web查詢技術(shù)、web數(shù)據(jù)庫技術(shù)及Web數(shù)據(jù)交換技術(shù)的全面革新”。

4.全文檢索算法[2]

  全文檢索效率、質(zhì)量的高低與檢索算法的設(shè)計密切相關(guān),科學(xué)的算法設(shè)計可以大大提高檢索的速度、查全率和查準(zhǔn)率,并且在查全率和查準(zhǔn)率之間找到一個很好的平衡點。

評論  |   0條評論