知識(shí)檢索
目錄
1.什么是知識(shí)檢索[1]
關(guān)于知識(shí)檢索的概念迄今為止還沒(méi)有形成一個(gè)統(tǒng)一的定義,常見(jiàn)的關(guān)于知識(shí)檢索概念的表述有以下幾種:
?、?知識(shí)檢索,就是綜合應(yīng)用信息管理科學(xué)、人工智能、認(rèn)知科學(xué)及語(yǔ)言學(xué)等多學(xué)科的先進(jìn)理論與技術(shù),基于知識(shí)和知識(shí)組織,融合知識(shí)處理和多媒體信息處理等多種方法與技術(shù),充分表達(dá)和優(yōu)化用戶(hù)需求,能高效存取所有媒體類(lèi)型的知洪源(文本、圖像、視頻、聲音等),并能準(zhǔn)確精選用戶(hù)需要的結(jié)果。
?、?知識(shí)檢索是指在知識(shí)組織的基礎(chǔ)上,從知識(shí)庫(kù)中檢索出知識(shí)的過(guò)程,是一種基于知識(shí)組織體系,能夠?qū)崿F(xiàn)知識(shí)關(guān)聯(lián)和概念語(yǔ)義檢索的智能化的檢索方式。
?、?知識(shí)檢索是針對(duì)信息檢索中存在的語(yǔ)義性較差、智能性低、知識(shí)性較弱等現(xiàn)狀提出的一種基于語(yǔ)義和知識(shí)關(guān)聯(lián) 運(yùn)用知識(shí)處理技術(shù)和知識(shí)組織技術(shù),實(shí)現(xiàn)信息查詢(xún)語(yǔ)義化、智能化的一種高級(jí)信息檢索方式。
2.知識(shí)檢索的特征[1]
知識(shí)檢索的基本特征是在對(duì)包含在信息記錄中的知識(shí)和知識(shí)關(guān)聯(lián)進(jìn)行分析,運(yùn)用知識(shí)處理技術(shù)和知識(shí)組織技術(shù),實(shí)現(xiàn)基于語(yǔ)義理解的智能化查洵。而知識(shí)組織就是在信息組織的基礎(chǔ)上,依靠專(zhuān)門(mén)的技術(shù),按照知識(shí)的本質(zhì)屬性組織知識(shí)、建立知識(shí)系統(tǒng)的方法和手段。知識(shí)檢索是通過(guò)對(duì)文檔原文信息進(jìn)行語(yǔ)義上的自然語(yǔ)言處理,析出各種概念信息,形成知識(shí)庫(kù),從概念層次上處理用戶(hù)的檢索提問(wèn)式。利用知識(shí)檢索不僅能檢索出包含有提問(wèn)式中的關(guān)鍵詞的結(jié)果。還能檢索出那些與該詞同屬一類(lèi)概念的詞匯的結(jié)果。知識(shí)檢索有以下幾個(gè)特點(diǎn):
(1)利用特定領(lǐng)域可控的概念語(yǔ)義體系,建立層次結(jié)構(gòu)的概念語(yǔ)義體系,具有分析和理解自然語(yǔ)言的能力。知識(shí)檢索模型對(duì)文檔內(nèi)容和用戶(hù)檢索提問(wèn)式運(yùn)用自然語(yǔ)言處理技術(shù)進(jìn)行語(yǔ)義層次上的分析和理解,從中吸取出概念信息和范疇信息。
(2)擁有知識(shí)庫(kù)。在知識(shí)檢索中,文檔內(nèi)容和提問(wèn)式都以概念和范疇等知識(shí)形式存儲(chǔ)在知識(shí)庫(kù)中,用來(lái)匹配用戶(hù)的提問(wèn)式和推理出滿(mǎn)足用戶(hù)需求的新信息。
(3)具有記憶能力。知漢檢索通過(guò)記憶機(jī)制,將析出的概念信息和范疇信息存儲(chǔ)到知識(shí)庫(kù)中.并能自動(dòng)補(bǔ)充與更新,還能進(jìn)行必要的邏輯推理。
(4)人機(jī)接口。知識(shí)檢索能根據(jù)文檔內(nèi)容和用戶(hù)提問(wèn)式構(gòu)造檢索要點(diǎn)并輸入系統(tǒng),其輸出的是按用戶(hù)要求進(jìn)行加工的結(jié)果,并可以自然語(yǔ)言的形式提供給用戶(hù):
3.知識(shí)檢索的知識(shí)類(lèi)型[2]
知識(shí)檢索所涉及的知識(shí)類(lèi)型很廣,其中三類(lèi)知識(shí)特別重要。
(1)領(lǐng)域知識(shí)。它是描述應(yīng)用領(lǐng)域中客觀事物的重要知識(shí),例如學(xué)科分類(lèi)知識(shí)、元數(shù)據(jù)和專(zhuān)業(yè)概念知識(shí)。學(xué)科分類(lèi)知識(shí)可以表達(dá)事物的本質(zhì)屬性和事物之間的本質(zhì)關(guān)聯(lián)。元數(shù)據(jù)是各分布式信息源的核心內(nèi)容的抽象描述。專(zhuān)業(yè)概念知識(shí),例如主題詞及其相互關(guān)聯(lián)知識(shí),是最基本的知識(shí)元素,用來(lái)表達(dá)與修改文獻(xiàn)內(nèi)容和用戶(hù)提問(wèn),代替單純的統(tǒng)計(jì)方法,可以減少統(tǒng)計(jì)評(píng)價(jià)關(guān)鍵詞所產(chǎn)生的副作用。
(2)用戶(hù)知識(shí)。它包含:用戶(hù)的需求、偏好、背景知識(shí),用戶(hù)的交互、檢索行為知識(shí),以及用戶(hù)對(duì)檢索機(jī)制和檢索結(jié)果的反饋知識(shí)。利用用戶(hù)知識(shí)改進(jìn)和創(chuàng)新檢索方法,是實(shí)現(xiàn)面向用戶(hù)的個(gè)性化檢索、主動(dòng)性檢索的根本措施。
(3)專(zhuān)家的專(zhuān)門(mén)知識(shí)。它是關(guān)于知識(shí)組織和知識(shí)檢索的顯性知識(shí)與隱性知識(shí),尤其重要的是隱性的經(jīng)驗(yàn)知識(shí),即啟發(fā)式知識(shí)。經(jīng)驗(yàn)知識(shí)是專(zhuān)家將領(lǐng)域知識(shí)與具體實(shí)踐相結(jié)合的產(chǎn)物。這類(lèi)知識(shí)的獲取與共享,將對(duì)檢索領(lǐng)域發(fā)揮不可估量的作用。
4.知識(shí)檢索的優(yōu)勢(shì)[2]
知識(shí)檢索具有明顯的優(yōu)勢(shì):
?、?實(shí)現(xiàn)信息服務(wù)向知識(shí)服務(wù)的轉(zhuǎn)化,向用戶(hù)提供潛在內(nèi)容知識(shí),以及分析、預(yù)測(cè)后的超前性領(lǐng)域成果或知識(shí);
② 提供主動(dòng)服務(wù)方式,如:主動(dòng)給用戶(hù)以智能輔助,主動(dòng)學(xué)習(xí)用戶(hù)知識(shí)并自動(dòng)優(yōu)化用戶(hù)需求,以及主動(dòng)提供個(gè)性化檢索;
?、?面向用戶(hù),檢索機(jī)制的模式和界面服務(wù)方式均體現(xiàn)面向用戶(hù)的思想,依據(jù)用戶(hù)的需求及其變化,能靈活選擇理想的檢索策略和技術(shù),而不是讓用戶(hù)機(jī)械地適應(yīng)固定不變的系統(tǒng)邏輯,并且將繁重的知識(shí)信息存取工作從用戶(hù)移向了計(jì)算機(jī);
④ 集成和綜合應(yīng)用各類(lèi)知識(shí)和各種高效的智能與非智能技術(shù),全面提高檢索效率。
5.知識(shí)檢索的理論基礎(chǔ)[3]
知識(shí)檢索的提出和發(fā)展借助于人工智能、語(yǔ)言學(xué)、信息科學(xué)和認(rèn)知科學(xué)等多學(xué)科的先進(jìn)理論與方法,它們?yōu)橹R(shí)檢索的實(shí)現(xiàn),包括知識(shí)發(fā)現(xiàn)、獲取、組織、呈現(xiàn)以及向用戶(hù)個(gè)人知識(shí)的轉(zhuǎn)變等各個(gè)方面提供了理論指導(dǎo)。國(guó)外對(duì)此進(jìn)行了大量研究,并取得了相應(yīng)的研究成果。
1.人工智能
人工智能(Artificial Intelligence)是有關(guān)智能代理的設(shè)計(jì)與執(zhí)行的科學(xué),關(guān)注人腦智能任務(wù)如定理證明、外貌識(shí)別、疾病診斷等的自動(dòng)化?!叭斯ぶ悄芤罁?jù)人類(lèi)的感知、推理、學(xué)習(xí)、語(yǔ)言和其他創(chuàng)造性思維活動(dòng),為科學(xué)、工業(yè)、文化領(lǐng)域有效的新研究工具的設(shè)計(jì)、構(gòu)造提供有益的幫助?!薄叭斯ぶ悄転樽詣?dòng)信息搜索、知識(shí)表示、自適應(yīng)、自主學(xué)習(xí)以解決問(wèn)題、設(shè)計(jì)規(guī)劃、自主分析、知識(shí)檢索及發(fā)現(xiàn)等提供了理論指導(dǎo)?!盝Vasant Honavar明確提出人工智能是知識(shí)檢索智能化、自動(dòng)化及其他相關(guān)知識(shí)活動(dòng)的理論基礎(chǔ)。
2.語(yǔ)言學(xué)
知識(shí)與語(yǔ)言之間存在著同構(gòu)關(guān)系,知識(shí)是語(yǔ)言所表達(dá)的思想內(nèi)容,語(yǔ)言是知識(shí)的表達(dá)工具。知識(shí)的表現(xiàn)有其特定的語(yǔ)言邏輯,相應(yīng)的知識(shí)檢索也必須遵循這些語(yǔ)言邏輯,語(yǔ)言學(xué)(Linguistics)為知識(shí)檢索的過(guò)程和方法提供了必需的理論依據(jù)。InventionMachine Corporation(IMC) 根據(jù)語(yǔ)言學(xué)規(guī)律開(kāi)發(fā)的語(yǔ)言數(shù)據(jù)庫(kù)包括大量的基本詞典與基于算法的復(fù)雜規(guī)則,對(duì)數(shù)據(jù)庫(kù)中所有信息進(jìn)行預(yù)格式處理(Pre— format)、詞匯分析(Lexical Analysis)、語(yǔ)法分析(Syntactical Analysis)、語(yǔ)義分析(Semantic Analysis)和語(yǔ)用分析(Pragmatic Analysis),實(shí)現(xiàn)了機(jī)器自動(dòng)閱讀并理解文檔內(nèi)容,抽取檢索提問(wèn)的相關(guān)知識(shí)返回給用戶(hù),有助于提高知識(shí)檢索的速度及準(zhǔn)確度。
3.信息科學(xué)
信息科學(xué)(Information Science)研究人如何生產(chǎn)、搜索、檢索和使用信息,特別是人與信息系統(tǒng)的相互作用。信息科學(xué)著重于許多不同性質(zhì)的過(guò)程,包括人所面臨的信息難題,如解決問(wèn)題的水平、認(rèn)識(shí)水平和知識(shí)水平,應(yīng)用信息檢索系統(tǒng)的查找行為,以及諸如反饋、相關(guān)性等互動(dòng)性問(wèn)題。Brookes提出的信息科學(xué)的基本方程—— △I+(s)=(S+△S)在信息處理和信息改變代理兩個(gè)概念之間架起了一座橋梁,提出了信息與知識(shí)關(guān)系的框架,對(duì)研究信息的利用及信息向個(gè)體知識(shí)的轉(zhuǎn)化指明了方向。
4.認(rèn)知科學(xué)
認(rèn)知科學(xué)(Cognitive Science)以認(rèn)知過(guò)程及其規(guī)律為研究對(duì)象,研究領(lǐng)域包括:語(yǔ)言習(xí)得、閱讀、話語(yǔ)、心理模型、概念和歸納、認(rèn)知技藝獲得、視覺(jué)注意、記憶、行為、計(jì)算機(jī)及其科學(xué)理論等。Belkin的“知識(shí)非常態(tài)”理論、Dervin的意義建構(gòu)理論等都注重知識(shí)獲取過(guò)程中人的認(rèn)知能力在構(gòu)建概念體系方面的作用,特別關(guān)注在此過(guò)程中以用戶(hù)知識(shí)需求為導(dǎo)向以及雙方的交互作用。因而在構(gòu)建知識(shí)檢索系統(tǒng)時(shí)應(yīng)考慮支持檢索的認(rèn)知過(guò)程和檢索本身的認(rèn)知過(guò)程的最優(yōu)化方法。
6.知識(shí)檢索的工具[3]
a.語(yǔ)義網(wǎng)(Semantic Web)是對(duì)當(dāng)前互聯(lián)網(wǎng)的一種擴(kuò)展,其通過(guò)使用概念本體和標(biāo)記語(yǔ)言(如XML、RDF、DAML等),使互聯(lián)網(wǎng)資源的內(nèi)容能被機(jī)器理解,為用戶(hù)提供智能索引、基于語(yǔ)義的知識(shí)檢索和知識(shí)管理等職能服務(wù)。
b.智能代理(Intelligent Agent)是可以在用戶(hù)沒(méi)有明確具體要求的情況下,根據(jù)用戶(hù)需要,代替用戶(hù)進(jìn)行各種復(fù)雜工作的代理軟件,如信息查詢(xún)、篩選、管理,并能推測(cè)用戶(hù)的意圖,自主制定、調(diào)整和執(zhí)行工作計(jì)劃,是實(shí)現(xiàn)知識(shí)檢索自動(dòng)化、智能化的基礎(chǔ)技術(shù)。
c.語(yǔ)境檢索(Context Retrieva1)集成檢索技術(shù)、查詢(xún)提問(wèn)和用戶(hù)信息,為用戶(hù)需求提供最佳答案。語(yǔ)境檢索涉及三大語(yǔ)境維度:時(shí)間維度、社會(huì)維度和工作背景維度,提高了檢索的語(yǔ)義、語(yǔ)用匹配程度,一定程度上彌補(bǔ)了傳統(tǒng)檢索技術(shù)返回結(jié)果相關(guān)度差的缺陷。
d.自然語(yǔ)言處理(Natural Language Processing)通過(guò)對(duì)自然語(yǔ)言文字與話語(yǔ)的語(yǔ)法、語(yǔ)義、語(yǔ)用進(jìn)行分析,有助于實(shí)現(xiàn)基于語(yǔ)義而非關(guān)鍵詞的檢索。在知識(shí)檢索中的作用表現(xiàn)在結(jié)合語(yǔ)境實(shí)現(xiàn)詞義消歧,進(jìn)行文檔信息抽取,從文獻(xiàn)語(yǔ)料庫(kù)中抽取明確的自然語(yǔ)言提問(wèn)答案。此外,自然語(yǔ)言處理已大量應(yīng)用于自然語(yǔ)言接口,人一機(jī)交互模擬人一人交互的認(rèn)知功能,實(shí)現(xiàn)用戶(hù)與系統(tǒng)之間更充分的交流、理解、學(xué)習(xí)與協(xié)作。
e.知識(shí)可視化(Knowledge Visualization)以科學(xué)計(jì)算可視化、數(shù)據(jù)可視化、信息可視化為基礎(chǔ),是所有可以用來(lái)建構(gòu)和傳達(dá)復(fù)雜知識(shí)的圖解手段。知識(shí)可視化的目標(biāo)在于傳輸見(jiàn)解、經(jīng)驗(yàn)、價(jià)值觀、期望、觀點(diǎn)、預(yù)測(cè)等,并以這種方式幫助人們正確地重構(gòu)、記憶和應(yīng)用這些知識(shí)。知識(shí)可視化技術(shù)包括6種類(lèi)型:?jiǎn)l(fā)式草圖(Heuristic Sketches)、概念圖表(Conceptual Diagrams)、視覺(jué)隱喻(Visual Meta—phors)、知識(shí)動(dòng)畫(huà)(Knowledge Animations)、知識(shí)地圖(Knowledge Maps)、科學(xué)圖表(Scientific Charts)。