知識檢索
1.什么是知識檢索[1]
關(guān)于知識檢索的概念迄今為止還沒有形成一個(gè)統(tǒng)一的定義,常見的關(guān)于知識檢索概念的表述有以下幾種:
?、?知識檢索,就是綜合應(yīng)用信息管理科學(xué)、人工智能、認(rèn)知科學(xué)及語言學(xué)等多學(xué)科的先進(jìn)理論與技術(shù),基于知識和知識組織,融合知識處理和多媒體信息處理等多種方法與技術(shù),充分表達(dá)和優(yōu)化用戶需求,能高效存取所有媒體類型的知洪源(文本、圖像、視頻、聲音等),并能準(zhǔn)確精選用戶需要的結(jié)果。
② 知識檢索是指在知識組織的基礎(chǔ)上,從知識庫中檢索出知識的過程,是一種基于知識組織體系,能夠?qū)崿F(xiàn)知識關(guān)聯(lián)和概念語義檢索的智能化的檢索方式。
?、?知識檢索是針對信息檢索中存在的語義性較差、智能性低、知識性較弱等現(xiàn)狀提出的一種基于語義和知識關(guān)聯(lián) 運(yùn)用知識處理技術(shù)和知識組織技術(shù),實(shí)現(xiàn)信息查詢語義化、智能化的一種高級信息檢索方式。
2.知識檢索的特征[1]
知識檢索的基本特征是在對包含在信息記錄中的知識和知識關(guān)聯(lián)進(jìn)行分析,運(yùn)用知識處理技術(shù)和知識組織技術(shù),實(shí)現(xiàn)基于語義理解的智能化查洵。而知識組織就是在信息組織的基礎(chǔ)上,依靠專門的技術(shù),按照知識的本質(zhì)屬性組織知識、建立知識系統(tǒng)的方法和手段。知識檢索是通過對文檔原文信息進(jìn)行語義上的自然語言處理,析出各種概念信息,形成知識庫,從概念層次上處理用戶的檢索提問式。利用知識檢索不僅能檢索出包含有提問式中的關(guān)鍵詞的結(jié)果。還能檢索出那些與該詞同屬一類概念的詞匯的結(jié)果。知識檢索有以下幾個(gè)特點(diǎn):
(1)利用特定領(lǐng)域可控的概念語義體系,建立層次結(jié)構(gòu)的概念語義體系,具有分析和理解自然語言的能力。知識檢索模型對文檔內(nèi)容和用戶檢索提問式運(yùn)用自然語言處理技術(shù)進(jìn)行語義層次上的分析和理解,從中吸取出概念信息和范疇信息。
(2)擁有知識庫。在知識檢索中,文檔內(nèi)容和提問式都以概念和范疇等知識形式存儲(chǔ)在知識庫中,用來匹配用戶的提問式和推理出滿足用戶需求的新信息。
(3)具有記憶能力。知漢檢索通過記憶機(jī)制,將析出的概念信息和范疇信息存儲(chǔ)到知識庫中.并能自動(dòng)補(bǔ)充與更新,還能進(jìn)行必要的邏輯推理。
(4)人機(jī)接口。知識檢索能根據(jù)文檔內(nèi)容和用戶提問式構(gòu)造檢索要點(diǎn)并輸入系統(tǒng),其輸出的是按用戶要求進(jìn)行加工的結(jié)果,并可以自然語言的形式提供給用戶:
3.知識檢索的知識類型[2]
知識檢索所涉及的知識類型很廣,其中三類知識特別重要。
(1)領(lǐng)域知識。它是描述應(yīng)用領(lǐng)域中客觀事物的重要知識,例如學(xué)科分類知識、元數(shù)據(jù)和專業(yè)概念知識。學(xué)科分類知識可以表達(dá)事物的本質(zhì)屬性和事物之間的本質(zhì)關(guān)聯(lián)。元數(shù)據(jù)是各分布式信息源的核心內(nèi)容的抽象描述。專業(yè)概念知識,例如主題詞及其相互關(guān)聯(lián)知識,是最基本的知識元素,用來表達(dá)與修改文獻(xiàn)內(nèi)容和用戶提問,代替單純的統(tǒng)計(jì)方法,可以減少統(tǒng)計(jì)評價(jià)關(guān)鍵詞所產(chǎn)生的副作用。
(2)用戶知識。它包含:用戶的需求、偏好、背景知識,用戶的交互、檢索行為知識,以及用戶對檢索機(jī)制和檢索結(jié)果的反饋知識。利用用戶知識改進(jìn)和創(chuàng)新檢索方法,是實(shí)現(xiàn)面向用戶的個(gè)性化檢索、主動(dòng)性檢索的根本措施。
(3)專家的專門知識。它是關(guān)于知識組織和知識檢索的顯性知識與隱性知識,尤其重要的是隱性的經(jīng)驗(yàn)知識,即啟發(fā)式知識。經(jīng)驗(yàn)知識是專家將領(lǐng)域知識與具體實(shí)踐相結(jié)合的產(chǎn)物。這類知識的獲取與共享,將對檢索領(lǐng)域發(fā)揮不可估量的作用。
4.知識檢索的優(yōu)勢[2]
知識檢索具有明顯的優(yōu)勢:
?、?實(shí)現(xiàn)信息服務(wù)向知識服務(wù)的轉(zhuǎn)化,向用戶提供潛在內(nèi)容知識,以及分析、預(yù)測后的超前性領(lǐng)域成果或知識;
?、?提供主動(dòng)服務(wù)方式,如:主動(dòng)給用戶以智能輔助,主動(dòng)學(xué)習(xí)用戶知識并自動(dòng)優(yōu)化用戶需求,以及主動(dòng)提供個(gè)性化檢索;
③ 面向用戶,檢索機(jī)制的模式和界面服務(wù)方式均體現(xiàn)面向用戶的思想,依據(jù)用戶的需求及其變化,能靈活選擇理想的檢索策略和技術(shù),而不是讓用戶機(jī)械地適應(yīng)固定不變的系統(tǒng)邏輯,并且將繁重的知識信息存取工作從用戶移向了計(jì)算機(jī);
?、?集成和綜合應(yīng)用各類知識和各種高效的智能與非智能技術(shù),全面提高檢索效率。
5.知識檢索的理論基礎(chǔ)[3]
知識檢索的提出和發(fā)展借助于人工智能、語言學(xué)、信息科學(xué)和認(rèn)知科學(xué)等多學(xué)科的先進(jìn)理論與方法,它們?yōu)橹R檢索的實(shí)現(xiàn),包括知識發(fā)現(xiàn)、獲取、組織、呈現(xiàn)以及向用戶個(gè)人知識的轉(zhuǎn)變等各個(gè)方面提供了理論指導(dǎo)。國外對此進(jìn)行了大量研究,并取得了相應(yīng)的研究成果。
1.人工智能
人工智能(Artificial Intelligence)是有關(guān)智能代理的設(shè)計(jì)與執(zhí)行的科學(xué),關(guān)注人腦智能任務(wù)如定理證明、外貌識別、疾病診斷等的自動(dòng)化?!叭斯ぶ悄芤罁?jù)人類的感知、推理、學(xué)習(xí)、語言和其他創(chuàng)造性思維活動(dòng),為科學(xué)、工業(yè)、文化領(lǐng)域有效的新研究工具的設(shè)計(jì)、構(gòu)造提供有益的幫助。”“人工智能為自動(dòng)信息搜索、知識表示、自適應(yīng)、自主學(xué)習(xí)以解決問題、設(shè)計(jì)規(guī)劃、自主分析、知識檢索及發(fā)現(xiàn)等提供了理論指導(dǎo)?!盝Vasant Honavar明確提出人工智能是知識檢索智能化、自動(dòng)化及其他相關(guān)知識活動(dòng)的理論基礎(chǔ)。
2.語言學(xué)
知識與語言之間存在著同構(gòu)關(guān)系,知識是語言所表達(dá)的思想內(nèi)容,語言是知識的表達(dá)工具。知識的表現(xiàn)有其特定的語言邏輯,相應(yīng)的知識檢索也必須遵循這些語言邏輯,語言學(xué)(Linguistics)為知識檢索的過程和方法提供了必需的理論依據(jù)。InventionMachine Corporation(IMC) 根據(jù)語言學(xué)規(guī)律開發(fā)的語言數(shù)據(jù)庫包括大量的基本詞典與基于算法的復(fù)雜規(guī)則,對數(shù)據(jù)庫中所有信息進(jìn)行預(yù)格式處理(Pre— format)、詞匯分析(Lexical Analysis)、語法分析(Syntactical Analysis)、語義分析(Semantic Analysis)和語用分析(Pragmatic Analysis),實(shí)現(xiàn)了機(jī)器自動(dòng)閱讀并理解文檔內(nèi)容,抽取檢索提問的相關(guān)知識返回給用戶,有助于提高知識檢索的速度及準(zhǔn)確度。
3.信息科學(xué)
信息科學(xué)(Information Science)研究人如何生產(chǎn)、搜索、檢索和使用信息,特別是人與信息系統(tǒng)的相互作用。信息科學(xué)著重于許多不同性質(zhì)的過程,包括人所面臨的信息難題,如解決問題的水平、認(rèn)識水平和知識水平,應(yīng)用信息檢索系統(tǒng)的查找行為,以及諸如反饋、相關(guān)性等互動(dòng)性問題。Brookes提出的信息科學(xué)的基本方程—— △I+(s)=(S+△S)在信息處理和信息改變代理兩個(gè)概念之間架起了一座橋梁,提出了信息與知識關(guān)系的框架,對研究信息的利用及信息向個(gè)體知識的轉(zhuǎn)化指明了方向。
4.認(rèn)知科學(xué)
認(rèn)知科學(xué)(Cognitive Science)以認(rèn)知過程及其規(guī)律為研究對象,研究領(lǐng)域包括:語言習(xí)得、閱讀、話語、心理模型、概念和歸納、認(rèn)知技藝獲得、視覺注意、記憶、行為、計(jì)算機(jī)及其科學(xué)理論等。Belkin的“知識非常態(tài)”理論、Dervin的意義建構(gòu)理論等都注重知識獲取過程中人的認(rèn)知能力在構(gòu)建概念體系方面的作用,特別關(guān)注在此過程中以用戶知識需求為導(dǎo)向以及雙方的交互作用。因而在構(gòu)建知識檢索系統(tǒng)時(shí)應(yīng)考慮支持檢索的認(rèn)知過程和檢索本身的認(rèn)知過程的最優(yōu)化方法。
6.知識檢索的工具[3]
a.語義網(wǎng)(Semantic Web)是對當(dāng)前互聯(lián)網(wǎng)的一種擴(kuò)展,其通過使用概念本體和標(biāo)記語言(如XML、RDF、DAML等),使互聯(lián)網(wǎng)資源的內(nèi)容能被機(jī)器理解,為用戶提供智能索引、基于語義的知識檢索和知識管理等職能服務(wù)。
b.智能代理(Intelligent Agent)是可以在用戶沒有明確具體要求的情況下,根據(jù)用戶需要,代替用戶進(jìn)行各種復(fù)雜工作的代理軟件,如信息查詢、篩選、管理,并能推測用戶的意圖,自主制定、調(diào)整和執(zhí)行工作計(jì)劃,是實(shí)現(xiàn)知識檢索自動(dòng)化、智能化的基礎(chǔ)技術(shù)。
c.語境檢索(Context Retrieva1)集成檢索技術(shù)、查詢提問和用戶信息,為用戶需求提供最佳答案。語境檢索涉及三大語境維度:時(shí)間維度、社會(huì)維度和工作背景維度,提高了檢索的語義、語用匹配程度,一定程度上彌補(bǔ)了傳統(tǒng)檢索技術(shù)返回結(jié)果相關(guān)度差的缺陷。
d.自然語言處理(Natural Language Processing)通過對自然語言文字與話語的語法、語義、語用進(jìn)行分析,有助于實(shí)現(xiàn)基于語義而非關(guān)鍵詞的檢索。在知識檢索中的作用表現(xiàn)在結(jié)合語境實(shí)現(xiàn)詞義消歧,進(jìn)行文檔信息抽取,從文獻(xiàn)語料庫中抽取明確的自然語言提問答案。此外,自然語言處理已大量應(yīng)用于自然語言接口,人一機(jī)交互模擬人一人交互的認(rèn)知功能,實(shí)現(xiàn)用戶與系統(tǒng)之間更充分的交流、理解、學(xué)習(xí)與協(xié)作。
e.知識可視化(Knowledge Visualization)以科學(xué)計(jì)算可視化、數(shù)據(jù)可視化、信息可視化為基礎(chǔ),是所有可以用來建構(gòu)和傳達(dá)復(fù)雜知識的圖解手段。知識可視化的目標(biāo)在于傳輸見解、經(jīng)驗(yàn)、價(jià)值觀、期望、觀點(diǎn)、預(yù)測等,并以這種方式幫助人們正確地重構(gòu)、記憶和應(yīng)用這些知識。知識可視化技術(shù)包括6種類型:啟發(fā)式草圖(Heuristic Sketches)、概念圖表(Conceptual Diagrams)、視覺隱喻(Visual Meta—phors)、知識動(dòng)畫(Knowledge Animations)、知識地圖(Knowledge Maps)、科學(xué)圖表(Scientific Charts)。