登錄

智能搜索引擎

百科 > 計(jì)算機(jī) > 智能搜索引擎

1.什么是智能搜索引擎

  智能搜索引擎是根據(jù)目前搜索引擎的發(fā)展趨勢(shì),除提供傳統(tǒng)的全網(wǎng)快速檢索、相關(guān)度排序等基本功能外,還提供用戶角色登記、用戶興趣自動(dòng)識(shí)別、內(nèi)容的語義理解、智能化信息過濾和推送等功能,為用戶提供一個(gè)真正智能化、個(gè)性化的網(wǎng)絡(luò)信息搜集工具。智能搜索引擎利用神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則、范例推理、模糊聚類、決策樹、粗糙集、隱馬爾科夫模型等技術(shù)實(shí)現(xiàn)分布式并行檢索,以數(shù)據(jù)挖掘知識(shí)發(fā)現(xiàn)為主要手段,加上自然語言理解、智能搜索代理、多媒體信息檢索等技術(shù)的應(yīng)用,進(jìn)一步提高系統(tǒng)性能和檢索的精度與效果。

2.智能搜索引擎的特點(diǎn)

  (一)智能化

  智能搜索引擎的搜索器可針對(duì)特定站點(diǎn)或者遍歷整個(gè)互聯(lián)網(wǎng)自動(dòng)完成在線信息的索引,再采取最有效的搜索策略,選擇最佳時(shí)機(jī)獲取從互聯(lián)網(wǎng)上自動(dòng)收集、整理的信息。智能搜索引擎可以將多個(gè)引擎的搜索結(jié)果整合,作為一個(gè)整體存放在數(shù)據(jù)庫(kù)中,確保找到最全面的信息,并且兼顧信息的關(guān)聯(lián)性。

  (二)個(gè)性化

  智能搜索引擎可以滿足用戶的個(gè)性化需求,協(xié)助用戶在海量信息中找到所需的信息,同時(shí)為用戶提供方便安全的信息獲取和保存機(jī)制,建立用戶虛擬個(gè)人資料庫(kù),通過有效分類為用戶提供個(gè)性化的服務(wù)。

  (三)移動(dòng)化

  智能搜索引擎可以通過電子郵件、電話、傳真、移動(dòng)電話等方式與用戶取得聯(lián)系,不再局限于互聯(lián)網(wǎng)上。還可以根據(jù)用戶特定時(shí)刻的位置信息,選擇最恰當(dāng)?shù)姆椒ㄅc用戶通信。

  (四)主動(dòng)性

  智能搜索引擎通過觀察用戶的行為,主動(dòng)獲取用戶的專業(yè)、風(fēng)格、知識(shí)水平、行為習(xí)慣、興趣愛好等相關(guān)背景信息,通過不斷的訓(xùn)練學(xué)習(xí),增長(zhǎng)智能;同時(shí)通過用戶對(duì)返回信息的評(píng)價(jià),調(diào)整自己的行為。

  (五)交互性

  智能搜索引擎可以通過自然語言與用戶進(jìn)行交互,實(shí)現(xiàn)交互性搜索,以邏輯判斷實(shí)現(xiàn)對(duì)搜索主題的快速分析,根據(jù)用戶的查詢內(nèi)容,展開多組相關(guān)的主題,幫助用戶快速找到相關(guān)搜索結(jié)果。

3.智能搜索引擎的技術(shù)

  下面介紹智能搜索引擎所涉及的關(guān)鍵技術(shù)。

  (一)自然語言理解技術(shù)

  自然語言就是人們?nèi)粘I钪惺褂玫母鞣N通俗語言。中國(guó)漢語中存在大量的歧義現(xiàn)象,對(duì)一個(gè)詞有多種理解。漢語的語音、語調(diào)、輕重音及停頓等,一經(jīng)書面表達(dá)就有可能產(chǎn)生歧義;漢語虛詞多,組詞靈活,字在詞語中的位置變化也可能產(chǎn)生歧義。所以自然語言理解的任務(wù)就是建立一種能夠像人一樣理解、分析并回答自然語言結(jié)果的計(jì)算機(jī)模型。智能搜索引擎的關(guān)鍵技術(shù)就是對(duì)自然語言的理解,將信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(shí)層面,對(duì)知識(shí)必須具有一定的理解和處理能力。其中要使用到漢語分詞技術(shù)、短語識(shí)別技術(shù)、同義詞處理技術(shù)等。

  1.漢語分詞技術(shù)。關(guān)鍵詞查詢的前提是將查詢條件分解成若干個(gè)關(guān)鍵詞,再以一些關(guān)鍵詞來表示文檔。漢語分詞技術(shù)可以根據(jù)語言資料庫(kù)進(jìn)行匯總,獲取每個(gè)關(guān)鍵詞出現(xiàn)的概率以及詞與詞之間的關(guān)聯(lián)信息,再使用正向與逆向最大匹配法進(jìn)行細(xì)分,排除歧義,提高關(guān)鍵詞的準(zhǔn)確性。

  2.短語識(shí)別技術(shù)。關(guān)鍵詞之間的關(guān)系不是孤立的,而是互相關(guān)聯(lián)的,它們聯(lián)合起來作為一個(gè)短語共同表達(dá)一個(gè)完整的含義。短語識(shí)別技術(shù)就是利用詞與詞之間的特點(diǎn)搭配和漢語語法規(guī)則,有效地兼顧關(guān)鍵詞與它們之間的關(guān)系,更加準(zhǔn)確地表述查詢請(qǐng)求和文檔信息。例如,傳統(tǒng)的搜索引擎查詢廣西有哪些好玩的地方,輸入“廣西”和“好玩”這兩個(gè)關(guān)鍵字實(shí)施查詢,結(jié)果會(huì)顯示上萬個(gè)網(wǎng)址,其中絕大多數(shù)是無關(guān)的信息。而智能搜索引擎中,通過短語識(shí)別技術(shù),顯示的則是有關(guān)廣西旅游景點(diǎn)和娛樂場(chǎng)所的網(wǎng)站信息。

  3.同義詞處理技術(shù)。通過人工構(gòu)造同義詞表,建立同義詞數(shù)據(jù)庫(kù)、蘊(yùn)含詞庫(kù)等,在語言資料庫(kù)中自動(dòng)獲取同義詞關(guān)系,結(jié)合查詢的關(guān)鍵詞,主動(dòng)關(guān)聯(lián)到與其同義或意思相近的詞語,提高信息匹配的準(zhǔn)確度。

  (二)智能搜索代理技術(shù)

  智能搜索代理技術(shù)是智能搜索引擎的核心部件,它根據(jù)預(yù)定的策略和用戶的查詢需求主動(dòng)地完成信息檢索、篩選和管理,免去了用戶被動(dòng)搜索的困擾。一方面,智能搜索代理為搜集到的信息建立索引,通過檢索器按照用戶的查詢要求輸入檢索索引庫(kù),并將查詢結(jié)果反饋給用戶;另一方面,智能搜索代理根據(jù)掌握到的用戶信息對(duì)用戶的查詢計(jì)劃、興趣、意圖等進(jìn)行推理和預(yù)測(cè),并根據(jù)搜索環(huán)境的變化及時(shí)調(diào)整工作計(jì)劃,為用戶提供快速有效的查詢結(jié)果。

  (三)多媒體信息檢索技術(shù)

  多媒體信息是文本、圖像、視頻和音頻的混合體。多媒體信息檢索是一種基于內(nèi)容特征的檢索,是對(duì)媒體對(duì)象的內(nèi)容及上下語義環(huán)境進(jìn)行的檢索,如圖像中的顏色、紋理、形狀,視頻中的鏡頭、場(chǎng)景、鏡頭的運(yùn)動(dòng),聲音中的音調(diào)、響度、音色等?;趦?nèi)容的檢索突破了傳統(tǒng)的基于文本檢索技術(shù)的檢索,直接對(duì)圖像、視頻、音頻內(nèi)容進(jìn)行分析,抽取特征和語義,利用這些內(nèi)容特征建立索引并進(jìn)行快速檢索,可以滿足用戶多層次的需求。

4.智能搜索引擎的發(fā)展趨勢(shì)

  隨著社會(huì)的日益信息化,智能搜索引擎已成為一個(gè)新的研究、開發(fā)領(lǐng)域,它越來越引起人們的重視。智能搜索引擎的發(fā)展主要表現(xiàn)在以下幾個(gè)方面。

  (一)提高信息查詢結(jié)果的精度,提高檢索的有效性

  用戶使用搜索引擎進(jìn)行信息查詢,并不關(guān)注返回結(jié)果的多少,而是看結(jié)果是否和自己的需求吻合。對(duì)于一個(gè)查詢,傳統(tǒng)的搜索引擎動(dòng)輒返回幾十萬、幾百萬篇文檔,用戶不得不在結(jié)果中篩選。智能搜索引擎通過以下三種方法解決查詢結(jié)果過多的現(xiàn)象:一是通過各種方法獲得用戶沒有在查詢語句中表達(dá)出來的真正用意,包括使用智能代理跟蹤用戶檢索行為,分析用戶模型;使用相關(guān)度反饋機(jī)制,使用戶告訴搜索引擎哪些文檔和自己的需求相關(guān)(及其相關(guān)程度),通過多次交互逐步求精。二是用正文分類技術(shù)將結(jié)果分類,使用可視化技術(shù)顯示分類結(jié)構(gòu),用戶可以只瀏覽自己感興趣的類別。三是進(jìn)行站點(diǎn)類聚或相近內(nèi)容類聚,減少信息返回的總量。

  (二)提供基于智能搜索代理的信息過濾和個(gè)性化服務(wù)

  智能搜索代理具有解決問題所需的豐富知識(shí)、策略和相關(guān)數(shù)據(jù),能夠進(jìn)行相關(guān)的推理和智能計(jì)算,可以在用戶沒有給出十分明確的需求時(shí)推測(cè)出用戶的意圖、興趣或愛好,并按最佳的方式完成任務(wù),將用戶感興趣的、對(duì)用戶有用的信息反饋給用戶。智能搜索代理具有不斷學(xué)習(xí)、適應(yīng)信息和用戶興趣動(dòng)態(tài)變化的能力,能自動(dòng)過濾一些不合理或可能給用戶帶來危害的要求,并且根據(jù)環(huán)境適當(dāng)?shù)剡M(jìn)行自我調(diào)節(jié),提高問題的處理能力,從而提供個(gè)性化的服務(wù)。

  (三)豐富知識(shí)資源庫(kù),改進(jìn)知識(shí)搜索引擎技術(shù)

  知識(shí)搜索是在搜索引擎發(fā)展進(jìn)入智能化階段的過程,是建立在明確的知識(shí)來源基礎(chǔ)上,根據(jù)用戶的身份與訴求,回饋恰當(dāng)知識(shí)結(jié)果的搜索引擎。而知識(shí)資源庫(kù)的豐富程度決定著知識(shí)檢索程度的高低,它是實(shí)現(xiàn)智能搜索的基礎(chǔ)和核心。目前知識(shí)搜索引擎的代表網(wǎng)站主要有:中國(guó)知網(wǎng),它是目前最大的基于互聯(lián)網(wǎng)出版的學(xué)術(shù)知識(shí)搜索引擎。通過豐富知識(shí)資源庫(kù)和改進(jìn)知識(shí)搜索引擎技術(shù),更為強(qiáng)調(diào)知識(shí)的準(zhǔn)確、標(biāo)準(zhǔn),強(qiáng)調(diào)通過互動(dòng)機(jī)制如評(píng)價(jià)、交流、修改、維護(hù)等進(jìn)行搜索結(jié)果的自我學(xué)習(xí),對(duì)信息進(jìn)行接受、判斷、提取、分析和概括之后形成自己的知識(shí),保存后成為下一次分析、概括的依據(jù)和基礎(chǔ),從中檢索出對(duì)用戶最有價(jià)值的信息,以達(dá)到知識(shí)搜索的智能化。

  (四)采用分布式體系結(jié)構(gòu)提高系統(tǒng)規(guī)模和效能

  智能搜索引擎的實(shí)現(xiàn)可以采用集中式體系結(jié)構(gòu)和分布式體系結(jié)構(gòu)。但是當(dāng)系統(tǒng)規(guī)模到達(dá)一定程度(如網(wǎng)頁數(shù)達(dá)到億級(jí))時(shí),必然要采用某種分布式方法,以提高系統(tǒng)效能。分布式搜索引擎在架構(gòu)和管理上采用“分布和集中相結(jié)合”的模式,具有集中式搜索引擎無法比擬的優(yōu)勢(shì)。通過充分利用服務(wù)器集群的各類資源,達(dá)到提高服務(wù)器性能、提升集群總體服務(wù)質(zhì)量的目的。

評(píng)論  |   0條評(píng)論