登錄

智能搜索引擎

百科 > 計算機 > 智能搜索引擎

1.什么是智能搜索引擎

  智能搜索引擎是根據(jù)目前搜索引擎的發(fā)展趨勢,除提供傳統(tǒng)的全網(wǎng)快速檢索、相關(guān)度排序等基本功能外,還提供用戶角色登記、用戶興趣自動識別、內(nèi)容的語義理解、智能化信息過濾和推送等功能,為用戶提供一個真正智能化、個性化的網(wǎng)絡(luò)信息搜集工具。智能搜索引擎利用神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則、范例推理、模糊聚類、決策樹、粗糙集、隱馬爾科夫模型等技術(shù)實現(xiàn)分布式并行檢索,以數(shù)據(jù)挖掘知識發(fā)現(xiàn)為主要手段,加上自然語言理解、智能搜索代理、多媒體信息檢索等技術(shù)的應(yīng)用,進(jìn)一步提高系統(tǒng)性能和檢索的精度與效果。

2.智能搜索引擎的特點

  (一)智能化

  智能搜索引擎的搜索器可針對特定站點或者遍歷整個互聯(lián)網(wǎng)自動完成在線信息的索引,再采取最有效的搜索策略,選擇最佳時機獲取從互聯(lián)網(wǎng)上自動收集、整理的信息。智能搜索引擎可以將多個引擎的搜索結(jié)果整合,作為一個整體存放在數(shù)據(jù)庫中,確保找到最全面的信息,并且兼顧信息的關(guān)聯(lián)性。

  (二)個性化

  智能搜索引擎可以滿足用戶的個性化需求,協(xié)助用戶在海量信息中找到所需的信息,同時為用戶提供方便安全的信息獲取和保存機制,建立用戶虛擬個人資料庫,通過有效分類為用戶提供個性化的服務(wù)。

  (三)移動化

  智能搜索引擎可以通過電子郵件、電話傳真、移動電話等方式與用戶取得聯(lián)系,不再局限于互聯(lián)網(wǎng)上。還可以根據(jù)用戶特定時刻的位置信息,選擇最恰當(dāng)?shù)姆椒ㄅc用戶通信。

  (四)主動性

  智能搜索引擎通過觀察用戶的行為,主動獲取用戶的專業(yè)、風(fēng)格、知識水平、行為習(xí)慣、興趣愛好等相關(guān)背景信息,通過不斷的訓(xùn)練學(xué)習(xí),增長智能;同時通過用戶對返回信息的評價,調(diào)整自己的行為。

  (五)交互性

  智能搜索引擎可以通過自然語言與用戶進(jìn)行交互,實現(xiàn)交互性搜索,以邏輯判斷實現(xiàn)對搜索主題的快速分析,根據(jù)用戶的查詢內(nèi)容,展開多組相關(guān)的主題,幫助用戶快速找到相關(guān)搜索結(jié)果。

3.智能搜索引擎的技術(shù)

  下面介紹智能搜索引擎所涉及的關(guān)鍵技術(shù)。

  (一)自然語言理解技術(shù)

  自然語言就是人們?nèi)粘I钪惺褂玫母鞣N通俗語言。中國漢語中存在大量的歧義現(xiàn)象,對一個詞有多種理解。漢語的語音、語調(diào)、輕重音及停頓等,一經(jīng)書面表達(dá)就有可能產(chǎn)生歧義;漢語虛詞多,組詞靈活,字在詞語中的位置變化也可能產(chǎn)生歧義。所以自然語言理解的任務(wù)就是建立一種能夠像人一樣理解、分析并回答自然語言結(jié)果的計算機模型。智能搜索引擎的關(guān)鍵技術(shù)就是對自然語言的理解,將信息檢索從目前基于關(guān)鍵詞層面提高到基于知識層面,對知識必須具有一定的理解和處理能力。其中要使用到漢語分詞技術(shù)、短語識別技術(shù)、同義詞處理技術(shù)等。

  1.漢語分詞技術(shù)。關(guān)鍵詞查詢的前提是將查詢條件分解成若干個關(guān)鍵詞,再以一些關(guān)鍵詞來表示文檔。漢語分詞技術(shù)可以根據(jù)語言資料庫進(jìn)行匯總,獲取每個關(guān)鍵詞出現(xiàn)的概率以及詞與詞之間的關(guān)聯(lián)信息,再使用正向與逆向最大匹配法進(jìn)行細(xì)分,排除歧義,提高關(guān)鍵詞的準(zhǔn)確性。

  2.短語識別技術(shù)。關(guān)鍵詞之間的關(guān)系不是孤立的,而是互相關(guān)聯(lián)的,它們聯(lián)合起來作為一個短語共同表達(dá)一個完整的含義。短語識別技術(shù)就是利用詞與詞之間的特點搭配和漢語語法規(guī)則,有效地兼顧關(guān)鍵詞與它們之間的關(guān)系,更加準(zhǔn)確地表述查詢請求和文檔信息。例如,傳統(tǒng)的搜索引擎查詢廣西有哪些好玩的地方,輸入“廣西”和“好玩”這兩個關(guān)鍵字實施查詢,結(jié)果會顯示上萬個網(wǎng)址,其中絕大多數(shù)是無關(guān)的信息。而智能搜索引擎中,通過短語識別技術(shù),顯示的則是有關(guān)廣西旅游景點和娛樂場所的網(wǎng)站信息。

  3.同義詞處理技術(shù)。通過人工構(gòu)造同義詞表,建立同義詞數(shù)據(jù)庫、蘊含詞庫等,在語言資料庫中自動獲取同義詞關(guān)系,結(jié)合查詢的關(guān)鍵詞,主動關(guān)聯(lián)到與其同義或意思相近的詞語,提高信息匹配的準(zhǔn)確度。

  (二)智能搜索代理技術(shù)

  智能搜索代理技術(shù)是智能搜索引擎的核心部件,它根據(jù)預(yù)定的策略和用戶的查詢需求主動地完成信息檢索、篩選和管理,免去了用戶被動搜索的困擾。一方面,智能搜索代理為搜集到的信息建立索引,通過檢索器按照用戶的查詢要求輸入檢索索引庫,并將查詢結(jié)果反饋給用戶;另一方面,智能搜索代理根據(jù)掌握到的用戶信息對用戶的查詢計劃、興趣、意圖等進(jìn)行推理和預(yù)測,并根據(jù)搜索環(huán)境的變化及時調(diào)整工作計劃,為用戶提供快速有效的查詢結(jié)果。

  (三)多媒體信息檢索技術(shù)

  多媒體信息是文本、圖像、視頻和音頻的混合體。多媒體信息檢索是一種基于內(nèi)容特征的檢索,是對媒體對象的內(nèi)容及上下語義環(huán)境進(jìn)行的檢索,如圖像中的顏色、紋理、形狀,視頻中的鏡頭、場景、鏡頭的運動,聲音中的音調(diào)、響度、音色等?;趦?nèi)容的檢索突破了傳統(tǒng)的基于文本檢索技術(shù)的檢索,直接對圖像、視頻、音頻內(nèi)容進(jìn)行分析,抽取特征和語義,利用這些內(nèi)容特征建立索引并進(jìn)行快速檢索,可以滿足用戶多層次的需求。

4.智能搜索引擎的發(fā)展趨勢

  隨著社會的日益信息化,智能搜索引擎已成為一個新的研究、開發(fā)領(lǐng)域,它越來越引起人們的重視。智能搜索引擎的發(fā)展主要表現(xiàn)在以下幾個方面。

  (一)提高信息查詢結(jié)果的精度,提高檢索的有效性

  用戶使用搜索引擎進(jìn)行信息查詢,并不關(guān)注返回結(jié)果的多少,而是看結(jié)果是否和自己的需求吻合。對于一個查詢,傳統(tǒng)的搜索引擎動輒返回幾十萬、幾百萬篇文檔,用戶不得不在結(jié)果中篩選。智能搜索引擎通過以下三種方法解決查詢結(jié)果過多的現(xiàn)象:一是通過各種方法獲得用戶沒有在查詢語句中表達(dá)出來的真正用意,包括使用智能代理跟蹤用戶檢索行為,分析用戶模型;使用相關(guān)度反饋機制,使用戶告訴搜索引擎哪些文檔和自己的需求相關(guān)(及其相關(guān)程度),通過多次交互逐步求精。二是用正文分類技術(shù)將結(jié)果分類,使用可視化技術(shù)顯示分類結(jié)構(gòu),用戶可以只瀏覽自己感興趣的類別。三是進(jìn)行站點類聚或相近內(nèi)容類聚,減少信息返回的總量。

  (二)提供基于智能搜索代理的信息過濾和個性化服務(wù)

  智能搜索代理具有解決問題所需的豐富知識、策略和相關(guān)數(shù)據(jù),能夠進(jìn)行相關(guān)的推理和智能計算,可以在用戶沒有給出十分明確的需求時推測出用戶的意圖、興趣或愛好,并按最佳的方式完成任務(wù),將用戶感興趣的、對用戶有用的信息反饋給用戶。智能搜索代理具有不斷學(xué)習(xí)、適應(yīng)信息和用戶興趣動態(tài)變化的能力,能自動過濾一些不合理或可能給用戶帶來危害的要求,并且根據(jù)環(huán)境適當(dāng)?shù)剡M(jìn)行自我調(diào)節(jié),提高問題的處理能力,從而提供個性化的服務(wù)。

  (三)豐富知識資源庫,改進(jìn)知識搜索引擎技術(shù)

  知識搜索是在搜索引擎發(fā)展進(jìn)入智能化階段的過程,是建立在明確的知識來源基礎(chǔ)上,根據(jù)用戶的身份與訴求,回饋恰當(dāng)知識結(jié)果的搜索引擎。而知識資源庫的豐富程度決定著知識檢索程度的高低,它是實現(xiàn)智能搜索的基礎(chǔ)和核心。目前知識搜索引擎的代表網(wǎng)站主要有:中國知網(wǎng),它是目前最大的基于互聯(lián)網(wǎng)出版的學(xué)術(shù)知識搜索引擎。通過豐富知識資源庫和改進(jìn)知識搜索引擎技術(shù),更為強調(diào)知識的準(zhǔn)確、標(biāo)準(zhǔn),強調(diào)通過互動機制如評價、交流、修改、維護(hù)等進(jìn)行搜索結(jié)果的自我學(xué)習(xí),對信息進(jìn)行接受、判斷、提取、分析和概括之后形成自己的知識,保存后成為下一次分析、概括的依據(jù)和基礎(chǔ),從中檢索出對用戶最有價值的信息,以達(dá)到知識搜索的智能化。

  (四)采用分布式體系結(jié)構(gòu)提高系統(tǒng)規(guī)模和效能

  智能搜索引擎的實現(xiàn)可以采用集中式體系結(jié)構(gòu)和分布式體系結(jié)構(gòu)。但是當(dāng)系統(tǒng)規(guī)模到達(dá)一定程度(如網(wǎng)頁數(shù)達(dá)到億級)時,必然要采用某種分布式方法,以提高系統(tǒng)效能。分布式搜索引擎在架構(gòu)和管理上采用“分布和集中相結(jié)合”的模式,具有集中式搜索引擎無法比擬的優(yōu)勢。通過充分利用服務(wù)器集群的各類資源,達(dá)到提高服務(wù)器性能、提升集群總體服務(wù)質(zhì)量的目的。

評論  |   0條評論