元搜索引擎

1.什么是元搜索引擎[1]

元搜索引擎(meta search engine)是一種調(diào)用其他獨立搜索引擎的引擎。“元”(meta)為“總的”、“超越”之意，元搜索引擎就是對多個獨立搜索引擎的整合、調(diào)用、控制和優(yōu)化利用。

2.元搜索引擎的特點[2]

第一，涵蓋較多的搜索資源，可隨意選擇和調(diào)用源搜索引擎；

第二，具備盡可能多的可選擇功能，如資源類型(網(wǎng)站、網(wǎng)頁、新聞、軟件、FTP、MP3、圖像等)選擇、返回結果數(shù)量控制、結果時段選擇、過濾功能選擇等；

第三，強大的檢索請求處理功能(如支持邏輯匹配檢索、短語檢索、自然語言檢索等)和不同搜索引擎間檢索語法規(guī)則、字符的轉換功能(如對不支持“NEAR”算符的搜索引擎，可自動實現(xiàn)由“NEAR”向“AND”算符的轉換等)；

第四，詳盡全面的檢索結果信息描述(如網(wǎng)頁名稱、URL、文摘、源搜索引擎、結果與用戶檢索需求的相關度等)；

第五，支持多種語言檢索。

3.元搜索引擎的功能[2]

目前運營的元搜索引擎各具特色，功能各有側重。完全“理想”的尚不多見。一些元搜索引擎在某些方面較為優(yōu)秀，而其他功能則欠缺或需改進：如大多元搜索引擎不支持多語種，尤其是漢語檢索；一些元搜索引擎實現(xiàn)檢索語法轉換的能力有限，不支持指定字段檢索，不能充分發(fā)揮各個獨立搜索引擎的高級檢索功能；部分元搜索引擎無源搜索引擎列表，用戶不能自主選擇和調(diào)用源搜索引擎；大部分元搜索引擎僅支持調(diào)用Alta—Vista、Excite、GoTo．corn、Yahoo!、Infoseek、Lycos等常用的搜索引擎，一些大型搜索引擎如NorthernLight、HotBot等被排除在外，人為地限制了搜索資源的利用；在檢索結果上，元搜索引擎只能返回十幾、數(shù)十條“相關度”較高的結果，大量可能有價值的源搜索引擎的檢索結果被忽視，影響檢索結果的全面性。元搜索引擎的功能受源搜索引擎和元搜索技術的雙重制約：一方面，源搜索引擎各具特色的強大功能在元搜索引擎中受到限制而不能充分體現(xiàn)．而另一方面，任何一種元搜索技術都不能發(fā)掘和利用源搜索引擎的全部功能。

1995年華盛頓大學碩士生EricSelberg和OrenEtzioni推出第一個元搜索引擎——Metacrawler以來，這一新型的網(wǎng)絡檢索工具異軍突起，發(fā)展迅速，目前可用的元搜索引擎已近百種。盡管元搜索引擎存在著這樣那樣的功能局限，但其以涵蓋較多的搜索資源，能夠在盡可能短的時間內(nèi)提供相對全面、準確的檢索結果等諸多優(yōu)異功能受到用戶的青睞，已漸成為一種不可或缺的極具潛力的網(wǎng)絡檢索工具。

4.元搜索引擎的基本構成[3]

獨立搜索引擎根據(jù)用戶的查詢請求，按照一定的算法從索引數(shù)據(jù)庫中查找對應的信息返回給用戶。為了保證用戶查找信息的精度和新鮮度，搜索引擎需要建立并維護一個龐大的索引數(shù)據(jù)庫。在獨立搜索引擎中，索引數(shù)據(jù)庫中的信息是通過一種叫做網(wǎng)絡爬蟲(Spider)的程序從互聯(lián)網(wǎng)采集而得到網(wǎng)頁。所以一般獨立搜索引擎主要由網(wǎng)絡爬蟲、索引與搜索引擎軟件等部分組成。

與獨立搜索引擎相比，元搜索引擎不需要維護龐大的索引數(shù)據(jù)庫，也不需要網(wǎng)絡爬蟲去采集網(wǎng)頁。具體說來，元搜索引擎主要由三部分組成(如圖所示)：請求提交代理、檢索接口代理、結果顯示代理。

Image:元搜索引擎原理圖.jpg

請求提交代理負責實現(xiàn)用戶個性化的檢索設置要求，包括調(diào)用哪些搜索引擎、檢索時間限制、結果數(shù)量限制等。檢索接口代理負責將用戶的檢索請求“翻譯”成滿足不同搜索引擎“本地化”要求的格式。結果顯示代理負責所有源搜索引擎檢索結果的去重、合并、輸出處理等。

1．請求提交代理

請求提交代理負責將用戶的請求分發(fā)給獨立搜索引擎。一般的元搜索引擎設定了它所調(diào)用的獨立搜索引擎。有些元搜索引擎讓用戶自己選擇所用的搜索引擎。還有一種通過分析用戶的興趣和網(wǎng)絡的實際情況來選擇搜索引擎，這有利于提高用戶查詢的準確度和對用戶的響應速度。

2．檢索接口代理

由于不同的搜索引擎所支持的查詢方式不同，如有些搜索引擎支持stemming(詞干法)方式。即便是同一種方式，也有不同的表達方法，所以必須將元搜索引擎中的查詢請求映射到對應的搜索引擎中，而且不能丟失語義信息。

3．結果顯示代理

元搜索引擎的結果一般由網(wǎng)頁標題、內(nèi)容摘要、所指網(wǎng)頁的URL、相關度、信息返回時間、所采用的引擎標志等組成。這些搜索結果是多個獨立搜索引擎的并集。元搜索引擎的結果應該具有多種排序方式以滿足不同用戶的需要。元搜索引擎常用的排序方式有：相關度排序、時間排序、域名分類排序、搜索引擎排序等。

元搜索引擎把用戶的查詢串分配給幾個指定的獨立搜索引擎，再將各獨立搜索引擎所得的結果分級排序，刪去重復內(nèi)容，然后給出查詢結果。也就是說元搜索引擎是建立在獨立搜索引擎之上的搜索引擎。

5.元搜索引擎的分類[3]

元搜索引擎有多種分類方式，在數(shù)據(jù)處理方面，元搜索引擎分為并行處理式和串行處理式兩大類。并行處理式元搜索引擎將用戶的查詢請求同時轉送給它調(diào)用鏈接的多個獨立型搜索引擎進行查詢處理，串行處理式元搜索引擎將用戶的查詢請求依次轉送給它調(diào)用鏈接的每一個獨立型搜索引擎進行查詢處理。

按功能劃分，元搜索引擎包括多線索式搜索引擎和A11-in-One式搜索引擎；按運行方式的差異可分為在線搜索引擎和桌面搜索引擎。

根據(jù)請求提交代理、檢索接口代理和結果顯示代理的復雜程度，可以將元搜索引擎分為簡單元搜索引擎和復雜元搜索引擎；根據(jù)請求提交代理、檢索接口代理和結果顯示代理所在位置的不同，又可將復雜元搜索引擎分為桌面型元搜索引擎和基于Web的元搜索引擎。

(1)簡單元搜索引擎。

簡單元搜索引擎實際上并不能稱為搜索引擎，它只是給用戶提供一個搜索引擎列表，用戶可以選擇所用的搜索引擎。用戶輸入查詢請求，然后直接以CGI方式調(diào)用對應的搜索引擎。由于具體搜索引擎是由用戶選擇的，而且查詢請求只能發(fā)送給一個搜索引擎，所以請求提交代理和檢索接口代理的設計就非常簡單，可以直接設計在靜態(tài)網(wǎng)頁中。簡單元搜索引擎不進行搜索結果的處理，這就省去了圖中的結果集成代理。其實將簡單元搜索引擎叫做搜索引擎列表更為恰當。

(2)桌面型元搜索引擎。

桌面型元搜索引擎以程序的方式提供給用戶。它運行在用戶的機器上，用戶的查詢請求直接由用戶端分發(fā)給它所調(diào)用的搜索引擎，然后對返回的搜索結果進行集成后以一定的方式顯示。對桌面型元搜索引擎來說，圖中的請求提交代理、檢索接口代理和結果顯示代理都在客戶端。

(3)基于Web的元搜索引擎。

基于Web的元搜索引擎以Web方式為用戶提供元搜索服務。請求提交代理、檢索接口代理和結果顯示代理都存放在元搜索引擎所在的服務器端。在這種方式中，用戶的元查詢請求經(jīng)過服務器端的請求提交代理和檢索接口代理將查詢請求分發(fā)給它所調(diào)用的獨立搜索引擎，這些獨立搜索引擎返回的搜索結果由服務器端的結果顯示代理處理后再返回給用戶。由于Web易用性的特點，基于Web的元搜索引擎使用更為廣泛。

6.元搜索引擎的工作過程[3]

用戶通過www服務訪問元搜索引擎，并向Web服務器提出檢索式，當Web服務器收到查詢?nèi)蝿諘r，首先訪問結果數(shù)據(jù)庫，看在近期是否有相同的檢索，如果有則直接返回保存的結果，完成查詢；如果沒有，就將檢索式進行處理，分析并轉化成與所要查找的搜索引擎相應的檢索式格式，然后送至Web處理接口部分。Web處理接口通過并行的方式同時查詢多個搜索引擎，集中所有的查詢結果。根據(jù)各引擎的重要性，以及所得結果的相關度，通過算法對結果進行抽取和排序，并生成最終結果網(wǎng)頁返回給用戶。與此同時，將此次結果保存在結果數(shù)據(jù)庫中，以備下次查詢參考。這就是整個元搜索引擎的服務過程。

其中對于結果數(shù)據(jù)庫中記錄的處理，要指定一個生存期，也就是超過一定時間的檢索結果要予以剔除，以保證檢索的時效性。需要指出的是，首先由于大部分搜索引擎互不兼容，相互操作性差，而且用戶接口不一致，使得檢索式處理非常復雜；這不僅要求精確掌握各個搜索引擎在查詢時調(diào)用CGI的格式，還要做到將當前檢索式轉化成相應的格式。其次，由于不同搜索引擎反饋的結果頁面格式相差很大，對于這些頁面的處理難度也相當大，一方面要解析頁面找到的查詢結果，同時還要能夠把這些結果的內(nèi)容抽取出來，目前采用最多的是固定查找和智能判斷相結合的策略。

作為一個元搜索引擎，如何能夠將獲取的信息按照相關度進行排序也是非常復雜的問題，因為不同搜索引擎在本身查詢結果的排序過程中采用的算法相差很大，甚至有些未知的算法，而元搜索引擎必須結合這些使用不同排序算法產(chǎn)生的結果，并以統(tǒng)一的結果形式返回給用戶。這些都是在研究元搜索引擎中遇到的難點，也是能否成功實現(xiàn)一個元搜索引擎的關鍵。

評論 | 0條評論

評論

經(jīng)理人分享