登錄

元搜索引擎

百科 > 互聯(lián)網(wǎng) > 元搜索引擎

1.什么是元搜索引擎[1]

元搜索引擎(meta search engine)是一種調(diào)用其他獨(dú)立搜索引擎的引擎?!霸?meta)為“總的”、“超越”之意,元搜索引擎就是對(duì)多個(gè)獨(dú)立搜索引擎的整合、調(diào)用、控制和優(yōu)化利用。

2.元搜索引擎的特點(diǎn)[2]

第一,涵蓋較多的搜索資源,可隨意選擇和調(diào)用源搜索引擎;

第二,具備盡可能多的可選擇功能,如資源類型(網(wǎng)站、網(wǎng)頁(yè)、新聞、軟件、FTP、MP3、圖像等)選擇、返回結(jié)果數(shù)量控制、結(jié)果時(shí)段選擇、過濾功能選擇等;

第三,強(qiáng)大的檢索請(qǐng)求處理功能(如支持邏輯匹配檢索、短語檢索、自然語言檢索等)和不同搜索引擎間檢索語法規(guī)則、字符的轉(zhuǎn)換功能(如對(duì)不支持“NEAR”算符的搜索引擎,可自動(dòng)實(shí)現(xiàn)由“NEAR”向“AND”算符的轉(zhuǎn)換等);

第四,詳盡全面的檢索結(jié)果信息描述(如網(wǎng)頁(yè)名稱、URL、文摘、源搜索引擎、結(jié)果與用戶檢索需求的相關(guān)度等);

第五,支持多種語言檢索。

3.元搜索引擎的功能[2]

目前運(yùn)營(yíng)的元搜索引擎各具特色,功能各有側(cè)重。完全“理想”的尚不多見。一些元搜索引擎在某些方面較為優(yōu)秀,而其他功能則欠缺或需改進(jìn):如大多元搜索引擎不支持多語種,尤其是漢語檢索;一些元搜索引擎實(shí)現(xiàn)檢索語法轉(zhuǎn)換的能力有限,不支持指定字段檢索,不能充分發(fā)揮各個(gè)獨(dú)立搜索引擎的高級(jí)檢索功能;部分元搜索引擎無源搜索引擎列表,用戶不能自主選擇和調(diào)用源搜索引擎;大部分元搜索引擎僅支持調(diào)用Alta—Vista、Excite、GoTo.corn、Yahoo!、Infoseek、Lycos等常用的搜索引擎,一些大型搜索引擎如NorthernLight、HotBot等被排除在外,人為地限制了搜索資源的利用;在檢索結(jié)果上,元搜索引擎只能返回十幾、數(shù)十條“相關(guān)度”較高的結(jié)果,大量可能有價(jià)值的源搜索引擎的檢索結(jié)果被忽視,影響檢索結(jié)果的全面性。元搜索引擎的功能受源搜索引擎和元搜索技術(shù)的雙重制約:一方面,源搜索引擎各具特色的強(qiáng)大功能在元搜索引擎中受到限制而不能充分體現(xiàn).而另一方面,任何一種元搜索技術(shù)都不能發(fā)掘和利用源搜索引擎的全部功能。

1995年華盛頓大學(xué)碩士生EricSelberg和OrenEtzioni推出第一個(gè)元搜索引擎——Metacrawler以來,這一新型的網(wǎng)絡(luò)檢索工具異軍突起,發(fā)展迅速,目前可用的元搜索引擎已近百種。盡管元搜索引擎存在著這樣那樣的功能局限,但其以涵蓋較多的搜索資源,能夠在盡可能短的時(shí)間內(nèi)提供相對(duì)全面、準(zhǔn)確的檢索結(jié)果等諸多優(yōu)異功能受到用戶的青睞,已漸成為一種不可或缺的極具潛力的網(wǎng)絡(luò)檢索工具。

4.元搜索引擎的基本構(gòu)成[3]

獨(dú)立搜索引擎根據(jù)用戶的查詢請(qǐng)求,按照一定的算法從索引數(shù)據(jù)庫(kù)中查找對(duì)應(yīng)的信息返回給用戶。為了保證用戶查找信息的精度和新鮮度,搜索引擎需要建立并維護(hù)一個(gè)龐大的索引數(shù)據(jù)庫(kù)。在獨(dú)立搜索引擎中,索引數(shù)據(jù)庫(kù)中的信息是通過一種叫做網(wǎng)絡(luò)爬蟲(Spider)的程序從互聯(lián)網(wǎng)采集而得到網(wǎng)頁(yè)。所以一般獨(dú)立搜索引擎主要由網(wǎng)絡(luò)爬蟲、索引與搜索引擎軟件等部分組成。

與獨(dú)立搜索引擎相比,元搜索引擎不需要維護(hù)龐大的索引數(shù)據(jù)庫(kù),也不需要網(wǎng)絡(luò)爬蟲去采集網(wǎng)頁(yè)。具體說來,元搜索引擎主要由三部分組成(如圖所示):請(qǐng)求提交代理、檢索接口代理、結(jié)果顯示代理。

Image:元搜索引擎原理圖.jpg

請(qǐng)求提交代理負(fù)責(zé)實(shí)現(xiàn)用戶個(gè)性化的檢索設(shè)置要求,包括調(diào)用哪些搜索引擎、檢索時(shí)間限制、結(jié)果數(shù)量限制等。檢索接口代理負(fù)責(zé)將用戶的檢索請(qǐng)求“翻譯”成滿足不同搜索引擎“本地化”要求的格式。結(jié)果顯示代理負(fù)責(zé)所有源搜索引擎檢索結(jié)果的去重、合并、輸出處理等。

1.請(qǐng)求提交代理

請(qǐng)求提交代理負(fù)責(zé)將用戶的請(qǐng)求分發(fā)給獨(dú)立搜索引擎。一般的元搜索引擎設(shè)定了它所調(diào)用的獨(dú)立搜索引擎。有些元搜索引擎讓用戶自己選擇所用的搜索引擎。還有一種通過分析用戶的興趣和網(wǎng)絡(luò)的實(shí)際情況來選擇搜索引擎,這有利于提高用戶查詢的準(zhǔn)確度和對(duì)用戶的響應(yīng)速度。

2.檢索接口代理

由于不同的搜索引擎所支持的查詢方式不同,如有些搜索引擎支持stemming(詞干法)方式。即便是同一種方式,也有不同的表達(dá)方法,所以必須將元搜索引擎中的查詢請(qǐng)求映射到對(duì)應(yīng)的搜索引擎中,而且不能丟失語義信息

3.結(jié)果顯示代理

元搜索引擎的結(jié)果一般由網(wǎng)頁(yè)標(biāo)題、內(nèi)容摘要、所指網(wǎng)頁(yè)的URL、相關(guān)度、信息返回時(shí)間、所采用的引擎標(biāo)志等組成。這些搜索結(jié)果是多個(gè)獨(dú)立搜索引擎的并集。元搜索引擎的結(jié)果應(yīng)該具有多種排序方式以滿足不同用戶的需要。元搜索引擎常用的排序方式有:相關(guān)度排序、時(shí)間排序、域名分類排序、搜索引擎排序等。

元搜索引擎把用戶的查詢串分配給幾個(gè)指定的獨(dú)立搜索引擎,再將各獨(dú)立搜索引擎所得的結(jié)果分級(jí)排序,刪去重復(fù)內(nèi)容,然后給出查詢結(jié)果。也就是說元搜索引擎是建立在獨(dú)立搜索引擎之上的搜索引擎。

5.元搜索引擎的分類[3]

元搜索引擎有多種分類方式,在數(shù)據(jù)處理方面,元搜索引擎分為并行處理式和串行處理式兩大類。并行處理式元搜索引擎將用戶的查詢請(qǐng)求同時(shí)轉(zhuǎn)送給它調(diào)用鏈接的多個(gè)獨(dú)立型搜索引擎進(jìn)行查詢處理,串行處理式元搜索引擎將用戶的查詢請(qǐng)求依次轉(zhuǎn)送給它調(diào)用鏈接的每一個(gè)獨(dú)立型搜索引擎進(jìn)行查詢處理。

按功能劃分,元搜索引擎包括多線索式搜索引擎和A11-in-One式搜索引擎;按運(yùn)行方式的差異可分為在線搜索引擎和桌面搜索引擎。

根據(jù)請(qǐng)求提交代理、檢索接口代理和結(jié)果顯示代理的復(fù)雜程度,可以將元搜索引擎分為簡(jiǎn)單元搜索引擎和復(fù)雜元搜索引擎;根據(jù)請(qǐng)求提交代理、檢索接口代理和結(jié)果顯示代理所在位置的不同,又可將復(fù)雜元搜索引擎分為桌面型元搜索引擎和基于Web的元搜索引擎。

(1)簡(jiǎn)單元搜索引擎。

簡(jiǎn)單元搜索引擎實(shí)際上并不能稱為搜索引擎,它只是給用戶提供一個(gè)搜索引擎列表,用戶可以選擇所用的搜索引擎。用戶輸入查詢請(qǐng)求,然后直接以CGI方式調(diào)用對(duì)應(yīng)的搜索引擎。由于具體搜索引擎是由用戶選擇的,而且查詢請(qǐng)求只能發(fā)送給一個(gè)搜索引擎,所以請(qǐng)求提交代理和檢索接口代理的設(shè)計(jì)就非常簡(jiǎn)單,可以直接設(shè)計(jì)在靜態(tài)網(wǎng)頁(yè)中。簡(jiǎn)單元搜索引擎不進(jìn)行搜索結(jié)果的處理,這就省去了圖中的結(jié)果集成代理。其實(shí)將簡(jiǎn)單元搜索引擎叫做搜索引擎列表更為恰當(dāng)。

(2)桌面型元搜索引擎。

桌面型元搜索引擎以程序的方式提供給用戶。它運(yùn)行在用戶的機(jī)器上,用戶的查詢請(qǐng)求直接由用戶端分發(fā)給它所調(diào)用的搜索引擎,然后對(duì)返回的搜索結(jié)果進(jìn)行集成后以一定的方式顯示。對(duì)桌面型元搜索引擎來說,圖中的請(qǐng)求提交代理、檢索接口代理和結(jié)果顯示代理都在客戶端。

(3)基于Web的元搜索引擎。

基于Web的元搜索引擎以Web方式為用戶提供元搜索服務(wù)。請(qǐng)求提交代理、檢索接口代理和結(jié)果顯示代理都存放在元搜索引擎所在的服務(wù)器端。在這種方式中,用戶的元查詢請(qǐng)求經(jīng)過服務(wù)器端的請(qǐng)求提交代理和檢索接口代理將查詢請(qǐng)求分發(fā)給它所調(diào)用的獨(dú)立搜索引擎,這些獨(dú)立搜索引擎返回的搜索結(jié)果由服務(wù)器端的結(jié)果顯示代理處理后再返回給用戶。由于Web易用性的特點(diǎn),基于Web的元搜索引擎使用更為廣泛。

6.元搜索引擎的工作過程[3]

用戶通過www服務(wù)訪問元搜索引擎,并向Web服務(wù)器提出檢索式,當(dāng)Web服務(wù)器收到查詢?nèi)蝿?wù)時(shí),首先訪問結(jié)果數(shù)據(jù)庫(kù),看在近期是否有相同的檢索,如果有則直接返回保存的結(jié)果,完成查詢;如果沒有,就將檢索式進(jìn)行處理,分析并轉(zhuǎn)化成與所要查找的搜索引擎相應(yīng)的檢索式格式,然后送至Web處理接口部分。Web處理接口通過并行的方式同時(shí)查詢多個(gè)搜索引擎,集中所有的查詢結(jié)果。根據(jù)各引擎的重要性,以及所得結(jié)果的相關(guān)度,通過算法對(duì)結(jié)果進(jìn)行抽取和排序,并生成最終結(jié)果網(wǎng)頁(yè)返回給用戶。與此同時(shí),將此次結(jié)果保存在結(jié)果數(shù)據(jù)庫(kù)中,以備下次查詢參考。這就是整個(gè)元搜索引擎的服務(wù)過程。

其中對(duì)于結(jié)果數(shù)據(jù)庫(kù)中記錄的處理,要指定一個(gè)生存期,也就是超過一定時(shí)間的檢索結(jié)果要予以剔除,以保證檢索的時(shí)效性。需要指出的是,首先由于大部分搜索引擎互不兼容,相互操作性差,而且用戶接口不一致,使得檢索式處理非常復(fù)雜;這不僅要求精確掌握各個(gè)搜索引擎在查詢時(shí)調(diào)用CGI的格式,還要做到將當(dāng)前檢索式轉(zhuǎn)化成相應(yīng)的格式。其次,由于不同搜索引擎反饋的結(jié)果頁(yè)面格式相差很大,對(duì)于這些頁(yè)面的處理難度也相當(dāng)大,一方面要解析頁(yè)面找到的查詢結(jié)果,同時(shí)還要能夠把這些結(jié)果的內(nèi)容抽取出來,目前采用最多的是固定查找和智能判斷相結(jié)合的策略。

作為一個(gè)元搜索引擎,如何能夠?qū)@取的信息按照相關(guān)度進(jìn)行排序也是非常復(fù)雜的問題,因?yàn)椴煌阉饕嬖诒旧聿樵兘Y(jié)果的排序過程中采用的算法相差很大,甚至有些未知的算法,而元搜索引擎必須結(jié)合這些使用不同排序算法產(chǎn)生的結(jié)果,并以統(tǒng)一的結(jié)果形式返回給用戶。這些都是在研究元搜索引擎中遇到的難點(diǎn),也是能否成功實(shí)現(xiàn)一個(gè)元搜索引擎的關(guān)鍵。

評(píng)論  |   0條評(píng)論