登錄

搜索引擎

1.什么是搜索引擎

  搜索引擎是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序搜集互聯(lián)網(wǎng)上的信息,在對(duì)信息進(jìn)行組織和處理后,為用戶(hù)提供檢索服務(wù)的系統(tǒng)。因特網(wǎng)上的信息浩瀚萬(wàn)千,而且毫無(wú)秩序,所有的信息象汪洋上的一個(gè)個(gè)小島,網(wǎng)頁(yè)鏈接是這些小島之間縱橫交錯(cuò)的橋梁,而搜索引擎,則為用戶(hù)繪制一幅一目了然的信息地圖,供用戶(hù)隨時(shí)查閱。

  從使用者的角度看,搜索引擎提供一個(gè)包含搜索框的頁(yè)面,在搜索框輸入詞語(yǔ),通過(guò)瀏覽器提交給搜索引擎后,搜索引擎就會(huì)返回跟用戶(hù)輸入的內(nèi)容相關(guān)的信息列表。

  互聯(lián)網(wǎng)發(fā)展早期,以雅虎為代表的網(wǎng)站分類(lèi)目錄查詢(xún)非常流行。網(wǎng)站分類(lèi)目錄由人工整理維護(hù),精選互聯(lián)網(wǎng)上的優(yōu)秀網(wǎng)站,并簡(jiǎn)要描述,分類(lèi)放置到不同目錄下。用戶(hù)查詢(xún)時(shí),通過(guò)一層層的點(diǎn)擊來(lái)查找自己想找的網(wǎng)站。也有人把這種基于目錄的檢索服務(wù)網(wǎng)站稱(chēng)為搜索引擎,但從嚴(yán)格意義上講,它并不是搜索引擎。

2.搜索引擎的歷史

  1990年初當(dāng)時(shí)萬(wàn)維網(wǎng)還未出現(xiàn),為了查詢(xún)散布在各個(gè)分散的主機(jī)中的文件,曾有過(guò)Archie、Gopher等搜索工具,隨著互聯(lián)網(wǎng)的迅速發(fā)展,基于HTTP訪問(wèn)的web技術(shù)的迅速普及,他們就不再能適應(yīng)用戶(hù)的需要。在1994年1月,第一個(gè)既可搜索又可瀏覽的分類(lèi)目錄EINet Galaxy(Tradewave Galaxy)上線,它還支持Gopher和Telnet搜索。同年4月,Yahoo目錄誕生,隨著訪問(wèn)量和收錄鏈接數(shù)的增長(zhǎng),開(kāi)始支持簡(jiǎn)單的數(shù)據(jù)庫(kù)查詢(xún)。這就是我們說(shuō)的早期的目錄導(dǎo)航系統(tǒng),他們的缺點(diǎn)是網(wǎng)站收錄/更新都要靠人工維護(hù),所以在信息量劇增的條件下,就不是非常受用了。

  1994年7月,Lycos推出了基于robot的數(shù)據(jù)發(fā)掘技術(shù),并支持搜索結(jié)果相關(guān)性排序,并且他第一個(gè)開(kāi)始在搜索結(jié)果中使用了網(wǎng)頁(yè)自動(dòng)摘要。Infoseek也是同時(shí)期的一個(gè)重要代表,他們是搜索引擎史上一個(gè)重要的進(jìn)步。

  1995年,一種新的搜索引擎工具出現(xiàn)了——元搜索引擎,第一個(gè)元搜索引擎是華盛頓大學(xué)的學(xué)生開(kāi)發(fā)的Metacrawler。用戶(hù)只需提交一次搜索請(qǐng)求,由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個(gè)預(yù)先選定的獨(dú)立搜索引擎,并將從各獨(dú)立搜索引擎返回的所有查詢(xún)結(jié)果,集中起來(lái)處理后再返回給用戶(hù)。

  1995年12月才登場(chǎng)亮相的AltaVista推出了大量的創(chuàng)新功能使它迅速到達(dá)當(dāng)時(shí)搜索引擎的頂峰,它第一個(gè)支持自然語(yǔ)言搜索的搜索引擎,具備了基于網(wǎng)頁(yè)內(nèi)容分析,智能處理的能力,第一個(gè)實(shí)現(xiàn)高級(jí)搜索語(yǔ)法的搜索引擎(如AND、OR、NOT等),同時(shí)AltaVista還支持搜索新聞群組,搜索圖片等具有劃時(shí)代意義的功能。同時(shí)期還有inktomi、HotBot等搜索引擎。

  1997年8月Northernlight公司正式推出搜索引擎,它第一個(gè)支持對(duì)搜索結(jié)果進(jìn)行簡(jiǎn)單的自動(dòng)分類(lèi),也是當(dāng)時(shí)擁有最大數(shù)據(jù)庫(kù)的搜索引擎之一。

  1998年10月,Google(中文名谷歌)誕生。它是目前世界上最流行的搜索引擎之一,具備很多獨(dú)特而且優(yōu)秀的功能,并且在界面等實(shí)現(xiàn)了革命性創(chuàng)新。

  1999年5月,F(xiàn)ast(Alltheweb)公司發(fā)布了自己的搜索引擎AllTheWeb,它的網(wǎng)頁(yè)搜索可利用ODP自動(dòng)分類(lèi),支持Flash和pdf搜索,支持多語(yǔ)言搜索,還提供新聞搜索、圖像搜索、視頻、MP3、和FTP搜索,擁有極其強(qiáng)大的高級(jí)搜索功能。它曾經(jīng)是最流行的搜索引擎之一,后在2003年2月被Overture收購(gòu)。

  在中文搜索引擎領(lǐng)域,1996年8月成立的搜狐公司是最早參與作網(wǎng)絡(luò)信息分類(lèi)導(dǎo)航的網(wǎng)站,曾一度有“出門(mén)找地圖,上網(wǎng)找搜狐的”美譽(yù)。由于其人工分類(lèi)提交的局限性,隨著網(wǎng)絡(luò)信息的暴增,逐漸被基于robot自動(dòng)抓取智能分類(lèi)的新一代信息技術(shù)取代。

  臺(tái)灣中正大學(xué)吳升教授所領(lǐng)導(dǎo)的GAIS實(shí)驗(yàn)室1998年1月創(chuàng)立了Openfind中文搜索引擎,是最早開(kāi)發(fā)的中文智能搜索引擎,采用GAIS實(shí)驗(yàn)室推出多元排序(PolyRankTM)核心技術(shù),截止2002年6月,宣布累計(jì)抓取網(wǎng)頁(yè)35億,開(kāi)始進(jìn)入英文搜索領(lǐng)域。

  北大天網(wǎng)是教育網(wǎng)最流行的搜索引擎,它由北大計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)研究室開(kāi)發(fā),于1997年10月29日正式在CERNET上提供服務(wù), 2000年初成立天網(wǎng)搜索引擎新課題組,由國(guó)家973重點(diǎn)基礎(chǔ)研究發(fā)展規(guī)劃項(xiàng)目基金資助開(kāi)發(fā),收錄網(wǎng)頁(yè)約6000萬(wàn),利用教育網(wǎng)優(yōu)勢(shì),有強(qiáng)大的ftp搜索功能。

  百度中文搜索由超鏈分析專(zhuān)利發(fā)明人、前Infoseek資深工程師李彥宏和好友徐勇2000年1月創(chuàng)建,目前支持網(wǎng)頁(yè)信息檢索、圖片、Flash、音樂(lè)等多媒體信息的檢索。并且百度在中文領(lǐng)域第一個(gè)開(kāi)始使用ppc經(jīng)營(yíng)模式。

  2002年開(kāi)始很多公司受搜索市場(chǎng)前景和Google神話的吸引,積極進(jìn)入搜索引擎市場(chǎng),謀求一席之地。但是不幸的是他們當(dāng)中很多公司尤其是不少中國(guó)公司采用流氓手段進(jìn)行自己搜索引擎的推廣工作,常用的手段是瀏覽器劫持、惡意捆綁adware/spyware等等。中搜是由慧聰國(guó)際主持開(kāi)發(fā)的,自稱(chēng)是搜索領(lǐng)域的后起之秀。目前處于起步階段,但是采用流氓軟件手段推廣后,強(qiáng)占了不少用戶(hù)的搜索引擎選擇。2003年年底慧聰搜索改名為中國(guó)搜索,推出第三代智能搜索引擎。最近中國(guó)搜索主推桌面搜索——網(wǎng)絡(luò)豬,是臭名昭著的流氓軟件之一。

  2003年11月,Yahoo全資收購(gòu)3721公司。2005年8月,阿里巴巴和Yahoo達(dá)成戰(zhàn)略合作,全資收購(gòu)雅虎中國(guó),并更名為阿里巴巴雅虎,并將其業(yè)務(wù)重點(diǎn)全面轉(zhuǎn)向搜索領(lǐng)域。

  2004年8月3日,搜狐公司推出中文搜索引擎搜狗。

  2006年9月,微軟公司正式推出了擁有自主研發(fā)技術(shù)的Live Search,宣布進(jìn)軍搜索引擎市場(chǎng),挑戰(zhàn)Google在網(wǎng)絡(luò)搜索領(lǐng)域的霸主地位。

  2006年12月,網(wǎng)易公司推出中文搜索引擎有道。

  2008年5月,整合搜索引擎搜索島誕生,融合百家之長(zhǎng),號(hào)稱(chēng)中國(guó)最好的(山寨)搜索引擎,搜索島是一個(gè)面向用戶(hù)的以整合中國(guó)各個(gè)垂直領(lǐng)域最好的搜索引擎建立的。從用戶(hù)的角度,搜索島的體驗(yàn)非常不錯(cuò),故其得到了很多網(wǎng)友的喜愛(ài)。它的出現(xiàn)也是互聯(lián)網(wǎng)開(kāi)放性的一個(gè)體現(xiàn),也給各大搜索引擎廠商一個(gè)啟迪,就是一切為用戶(hù)著想,要了解并滿足用戶(hù)真正的需要。

3.搜索引擎的組成

  搜索引擎一般由搜索器、索引器、檢索器和用戶(hù)接口四個(gè)部分組成:

  1、搜索器:其功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息。

  2、索引器:其功能是理解搜索器所搜索到的信息,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫(kù)的索引表。

  3、檢索器:其功能是根據(jù)用戶(hù)的查詢(xún)?cè)谒饕龓?kù)中快速檢索文檔,進(jìn)行相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果排序,并能按用戶(hù)的查詢(xún)需求合理反饋信息。

  4、用戶(hù)接口:其作用是接納用戶(hù)查詢(xún)、顯示查詢(xún)結(jié)果、提供個(gè)性化查詢(xún)項(xiàng)。

4.搜索引擎的工作原理

  搜索引擎的工作原理,大致可以分為:

  1、搜集信息:搜索引擎的信息搜集基本都是自動(dòng)的。搜索引擎利用稱(chēng)為網(wǎng)絡(luò)蜘蛛的自動(dòng)搜索機(jī)器人程序來(lái)連上每一個(gè)網(wǎng)頁(yè)上的超連結(jié)。機(jī)器人程序根據(jù)網(wǎng)頁(yè)鏈到其他中的超鏈接,就象日常生活中所說(shuō)的“一傳十,十傳百……”一樣,從少數(shù)幾個(gè)網(wǎng)頁(yè)開(kāi)始,連到數(shù)據(jù)庫(kù)上所有到其他網(wǎng)頁(yè)的鏈接。理論上,若網(wǎng)頁(yè)上有適當(dāng)?shù)某B結(jié),機(jī)器人便可以遍歷絕大部分網(wǎng)頁(yè)。

  2、整理信息:搜索引擎整理信息的過(guò)程稱(chēng)為“建立索引”。搜索引擎不僅要保存搜集起來(lái)的信息,還要將它們按照一定的規(guī)則進(jìn)行編排。這樣,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的資料。想象一下,如果信息是不按任何規(guī)則地隨意堆放在搜索引擎的數(shù)據(jù)庫(kù)中,那么它每次找資料都得把整個(gè)資料庫(kù)完全翻查一遍,如此一來(lái)再快的計(jì)算機(jī)系統(tǒng)也沒(méi)有用。

  3、接受查詢(xún):用戶(hù)向搜索引擎發(fā)出查詢(xún),搜索引擎接受查詢(xún)并向用戶(hù)返回資料。搜索引擎每時(shí)每刻都要接到來(lái)自大量用戶(hù)的幾乎是同時(shí)發(fā)出的查詢(xún),它按照每個(gè)用戶(hù)的要求檢查自己的索引,在極短時(shí)間內(nèi)找到用戶(hù)需要的資料,并返回給用戶(hù)。目前,搜索引擎返回主要是以網(wǎng)頁(yè)鏈接的形式提供的,這樣通過(guò)這些鏈接,用戶(hù)便能到達(dá)含有自己所需資料的網(wǎng)頁(yè)。通常搜索引擎會(huì)在這些鏈接下提供一小段來(lái)自這些網(wǎng)頁(yè)的摘要信息以幫助用戶(hù)判斷此網(wǎng)頁(yè)是否含有自己需要的內(nèi)容。

  整理信息及接受查詢(xún)的過(guò)程,大量應(yīng)用了文本信息檢索技術(shù),并根據(jù)網(wǎng)絡(luò)超文本的特點(diǎn),引入了更多的信息。

5.搜索引擎的分類(lèi)

  1、全文索引

  全文搜索引擎是名副其實(shí)的搜索引擎,國(guó)外代表有Google,國(guó)內(nèi)則有著名的百度搜索。它們從互聯(lián)網(wǎng)提取各個(gè)網(wǎng)站的信息(以網(wǎng)頁(yè)文字為主),建立起數(shù)據(jù)庫(kù),并能檢索與用戶(hù)查詢(xún)條件相匹配的記錄,按一定的排列順序返回結(jié)果。

  根據(jù)搜索結(jié)果來(lái)源的不同,全文搜索引擎可分為兩類(lèi),一類(lèi)擁有自己的檢索程序(Indexer),俗稱(chēng)“蜘蛛”(Spider)程序或“機(jī)器人”(Robot)程序,能自建網(wǎng)頁(yè)數(shù)據(jù)庫(kù),搜索結(jié)果直接從自身的數(shù)據(jù)庫(kù)中調(diào)用,上面提到的Google和百度就屬于此類(lèi);另一類(lèi)則是租用其他搜索引擎的數(shù)據(jù)庫(kù),并按自定的格式排列搜索結(jié)果,如Lycos搜索引擎。

  2、目錄索引

  目錄索引雖然有搜索功能,但嚴(yán)格意義上不能稱(chēng)為真正的搜索引擎,只是按目錄分類(lèi)的網(wǎng)站鏈接列表而已。用戶(hù)完全可以按照分類(lèi)目錄找到所需要的信息,不依靠關(guān)鍵詞(Keywords)進(jìn)行查詢(xún)。目錄索引中最具代表性的莫過(guò)于大名鼎鼎的Yahoo、新浪分類(lèi)目錄搜索。

  3、元搜索引擎

  元搜索引擎(META Search Engine)接受用戶(hù)查詢(xún)請(qǐng)求后,同時(shí)在多個(gè)搜索引擎上搜索,并將結(jié)果返回給用戶(hù)。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來(lái)源排列搜索結(jié)果,如Dogpile;有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo。

  4、其他非主流搜索引擎形式

  1)集合式搜索引擎:該搜索引擎類(lèi)似元搜索引擎,區(qū)別在于它并非同時(shí)調(diào)用多個(gè)搜索引擎進(jìn)行搜索,而是由用戶(hù)從提供的若干搜索引擎中選擇,如HotBot在2002年底推出的搜索引擎。

  2)門(mén)戶(hù)搜索引擎:AOL Search、MSN Search等雖然提供搜索服務(wù),但自身既沒(méi)有分類(lèi)目錄也沒(méi)有網(wǎng)頁(yè)數(shù)據(jù)庫(kù),其搜索結(jié)果完全來(lái)自其他搜索引擎。

  3)免費(fèi)鏈接列表(Free For All Links,簡(jiǎn)稱(chēng)FFA):一般只簡(jiǎn)單地滾動(dòng)鏈接條目,少部分有簡(jiǎn)單的分類(lèi)目錄,不過(guò)規(guī)模要比Yahoo!等目錄索引小很多。

6.搜索引擎的商務(wù)模式

  在搜索引擎發(fā)展早期,多是作為技術(shù)提供商為其他網(wǎng)站提供搜索服務(wù),網(wǎng)站付錢(qián)給搜索引擎。后來(lái),隨著2001年互聯(lián)網(wǎng)泡沫的破滅,大多轉(zhuǎn)向?yàn)楦?jìng)價(jià)排名方式。

  現(xiàn)在搜索引擎的主流商務(wù)模式(百度的競(jìng)價(jià)排名、Google的AdWords)都是在搜索結(jié)果頁(yè)面放置廣告,通過(guò)用戶(hù)的點(diǎn)擊向廣告主收費(fèi)。這種模式最早是比爾·格羅斯(Bill Gross)提出的。他于1998年6月創(chuàng)立GoTo公司(后于2001年9月更名為Overture),實(shí)施這種模式,取得了很大的成功,并且申請(qǐng)了專(zhuān)利。這種模式有兩個(gè)特點(diǎn),一是點(diǎn)擊付費(fèi)(Pay Per Click),用戶(hù)不點(diǎn)擊則廣告主不用付費(fèi)。二是競(jìng)價(jià)排序,根據(jù)廣告主的付費(fèi)多少排列結(jié)果。2001年10月,Google推出AdWords,也采用點(diǎn)擊付費(fèi)和競(jìng)價(jià)的方式。2002年,Overture起訴Google侵犯了其專(zhuān)利。2004年8月,和Yahoo!(Yahoo!于2003年7月收購(gòu)Overture)達(dá)成和解,向后者支付了270萬(wàn)普通股(合3億美元不到)作為和解費(fèi)。

  AdSense是Google于2003年推出的一種新的廣告方式。AdSense使各種規(guī)模的的第三方網(wǎng)頁(yè)發(fā)布者進(jìn)入Google龐大的廣告商網(wǎng)絡(luò)。Google在這些第三方網(wǎng)頁(yè)放置跟網(wǎng)頁(yè)內(nèi)容相關(guān)的廣告,當(dāng)瀏覽者點(diǎn)擊這些廣告時(shí),網(wǎng)頁(yè)發(fā)布者能獲得收入。AdSense在blogger中很受歡迎。同時(shí),Google武斷地刪除一些帳號(hào),引起部分人的不滿。類(lèi)似的廣告方式,其他搜索引擎也先后推出。雅虎的廣告方式是YPN(Yahoo Publisher Network),YPN除了可以在網(wǎng)頁(yè)上顯示與內(nèi)容相關(guān)的廣告以外,還可以通過(guò)在RSS訂閱中來(lái)顯示廣告。微軟的廣告計(jì)劃叫AdCenter。百度也推出主題推廣。

7.搜索引擎的未來(lái)展望

  隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)上可以搜尋的網(wǎng)頁(yè)變得愈來(lái)愈多,而網(wǎng)頁(yè)內(nèi)容的質(zhì)素亦變得良莠不齊,沒(méi)有保證。所以,未來(lái)的搜索引擎將會(huì)朝著知識(shí)型搜索引擎的方向發(fā)展,期以為搜尋者提供更準(zhǔn)確及適用的資料。目前,網(wǎng)上的百科全書(shū)如雨后春筍般發(fā)展起來(lái);另一方面,近年來(lái)亦有不少公司嘗試在搜尋方面改進(jìn),務(wù)求更符合用戶(hù)的要求。當(dāng)中諸如Copernic Agent之類(lèi)的搜尋代理就是其中之一。

  在臺(tái)灣,威知資訊(WebGenie)是利用文字探勘(Text Mining)技術(shù)發(fā)展搜尋引擎產(chǎn)品的公司,利用人工智能算法,可達(dá)成目前搜尋引擎所缺乏的簡(jiǎn)易人機(jī)互動(dòng)模式,諸如關(guān)聯(lián)字提示、動(dòng)態(tài)分類(lèi)字提示等,算是較另類(lèi)的搜尋引擎產(chǎn)品。

評(píng)論  |   0條評(píng)論