登錄

搜索引擎

1.什么是搜索引擎

  搜索引擎是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序搜集互聯(lián)網(wǎng)上的信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)。因特網(wǎng)上的信息浩瀚萬千,而且毫無秩序,所有的信息象汪洋上的一個(gè)個(gè)小島,網(wǎng)頁鏈接是這些小島之間縱橫交錯(cuò)的橋梁,而搜索引擎,則為用戶繪制一幅一目了然的信息地圖,供用戶隨時(shí)查閱。

  從使用者的角度看,搜索引擎提供一個(gè)包含搜索框的頁面,在搜索框輸入詞語,通過瀏覽器提交給搜索引擎后,搜索引擎就會(huì)返回跟用戶輸入的內(nèi)容相關(guān)的信息列表。

  互聯(lián)網(wǎng)發(fā)展早期,以雅虎為代表的網(wǎng)站分類目錄查詢非常流行。網(wǎng)站分類目錄由人工整理維護(hù),精選互聯(lián)網(wǎng)上的優(yōu)秀網(wǎng)站,并簡要描述,分類放置到不同目錄下。用戶查詢時(shí),通過一層層的點(diǎn)擊來查找自己想找的網(wǎng)站。也有人把這種基于目錄的檢索服務(wù)網(wǎng)站稱為搜索引擎,但從嚴(yán)格意義上講,它并不是搜索引擎。

2.搜索引擎的歷史

  1990年初當(dāng)時(shí)萬維網(wǎng)還未出現(xiàn),為了查詢散布在各個(gè)分散的主機(jī)中的文件,曾有過Archie、Gopher等搜索工具,隨著互聯(lián)網(wǎng)的迅速發(fā)展,基于HTTP訪問的web技術(shù)的迅速普及,他們就不再能適應(yīng)用戶的需要。在1994年1月,第一個(gè)既可搜索又可瀏覽的分類目錄EINet Galaxy(Tradewave Galaxy)上線,它還支持Gopher和Telnet搜索。同年4月,Yahoo目錄誕生,隨著訪問量和收錄鏈接數(shù)的增長,開始支持簡單的數(shù)據(jù)庫查詢。這就是我們說的早期的目錄導(dǎo)航系統(tǒng),他們的缺點(diǎn)是網(wǎng)站收錄/更新都要靠人工維護(hù),所以在信息量劇增的條件下,就不是非常受用了。

  1994年7月,Lycos推出了基于robot的數(shù)據(jù)發(fā)掘技術(shù),并支持搜索結(jié)果相關(guān)性排序,并且他第一個(gè)開始在搜索結(jié)果中使用了網(wǎng)頁自動(dòng)摘要。Infoseek也是同時(shí)期的一個(gè)重要代表,他們是搜索引擎史上一個(gè)重要的進(jìn)步。

  1995年,一種新的搜索引擎工具出現(xiàn)了——元搜索引擎,第一個(gè)元搜索引擎是華盛頓大學(xué)的學(xué)生開發(fā)的Metacrawler。用戶只需提交一次搜索請(qǐng)求,由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個(gè)預(yù)先選定的獨(dú)立搜索引擎,并將從各獨(dú)立搜索引擎返回的所有查詢結(jié)果,集中起來處理后再返回給用戶。

  1995年12月才登場亮相的AltaVista推出了大量的創(chuàng)新功能使它迅速到達(dá)當(dāng)時(shí)搜索引擎的頂峰,它第一個(gè)支持自然語言搜索的搜索引擎,具備了基于網(wǎng)頁內(nèi)容分析,智能處理的能力,第一個(gè)實(shí)現(xiàn)高級(jí)搜索語法的搜索引擎(如AND、OR、NOT等),同時(shí)AltaVista還支持搜索新聞群組,搜索圖片等具有劃時(shí)代意義的功能。同時(shí)期還有inktomi、HotBot等搜索引擎。

  1997年8月Northernlight公司正式推出搜索引擎,它第一個(gè)支持對(duì)搜索結(jié)果進(jìn)行簡單的自動(dòng)分類,也是當(dāng)時(shí)擁有最大數(shù)據(jù)庫的搜索引擎之一。

  1998年10月,Google(中文名谷歌)誕生。它是目前世界上最流行的搜索引擎之一,具備很多獨(dú)特而且優(yōu)秀的功能,并且在界面等實(shí)現(xiàn)了革命性創(chuàng)新。

  1999年5月,F(xiàn)ast(Alltheweb)公司發(fā)布了自己的搜索引擎AllTheWeb,它的網(wǎng)頁搜索可利用ODP自動(dòng)分類,支持Flash和pdf搜索,支持多語言搜索,還提供新聞搜索、圖像搜索、視頻、MP3、和FTP搜索,擁有極其強(qiáng)大的高級(jí)搜索功能。它曾經(jīng)是最流行的搜索引擎之一,后在2003年2月被Overture收購。

  在中文搜索引擎領(lǐng)域,1996年8月成立的搜狐公司是最早參與作網(wǎng)絡(luò)信息分類導(dǎo)航的網(wǎng)站,曾一度有“出門找地圖,上網(wǎng)找搜狐的”美譽(yù)。由于其人工分類提交的局限性,隨著網(wǎng)絡(luò)信息的暴增,逐漸被基于robot自動(dòng)抓取智能分類的新一代信息技術(shù)取代。

  臺(tái)灣中正大學(xué)吳升教授所領(lǐng)導(dǎo)的GAIS實(shí)驗(yàn)室1998年1月創(chuàng)立了Openfind中文搜索引擎,是最早開發(fā)的中文智能搜索引擎,采用GAIS實(shí)驗(yàn)室推出多元排序(PolyRankTM)核心技術(shù),截止2002年6月,宣布累計(jì)抓取網(wǎng)頁35億,開始進(jìn)入英文搜索領(lǐng)域。

  北大天網(wǎng)是教育網(wǎng)最流行的搜索引擎,它由北大計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)研究室開發(fā),于1997年10月29日正式在CERNET上提供服務(wù), 2000年初成立天網(wǎng)搜索引擎新課題組,由國家973重點(diǎn)基礎(chǔ)研究發(fā)展規(guī)劃項(xiàng)目基金資助開發(fā),收錄網(wǎng)頁約6000萬,利用教育網(wǎng)優(yōu)勢(shì),有強(qiáng)大的ftp搜索功能。

  百度中文搜索由超鏈分析專利發(fā)明人、前Infoseek資深工程師李彥宏和好友徐勇2000年1月創(chuàng)建,目前支持網(wǎng)頁信息檢索、圖片、Flash、音樂等多媒體信息的檢索。并且百度在中文領(lǐng)域第一個(gè)開始使用ppc經(jīng)營模式。

  2002年開始很多公司受搜索市場前景和Google神話的吸引,積極進(jìn)入搜索引擎市場,謀求一席之地。但是不幸的是他們當(dāng)中很多公司尤其是不少中國公司采用流氓手段進(jìn)行自己搜索引擎的推廣工作,常用的手段是瀏覽器劫持、惡意捆綁adware/spyware等等。中搜是由慧聰國際主持開發(fā)的,自稱是搜索領(lǐng)域的后起之秀。目前處于起步階段,但是采用流氓軟件手段推廣后,強(qiáng)占了不少用戶的搜索引擎選擇。2003年年底慧聰搜索改名為中國搜索,推出第三代智能搜索引擎。最近中國搜索主推桌面搜索——網(wǎng)絡(luò)豬,是臭名昭著的流氓軟件之一。

  2003年11月,Yahoo全資收購3721公司。2005年8月,阿里巴巴和Yahoo達(dá)成戰(zhàn)略合作,全資收購雅虎中國,并更名為阿里巴巴雅虎,并將其業(yè)務(wù)重點(diǎn)全面轉(zhuǎn)向搜索領(lǐng)域。

  2004年8月3日,搜狐公司推出中文搜索引擎搜狗。

  2006年9月,微軟公司正式推出了擁有自主研發(fā)技術(shù)的Live Search,宣布進(jìn)軍搜索引擎市場,挑戰(zhàn)Google在網(wǎng)絡(luò)搜索領(lǐng)域的霸主地位。

  2006年12月,網(wǎng)易公司推出中文搜索引擎有道。

  2008年5月,整合搜索引擎搜索島誕生,融合百家之長,號(hào)稱中國最好的(山寨)搜索引擎,搜索島是一個(gè)面向用戶的以整合中國各個(gè)垂直領(lǐng)域最好的搜索引擎建立的。從用戶的角度,搜索島的體驗(yàn)非常不錯(cuò),故其得到了很多網(wǎng)友的喜愛。它的出現(xiàn)也是互聯(lián)網(wǎng)開放性的一個(gè)體現(xiàn),也給各大搜索引擎廠商一個(gè)啟迪,就是一切為用戶著想,要了解并滿足用戶真正的需要。

3.搜索引擎的組成

  搜索引擎一般由搜索器、索引器、檢索器和用戶接口四個(gè)部分組成:

  1、搜索器:其功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息。

  2、索引器:其功能是理解搜索器所搜索到的信息,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫的索引表。

  3、檢索器:其功能是根據(jù)用戶的查詢?cè)谒饕龓熘锌焖贆z索文檔,進(jìn)行相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果排序,并能按用戶的查詢需求合理反饋信息。

  4、用戶接口:其作用是接納用戶查詢、顯示查詢結(jié)果、提供個(gè)性化查詢項(xiàng)。

4.搜索引擎的工作原理

  搜索引擎的工作原理,大致可以分為:

  1、搜集信息:搜索引擎的信息搜集基本都是自動(dòng)的。搜索引擎利用稱為網(wǎng)絡(luò)蜘蛛的自動(dòng)搜索機(jī)器人程序來連上每一個(gè)網(wǎng)頁上的超連結(jié)。機(jī)器人程序根據(jù)網(wǎng)頁鏈到其他中的超鏈接,就象日常生活中所說的“一傳十,十傳百……”一樣,從少數(shù)幾個(gè)網(wǎng)頁開始,連到數(shù)據(jù)庫上所有到其他網(wǎng)頁的鏈接。理論上,若網(wǎng)頁上有適當(dāng)?shù)某B結(jié),機(jī)器人便可以遍歷絕大部分網(wǎng)頁。

  2、整理信息:搜索引擎整理信息的過程稱為“建立索引”。搜索引擎不僅要保存搜集起來的信息,還要將它們按照一定的規(guī)則進(jìn)行編排。這樣,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的資料。想象一下,如果信息是不按任何規(guī)則地隨意堆放在搜索引擎的數(shù)據(jù)庫中,那么它每次找資料都得把整個(gè)資料庫完全翻查一遍,如此一來再快的計(jì)算機(jī)系統(tǒng)也沒有用。

  3、接受查詢:用戶向搜索引擎發(fā)出查詢,搜索引擎接受查詢并向用戶返回資料。搜索引擎每時(shí)每刻都要接到來自大量用戶的幾乎是同時(shí)發(fā)出的查詢,它按照每個(gè)用戶的要求檢查自己的索引,在極短時(shí)間內(nèi)找到用戶需要的資料,并返回給用戶。目前,搜索引擎返回主要是以網(wǎng)頁鏈接的形式提供的,這樣通過這些鏈接,用戶便能到達(dá)含有自己所需資料的網(wǎng)頁。通常搜索引擎會(huì)在這些鏈接下提供一小段來自這些網(wǎng)頁的摘要信息以幫助用戶判斷此網(wǎng)頁是否含有自己需要的內(nèi)容。

  整理信息及接受查詢的過程,大量應(yīng)用了文本信息檢索技術(shù),并根據(jù)網(wǎng)絡(luò)超文本的特點(diǎn),引入了更多的信息。

5.搜索引擎的分類

  1、全文索引

  全文搜索引擎是名副其實(shí)的搜索引擎,國外代表有Google,國內(nèi)則有著名的百度搜索。它們從互聯(lián)網(wǎng)提取各個(gè)網(wǎng)站的信息(以網(wǎng)頁文字為主),建立起數(shù)據(jù)庫,并能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結(jié)果。

  根據(jù)搜索結(jié)果來源的不同,全文搜索引擎可分為兩類,一類擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機(jī)器人”(Robot)程序,能自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用,上面提到的Google和百度就屬于此類;另一類則是租用其他搜索引擎的數(shù)據(jù)庫,并按自定的格式排列搜索結(jié)果,如Lycos搜索引擎。

  2、目錄索引

  目錄索引雖然有搜索功能,但嚴(yán)格意義上不能稱為真正的搜索引擎,只是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以按照分類目錄找到所需要的信息,不依靠關(guān)鍵詞(Keywords)進(jìn)行查詢。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo、新浪分類目錄搜索。

  3、元搜索引擎

  元搜索引擎(META Search Engine)接受用戶查詢請(qǐng)求后,同時(shí)在多個(gè)搜索引擎上搜索,并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來源排列搜索結(jié)果,如Dogpile;有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo。

  4、其他非主流搜索引擎形式

  1)集合式搜索引擎:該搜索引擎類似元搜索引擎,區(qū)別在于它并非同時(shí)調(diào)用多個(gè)搜索引擎進(jìn)行搜索,而是由用戶從提供的若干搜索引擎中選擇,如HotBot在2002年底推出的搜索引擎。

  2)門戶搜索引擎:AOL Search、MSN Search等雖然提供搜索服務(wù),但自身既沒有分類目錄也沒有網(wǎng)頁數(shù)據(jù)庫,其搜索結(jié)果完全來自其他搜索引擎。

  3)免費(fèi)鏈接列表(Free For All Links,簡稱FFA):一般只簡單地滾動(dòng)鏈接條目,少部分有簡單的分類目錄,不過規(guī)模要比Yahoo!等目錄索引小很多。

6.搜索引擎的商務(wù)模式

  在搜索引擎發(fā)展早期,多是作為技術(shù)提供商為其他網(wǎng)站提供搜索服務(wù),網(wǎng)站付錢給搜索引擎。后來,隨著2001年互聯(lián)網(wǎng)泡沫的破滅,大多轉(zhuǎn)向?yàn)楦們r(jià)排名方式。

  現(xiàn)在搜索引擎的主流商務(wù)模式(百度的競價(jià)排名、Google的AdWords)都是在搜索結(jié)果頁面放置廣告,通過用戶的點(diǎn)擊向廣告主收費(fèi)。這種模式最早是比爾·格羅斯(Bill Gross)提出的。他于1998年6月創(chuàng)立GoTo公司(后于2001年9月更名為Overture),實(shí)施這種模式,取得了很大的成功,并且申請(qǐng)了專利。這種模式有兩個(gè)特點(diǎn),一是點(diǎn)擊付費(fèi)(Pay Per Click),用戶不點(diǎn)擊則廣告主不用付費(fèi)。二是競價(jià)排序,根據(jù)廣告主的付費(fèi)多少排列結(jié)果。2001年10月,Google推出AdWords,也采用點(diǎn)擊付費(fèi)和競價(jià)的方式。2002年,Overture起訴Google侵犯了其專利。2004年8月,和Yahoo!(Yahoo!于2003年7月收購Overture)達(dá)成和解,向后者支付了270萬普通股(合3億美元不到)作為和解費(fèi)。

  AdSense是Google于2003年推出的一種新的廣告方式。AdSense使各種規(guī)模的的第三方網(wǎng)頁發(fā)布者進(jìn)入Google龐大的廣告商網(wǎng)絡(luò)。Google在這些第三方網(wǎng)頁放置跟網(wǎng)頁內(nèi)容相關(guān)的廣告,當(dāng)瀏覽者點(diǎn)擊這些廣告時(shí),網(wǎng)頁發(fā)布者能獲得收入。AdSense在blogger中很受歡迎。同時(shí),Google武斷地刪除一些帳號(hào),引起部分人的不滿。類似的廣告方式,其他搜索引擎也先后推出。雅虎的廣告方式是YPN(Yahoo Publisher Network),YPN除了可以在網(wǎng)頁上顯示與內(nèi)容相關(guān)的廣告以外,還可以通過在RSS訂閱中來顯示廣告。微軟的廣告計(jì)劃叫AdCenter。百度也推出主題推廣。

7.搜索引擎的未來展望

  隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)上可以搜尋的網(wǎng)頁變得愈來愈多,而網(wǎng)頁內(nèi)容的質(zhì)素亦變得良莠不齊,沒有保證。所以,未來的搜索引擎將會(huì)朝著知識(shí)型搜索引擎的方向發(fā)展,期以為搜尋者提供更準(zhǔn)確及適用的資料。目前,網(wǎng)上的百科全書如雨后春筍般發(fā)展起來;另一方面,近年來亦有不少公司嘗試在搜尋方面改進(jìn),務(wù)求更符合用戶的要求。當(dāng)中諸如Copernic Agent之類的搜尋代理就是其中之一。

  在臺(tái)灣,威知資訊(WebGenie)是利用文字探勘(Text Mining)技術(shù)發(fā)展搜尋引擎產(chǎn)品的公司,利用人工智能算法,可達(dá)成目前搜尋引擎所缺乏的簡易人機(jī)互動(dòng)模式,諸如關(guān)聯(lián)字提示、動(dòng)態(tài)分類字提示等,算是較另類的搜尋引擎產(chǎn)品。

評(píng)論  |   0條評(píng)論