登錄

信息過濾

1.什么是信息過濾

  信息過濾是大規(guī)模內(nèi)容處理的另一種典型應(yīng)用。它是對陸續(xù)到達(dá)的信息進(jìn)行過濾操作,將符合用戶需求的信息保留,將不符合用戶需求的信息過濾掉。通常可分為不良信息過濾和個性化信息過濾:不良信息過濾一般指過濾掉暴力反動色情等信息;個性化信息過濾類似于信息檢索,幫助用戶返回感興趣的東西。

2.信息過濾的理論背景[1]

  信息過濾,也就是所謂的信息的選擇性傳播。與信息檢索不同,信息過濾關(guān)注用戶的長線需求(指在一段時間內(nèi),比較固定的信息需求),是為非結(jié)構(gòu)化及半結(jié)構(gòu)化的數(shù)據(jù)設(shè)計的,主要用來處理文本信息。其目標(biāo)是幫助用戶處理大量的信息,對動態(tài)的信息流進(jìn)行篩選,著重于排除用戶不希望得到的信息,基于用戶概型(profile)從輸入的信息流中濾掉數(shù)據(jù)。在信息過濾中,用戶的需求表示成概型,一個概型是一個數(shù)據(jù)結(jié)構(gòu),通常包括一組主題,用以描述用戶感興趣的主題。根據(jù)概型對進(jìn)入系統(tǒng)的文章流進(jìn)行評價(ranking),用戶在瀏覽結(jié)果時,提供相關(guān)反饋并及時更新概型。由于反饋的存在,機(jī)器學(xué)習(xí)的方法在信息過濾中已得到廣泛的重視,其中主要的方法有:Bayes學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法、決策樹、KNN、SVM等。

  信息過濾和信息檢索如同同一硬幣的正反面。大部分信息過濾的的早期研究基于這樣的一種設(shè)想:有效的信息檢索技術(shù)同樣也是有效的信息過濾技術(shù)。許多過濾方法建立在過去成功的檢索方法基礎(chǔ)之上的,如標(biāo)引、匹配等。1996年Callan等對這一觀點提出了挑戰(zhàn),其思想為:為了設(shè)計和評價有效的信息過濾和信息檢索系統(tǒng),需要不同的技術(shù)和評價方法。尤其是與信息檢索相比,信息過濾需要經(jīng)過相關(guān)反饋學(xué)習(xí)的更復(fù)雜的技術(shù),因此憑借用戶提供的最少量的信息來預(yù)知用戶需求是很重要的。一個需要進(jìn)行長期和痛苦培訓(xùn)的信息過濾系統(tǒng),即使具有過濾性能,也認(rèn)為是無效的;只有過濾性能良好,同時只需要進(jìn)行簡短培訓(xùn)的過濾系統(tǒng)才是有效的。

3.信息過濾的必要性[2]

  面對互聯(lián)網(wǎng)上豐富的信息時,我們希望檢索到的文獻(xiàn)都是我們所需要的。然而,浩如煙海的信息海洋讓人不知所措,超文本的鏈接方式又常讓人誤入歧途,有悖初衷。信息過濾能讓用戶根據(jù)自己的需求,主動選擇服務(wù)項目與內(nèi)容,通過過濾機(jī)制,快速找到所需的信息。另外用戶自主進(jìn)行的過濾,可增加帶寬,減少信息的盲流, 避免塞車現(xiàn)象,使網(wǎng)絡(luò)傳輸更加通暢。

  隨著機(jī)讀型信息的大量增加,信息檢索的性質(zhì)也大大改變。信息檢索系統(tǒng)的使用者面臨兩個方面的問題:文獻(xiàn)數(shù)量的急劇增加與它們各自在質(zhì)量上的巨大差異。日益嚴(yán)重的文獻(xiàn)的不均衡性(質(zhì)量、類型、記錄手段等)意味著用戶現(xiàn)在比以往更需要對文獻(xiàn)進(jìn)行過濾的工具和幫助他們選擇相關(guān)文獻(xiàn)的工具。

4.信息過濾的三種類型[2]

  Malone,et al.(1987)描述了信息過濾的三種類型:認(rèn)識(或內(nèi)容)過濾、經(jīng)濟(jì)過濾和社會群體推薦篩選過濾三種信息過濾形式?;趦?nèi)容的過濾在信息檢索方面占據(jù)主導(dǎo)地位---其典型特征是建立基于關(guān)鍵詞的用戶檔案。經(jīng)濟(jì)過濾將變得與電子貨幣、安全支付等技術(shù)同等重要。第三種類型即社會群體推薦篩選過濾已從原來的理論研究(強(qiáng)調(diào)信息發(fā)送者的身份特征的重要性)轉(zhuǎn)到具體的研究計劃和一些正在應(yīng)用的系統(tǒng)。這些系統(tǒng)正在使社會群體推薦過濾機(jī)制很大程度上建立在用戶評分加權(quán)的基礎(chǔ)上---用戶根據(jù)事先確定的標(biāo)準(zhǔn)對一篇文獻(xiàn)進(jìn)行打分。

5.信息過濾的意義[1]

  1.改善Internet信息查詢技術(shù)的需要

  隨著用戶對信息利用效率要求的提高,以搜索引擎為主的現(xiàn)有網(wǎng)絡(luò)查詢技術(shù)受到了挑戰(zhàn),網(wǎng)絡(luò)用戶的信息需求與現(xiàn)有的信息查詢技術(shù)之間的矛盾日益尖銳,其不足主要有如下幾方面:

  (1)在使用搜索引擎時,只要使用的關(guān)鍵詞相同,所得到的結(jié)果就相同,它并不考慮用戶的信息偏好和用戶的不同,對專家和初學(xué)者一視同仁,同時返回的結(jié)果成千上萬良莠不齊,使得用戶在尋找自己喜歡的信息時有如大海撈針;

  (2)網(wǎng)絡(luò)信息是動態(tài)變化的,用戶時常關(guān)心這種變化。而在搜索引擎中,用戶只能不斷地在網(wǎng)絡(luò)上查詢同樣的內(nèi)容,以獲得變化的信息,這花費了用戶大量的時間。

  因此,在現(xiàn)有情況下,傳統(tǒng)的信息查詢技術(shù)已經(jīng)難以滿足用戶的信息需求,對信息過濾技術(shù)的研究日益受到重視,把信息過濾技術(shù)用于Internet信息查詢已成為非常重要的研究方向。

  2.個性化服務(wù)的基礎(chǔ)

  個性化的實質(zhì)是針對性,即對不同的用戶采取不同的服務(wù)策略,提供不同的服務(wù)內(nèi)容。個性化服務(wù)將使用戶以最少的代價獲得最好的服務(wù)。在信息服務(wù)領(lǐng)域,就是實現(xiàn)“信息找人,按需要服務(wù)”的目標(biāo)。既然是“信息找人”,那什么信息找什么人就是關(guān)鍵。每個用戶都有自己特定的、長期起作用的信息需求。用這些信息需求組成過濾條件,對資源流進(jìn)行過濾,就可以把資源流中符合需求的內(nèi)容提取出來進(jìn)行服務(wù)。這種做法就叫做“信息過濾”,信息過濾是個性化主動服務(wù)的基礎(chǔ)。

  3.維護(hù)我國信息安全的的迫切需要

  網(wǎng)絡(luò)為信息的傳遞帶來了極大的方便,也為機(jī)密信息的流出和對我國政治、經(jīng)濟(jì)、文化等有害信息的流入帶來了便利。發(fā)達(dá)國家通過網(wǎng)絡(luò)進(jìn)行政治滲透和價值觀、生活方式的推銷,一些不法分子利用計算機(jī)網(wǎng)絡(luò)復(fù)制、傳播和查閱一些色情的、種族主義的、暴力的、封建迷信或有明顯意識形態(tài)傾向的信息。我國80%的網(wǎng)民在35歲以下;80%的網(wǎng)民具有大專以上文化學(xué)歷,而這兩個80%正是我們國家建設(shè)發(fā)展的主力軍。所以,中國的信息安全問題已迫在眉睫,必須引起我們高度警惕和重視,而信息過濾是行之有效的防范手段。目前主要通過過濾軟件及分級制度對來往信息尤其是越境數(shù)據(jù)流進(jìn)行過濾,將不宜出口的保密或?qū)氋F信息資源留在國內(nèi),將不符合國情或有害信息擋在網(wǎng)絡(luò)之外,其中用的較多的為Internet接收控制軟件和因特網(wǎng)內(nèi)容選擇平臺PICS(Platform for theInternet Content Selection)。

  4.信息中介(信息服務(wù)供應(yīng)商)開展網(wǎng)絡(luò)增值服務(wù)的手段

  信息中介行業(yè)的發(fā)展要經(jīng)過建立最初的客戶資料庫、建立標(biāo)準(zhǔn)豐富檔案內(nèi)容和利用客戶檔案獲取價值三個階段。其中第一階段和第三階段的主要服務(wù)重點都涉及到信息過濾服務(wù)。過濾服務(wù)過濾掉客戶不想要的推銷信息,信息中介將建立一個過濾器以檢查流入的帶有商業(yè)性的電子郵件,然后自動剔除與客戶的需要和偏好不相符的不受歡迎的信息??蛻艨商崆爸付ㄋ麄兿虢?jīng)過過濾服務(wù)得到的信息或經(jīng)過過濾服務(wù)排除出去的任何種類的經(jīng)銷商或產(chǎn)品。對于不受歡迎的垃圾信息,信息中介將會在客戶得到之前把他們過濾掉。

  在網(wǎng)絡(luò)環(huán)境下,盡量減少無效數(shù)據(jù)的傳輸對于節(jié)省網(wǎng)絡(luò)資源、提高網(wǎng)絡(luò)傳輸效率具有十分重要的意義。通過信息過濾,可減少不必要的信息傳輸,節(jié)省費用,提高經(jīng)濟(jì)效益。

評論  |   0條評論