登錄

非結構化信息

百科 > 信息類型 > 非結構化信息

1.什么是非結構化信息

非結構化信息 指信息的形式相對不固定,常常是各種格式的文件。它是相對結構化信息而言的,從宏觀上看也是結構化信息的一種形式。諸如電子文檔、電子郵件、網(wǎng)頁、視頻文件、多媒體等.

2.結構化信息與非結構化信息

對于來源繁多的信息資料,專業(yè)人士根據(jù)信息的格式加以劃分,將其分為結構化信息和非結構化信息兩大類。

結構化信息是可以數(shù)字化的數(shù)據(jù)信息,可以方便地通過計算機和數(shù)據(jù)庫技術進行管理。無法完全數(shù)字化的信息稱為非結構化信息,如文檔文件、圖片、圖紙資料 、縮微膠片等。這些資源中擁有大量的有價值的信息?,F(xiàn)在這類非結構化信息正以成倍的速度增長。

另一種定義:

結構化信息,我們通常接觸的數(shù)據(jù)庫所管理的信息,包括生產、業(yè)務、交易、客戶信息等方面的記錄。非結構化信息,專業(yè)術語為內容,所涵蓋的信息更為廣泛,可分為:營運內容(operational content):如合約、發(fā)票、書信與采購記錄;部門內容(workgroup content):如文書處理、電子表格、簡報檔案與電子郵件;Web內容:如HTML與XML等格式的信息;多媒體內容(Rich Media Content):如聲音、影片、圖形等。

如果說結構化信息更多的忠實、詳實地記錄了企業(yè)的生產交易活動,是顯性的表示,那么非結構化信息則隱性包含了掌握著企業(yè)命脈的關鍵,隱含著許多提高企業(yè)效益的機會。對于企業(yè)來說,企業(yè)內部,以及企業(yè)與供應商、客戶、合作伙伴和員工數(shù)字化共享所有形式的數(shù)據(jù)資源,已越來越重要。

90%的信息和知識在“結構化”世界之外,IT應用中還存在著一個“非結構化”的世界。對大多數(shù)企業(yè)來說,ERP等業(yè)務系統(tǒng)所管理的結構化數(shù)據(jù)只占到企業(yè)全部信息和知識的10%左右,其他的90%都是數(shù)據(jù)庫難以存取到的非結構化信息和知識。來自IDC的分析顯示,雖然很多企業(yè)投資不菲建立了諸多業(yè)務支撐系統(tǒng),但仍有72%的管理者認為知識沒有在他們的組織得到重復利用,88%的人認為他們沒有接觸到企業(yè)最佳實踐的機會。Gartner 也曾預言,對非結構化信息和知識的管理將會帶來一個新IT應用潮流。

目前的非結構化信息處理類似于上世紀70年代以前的結構化信息應用。割裂、無法進行數(shù)據(jù)互操作的應用是其主流。以人們最常用的文檔軟件來看,DOC文檔是MS WORD與WPS的專用格式,永中、中文2000等OFFICE產品廠商則各有各的“自留地”。這種情況下,由于文檔格式的束縛而使信息四分五裂,信息流無法通暢流轉,信息處理更加困難,信息資源因為“信息流的不通暢”而喪失了其應有的巨大價值。

從非結構化到半結構化,從半結構化到結構化,從結構化到關聯(lián)數(shù)據(jù)體系,從關聯(lián)數(shù)據(jù)體系到數(shù)據(jù)挖掘,從數(shù)據(jù)挖掘到故事化呈現(xiàn),從故事化呈現(xiàn)到決策導向。

互連網(wǎng)上出現(xiàn)的海量信息,大概分為結構化、半結構化和非結構化三種。結構化信息如電子商務信息,信息的性質和量值的出現(xiàn)的位置是固定的;半結構化的信息如專業(yè)網(wǎng)站上的細分頻道,其標題和正文的語法相當規(guī)范,關鍵詞的范圍相當局限;非結構化的信息如BLOG和BBS,所有內容都是不可預知的。

結構化信息和非結構化信息是 IT應用的兩個世界,它們有著各自不同的應用進化特點和規(guī)律。但是,這兩個世界之間還缺少相互連接的橋梁,而這種缺失使企業(yè)中不可避免地存在“活動”、“ 信息和知識”的分離,其后果就是:雖然它們都在進行著“知識化”的努力,但兩個世界分離的IT應用模式,注定使其難以真正實現(xiàn)它們的初衷——“在最合適的時間,將最合適的信息傳送給最合適的人”。

3.構建非結構化信息產業(yè)

中國的軟件產業(yè)無法在結構化信息產業(yè)中獲得主動地位,但歷史并不會停留在這一個領域內。整個信息產業(yè)還有更大的市場有待開發(fā):這就是非結構化信息應用。

通俗地說,結構化信息是一些可以用表格來描述的信息。除此之外還有大量的文檔、流媒體信息等非結構化信息。但事實上,現(xiàn)實社會中,非結構化信息占據(jù)著80%以上的份額。這部分信息目前仍處于低效率的處理階段,它給世界信息產業(yè)發(fā)展留下了空間,也給中國軟件產業(yè)的跨越式發(fā)展帶來了契機。

目前的非結構化信息處理仍處于類似于上世紀70年代以前的結構化信息應用。割裂地、無法進行數(shù)據(jù)互操作的應用是它的主流。以人們最常用的文檔軟件來看,DOC文檔是MS WORD與WPS的專用格式,永中、中文2000等OFFICE產品廠商則各有各的“自留地”。這種情況下,由于文檔格式的束縛而使信息四分五裂,信息流無法通暢流轉,信息處理更加困難。我們可以想象,有多少信息資源因為“信息流的不通暢”而喪失了其應有的巨大價值。

基于諸如此類的問題和現(xiàn)狀,文檔庫技術的成展成為信息產業(yè)下一步發(fā)展不可避免的潮流。文檔庫產業(yè)也將成為一個比數(shù)據(jù)庫產業(yè)更加重要的核心產業(yè),關系到信息技術的發(fā)展進程。文檔庫技術應用意味著文檔信息可以像結構化信息應用操作一樣,文檔信息的構建只要符合一個特定的數(shù)學模型,并設計一種可以對所有符合這種數(shù)學模型的文檔進行各種操作的標準,文檔應用軟件就可以對所有此類文檔進行相應的操作——就像一個ERP軟件通過SQL操作關系型數(shù)據(jù)庫時可以不必去考慮你底層用的是DB2還是ORACLE一樣。

一個令人振奮的消息是,北京書生公司近日宣布推出了其SEP文檔庫技術,并已經形成可以實際應用的文檔模型描述和相應的操作標準——UOML(Unstructured Operation Markup Language,非結構化操作標記語言)。這意味著,中國的企業(yè)有可能成為非結構化信息產業(yè)發(fā)展中核心技術的持有者和標準的制訂者。

可以想象,占整個信息領域20%的結構化信息產業(yè)發(fā)展帶來了超過千億美元量級的產業(yè),那么,占整個信息領域80%的非結構化信息產業(yè)一旦走上正軌,它將帶來怎樣的市場機會。這是很多人不敢想象的數(shù)字!

按照書生董事長王東臨教授的介紹,由書生公司發(fā)起的UOML聯(lián)盟已經啟動,TRS、中文2000、漢王、中科院軟件所、中標、中科啟信、星火燎原等國內的 IT企業(yè)已加入其中,理光、Fatwire、Autonomy等單位也均有意向加入聯(lián)盟,正在洽談過程中。作為計劃推進的一部分,加入UOML聯(lián)盟的企業(yè)將首先實現(xiàn)相關操作的互操作問題。如10家聯(lián)盟企業(yè)有各自的文檔處理軟件,以往這10種軟件所保存的文檔無法被其他軟件操作,而加入聯(lián)盟后的這10種軟件可以操作其他任何一個軟件生成的文檔。由于文檔庫及UOML的應用,這些軟件完成這種改造只需要一兩個小時到一個星期的開發(fā)工作(視操作功能而定)?!氨热缙渲杏幸患壹尤肼?lián)盟的企業(yè)只是想讓他的軟件可以打開符合UOML標準的文檔,那他只需要花一天去修改他的軟件?!?

這既是文檔庫技術給文檔信息處理帶來的巨大優(yōu)勢,也是推動非結構化信息產業(yè)發(fā)展的關鍵。

評論  |   0條評論