登錄

非結(jié)構(gòu)化信息

百科 > 信息類型 > 非結(jié)構(gòu)化信息

1.什么是非結(jié)構(gòu)化信息

非結(jié)構(gòu)化信息 指信息的形式相對不固定,常常是各種格式的文件。它是相對結(jié)構(gòu)化信息而言的,從宏觀上看也是結(jié)構(gòu)化信息的一種形式。諸如電子文檔、電子郵件、網(wǎng)頁、視頻文件、多媒體等.

2.結(jié)構(gòu)化信息與非結(jié)構(gòu)化信息

對于來源繁多的信息資料,專業(yè)人士根據(jù)信息的格式加以劃分,將其分為結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息兩大類。

結(jié)構(gòu)化信息是可以數(shù)字化的數(shù)據(jù)信息,可以方便地通過計算機和數(shù)據(jù)庫技術(shù)進行管理。無法完全數(shù)字化的信息稱為非結(jié)構(gòu)化信息,如文檔文件、圖片、圖紙資料 、縮微膠片等。這些資源中擁有大量的有價值的信息?,F(xiàn)在這類非結(jié)構(gòu)化信息正以成倍的速度增長。

另一種定義:

結(jié)構(gòu)化信息,我們通常接觸的數(shù)據(jù)庫所管理的信息,包括生產(chǎn)、業(yè)務(wù)、交易、客戶信息等方面的記錄。非結(jié)構(gòu)化信息,專業(yè)術(shù)語為內(nèi)容,所涵蓋的信息更為廣泛,可分為:營運內(nèi)容(operational content):如合約、發(fā)票、書信與采購記錄;部門內(nèi)容(workgroup content):如文書處理、電子表格、簡報檔案與電子郵件;Web內(nèi)容:如HTML與XML等格式的信息;多媒體內(nèi)容(Rich Media Content):如聲音、影片、圖形等。

如果說結(jié)構(gòu)化信息更多的忠實、詳實地記錄了企業(yè)的生產(chǎn)交易活動,是顯性的表示,那么非結(jié)構(gòu)化信息則隱性包含了掌握著企業(yè)命脈的關(guān)鍵,隱含著許多提高企業(yè)效益的機會。對于企業(yè)來說,企業(yè)內(nèi)部,以及企業(yè)與供應(yīng)商、客戶、合作伙伴和員工數(shù)字化共享所有形式的數(shù)據(jù)資源,已越來越重要。

90%的信息和知識在“結(jié)構(gòu)化”世界之外,IT應(yīng)用中還存在著一個“非結(jié)構(gòu)化”的世界。對大多數(shù)企業(yè)來說,ERP等業(yè)務(wù)系統(tǒng)所管理的結(jié)構(gòu)化數(shù)據(jù)只占到企業(yè)全部信息和知識的10%左右,其他的90%都是數(shù)據(jù)庫難以存取到的非結(jié)構(gòu)化信息和知識。來自IDC的分析顯示,雖然很多企業(yè)投資不菲建立了諸多業(yè)務(wù)支撐系統(tǒng),但仍有72%的管理者認為知識沒有在他們的組織得到重復(fù)利用,88%的人認為他們沒有接觸到企業(yè)最佳實踐的機會。Gartner 也曾預(yù)言,對非結(jié)構(gòu)化信息和知識的管理將會帶來一個新IT應(yīng)用潮流。

目前的非結(jié)構(gòu)化信息處理類似于上世紀(jì)70年代以前的結(jié)構(gòu)化信息應(yīng)用。割裂、無法進行數(shù)據(jù)互操作的應(yīng)用是其主流。以人們最常用的文檔軟件來看,DOC文檔是MS WORD與WPS的專用格式,永中、中文2000等OFFICE產(chǎn)品廠商則各有各的“自留地”。這種情況下,由于文檔格式的束縛而使信息四分五裂,信息流無法通暢流轉(zhuǎn),信息處理更加困難,信息資源因為“信息流的不通暢”而喪失了其應(yīng)有的巨大價值。

從非結(jié)構(gòu)化到半結(jié)構(gòu)化,從半結(jié)構(gòu)化到結(jié)構(gòu)化,從結(jié)構(gòu)化到關(guān)聯(lián)數(shù)據(jù)體系,從關(guān)聯(lián)數(shù)據(jù)體系到數(shù)據(jù)挖掘,從數(shù)據(jù)挖掘到故事化呈現(xiàn),從故事化呈現(xiàn)到?jīng)Q策導(dǎo)向。

互連網(wǎng)上出現(xiàn)的海量信息,大概分為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化三種。結(jié)構(gòu)化信息如電子商務(wù)信息,信息的性質(zhì)和量值的出現(xiàn)的位置是固定的;半結(jié)構(gòu)化的信息如專業(yè)網(wǎng)站上的細分頻道,其標(biāo)題和正文的語法相當(dāng)規(guī)范,關(guān)鍵詞的范圍相當(dāng)局限;非結(jié)構(gòu)化的信息如BLOG和BBS,所有內(nèi)容都是不可預(yù)知的。

結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息是 IT應(yīng)用的兩個世界,它們有著各自不同的應(yīng)用進化特點和規(guī)律。但是,這兩個世界之間還缺少相互連接的橋梁,而這種缺失使企業(yè)中不可避免地存在“活動”、“ 信息和知識”的分離,其后果就是:雖然它們都在進行著“知識化”的努力,但兩個世界分離的IT應(yīng)用模式,注定使其難以真正實現(xiàn)它們的初衷——“在最合適的時間,將最合適的信息傳送給最合適的人”。

3.構(gòu)建非結(jié)構(gòu)化信息產(chǎn)業(yè)

中國的軟件產(chǎn)業(yè)無法在結(jié)構(gòu)化信息產(chǎn)業(yè)中獲得主動地位,但歷史并不會停留在這一個領(lǐng)域內(nèi)。整個信息產(chǎn)業(yè)還有更大的市場有待開發(fā):這就是非結(jié)構(gòu)化信息應(yīng)用。

通俗地說,結(jié)構(gòu)化信息是一些可以用表格來描述的信息。除此之外還有大量的文檔、流媒體信息等非結(jié)構(gòu)化信息。但事實上,現(xiàn)實社會中,非結(jié)構(gòu)化信息占據(jù)著80%以上的份額。這部分信息目前仍處于低效率的處理階段,它給世界信息產(chǎn)業(yè)發(fā)展留下了空間,也給中國軟件產(chǎn)業(yè)的跨越式發(fā)展帶來了契機。

目前的非結(jié)構(gòu)化信息處理仍處于類似于上世紀(jì)70年代以前的結(jié)構(gòu)化信息應(yīng)用。割裂地、無法進行數(shù)據(jù)互操作的應(yīng)用是它的主流。以人們最常用的文檔軟件來看,DOC文檔是MS WORD與WPS的專用格式,永中、中文2000等OFFICE產(chǎn)品廠商則各有各的“自留地”。這種情況下,由于文檔格式的束縛而使信息四分五裂,信息流無法通暢流轉(zhuǎn),信息處理更加困難。我們可以想象,有多少信息資源因為“信息流的不通暢”而喪失了其應(yīng)有的巨大價值。

基于諸如此類的問題和現(xiàn)狀,文檔庫技術(shù)的成展成為信息產(chǎn)業(yè)下一步發(fā)展不可避免的潮流。文檔庫產(chǎn)業(yè)也將成為一個比數(shù)據(jù)庫產(chǎn)業(yè)更加重要的核心產(chǎn)業(yè),關(guān)系到信息技術(shù)的發(fā)展進程。文檔庫技術(shù)應(yīng)用意味著文檔信息可以像結(jié)構(gòu)化信息應(yīng)用操作一樣,文檔信息的構(gòu)建只要符合一個特定的數(shù)學(xué)模型,并設(shè)計一種可以對所有符合這種數(shù)學(xué)模型的文檔進行各種操作的標(biāo)準(zhǔn),文檔應(yīng)用軟件就可以對所有此類文檔進行相應(yīng)的操作——就像一個ERP軟件通過SQL操作關(guān)系型數(shù)據(jù)庫時可以不必去考慮你底層用的是DB2還是ORACLE一樣。

一個令人振奮的消息是,北京書生公司近日宣布推出了其SEP文檔庫技術(shù),并已經(jīng)形成可以實際應(yīng)用的文檔模型描述和相應(yīng)的操作標(biāo)準(zhǔn)——UOML(Unstructured Operation Markup Language,非結(jié)構(gòu)化操作標(biāo)記語言)。這意味著,中國的企業(yè)有可能成為非結(jié)構(gòu)化信息產(chǎn)業(yè)發(fā)展中核心技術(shù)的持有者和標(biāo)準(zhǔn)的制訂者。

可以想象,占整個信息領(lǐng)域20%的結(jié)構(gòu)化信息產(chǎn)業(yè)發(fā)展帶來了超過千億美元量級的產(chǎn)業(yè),那么,占整個信息領(lǐng)域80%的非結(jié)構(gòu)化信息產(chǎn)業(yè)一旦走上正軌,它將帶來怎樣的市場機會。這是很多人不敢想象的數(shù)字!

按照書生董事長王東臨教授的介紹,由書生公司發(fā)起的UOML聯(lián)盟已經(jīng)啟動,TRS、中文2000、漢王、中科院軟件所、中標(biāo)、中科啟信、星火燎原等國內(nèi)的 IT企業(yè)已加入其中,理光、Fatwire、Autonomy等單位也均有意向加入聯(lián)盟,正在洽談過程中。作為計劃推進的一部分,加入UOML聯(lián)盟的企業(yè)將首先實現(xiàn)相關(guān)操作的互操作問題。如10家聯(lián)盟企業(yè)有各自的文檔處理軟件,以往這10種軟件所保存的文檔無法被其他軟件操作,而加入聯(lián)盟后的這10種軟件可以操作其他任何一個軟件生成的文檔。由于文檔庫及UOML的應(yīng)用,這些軟件完成這種改造只需要一兩個小時到一個星期的開發(fā)工作(視操作功能而定)?!氨热缙渲杏幸患壹尤肼?lián)盟的企業(yè)只是想讓他的軟件可以打開符合UOML標(biāo)準(zhǔn)的文檔,那他只需要花一天去修改他的軟件。”

這既是文檔庫技術(shù)給文檔信息處理帶來的巨大優(yōu)勢,也是推動非結(jié)構(gòu)化信息產(chǎn)業(yè)發(fā)展的關(guān)鍵。

評論  |   0條評論