登錄

非結(jié)構(gòu)化信息

百科 > 信息類型 > 非結(jié)構(gòu)化信息

1.什么是非結(jié)構(gòu)化信息

非結(jié)構(gòu)化信息 指信息的形式相對(duì)不固定,常常是各種格式的文件。它是相對(duì)結(jié)構(gòu)化信息而言的,從宏觀上看也是結(jié)構(gòu)化信息的一種形式。諸如電子文檔、電子郵件、網(wǎng)頁(yè)、視頻文件、多媒體等.

2.結(jié)構(gòu)化信息與非結(jié)構(gòu)化信息

對(duì)于來(lái)源繁多的信息資料,專業(yè)人士根據(jù)信息的格式加以劃分,將其分為結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息兩大類。

結(jié)構(gòu)化信息是可以數(shù)字化的數(shù)據(jù)信息,可以方便地通過(guò)計(jì)算機(jī)和數(shù)據(jù)庫(kù)技術(shù)進(jìn)行管理。無(wú)法完全數(shù)字化的信息稱為非結(jié)構(gòu)化信息,如文檔文件、圖片、圖紙資料 、縮微膠片等。這些資源中擁有大量的有價(jià)值的信息?,F(xiàn)在這類非結(jié)構(gòu)化信息正以成倍的速度增長(zhǎng)。

另一種定義:

結(jié)構(gòu)化信息,我們通常接觸的數(shù)據(jù)庫(kù)所管理的信息,包括生產(chǎn)、業(yè)務(wù)、交易、客戶信息等方面的記錄。非結(jié)構(gòu)化信息,專業(yè)術(shù)語(yǔ)為內(nèi)容,所涵蓋的信息更為廣泛,可分為:營(yíng)運(yùn)內(nèi)容(operational content):如合約、發(fā)票、書信與采購(gòu)記錄;部門內(nèi)容(workgroup content):如文書處理、電子表格、簡(jiǎn)報(bào)檔案與電子郵件;Web內(nèi)容:如HTML與XML等格式的信息;多媒體內(nèi)容(Rich Media Content):如聲音、影片、圖形等。

如果說(shuō)結(jié)構(gòu)化信息更多的忠實(shí)、詳實(shí)地記錄了企業(yè)的生產(chǎn)交易活動(dòng),是顯性的表示,那么非結(jié)構(gòu)化信息則隱性包含了掌握著企業(yè)命脈的關(guān)鍵,隱含著許多提高企業(yè)效益的機(jī)會(huì)。對(duì)于企業(yè)來(lái)說(shuō),企業(yè)內(nèi)部,以及企業(yè)與供應(yīng)商、客戶、合作伙伴和員工數(shù)字化共享所有形式的數(shù)據(jù)資源,已越來(lái)越重要。

90%的信息和知識(shí)在“結(jié)構(gòu)化”世界之外,IT應(yīng)用中還存在著一個(gè)“非結(jié)構(gòu)化”的世界。對(duì)大多數(shù)企業(yè)來(lái)說(shuō),ERP等業(yè)務(wù)系統(tǒng)所管理的結(jié)構(gòu)化數(shù)據(jù)只占到企業(yè)全部信息和知識(shí)的10%左右,其他的90%都是數(shù)據(jù)庫(kù)難以存取到的非結(jié)構(gòu)化信息和知識(shí)。來(lái)自IDC的分析顯示,雖然很多企業(yè)投資不菲建立了諸多業(yè)務(wù)支撐系統(tǒng),但仍有72%的管理者認(rèn)為知識(shí)沒有在他們的組織得到重復(fù)利用,88%的人認(rèn)為他們沒有接觸到企業(yè)最佳實(shí)踐的機(jī)會(huì)。Gartner 也曾預(yù)言,對(duì)非結(jié)構(gòu)化信息和知識(shí)的管理將會(huì)帶來(lái)一個(gè)新IT應(yīng)用潮流。

目前的非結(jié)構(gòu)化信息處理類似于上世紀(jì)70年代以前的結(jié)構(gòu)化信息應(yīng)用。割裂、無(wú)法進(jìn)行數(shù)據(jù)互操作的應(yīng)用是其主流。以人們最常用的文檔軟件來(lái)看,DOC文檔是MS WORD與WPS的專用格式,永中、中文2000等OFFICE產(chǎn)品廠商則各有各的“自留地”。這種情況下,由于文檔格式的束縛而使信息四分五裂,信息流無(wú)法通暢流轉(zhuǎn),信息處理更加困難,信息資源因?yàn)椤靶畔⒘鞯牟煌〞场倍鴨适Я似鋺?yīng)有的巨大價(jià)值。

從非結(jié)構(gòu)化到半結(jié)構(gòu)化,從半結(jié)構(gòu)化到結(jié)構(gòu)化,從結(jié)構(gòu)化到關(guān)聯(lián)數(shù)據(jù)體系,從關(guān)聯(lián)數(shù)據(jù)體系到數(shù)據(jù)挖掘,從數(shù)據(jù)挖掘到故事化呈現(xiàn),從故事化呈現(xiàn)到?jīng)Q策導(dǎo)向。

互連網(wǎng)上出現(xiàn)的海量信息,大概分為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化三種。結(jié)構(gòu)化信息如電子商務(wù)信息,信息的性質(zhì)和量值的出現(xiàn)的位置是固定的;半結(jié)構(gòu)化的信息如專業(yè)網(wǎng)站上的細(xì)分頻道,其標(biāo)題和正文的語(yǔ)法相當(dāng)規(guī)范,關(guān)鍵詞的范圍相當(dāng)局限;非結(jié)構(gòu)化的信息如BLOG和BBS,所有內(nèi)容都是不可預(yù)知的。

結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息是 IT應(yīng)用的兩個(gè)世界,它們有著各自不同的應(yīng)用進(jìn)化特點(diǎn)和規(guī)律。但是,這兩個(gè)世界之間還缺少相互連接的橋梁,而這種缺失使企業(yè)中不可避免地存在“活動(dòng)”、“ 信息和知識(shí)”的分離,其后果就是:雖然它們都在進(jìn)行著“知識(shí)化”的努力,但兩個(gè)世界分離的IT應(yīng)用模式,注定使其難以真正實(shí)現(xiàn)它們的初衷——“在最合適的時(shí)間,將最合適的信息傳送給最合適的人”。

3.構(gòu)建非結(jié)構(gòu)化信息產(chǎn)業(yè)

中國(guó)的軟件產(chǎn)業(yè)無(wú)法在結(jié)構(gòu)化信息產(chǎn)業(yè)中獲得主動(dòng)地位,但歷史并不會(huì)停留在這一個(gè)領(lǐng)域內(nèi)。整個(gè)信息產(chǎn)業(yè)還有更大的市場(chǎng)有待開發(fā):這就是非結(jié)構(gòu)化信息應(yīng)用。

通俗地說(shuō),結(jié)構(gòu)化信息是一些可以用表格來(lái)描述的信息。除此之外還有大量的文檔、流媒體信息等非結(jié)構(gòu)化信息。但事實(shí)上,現(xiàn)實(shí)社會(huì)中,非結(jié)構(gòu)化信息占據(jù)著80%以上的份額。這部分信息目前仍處于低效率的處理階段,它給世界信息產(chǎn)業(yè)發(fā)展留下了空間,也給中國(guó)軟件產(chǎn)業(yè)的跨越式發(fā)展帶來(lái)了契機(jī)。

目前的非結(jié)構(gòu)化信息處理仍處于類似于上世紀(jì)70年代以前的結(jié)構(gòu)化信息應(yīng)用。割裂地、無(wú)法進(jìn)行數(shù)據(jù)互操作的應(yīng)用是它的主流。以人們最常用的文檔軟件來(lái)看,DOC文檔是MS WORD與WPS的專用格式,永中、中文2000等OFFICE產(chǎn)品廠商則各有各的“自留地”。這種情況下,由于文檔格式的束縛而使信息四分五裂,信息流無(wú)法通暢流轉(zhuǎn),信息處理更加困難。我們可以想象,有多少信息資源因?yàn)椤靶畔⒘鞯牟煌〞场倍鴨适Я似鋺?yīng)有的巨大價(jià)值。

基于諸如此類的問(wèn)題和現(xiàn)狀,文檔庫(kù)技術(shù)的成展成為信息產(chǎn)業(yè)下一步發(fā)展不可避免的潮流。文檔庫(kù)產(chǎn)業(yè)也將成為一個(gè)比數(shù)據(jù)庫(kù)產(chǎn)業(yè)更加重要的核心產(chǎn)業(yè),關(guān)系到信息技術(shù)的發(fā)展進(jìn)程。文檔庫(kù)技術(shù)應(yīng)用意味著文檔信息可以像結(jié)構(gòu)化信息應(yīng)用操作一樣,文檔信息的構(gòu)建只要符合一個(gè)特定的數(shù)學(xué)模型,并設(shè)計(jì)一種可以對(duì)所有符合這種數(shù)學(xué)模型的文檔進(jìn)行各種操作的標(biāo)準(zhǔn),文檔應(yīng)用軟件就可以對(duì)所有此類文檔進(jìn)行相應(yīng)的操作——就像一個(gè)ERP軟件通過(guò)SQL操作關(guān)系型數(shù)據(jù)庫(kù)時(shí)可以不必去考慮你底層用的是DB2還是ORACLE一樣。

一個(gè)令人振奮的消息是,北京書生公司近日宣布推出了其SEP文檔庫(kù)技術(shù),并已經(jīng)形成可以實(shí)際應(yīng)用的文檔模型描述和相應(yīng)的操作標(biāo)準(zhǔn)——UOML(Unstructured Operation Markup Language,非結(jié)構(gòu)化操作標(biāo)記語(yǔ)言)。這意味著,中國(guó)的企業(yè)有可能成為非結(jié)構(gòu)化信息產(chǎn)業(yè)發(fā)展中核心技術(shù)的持有者和標(biāo)準(zhǔn)的制訂者。

可以想象,占整個(gè)信息領(lǐng)域20%的結(jié)構(gòu)化信息產(chǎn)業(yè)發(fā)展帶來(lái)了超過(guò)千億美元量級(jí)的產(chǎn)業(yè),那么,占整個(gè)信息領(lǐng)域80%的非結(jié)構(gòu)化信息產(chǎn)業(yè)一旦走上正軌,它將帶來(lái)怎樣的市場(chǎng)機(jī)會(huì)。這是很多人不敢想象的數(shù)字!

按照書生董事長(zhǎng)王東臨教授的介紹,由書生公司發(fā)起的UOML聯(lián)盟已經(jīng)啟動(dòng),TRS、中文2000、漢王、中科院軟件所、中標(biāo)、中科啟信、星火燎原等國(guó)內(nèi)的 IT企業(yè)已加入其中,理光、Fatwire、Autonomy等單位也均有意向加入聯(lián)盟,正在洽談過(guò)程中。作為計(jì)劃推進(jìn)的一部分,加入U(xiǎn)OML聯(lián)盟的企業(yè)將首先實(shí)現(xiàn)相關(guān)操作的互操作問(wèn)題。如10家聯(lián)盟企業(yè)有各自的文檔處理軟件,以往這10種軟件所保存的文檔無(wú)法被其他軟件操作,而加入聯(lián)盟后的這10種軟件可以操作其他任何一個(gè)軟件生成的文檔。由于文檔庫(kù)及UOML的應(yīng)用,這些軟件完成這種改造只需要一兩個(gè)小時(shí)到一個(gè)星期的開發(fā)工作(視操作功能而定)。“比如其中有一家加入聯(lián)盟的企業(yè)只是想讓他的軟件可以打開符合UOML標(biāo)準(zhǔn)的文檔,那他只需要花一天去修改他的軟件。”

這既是文檔庫(kù)技術(shù)給文檔信息處理帶來(lái)的巨大優(yōu)勢(shì),也是推動(dòng)非結(jié)構(gòu)化信息產(chǎn)業(yè)發(fā)展的關(guān)鍵。

評(píng)論  |   0條評(píng)論