信息可視化
目錄
1.什么是信息可視化
信息可視化是由斯圖爾特·卡德(Stuart K.Card)、約克·麥金利(Jock D.Mackinlay)和喬治·羅伯遜(George G.Robertson)于1989年提出的,它是一個(gè)跨學(xué)科領(lǐng)域,旨在研究大規(guī)模非數(shù)值型信息資源的視覺呈現(xiàn),如軟件系統(tǒng)之中眾多的文件或者一行行的程序代碼,以及利用圖形學(xué)的技術(shù)與方法幫助人們理解和分析數(shù)據(jù)口。
信息可視化將數(shù)據(jù)信息和知識(shí)轉(zhuǎn)化為一種視覺形式,充分利用人們對(duì)可視模式快速識(shí)別的自然能力。從某種層面上說,任何事物都可認(rèn)為是一類信息:圖形、表格、地圖以及一些加了文本的流程圖,都能為人們提供一種信息傳遞的方式或手段,甚至能表現(xiàn)出隱喻的事情。[1]
2.信息可視化的產(chǎn)生背景[2]
信息可視化起源于多個(gè)方面。首先是1786年蘇格蘭政治經(jīng)濟(jì)學(xué)家W.Playfair在圖形數(shù)據(jù)方面的工作,他也許是最早利用線和面等可視化表示數(shù)據(jù)的人。從此,產(chǎn)生了用圖形表示數(shù)據(jù)的經(jīng)典方法。1967年,一位法國(guó)制圖工作者J.Bertin發(fā)表了他們的圖形理論。這一理論指明了圖表的基本元素,描述了圖表的設(shè)計(jì)框架。1983年美國(guó)耶魯大學(xué)統(tǒng)計(jì)學(xué)教授E.R.TuRe發(fā)表了數(shù)據(jù)圖理論。Bertin與TuRe的理論在許多領(lǐng)域是著名的和有影響的,這引起了信息可視化的大發(fā)展。在信息可視化的發(fā)展過程中,科學(xué)可視化的產(chǎn)生與發(fā)展起了決定性的推動(dòng)作用。“信息可視化”這一術(shù)語最早出現(xiàn)在1989年G.Rob—e~son、S.Card與J.Mackinlay的論文中, 目前信息可視化已成為一個(gè)與科學(xué)可視化并列的研究領(lǐng)域。
3.信息可視化的應(yīng)用領(lǐng)域[2]
1.信息可視化應(yīng)用的分類。馬里蘭大學(xué)教授本·施奈德曼(Ben Shneiderman)把數(shù)據(jù)分成以下七類:一維數(shù)據(jù)(1一D)、二維數(shù)據(jù)(2-D)、三維數(shù)據(jù)(3一D)、多維數(shù)據(jù)(multidimensiona1)、時(shí)態(tài)數(shù)據(jù)(TemporaD、層次數(shù)據(jù)(tree)、和網(wǎng)絡(luò)數(shù)據(jù)(Network)。信息可視化方法根據(jù)不同的數(shù)據(jù)也可劃分為以下七類:
(1)一維信息可視化。一維信息是簡(jiǎn)單的線性信息,如文本,或者一列數(shù)字。最通常的一維信息可能就是文本文獻(xiàn)了。在很多情況下,可視化文本文獻(xiàn)不是必要的,因?yàn)樗鼈兛梢匀菀椎乇煌暾喿x,或者閱讀所需要的特定部分。然而,在某些情況下,我們需要借助可視化技術(shù)增加文本信息的有效性。
(2)二維信息可視化。在信息可視化環(huán)境中,二維信息是指包括兩個(gè)主要屬性的信息。寬度和高度可以描述事物的大小,事物在x軸和Y軸的位置表示了它在空間的定位。城市地圖和建筑平面圖都屬于二維信息可視化。
(3)三維信息可視化。三維信息通過引入體積的概念超越了二維信息。許多科學(xué)計(jì)算可視化都是三維信息可視化,因?yàn)榭茖W(xué)計(jì)算可視化的主要目的就是表示現(xiàn)實(shí)的三維物體。計(jì)算機(jī)模型可以讓科學(xué)家模擬試驗(yàn)、操作那些現(xiàn)實(shí)世界中代價(jià)昂貴、實(shí)施困難、非常危險(xiǎn)或者是現(xiàn)實(shí)世界中不可能進(jìn)行的事情。
(4)多維信息可視化。多維信息是指在信息可視化環(huán)境中的那些具有超過3個(gè)屬性的信息,在可視化中,這些屬性的重要性是相當(dāng)重要的。
(5)時(shí)間序列信息可視化。有些信息自身具有時(shí)間屬性,可以稱為時(shí)間序列信息。比如,一部小說或者新聞就可以有時(shí)間線。學(xué)者Liddy建立了一個(gè)從文本信息中抽取時(shí)間信息的系統(tǒng)SHESS。該系統(tǒng)自動(dòng)生成一個(gè)知識(shí)庫(kù),這個(gè)知識(shí)庫(kù)聚集了關(guān)于任何已命名的實(shí)體(人、方位、事件、組織、公司或者思想觀念)的信息,并且按照時(shí)間序列組織這些知識(shí),這個(gè)時(shí)間序列覆蓋了知識(shí)庫(kù)的整個(gè)周期。
(6)層次信息可視化。抽象信息之間的一種最普遍關(guān)系就是層次關(guān)系,如磁盤目錄結(jié)構(gòu)、文檔管理、圖書分類等。傳統(tǒng)的描述層次信息的方法就是將其組織成一個(gè)類似于樹的節(jié)點(diǎn)連接表示。這種表示結(jié)構(gòu)簡(jiǎn)單直觀,但是,對(duì)于大型的層次結(jié)構(gòu)而言,樹形結(jié)構(gòu)的分支很快就會(huì)擁擠交織在一起,變得混亂不堪,這主要是因?yàn)閷哟谓Y(jié)構(gòu)在橫向(每層節(jié)點(diǎn)的個(gè)數(shù))和縱向(層次結(jié)構(gòu)的層數(shù))擴(kuò)展的不成比例造成的。
(7)網(wǎng)絡(luò)信息可視化。目前,Web的信息不計(jì)其數(shù),這些信息分布在遍及世界各地的數(shù)以萬計(jì)的網(wǎng)站上,網(wǎng)站通過文檔之間的超鏈接彼此交織在一起。不論Web現(xiàn)在的規(guī)模有多大,它還將繼續(xù)膨脹。
2.數(shù)字圖書館可視化。自美國(guó)科學(xué)家9O年代初提出了數(shù)字圖書館概念后,以驅(qū)動(dòng)多媒體海量數(shù)字信息組織與互聯(lián)網(wǎng)應(yīng)用問題各方面研究的技術(shù)領(lǐng)域開始在全球迅速發(fā)展起來。將信息可視化技術(shù)引入到數(shù)字圖書館領(lǐng)域,解決信息需求與服務(wù)的個(gè)性化,信息提供的個(gè)性化等問題,可以通過信息可視化嘗試解決發(fā)展問題。這一領(lǐng)域主要關(guān)于信息檢索過程可視化和信息結(jié)果可視化。用戶作為信息使用者的同時(shí)也是信息構(gòu)建者,通過增加檢索路徑到信息空間,這些增加的路徑給其他用戶檢索其他路徑提供了有價(jià)值的信息。
4.信息可視化的發(fā)展前景[2]
1.可視化數(shù)據(jù)挖掘(Data-mining vi suaI ization)。
信息可視化不僅用圖像來顯示多維的非空間數(shù)據(jù),使用戶加深對(duì)數(shù)據(jù)含義的理解,而且用形象直觀的圖像來指引檢索過程,加快檢索速度。在信息可視化中,顯示的對(duì)象主要是多維的標(biāo)量數(shù)據(jù),目前的研究重點(diǎn)在于,設(shè)計(jì)和選擇什么樣的顯示方式才能便于用戶了解龐大的多維數(shù)據(jù)及它們相互之間的關(guān)系,其中更多地涉及心理學(xué)、機(jī)交互技術(shù)等問題。可視化數(shù)據(jù)挖掘是一個(gè)使用可視化技術(shù)在大量的數(shù)據(jù)中發(fā)現(xiàn)潛在有用知識(shí)的過程,它可以將許多數(shù)據(jù)同時(shí)顯示在屏幕上,并將每一個(gè)數(shù)據(jù)值映射成屏幕的一個(gè)像素。像素的顏色對(duì)應(yīng)于每個(gè)數(shù)據(jù)值或是數(shù)據(jù)值與給定查詢值之間的差值。在這種技術(shù)中,用戶由可視化的視覺反饋指導(dǎo)并且能更快地研究數(shù)據(jù)庫(kù)中數(shù)據(jù)的眾多特性??梢暬瘮?shù)據(jù)挖掘的關(guān)鍵技術(shù)主要包括三個(gè)方面,即交互性技術(shù)、選擇查詢技術(shù)和可視化模型。目前,可視化數(shù)據(jù)挖掘主要有兩種分類系統(tǒng),一種是Keim提出的分類體系,另外一種是Card提出的分類體系,下面分別介紹這兩種分類體系的具體內(nèi)容:
(1)Keim的分類體系。Keim等人將面向多變量和多維信息的可視化數(shù)據(jù)挖掘技術(shù)分為六大類,包括:一是像素導(dǎo)向(Pixel-based)技術(shù);二是幾何映射(Geometric projecfion)技術(shù);三是圖標(biāo)技術(shù)(Icon-based):四是分層技術(shù);五是圖形技術(shù);六是混合技術(shù)。
(2)Card的分類體系。Card等人根據(jù)信息可視化的類型將可視化數(shù)據(jù)挖掘技術(shù)分為四個(gè)層次。最高層的可視化工具可以為用戶提供在其運(yùn)行環(huán)境之外(如在Intemet或在線服務(wù)器上收集)進(jìn)行信息收集的可視化途徑;第二層可視化工具旨在通過創(chuàng)建信息工作空間的快速獲取和高度交互的可視化表示來支持用戶執(zhí)行任務(wù)。第三層是可視化的知識(shí)工具,描述數(shù)據(jù)的可視化表達(dá),它提供了一個(gè)控制集用以與這些可視化的表達(dá)進(jìn)行交互,這就使用戶能夠確定并提取數(shù)據(jù)的關(guān)系。第四層次是增強(qiáng)的可視化對(duì)象,它的目標(biāo)在于揭示對(duì)象內(nèi)部的一些本質(zhì)信息。
2.可視化技術(shù)在空間信息挖掘中的應(yīng)用。
空間數(shù)據(jù)挖掘通常以地圖應(yīng)用為主,通常表現(xiàn)為地理現(xiàn)象的分布規(guī)律、聚類規(guī)律、發(fā)展演變規(guī)律、相連共生的關(guān)聯(lián)規(guī)則等;而應(yīng)用數(shù)據(jù)挖掘在GIS遙感影象解譯中,由于同物異譜和同譜異物的存在,單純依靠光譜值知識(shí)的統(tǒng)計(jì)分類和特征提取難以滿足要求,如果能將空間目標(biāo)的關(guān)聯(lián)知識(shí)考慮進(jìn)去,可以大大提高自動(dòng)化和準(zhǔn)確程度。由此可見,數(shù)據(jù)挖掘與GIS集成可以根據(jù)不同的研究?jī)?nèi)容分為面向空間要素的數(shù)據(jù)挖掘、面向非空間要素的數(shù)據(jù)挖掘和空間要素信息與非空間要素信息的聯(lián)合數(shù)據(jù)挖掘。根據(jù)不同的類型,所選的可視化技術(shù)也不相同,需要根據(jù)實(shí)際情況決定采用何種可視化數(shù)據(jù)挖掘技術(shù)。面向空間要素的數(shù)據(jù)挖掘主要是挖掘空間實(shí)體間的空間關(guān)系、空間規(guī)則和特征信息,主要從兩種數(shù)據(jù)挖掘的粒度—— 基于目標(biāo)實(shí)體和柵格來考慮的。面向非空間要素的數(shù)據(jù)挖掘是對(duì)經(jīng)過空間化后的數(shù)據(jù)在非空間層次進(jìn)行一般的數(shù)據(jù)挖掘,即建立在對(duì)GIS所管理的空間實(shí)體所對(duì)應(yīng)的屬性信息的數(shù)據(jù)挖掘,然后利用GIS對(duì)所挖掘的結(jié)果進(jìn)行表達(dá),是一種較低層次的數(shù)據(jù)挖掘與GIS集成應(yīng)用??臻g要素和屬性信息關(guān)聯(lián)的空間數(shù)據(jù)挖掘不同于前兩者的數(shù)據(jù)挖掘集成,它的研究?jī)?nèi)容不僅僅局限于對(duì)地理要素的空間位置和空間關(guān)系的研究,而還包括對(duì)空間現(xiàn)象(四季變換、溫度變化、刮風(fēng)降水)、空間因素(高山、谷地、平原)、空間組成(土壤、地貌、植被、水域、礦產(chǎn))、空間活動(dòng)(動(dòng)物變遷、人類活動(dòng)、水土流失、沙漠侵蝕)等的研究,力圖從中揭示出相互影響的內(nèi)在機(jī)制與規(guī)律。
3.KM可視化。
(1)知識(shí)管理體系。所謂的“知識(shí)工作者”(Knowledge worker)最主要的任務(wù)之一,就是如何在做決策前已具備或搜集到所需知識(shí)。而如何利用網(wǎng)絡(luò)資源和信息技術(shù)手段,系統(tǒng)地搜尋知識(shí)、整理知識(shí)、組織知識(shí)、并最終有效地加以利用則是知識(shí):作者必備的技能。但是純粹以文字組織知識(shí)不僅困難而且無法展現(xiàn)其全貌。特別是對(duì)隱性知識(shí),用純文字的紀(jì)錄很難說將知識(shí)片段間錯(cuò)綜復(fù)雜的關(guān)聯(lián)說清楚。思考大師狄波諾認(rèn)為,避免人類浯言造成的僵化,有一個(gè)很好的辦法,就是在思考的時(shí)候,腦海里盡量多用“圖形”少用文字。一個(gè)完整的知識(shí)管理體系應(yīng)該包括:知識(shí)收集、知識(shí)提煉、知識(shí)存儲(chǔ)和知識(shí)應(yīng)用四個(gè)階段。這是個(gè)循環(huán)往復(fù),螺旋上升的過程,借助可視化方法表現(xiàn)它, 可以幫助我們更準(zhǔn)確地理解它們的相互關(guān)系,并尋找和發(fā)現(xiàn)新的可視化“隱喻”來表示知識(shí)。如前所述,知識(shí)收集,知識(shí)提煉,知識(shí)存儲(chǔ)和知識(shí)應(yīng)用是知識(shí)管理因?yàn)椤半[性知識(shí)”要能夠轉(zhuǎn)化為“顯性知識(shí)”才能夠被紀(jì)錄保存,這個(gè)過程叫做隱形知識(shí)的“表達(dá)外化”;而“顯性知識(shí)”則經(jīng)過人類大腦的綜合組織,被作為“隱形知識(shí)’而保存在腦中。知識(shí)形態(tài)之間的轉(zhuǎn)化,需要一種視覺化模型來表達(dá)和呈現(xiàn),就好比UML(Unified Modeling Language; 統(tǒng)一建模語言)作為一種可視化建模語言,被用作軟件開發(fā)流程中的分析和設(shè)計(jì)階段一樣。
(2)幾種已有的知識(shí)可視化工具。一是概念圖(Concept Map)。概念圖是康乃爾大學(xué)的諾瓦克(J.D.Noval0 博士(Novak,J.D.&Gowin,D.B,1984)根據(jù)奧蘇貝爾(David P.Ausube1)的有意義學(xué)習(xí)理論提出的一種教學(xué)技術(shù)。它通常將某一主題的有關(guān)概念置于圓圈或方框之中,然后用連線將相關(guān)的概念和命題連接,連線上標(biāo)明兩個(gè)概念之間的意義關(guān)系。二是思維導(dǎo)圖(Mind Map)。思維導(dǎo)圖最初是20世紀(jì)60年代英國(guó)人托尼·巴贊(Tony Buzan)(1999)創(chuàng)造的一種筆記方法。托尼·巴贊認(rèn)為思維導(dǎo)圖是對(duì)發(fā)散性思維的表達(dá),因此也是人類思維的自然功能,是打開大腦潛能的萬能鑰匙,可以應(yīng)用于生活的各個(gè)方面。三是認(rèn)知地圖(Cogui.tiveMaps)。認(rèn)知地圖也被稱為因果圖(CausalMaps),是由Ackerman&Eden(2001)提出的,它將“想法”(ideas)作為節(jié)點(diǎn),并將其相互連接起來。
(3)可視化知識(shí)建模語言KML(Knowl—edge Modeling Language)。如何在浩瀚信息海洋中獲取自己所需的知識(shí),進(jìn)而進(jìn)行有效的管理并最終利用知識(shí)創(chuàng)造價(jià)值是知識(shí)管理的重要目標(biāo)。而如何構(gòu)建良好的知識(shí)模型來存儲(chǔ)和表達(dá)所需的知識(shí),是知識(shí)創(chuàng)造價(jià)值過程的關(guān)鍵因素。針對(duì)這種需求,提出了可記錄隱性知識(shí)的可視化知識(shí)建模語言(KML),通過使用可視化知識(shí)建模語言人們可以將內(nèi)在的知識(shí)記錄轉(zhuǎn)化為圖形化的文檔,從而得以展現(xiàn)知識(shí)的全貌,而知識(shí)的使用也變得更加直觀和有效。
4.信息可視化商品。目前,信息可視化技術(shù)的產(chǎn)品化、商品化趨勢(shì)已經(jīng)顯露出來??偟膩碚f,信息可視化技術(shù)商品化有兩種模式:一種是將信息可視化技術(shù)轉(zhuǎn)化為信息可視化產(chǎn)品,如treemap、theBrain、1N—SP1RETM等;另一種是信息可視化技術(shù)與現(xiàn)有軟件結(jié)合,即信息可視化技術(shù)被其他軟件采納,作為其他軟件的構(gòu)件而存在,可視化技術(shù)在商務(wù)智能中的應(yīng)用就屬于這種模式。
5.信息可視化與科學(xué)可視化的區(qū)別[3]
科學(xué)可視化是空間數(shù)據(jù)場(chǎng)的可視化。它是人們?yōu)榱嗽谟?jì)算過程、數(shù)據(jù)處理流程中了解數(shù)據(jù)的變化情況,通過圖形、圖像、圖表以及其他可視化手段來檢查、分析處理結(jié)果數(shù)據(jù)的過程。在科學(xué)可視化中,顯示的對(duì)象涉及標(biāo)量、矢量及張量等不同類別的空間數(shù)據(jù),研究的重點(diǎn)放在如何真實(shí)、快速地顯示三維數(shù)據(jù)場(chǎng)。信息可視化則是指非空間(非結(jié)構(gòu))數(shù)據(jù)的可視化,它主要是用圖像來顯示多維的非空間信息,使用戶加深對(duì)信息含義的理解,同時(shí)利用圖像的形象直觀性來指引檢索過程,加快檢索速度。在信息可視化中,顯示的對(duì)象主要是多維的標(biāo)量數(shù)據(jù),其研究重點(diǎn)在于:設(shè)計(jì)和選擇什么樣的顯示方式才能便于用戶了解龐大的多維數(shù)據(jù)及它們相互之間的關(guān)系,這其中更多地涉及心理學(xué)知識(shí)、人機(jī)交互技術(shù)等問題。從圖形生成的角度來看,信息可視化難度要小于科學(xué)計(jì)算可視化。但是,從心理學(xué)和人機(jī)交互的角度來說,它是一個(gè)還未曾進(jìn)行過充分研究的新領(lǐng)域。
現(xiàn)在將科學(xué)可視化與信息可視化的具體區(qū)別總結(jié)如下。見下表:
科學(xué)可視化 | 信息可視化 | |
---|---|---|
目標(biāo)任務(wù) | 深入理解自然界中實(shí)際存在的科學(xué)現(xiàn)象 | 搜索、發(fā)現(xiàn)信息之間的關(guān)系和信息中隱藏的模式 |
數(shù)據(jù)來源 | 計(jì)算和工作測(cè)量中的數(shù)據(jù) | 大型數(shù)據(jù)庫(kù)中的數(shù)據(jù) |
數(shù)據(jù)類型 | 具有物理、幾何屬性的結(jié)構(gòu)化數(shù)據(jù)、仿真數(shù)據(jù)等 | 非結(jié)構(gòu)化數(shù)據(jù)、各種沒有幾何屬性的抽象數(shù)據(jù) |
處理過程 | 數(shù)據(jù)預(yù)處理一映射(構(gòu)模)一繪制和顯示 | 信息獲取一知識(shí)信息多維顯示一知識(shí)信息分析與挖掘 |
研究重點(diǎn) | 如何將具有幾何屬性的科學(xué)數(shù)據(jù)真實(shí)地表現(xiàn)在計(jì)算機(jī)屏幕上,它主要涉及計(jì)算機(jī)圖形圖像等問題題,圖形質(zhì)量是其核心問題 | 如何繪制所關(guān)注對(duì)象的可視化屬性等問題,更重要的問題是是把非空間抽象信息映射為有效的可視化形式,尋找合適的可視化隱喻。 |
主要的應(yīng)用方法 | 線狀圖、直方圖、等值線(面)、繪制、體繪制技術(shù) | 幾何技術(shù)、基于圖標(biāo)的技術(shù)、面向象素的、分級(jí)技術(shù)等 |
面向的用戶 | 高層次的、訓(xùn)練有素的專家 | 非技術(shù)人員、普通用戶 |
應(yīng)用領(lǐng)域 | 醫(yī)學(xué)、地質(zhì)、氣象、流體力學(xué)等 | 信息管理、商業(yè),金融等 |