登錄

數(shù)據(jù)可視化

百科 > 信息管理術(shù)語 > 數(shù)據(jù)可視化

1.什么是數(shù)據(jù)可視化

  數(shù)據(jù)可視化是關(guān)于數(shù)據(jù)之視覺表現(xiàn)形式的研究;其中,這種數(shù)據(jù)的視覺表現(xiàn)形式被定義為一種以某種概要形式抽提出來的信息,包括相應信息單位的各種屬性和變量。

  數(shù)據(jù)可視化主要旨在借助于圖形化手段,清晰有效地傳達與溝通信息。但是,這并不就意味著,數(shù)據(jù)可視化就一定因為要實現(xiàn)其功能用途而令人感到枯燥乏味,或者是為了看上去絢麗多彩而顯得極端復雜。為了有效地傳達思想概念,美學形式與功能需要齊頭并進,通過直觀地傳達關(guān)鍵的方面與特征,從而實現(xiàn)對于相當稀疏而又復雜的數(shù)據(jù)集的深入洞察。然而,設計人員往往并不能很好地把握設計與功能之間的平衡,從而創(chuàng)造出華而不實的數(shù)據(jù)可視化形式,無法達到其主要目的,也就是傳達與溝通信息。

  數(shù)據(jù)可視化與信息圖形、信息可視化、科學可視化以及統(tǒng)計圖形密切相關(guān)。當前,在研究、教學和開發(fā)領域,數(shù)據(jù)可視化乃是一個極為活躍而又關(guān)鍵的方面?!皵?shù)據(jù)可視化”這條術(shù)語實現(xiàn)了成熟的科學可視化領域與較年輕的信息可視化領域的統(tǒng)一。

2.數(shù)據(jù)可視化的起源

  數(shù)據(jù)可視化領域的起源可以追溯到二十世紀50年代計算機圖形學的早期。當時,人們利用計算機創(chuàng)建出了首批圖形圖表。1987年,由布魯斯·麥考梅克、托馬斯·德房蒂和瑪克辛·布朗所編寫的美國國家科學基金會報告《Visualization in Scientific Computing》(意為“科學計算之中的可視化”),對于這一領域產(chǎn)生了大幅度的促進和刺激。這份報告之中強調(diào)了新的基于計算機的可視化技術(shù)方法的必要性。隨著計算機運算能力的迅速提升,人們建立了規(guī)模越來越大,復雜程度越來越高的數(shù)值模型,從而造就了形形色色體積龐大的數(shù)值型數(shù)據(jù)集。同時,人們不但利用醫(yī)學掃描儀和顯微鏡之類的數(shù)據(jù)采集設備產(chǎn)生大型的數(shù)據(jù)集,而且還利用可以保存文本、數(shù)值和多媒體信息的大型數(shù)據(jù)庫來收集數(shù)據(jù)。因而,就需要高級的計算機圖形學技術(shù)與方法來處理和可視化這些規(guī)模龐大的數(shù)據(jù)集。

  短語“Visualization in Scientific Computing”(意為“科學計算之中的可視化”)后來變成了“Scientific Visualization”(即“科學可視化”),而前者最初指的是作為科學計算之組成部分的可視化:也就是科學與工程實踐當中對于計算機建模和模擬的運用。更近一些的時候,可視化也日益尤為關(guān)注數(shù)據(jù),包括那些來自商業(yè)、財務、行政管理、數(shù)字媒體等方面的大型異質(zhì)性數(shù)據(jù)集合。二十世紀90年代初期,人們發(fā)起了一個新的,稱為“信息可視化”的研究領域,旨在為許多應用領域之中對于抽象的異質(zhì)性數(shù)據(jù)集的分析工作提供支持。因此,目前人們正在逐漸接受這個同時涵蓋科學可視化與信息可視化領域的新生術(shù)語“數(shù)據(jù)可視化”。

  自那時起,數(shù)據(jù)可視化就是一個處于不斷演變之中的概念,其邊界在不斷地擴大;因而,最好是對其加以寬泛的定義。數(shù)據(jù)可視化指的是技術(shù)上較為高級的技術(shù)方法,而這些技術(shù)方法允許利用圖形、圖像處理、計算機視覺以及用戶界面,通過表達、建模以及對立體、表面、屬性以及動畫的顯示,對數(shù)據(jù)加以可視化解釋。與立體建模之類的特殊技術(shù)方法相比,數(shù)據(jù)可視化所涵蓋的技術(shù)方法要廣泛得多。

3.數(shù)據(jù)可視化的適用范圍

  關(guān)于數(shù)據(jù)可視化的適用范圍,目前存在著不同的劃分方法。一個常見的關(guān)注焦點就是信息的呈現(xiàn)。例如,邁克爾·弗蘭德利(2008)提出了數(shù)據(jù)可視化的兩個主要的組成部分:統(tǒng)計圖形和主題圖。另外,《Data Visualization: Modern Approaches》(意為“數(shù)據(jù)可視化:現(xiàn)代方法”,2007)一文則概括闡述了數(shù)據(jù)可視化的下列主題:

  1.思維導圖

  2.新聞的顯示

  3.數(shù)據(jù)的顯示

  4.連接的顯示

  5.網(wǎng)站的顯示

  6.文章與資源

  7.工具與服務

  所有這些主題全都與圖形設計和信息表達密切相關(guān)。

  另一方面,F(xiàn)rits H. Post(2002)則從計算機科學的視角,將這一領域劃分為如下多個子領域:

  1.可視化算法與技術(shù)方法

  2.立體可視化

  3.信息可視化

  4.多分辨率方法

  5.建模技術(shù)方法

  6.交互技術(shù)方法與體系架構(gòu)

  數(shù)據(jù)可視化的成功應歸于其背后基本思想的完備性:依據(jù)數(shù)據(jù)及其內(nèi)在模式和關(guān)系,利用計算機生成的圖像來獲得深入認識和知識。其第二個前提就是利用人類感覺系統(tǒng)的廣闊帶寬來操縱和解釋錯綜復雜的過程、涉及不同學科領域的數(shù)據(jù)集以及來源多樣的大型抽象數(shù)據(jù)集合的模擬。這些思想和概念極其重要,對于計算科學與工程方法學以及管理活動都有著精深而又廣泛的影響?!禗ata Visualization: The State of the Art》(意為“數(shù)據(jù)可視化:尖端技術(shù)水平”)一書當中重點強調(diào)了各種應用領域與它們各自所特有的問題求解可視化技術(shù)方法之間的相互作用。

4.數(shù)據(jù)可視化的相關(guān)領域

  (1)數(shù)據(jù)采集

  數(shù)據(jù)采集(有時縮寫為DAQ或DAS),又稱為“數(shù)據(jù)獲取”或“數(shù)據(jù)收集”,是指對現(xiàn)實世界進行采樣,以便產(chǎn)生可供計算機處理的數(shù)據(jù)的過程。通常,數(shù)據(jù)采集過程之中包括為了獲得所需信息,對于信號和波形進行采集并對它們加以處理的步驟。數(shù)據(jù)采集系統(tǒng)的組成元件當中包括用于將測量參數(shù)轉(zhuǎn)換成為電信號的傳感器,而這些電信號則是由數(shù)據(jù)采集硬件來負責獲取的。

  (2)數(shù)據(jù)分析

  數(shù)據(jù)分析是指為了提取有用信息和形成結(jié)論而對數(shù)據(jù)加以詳細研究和概括總結(jié)的過程。數(shù)據(jù)分析與數(shù)據(jù)挖掘密切相關(guān),但數(shù)據(jù)挖掘往往傾向于關(guān)注較大型的數(shù)據(jù)集,較少側(cè)重于推理,且常常采用的是最初為另外一種不同目的而采集的數(shù)據(jù)。在統(tǒng)計學領域,有些人將數(shù)據(jù)分析劃分為描述性統(tǒng)計分析、探索性數(shù)據(jù)分析以及驗證性數(shù)據(jù)分析;其中,探索性數(shù)據(jù)分析側(cè)重于在數(shù)據(jù)之中發(fā)現(xiàn)新的特征,而驗證性數(shù)據(jù)分析則側(cè)重于已有假設的證實或證偽。

  數(shù)據(jù)分析的類型包括:

  探索性數(shù)據(jù)分析:是指為了形成值得假設的檢驗而對數(shù)據(jù)進行分析的一種方法,是對傳統(tǒng)統(tǒng)計學假設檢驗手段的補充。該方法由美國著名統(tǒng)計學家約翰·圖基命名。

  定性數(shù)據(jù)分析:又稱為“定性資料分析”、“定性研究”或者“質(zhì)性研究資料分析”,是指對諸如詞語、照片、觀察結(jié)果之類的非數(shù)值型數(shù)據(jù)(或者說資料)的分析。

  (3)數(shù)據(jù)治理

  數(shù)據(jù)治理涵蓋為特定組織機構(gòu)之數(shù)據(jù)創(chuàng)建協(xié)調(diào)一致的企業(yè)級視圖(enterprise view)所需的人員、過程和技術(shù);數(shù)據(jù)治理旨在:

  增強決策制定過程中的一致性與信心

  降低遭受監(jiān)管罰款的風險

  改善數(shù)據(jù)的安全性

  最大限度地提高數(shù)據(jù)的創(chuàng)收潛力

  指定信息質(zhì)量責任

  (4)數(shù)據(jù)管理

  數(shù)據(jù)管理,又稱為“數(shù)據(jù)資源管理”,包括所有與管理作為有價值資源的數(shù)據(jù)相關(guān)的學科領域。對于數(shù)據(jù)管理,DAMA所提出的正式定義是:“數(shù)據(jù)資源管理是指用于正確管理企業(yè)或機構(gòu)整個數(shù)據(jù)生命周期需求的體系架構(gòu)、政策、規(guī)范和操作程序的制定和執(zhí)行過程”。這項定義相當寬泛,涵蓋了許多可能在技術(shù)上并不直接接觸低層數(shù)據(jù)管理工作(如關(guān)系數(shù)據(jù)庫管理)的職業(yè)。

  (5)數(shù)據(jù)挖掘

  數(shù)據(jù)挖掘是指對大量數(shù)據(jù)加以分類整理并挑選出相關(guān)信息的過程。數(shù)據(jù)挖掘通常為商業(yè)智能組織和金融分析師所采用;不過,在科學領域,數(shù)據(jù)挖掘也越來越多地用于從現(xiàn)代實驗與觀察方法所產(chǎn)生的龐大數(shù)據(jù)集之中提取信息。

  數(shù)據(jù)挖掘被描述為“從數(shù)據(jù)之中提取隱含的,先前未知的,潛在有用信息的非凡過程”,以及“從大型數(shù)據(jù)集或數(shù)據(jù)庫之中提取有用信息的科學”。與企業(yè)資源規(guī)劃相關(guān)的數(shù)據(jù)挖掘是指對大型交易數(shù)據(jù)集進行統(tǒng)計分析和邏輯分析,從中尋找可能有助于決策制定工作的模式的過程。

評論  |   0條評論