登錄

大數(shù)據(jù)

百科 > 信息管理術語 > 大數(shù)據(jù)

1.什么是大數(shù)據(jù)

大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)技術,是指從各種各樣類型的數(shù)據(jù)中,快速獲得有價值信息的能力。適用于大數(shù)據(jù)的技術,包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫,數(shù)據(jù)挖掘電網(wǎng),分布式文件系統(tǒng),分布式數(shù)據(jù)庫,云計算平臺,互聯(lián)網(wǎng),和可擴展的存儲系統(tǒng)。

2.大數(shù)據(jù)的特點[1]

具體來說,大數(shù)據(jù)具有4個基本特征:

一是數(shù)據(jù)體量巨大。百度資料表明,其新首頁導航每天需要提供的數(shù)據(jù)超過1.5PB(1PB=1024TB),這些數(shù)據(jù)如果打印出來將超過5千億張A4紙。有資料證實,到目前為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量僅為200PB。

二是數(shù)據(jù)類型多樣。現(xiàn)在的數(shù)據(jù)類型不僅是文本形式,更多的是圖片、視頻、音頻、地理位置信息等多類型的數(shù)據(jù),個性化數(shù)據(jù)占絕對多數(shù)。

三是處理速度快。數(shù)據(jù)處理遵循“1秒定律”,可從各種類型的數(shù)據(jù)中快速獲得高價值的信息。

四是價值密度低。以視頻為例,一小時的視頻,在不間斷的監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。

3.大數(shù)據(jù)的作用[2]

第一,對大數(shù)據(jù)的處理分析正成為新一代信息技術融合應用的結點。移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡、數(shù)字家庭、電子商務等是新一代信息技術的應用形態(tài),這些應用不斷產(chǎn)生大數(shù)據(jù)。云計算為這些海量、多樣化的大數(shù)據(jù)提供存儲和運算平臺。通過對不同來源數(shù)據(jù)的管理、處理、分析與優(yōu)化,將結果反饋到上述應用中,將創(chuàng)造出巨大的經(jīng)濟和社會價值。

大數(shù)據(jù)具有催生社會變革的能量。但釋放這種能量,需要嚴謹?shù)臄?shù)據(jù)治理、富有洞見的數(shù)據(jù)分析和激發(fā)管理創(chuàng)新的環(huán)境(Ramayya Krishnan,卡內(nèi)基·梅隆大學海因茲學院院長)。

第二,大數(shù)據(jù)是信息產(chǎn)業(yè)持續(xù)高速增長的新引擎。面向大數(shù)據(jù)市場的新技術、新產(chǎn)品、新服務、新業(yè)態(tài)會不斷涌現(xiàn)。在硬件與集成設備領域,大數(shù)據(jù)將對芯片、存儲產(chǎn)業(yè)產(chǎn)生重要影響,還將催生一體化數(shù)據(jù)存儲處理服務器、內(nèi)存計算等市場。在軟件與服務領域,大數(shù)據(jù)將引發(fā)數(shù)據(jù)快速處理分析、數(shù)據(jù)挖掘技術和軟件產(chǎn)品的發(fā)展。

第三,大數(shù)據(jù)利用將成為提高核心競爭力的關鍵因素。各行各業(yè)的決策正在從“業(yè)務驅(qū)動” 轉(zhuǎn)變“數(shù)據(jù)驅(qū)動”。

對大數(shù)據(jù)的分析可以使零售商實時掌握市場動態(tài)并迅速做出應對;可以為商家制定更加精準有效的營銷策略提供決策支持;可以幫助企業(yè)消費者提供更加及時和個性化的服務;在醫(yī)療領域,可提高診斷準確性和藥物有效性;在公共事業(yè)領域,大數(shù)據(jù)也開始發(fā)揮促進經(jīng)濟發(fā)展、維護社會穩(wěn)定等方面的重要作用。

第四,大數(shù)據(jù)時代科學研究的方法手段將發(fā)生重大改變。例如,抽樣調(diào)查是社會科學的基本研究方法。在大數(shù)據(jù)時代,可通過實時監(jiān)測、跟蹤研究對象在互聯(lián)網(wǎng)上產(chǎn)生的海量行為數(shù)據(jù),進行挖掘分析,揭示出規(guī)律性的東西,提出研究結論和對策。

4.大數(shù)據(jù)的分析

從所周知,大數(shù)據(jù)已經(jīng)不簡簡單單是數(shù)據(jù)大的事實了,而最重要的現(xiàn)實是對大數(shù)據(jù)進行分析,只有通過分析才能獲取很多智能的,深入的,有價值的信息。那么越來越多的應用涉及到大數(shù)據(jù),而這些大數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長的復雜性,所以大數(shù)據(jù)的分析方法在大數(shù)據(jù)領域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素?;谌绱说恼J識,大數(shù)據(jù)分析普遍存在的方法理論有哪些呢?

1. 可視化分析。大數(shù)據(jù)分析的使用者有大數(shù)據(jù)分析專家,同時還有普通用戶,但是他們二者對于大數(shù)據(jù)分析最基本的要求就是可視化分析,因為可視化分析能夠直觀的呈現(xiàn)大數(shù)據(jù)特點,同時能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明了。

2. 數(shù)據(jù)挖掘算法。大數(shù)據(jù)分析的理論核心就是數(shù)據(jù)挖掘算法,各種數(shù)據(jù)挖掘的算法基于不同的數(shù)據(jù)類型和格式才能更加科學的呈現(xiàn)出數(shù)據(jù)本身具備的特點,也正是因為這些被全世界統(tǒng)計學家所公認的各種統(tǒng)計方法(可以稱之為真理)才能深入數(shù)據(jù)內(nèi)部,挖掘出公認的價值。另外一個方面也是因為有這些數(shù)據(jù)挖掘的算法才能更快速的處理大數(shù)據(jù),如果一個算法得花上好幾年才能得出結論,那大數(shù)據(jù)的價值也就無從說起了。

3. 預測性分析。大數(shù)據(jù)分析最終要的應用領域之一就是預測性分析,從大數(shù)據(jù)中挖掘出特點,通過科學的建立模型,之后便可以通過模型帶入新的數(shù)據(jù),從而預測未來的數(shù)據(jù)。

4. 語義引擎。非結構化數(shù)據(jù)的多元化給數(shù)據(jù)分析帶來新的挑戰(zhàn),我們需要一套工具系統(tǒng)的去分析,提煉數(shù)據(jù)。語義引擎需要設計到有足夠的人工智能以足以從數(shù)據(jù)中主動地提取信息。

5.數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理。大數(shù)據(jù)分析離不開數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理,高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理,無論是在學術研究還是在商業(yè)應用領域,都能夠保證分析結果的真實和有價值。

大數(shù)據(jù)分析的基礎就是以上五個方面,當然更加深入大數(shù)據(jù)分析的話,還有很多很多更加有特點的、更加深入的、更加專業(yè)的大數(shù)據(jù)分析方法。

5.大數(shù)據(jù)的技術

數(shù)據(jù)采集:ETL工具負責將分布的、異構數(shù)據(jù)源中的數(shù)據(jù)如關系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫數(shù)據(jù)集市中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎。

數(shù)據(jù)存取:關系數(shù)據(jù)庫、NOSQL、SQL等。

基礎架構:云存儲、分布式文件存儲等。

數(shù)據(jù)處理:自然語言處理(NLP,Natural Language Processing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機"理解"自然語言,所以自然語言處理又叫做自然語言理解(NLU,Natural Language Understanding),也稱為計算語言學(Computational Linguistics。一方面它是語言信息處理的一個分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心課題之一。

統(tǒng)計分析假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優(yōu)尺度分析)、bootstrap技術等等。

數(shù)據(jù)挖掘:分類 (Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯(lián)規(guī)則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)

模型預測:預測模型、機器學習、建模仿真。

結果呈現(xiàn):云計算、標簽云、關系圖等。

6.大數(shù)據(jù)的處理

1. 大數(shù)據(jù)處理之一:采集

大數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端(Web、App或者傳感器形式等)的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進行簡單的查詢和處理工作。比如,電商會使用傳統(tǒng)的關系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。

在大數(shù)據(jù)的采集過程中,其主要特點和挑戰(zhàn)是并發(fā)數(shù)高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問量在峰值時達到上百萬,所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何在這些數(shù)據(jù)庫之間進行負載均衡和分片的確是需要深入的思考和設計。

2. 大數(shù)據(jù)處理之二:導入/預處理

雖然采集端本身會有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進行有效的分析,還是應該將這些來自前端的數(shù)據(jù)導入到一個集中的大型分布式數(shù)據(jù)庫,或者分布式存儲集群,并且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數(shù)據(jù)進行流式計算,來滿足部分業(yè)務的實時計算需求。

導入與預處理過程的特點和挑戰(zhàn)主要是導入的數(shù)據(jù)量大,每秒鐘的導入量經(jīng)常會達到百兆,甚至千兆級別。

3. 大數(shù)據(jù)處理之三:統(tǒng)計/分析

統(tǒng)計與分析主要利用分布式數(shù)據(jù)庫,或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數(shù)據(jù)的需求可以使用Hadoop。

統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有極大的占用。

4. 大數(shù)據(jù)處理之四:挖掘

與前面統(tǒng)計和分析過程不同的是,數(shù)據(jù)挖掘一般沒有什么預先設定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進行基于各種算法的計算,從而起到預測(Predict)的效果,從而實現(xiàn)一些高級別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的Kmeans、用于統(tǒng)計學習的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰(zhàn)主要是用于挖掘的算法很復雜,并且計算涉及的數(shù)據(jù)量和計算量都很大,常用數(shù)據(jù)挖掘算法都以單線程為主。

整個大數(shù)據(jù)處理的普遍流程至少應該滿足這四個方面的步驟,才能算得上是一個比較完整的大數(shù)據(jù)處理。

7.大數(shù)據(jù)的常見誤解

一、數(shù)據(jù)不等于信息

經(jīng)常有人把數(shù)據(jù)和信息當作同義詞來用。其實不然,數(shù)據(jù)指的是一個原始的數(shù)據(jù)點(無論是通過數(shù)字,文字,圖片還是視頻等等),信息則直接與內(nèi)容掛鉤,需要有資訊性(informative)。數(shù)據(jù)越多,不一定就能代表信息越多,更能不能代表信息就會成比例增多。有兩個簡單的例子:

備份。很多人如今已經(jīng)會定期的對自己的硬盤進行備份。這個沒什么好多解釋的,每次備份都會創(chuàng)造出一組新的數(shù)據(jù),但信息并沒有增多。

多個社交網(wǎng)站上的信息。我們當中的很多人在多個社交網(wǎng)站上活躍,隨著我們上的社交網(wǎng)站越多,我們獲得的數(shù)據(jù)就會成比例的增多,我們獲得的信息雖然也會增多,但卻不會成比例的增多。不單單因為我們會互相轉(zhuǎn)發(fā)好友的微博(或者其他社交網(wǎng)站上的內(nèi)容),更因為很多內(nèi)容會十分類似,有些微博雖然具體文字不同,但表達的內(nèi)容十分相似。

二、信息不等于智慧(Insight)

現(xiàn)在我們?nèi)コ藬?shù)據(jù)中所有重復的部分,也整合了內(nèi)容類似的數(shù)據(jù),現(xiàn)在我們剩下的全是信息了,這對我們就一定有用嗎?不一定,信息要能轉(zhuǎn)化成智慧,至少要滿足一下三個標準:

可破譯性。這可能是個大數(shù)據(jù)時代特有的問題,越來越多的企業(yè)每天都會生產(chǎn)出大量的數(shù)據(jù),卻還沒想好怎么用,因此,他們就將這些數(shù)據(jù)暫時非結構化(unstructured)的存儲起來。這些非結構化的數(shù)據(jù)卻不一定可破譯。比如說,你記錄了某客戶在你網(wǎng)站上三次翻頁的時間間隔:3秒,2秒,17秒,卻忘記標注這三個時間到底代表了什么,這些數(shù)據(jù)是信息(非重復性),卻不可破譯,因此不可能成為智慧。

關聯(lián)性。無關的信息,至多只是噪音。

新穎性。這里的新穎性很多時候無法僅僅根據(jù)我們手上的數(shù)據(jù)和信息進行判斷。舉個例子,某電子商務公司通過一組數(shù)據(jù)/信息,分析出了客戶愿意為當天送貨的產(chǎn)品多支付10塊錢,然后又通過另一組完全獨立的數(shù)據(jù)/信息得到了同樣的內(nèi)容,這樣的情況下,后者就不具備新穎性。不幸的是,很多時候,我們只有在處理了大量的數(shù)據(jù)和信息以后,才能判斷它們的新穎性。

8.大數(shù)據(jù)時代存儲所面對的問題[3]

隨著大數(shù)據(jù)應用的爆發(fā)性增長,它已經(jīng)衍生出了自己獨特的架構,而且也直接推動了存儲、網(wǎng)絡以及計算技術的發(fā)展。畢竟處理大數(shù)據(jù)這種特殊的需求是一個新的挑戰(zhàn)。硬件的發(fā)展最終還是由軟件需求推動的,就這個例子來說,我們很明顯的看到大數(shù)據(jù)分析應用需求正在影響著數(shù)據(jù)存儲基礎設施的發(fā)展。

從另一方面看,這一變化對存儲廠商和其他IT基礎設施廠商未嘗不是一個機會。隨著結構化數(shù)據(jù)和非結構化數(shù)據(jù)量的持續(xù)增長,以及分析數(shù)據(jù)來源的多樣化,此前存儲系統(tǒng)的設計已經(jīng)無法滿足大數(shù)據(jù)應用的需要。存儲廠商已經(jīng)意識到這一點,他們開始修改基于塊和文件的存儲系統(tǒng)的架構設計以適應這些新的要求。在這里,我們會討論哪些與大數(shù)據(jù)存儲基礎設施相關的屬性,看看它們?nèi)绾斡哟髷?shù)據(jù)的挑戰(zhàn)。

容量問題

這里所說的“大容量”通??蛇_到PB級的數(shù)據(jù)規(guī)模,因此,海量數(shù)據(jù)存儲系統(tǒng)也一定要有相應等級的擴展能力。與此同時,存儲系統(tǒng)的擴展一定要簡便,可以通過增加模塊或磁盤柜來增加容量,甚至不需要停機?;谶@樣的需求,客戶現(xiàn)在越來越青睞Scale-out架構的存儲。Scale-out集群結構的特點是每個節(jié)點除了具有一定的存儲容量之外,內(nèi)部還具備數(shù)據(jù)處理能力以及互聯(lián)設備,與傳統(tǒng)存儲系統(tǒng)的煙囪式架構完全不同,Scale-out架構可以實現(xiàn)無縫平滑的擴展,避免存儲孤島。

“大數(shù)據(jù)”應用除了數(shù)據(jù)規(guī)模巨大之外,還意味著擁有龐大的文件數(shù)量。因此如何管理文件系統(tǒng)層累積的元數(shù)據(jù)是一個難題,處理不當?shù)脑挄绊懙较到y(tǒng)的擴展能力和性能,而傳統(tǒng)的NAS系統(tǒng)就存在這一瓶頸。所幸的是,基于對象的存儲架構就不存在這個問題,它可以在一個系統(tǒng)中管理十億級別的文件數(shù)量,而且還不會像傳統(tǒng)存儲一樣遭遇元數(shù)據(jù)管理的困擾?;趯ο蟮拇鎯ο到y(tǒng)還具有廣域擴展能力,可以在多個不同的地點部署并組成一個跨區(qū)域的大型存儲基礎架構。

延遲問題

“大數(shù)據(jù)”應用還存在實時性的問題。特別是涉及到與網(wǎng)上交易或者金融類相關的應用。舉個例子來說,網(wǎng)絡成衣銷售行業(yè)的在線廣告推廣服務需要實時的對客戶的瀏覽記錄進行分析,并準確的進行廣告投放。這就要求存儲系統(tǒng)在必須能夠支持上述特性同時保持較高的響應速度,因為響應延遲的結果是系統(tǒng)會推送“過期”的廣告內(nèi)容給客戶。這種場景下,Scale-out架構的存儲系統(tǒng)就可以發(fā)揮出優(yōu)勢,因為它的每一個節(jié)點都具有處理和互聯(lián)組件,在增加容量的同時處理能力也可以同步增長。而基于對象的存儲系統(tǒng)則能夠支持并發(fā)的數(shù)據(jù)流,從而進一步提高數(shù)據(jù)吞吐量。

有很多“大數(shù)據(jù)”應用環(huán)境需要較高的IOPS性能,比如HPC高性能計算。此外,服務器虛擬化的普及也導致了對高IOPS的需求,正如它改變了傳統(tǒng)IT環(huán)境一樣。為了迎接這些挑戰(zhàn),各種模式的固態(tài)存儲設備應運而生,小到簡單的在服務器內(nèi)部做高速緩存,大到全固態(tài)介質(zhì)的可擴展存儲系統(tǒng)等等都在蓬勃發(fā)展。

并發(fā)訪問一旦企業(yè)認識到大數(shù)據(jù)分析應用的潛在價值,他們就會將更多的數(shù)據(jù)集納入系統(tǒng)進行比較,同時讓更多的人分享并使用這些數(shù)據(jù)。為了創(chuàng)造更多的商業(yè)價值,企業(yè)往往會綜合分析那些來自不同平臺下的多種數(shù)據(jù)對象。包括全局文件系統(tǒng)在內(nèi)的存儲基礎設施就能夠幫助用戶解決數(shù)據(jù)訪問的問題,全局文件系統(tǒng)允許多個主機上的多個用戶并發(fā)訪問文件數(shù)據(jù),而這些數(shù)據(jù)則可能存儲在多個地點的多種不同類型的存儲設備上。

安全問題

某些特殊行業(yè)的應用,比如金融數(shù)據(jù)、醫(yī)療信息以及政府情報等都有自己的安全標準和保密性需求。雖然對于IT管理者來說這些并沒有什么不同,而且都是必須遵從的,但是,大數(shù)據(jù)分析往往需要多類數(shù)據(jù)相互參考,而在過去并不會有這種數(shù)據(jù)混合訪問的情況,因此大數(shù)據(jù)應用也催生出一些新的、需要考慮的安全性問題。

成本問題

“大”,也可能意味著代價不菲。而對于那些正在使用大數(shù)據(jù)環(huán)境的企業(yè)來說,成本控制是關鍵的問題。想控制成本,就意味著我們要讓每一臺設備都實現(xiàn)更高的“效率”,同時還要減少那些昂貴的部件。目前,像重復數(shù)據(jù)刪除等技術已經(jīng)進入到主存儲市場,而且現(xiàn)在還可以處理更多的數(shù)據(jù)類型,這都可以為大數(shù)據(jù)存儲應用帶來更多的價值,提升存儲效率。在數(shù)據(jù)量不斷增長的環(huán)境中,通過減少后端存儲的消耗,哪怕只是降低幾個百分點,都能夠獲得明顯的投資回報。此外,自動精簡配置、快照和克隆技術的使用也可以提升存儲的效率。

很多大數(shù)據(jù)存儲系統(tǒng)都包括歸檔組件,尤其對那些需要分析歷史數(shù)據(jù)或需要長期保存數(shù)據(jù)的機構來說,歸檔設備必不可少。從單位容量存儲成本的角度看,磁帶仍然是最經(jīng)濟的存儲介質(zhì),事實上,在許多企業(yè)中,使用支持TB級大容量磁帶的歸檔系統(tǒng)仍然是事實上的標準和慣例。

對成本控制影響最大的因素是那些商業(yè)化的硬件設備。因此,很多初次進入這一領域的用戶以及那些應用規(guī)模最大的用戶都會定制他們自己的“硬件平臺”而不是用現(xiàn)成的商業(yè)產(chǎn)品,這一舉措可以用來平衡他們在業(yè)務擴展過程中的成本控制戰(zhàn)略。為了適應這一需求,現(xiàn)在越來越多的存儲產(chǎn)品都提供純軟件的形式,可以直接安裝在用戶已有的、通用的或者現(xiàn)成的硬件設備上。此外,很多存儲軟件公司還在銷售以軟件產(chǎn)品為核心的軟硬一體化裝置,或者與硬件廠商結盟,推出合作型產(chǎn)品。

數(shù)據(jù)的積累

許多大數(shù)據(jù)應用都會涉及到法規(guī)遵從問題,這些法規(guī)通常要求數(shù)據(jù)要保存幾年或者幾十年。比如醫(yī)療信息通常是為了保證患者的生命安全,而財務信息通常要保存7年。而有些使用大數(shù)據(jù)存儲的用戶卻希望數(shù)據(jù)能夠保存更長的時間,因為任何數(shù)據(jù)都是歷史記錄的一部分,而且數(shù)據(jù)的分析大都是基于時間段進行的。要實現(xiàn)長期的數(shù)據(jù)保存,就要求存儲廠商開發(fā)出能夠持續(xù)進行數(shù)據(jù)一致性檢測的功能以及其他保證長期高可用的特性。同時還要實現(xiàn)數(shù)據(jù)直接在原位更新的功能需求。

靈活性

大數(shù)據(jù)存儲系統(tǒng)的基礎設施規(guī)模通常都很大,因此必須經(jīng)過仔細設計,才能保證存儲系統(tǒng)的靈活性,使其能夠隨著應用分析軟件一起擴容及擴展。在大數(shù)據(jù)存儲環(huán)境中,已經(jīng)沒有必要再做數(shù)據(jù)遷移了,因為數(shù)據(jù)會同時保存在多個部署站點。一個大型的數(shù)據(jù)存儲基礎設施一旦開始投入使用,就很難再調(diào)整了,因此它必須能夠適應各種不同的應用類型和數(shù)據(jù)場景。

應用感知

最早一批使用大數(shù)據(jù)的用戶已經(jīng)開發(fā)出了一些針對應用的定制的基礎設施,比如針對政府項目開發(fā)的系統(tǒng),還有大型互聯(lián)網(wǎng)服務商創(chuàng)造的專用服務器等。在主流存儲系統(tǒng)領域,應用感知技術的使用越來越普遍,它也是改善系統(tǒng)效率和性能的重要手段,所以,應用感知技術也應該用在大數(shù)據(jù)存儲環(huán)境里。

小用戶怎么辦?

依賴大數(shù)據(jù)的不僅僅是那些特殊的大型用戶群體,作為一種商業(yè)需求,小型企業(yè)未來也一定會應用到大數(shù)據(jù)。我們看到,有些存儲廠商已經(jīng)在開發(fā)一些小型的“大數(shù)據(jù)”存儲系統(tǒng),主要吸引那些對成本比較敏感的用戶。

9.大數(shù)據(jù)應用與案例分析

1. 大數(shù)據(jù)應用案例之:醫(yī)療行業(yè)

[1] Seton Healthcare是采用IBM最新沃森技術醫(yī)療保健內(nèi)容分析預測的首個客戶。該技術允許企業(yè)找到大量病人相關的臨床醫(yī)療信息,通過大數(shù)據(jù)處理,更好地分析病人的信息。

[2] 在加拿大多倫多的一家醫(yī)院,針對早產(chǎn)嬰兒,每秒鐘有超過3000次的數(shù)據(jù)讀取。通過這些數(shù)據(jù)分析,醫(yī)院能夠提前知道哪些早產(chǎn)兒出現(xiàn)問題并且有針對性地采取措施,避免早產(chǎn)嬰兒夭折。

[3] 它讓更多的創(chuàng)業(yè)者更方便地開發(fā)產(chǎn)品,比如通過社交網(wǎng)絡來收集數(shù)據(jù)的健康類App。也許未來數(shù)年后,它們搜集的數(shù)據(jù)能讓醫(yī)生給你的診斷變得更為精確,比方說不是通用的成人每日三次一次一片,而是檢測到你的血液中藥劑已經(jīng)代謝完成會自動提醒你再次服藥。

2. 大數(shù)據(jù)應用案例之:能源行業(yè)

[1] 智能電網(wǎng)現(xiàn)在歐洲已經(jīng)做到了終端,也就是所謂的智能電表。在德國,為了鼓勵利用太陽能,會在家庭安裝太陽能,除了賣電給你,當你的太陽能有多余電的時候還可以買回來。通過電網(wǎng)收集每隔五分鐘或十分鐘收集一次數(shù)據(jù),收集來的這些數(shù)據(jù)可以用來預測客戶的用電習慣等,從而推斷出在未來2~3個月時間里,整個電網(wǎng)大概需要多少電。有了這個預測后,就可以向發(fā)電或者供電企業(yè)購買一定數(shù)量的電。因為電有點像期貨一樣,如果提前買就會比較便宜,買現(xiàn)貨就比較貴。通過這個預測后,可以降低采購成本。

[2] 維斯塔斯風力系統(tǒng),依靠的是BigInsights軟件和IBM超級計算機,然后對氣象數(shù)據(jù)進行分析,找出安裝風力渦輪機和整個風電場最佳的地點。利用大數(shù)據(jù),以往需要數(shù)周的分析工作,現(xiàn)在僅需要不足1小時便可完成。

3. 大數(shù)據(jù)應用案例之:通信行業(yè)

[1] XO Communications通過使用IBM SPSS預測分析軟件,減少了將近一半的客戶流失率。XO現(xiàn)在可以預測客戶的行為,發(fā)現(xiàn)行為趨勢,并找出存在缺陷的環(huán)節(jié),從而幫助公司及時采取措施,保留客戶。此外,IBM新的Netezza網(wǎng)絡分析加速器,將通過提供單個端到端網(wǎng)絡、服務、客戶分析視圖的可擴展平臺,幫助通信企業(yè)制定更科學、合理決策。

[2] 電信業(yè)者透過數(shù)以千萬計的客戶資料,能分析出多種使用者行為和趨勢,賣給需要的企業(yè),這是全新的資料經(jīng)濟。

[3] 中國移動通過大數(shù)據(jù)分析,對企業(yè)運營的全業(yè)務進行針對性的監(jiān)控、預警、跟蹤。系統(tǒng)在第一時間自動捕捉市場變化,再以最快捷的方式推送給指定負責人,使他在最短時間內(nèi)獲知市場行情。

[4] NTT docomo把手機位置信息和互聯(lián)網(wǎng)上的信息結合起來,為顧客提供附近的餐飲店信息,接近末班車時間時,提供末班車信息服務。

4. 大數(shù)據(jù)應用案例之:零售業(yè)

[1] "我們的某個客戶,是一家領先的專業(yè)時裝零售商,通過當?shù)氐陌儇浬痰?、網(wǎng)絡及其郵購目錄業(yè)務為客戶提供服務。公司希望向客戶提供差異化服務,如何定位公司的差異化,他們通過從 Twitter 和 Facebook 上收集社交信息,更深入的理解化妝品的營銷模式,隨后他們認識到必須保留兩類有價值的客戶:高消費者和高影響者。希望通過接受免費化妝服務,讓用戶進行口碑宣傳,這是交易數(shù)據(jù)與交互數(shù)據(jù)的完美結合,為業(yè)務挑戰(zhàn)提供了解決方案。"Informatica的技術幫助這家零售商用社交平臺上的數(shù)據(jù)充實了客戶主數(shù)據(jù),使他的業(yè)務服務更具有目標性。

[2] 零售企業(yè)也監(jiān)控客戶的店內(nèi)走動情況以及與商品的互動。它們將這些數(shù)據(jù)與交易記錄相結合來展開分析,從而在銷售哪些商品、如何擺放貨品以及何時調(diào)整售價上給出意見,此類方法已經(jīng)幫助某領先零售企業(yè)減少了17%的存貨,同時在保持市場份額的前提下,增加了高利潤率自有品牌商品的比例。

評論  |   0條評論