大數(shù)據(jù)

1什么是大數(shù)據(jù) 2大數(shù)據(jù)的特點(diǎn)[1] 3大數(shù)據(jù)的作用[2] 4大數(shù)據(jù)的分析 5大數(shù)據(jù)的技術(shù) 6大數(shù)據(jù)的處理 7大數(shù)據(jù)的常見誤解 8大數(shù)據(jù)時(shí)代存儲(chǔ)所面對的問題[3] 9大數(shù)據(jù)應(yīng)用與案例分析

1.什么是大數(shù)據(jù)

大數(shù)據(jù)是指無法在一定時(shí)間內(nèi)用常規(guī)軟件工具對其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)技術(shù)，是指從各種各樣類型的數(shù)據(jù)中，快速獲得有價(jià)值信息的能力。適用于大數(shù)據(jù)的技術(shù)，包括大規(guī)模并行處理（MPP）數(shù)據(jù)庫，數(shù)據(jù)挖掘電網(wǎng)，分布式文件系統(tǒng)，分布式數(shù)據(jù)庫，云計(jì)算平臺，互聯(lián)網(wǎng)，和可擴(kuò)展的存儲(chǔ)系統(tǒng)。

2.大數(shù)據(jù)的特點(diǎn)[1]

具體來說，大數(shù)據(jù)具有4個(gè)基本特征：

一是數(shù)據(jù)體量巨大。百度資料表明，其新首頁導(dǎo)航每天需要提供的數(shù)據(jù)超過1.5PB（1PB=1024TB），這些數(shù)據(jù)如果打印出來將超過5千億張A4紙。有資料證實(shí)，到目前為止，人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量僅為200PB。

二是數(shù)據(jù)類型多樣。現(xiàn)在的數(shù)據(jù)類型不僅是文本形式，更多的是圖片、視頻、音頻、地理位置信息等多類型的數(shù)據(jù)，個(gè)性化數(shù)據(jù)占絕對多數(shù)。

三是處理速度快。數(shù)據(jù)處理遵循“1秒定律”，可從各種類型的數(shù)據(jù)中快速獲得高價(jià)值的信息。

四是價(jià)值密度低。以視頻為例，一小時(shí)的視頻，在不間斷的監(jiān)控過程中，可能有用的數(shù)據(jù)僅僅只有一兩秒。

3.大數(shù)據(jù)的作用[2]

第一，對大數(shù)據(jù)的處理分析正成為新一代信息技術(shù)融合應(yīng)用的結(jié)點(diǎn)。移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、數(shù)字家庭、電子商務(wù)等是新一代信息技術(shù)的應(yīng)用形態(tài)，這些應(yīng)用不斷產(chǎn)生大數(shù)據(jù)。云計(jì)算為這些海量、多樣化的大數(shù)據(jù)提供存儲(chǔ)和運(yùn)算平臺。通過對不同來源數(shù)據(jù)的管理、處理、分析與優(yōu)化，將結(jié)果反饋到上述應(yīng)用中，將創(chuàng)造出巨大的經(jīng)濟(jì)和社會(huì)價(jià)值。

大數(shù)據(jù)具有催生社會(huì)變革的能量。但釋放這種能量，需要嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)治理、富有洞見的數(shù)據(jù)分析和激發(fā)管理創(chuàng)新的環(huán)境(Ramayya Krishnan,卡內(nèi)基·梅隆大學(xué)海因茲學(xué)院院長)。

第二，大數(shù)據(jù)是信息產(chǎn)業(yè)持續(xù)高速增長的新引擎。面向大數(shù)據(jù)市場的新技術(shù)、新產(chǎn)品、新服務(wù)、新業(yè)態(tài)會(huì)不斷涌現(xiàn)。在硬件與集成設(shè)備領(lǐng)域，大數(shù)據(jù)將對芯片、存儲(chǔ)產(chǎn)業(yè)產(chǎn)生重要影響，還將催生一體化數(shù)據(jù)存儲(chǔ)處理服務(wù)器、內(nèi)存計(jì)算等市場。在軟件與服務(wù)領(lǐng)域，大數(shù)據(jù)將引發(fā)數(shù)據(jù)快速處理分析、數(shù)據(jù)挖掘技術(shù)和軟件產(chǎn)品的發(fā)展。

第三，大數(shù)據(jù)利用將成為提高核心競爭力的關(guān)鍵因素。各行各業(yè)的決策正在從“業(yè)務(wù)驅(qū)動(dòng)” 轉(zhuǎn)變“數(shù)據(jù)驅(qū)動(dòng)”。

對大數(shù)據(jù)的分析可以使零售商實(shí)時(shí)掌握市場動(dòng)態(tài)并迅速做出應(yīng)對；可以為商家制定更加精準(zhǔn)有效的營銷策略提供決策支持；可以幫助企業(yè)為消費(fèi)者提供更加及時(shí)和個(gè)性化的服務(wù)；在醫(yī)療領(lǐng)域，可提高診斷準(zhǔn)確性和藥物有效性；在公共事業(yè)領(lǐng)域，大數(shù)據(jù)也開始發(fā)揮促進(jìn)經(jīng)濟(jì)發(fā)展、維護(hù)社會(huì)穩(wěn)定等方面的重要作用。

第四，大數(shù)據(jù)時(shí)代科學(xué)研究的方法手段將發(fā)生重大改變。例如，抽樣調(diào)查是社會(huì)科學(xué)的基本研究方法。在大數(shù)據(jù)時(shí)代，可通過實(shí)時(shí)監(jiān)測、跟蹤研究對象在互聯(lián)網(wǎng)上產(chǎn)生的海量行為數(shù)據(jù)，進(jìn)行挖掘分析，揭示出規(guī)律性的東西，提出研究結(jié)論和對策。

4.大數(shù)據(jù)的分析

從所周知，大數(shù)據(jù)已經(jīng)不簡簡單單是數(shù)據(jù)大的事實(shí)了，而最重要的現(xiàn)實(shí)是對大數(shù)據(jù)進(jìn)行分析，只有通過分析才能獲取很多智能的，深入的，有價(jià)值的信息。那么越來越多的應(yīng)用涉及到大數(shù)據(jù)，而這些大數(shù)據(jù)的屬性，包括數(shù)量，速度，多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長的復(fù)雜性，所以大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要，可以說是決定最終信息是否有價(jià)值的決定性因素?；谌绱说恼J(rèn)識，大數(shù)據(jù)分析普遍存在的方法理論有哪些呢？

1. 可視化分析。大數(shù)據(jù)分析的使用者有大數(shù)據(jù)分析專家，同時(shí)還有普通用戶，但是他們二者對于大數(shù)據(jù)分析最基本的要求就是可視化分析，因?yàn)榭梢暬治瞿軌蛑庇^的呈現(xiàn)大數(shù)據(jù)特點(diǎn)，同時(shí)能夠非常容易被讀者所接受，就如同看圖說話一樣簡單明了。

2. 數(shù)據(jù)挖掘算法。大數(shù)據(jù)分析的理論核心就是數(shù)據(jù)挖掘算法，各種數(shù)據(jù)挖掘的算法基于不同的數(shù)據(jù)類型和格式才能更加科學(xué)的呈現(xiàn)出數(shù)據(jù)本身具備的特點(diǎn)，也正是因?yàn)檫@些被全世界統(tǒng)計(jì)學(xué)家所公認(rèn)的各種統(tǒng)計(jì)方法（可以稱之為真理）才能深入數(shù)據(jù)內(nèi)部，挖掘出公認(rèn)的價(jià)值。另外一個(gè)方面也是因?yàn)橛羞@些數(shù)據(jù)挖掘的算法才能更快速的處理大數(shù)據(jù)，如果一個(gè)算法得花上好幾年才能得出結(jié)論，那大數(shù)據(jù)的價(jià)值也就無從說起了。

3. 預(yù)測性分析。大數(shù)據(jù)分析最終要的應(yīng)用領(lǐng)域之一就是預(yù)測性分析，從大數(shù)據(jù)中挖掘出特點(diǎn)，通過科學(xué)的建立模型，之后便可以通過模型帶入新的數(shù)據(jù)，從而預(yù)測未來的數(shù)據(jù)。

4. 語義引擎。非結(jié)構(gòu)化數(shù)據(jù)的多元化給數(shù)據(jù)分析帶來新的挑戰(zhàn)，我們需要一套工具系統(tǒng)的去分析，提煉數(shù)據(jù)。語義引擎需要設(shè)計(jì)到有足夠的人工智能以足以從數(shù)據(jù)中主動(dòng)地提取信息。

5.數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理。大數(shù)據(jù)分析離不開數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理，高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理，無論是在學(xué)術(shù)研究還是在商業(yè)應(yīng)用領(lǐng)域，都能夠保證分析結(jié)果的真實(shí)和有價(jià)值。

大數(shù)據(jù)分析的基礎(chǔ)就是以上五個(gè)方面，當(dāng)然更加深入大數(shù)據(jù)分析的話，還有很多很多更加有特點(diǎn)的、更加深入的、更加專業(yè)的大數(shù)據(jù)分析方法。

5.大數(shù)據(jù)的技術(shù)

數(shù)據(jù)采集：ETL工具負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成，最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中，成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。

數(shù)據(jù)存取：關(guān)系數(shù)據(jù)庫、NOSQL、SQL等。

基礎(chǔ)架構(gòu)：云存儲(chǔ)、分布式文件存儲(chǔ)等。

數(shù)據(jù)處理：自然語言處理(NLP，Natural Language Processing)是研究人與計(jì)算機(jī)交互的語言問題的一門學(xué)科。處理自然語言的關(guān)鍵是要讓計(jì)算機(jī)"理解"自然語言，所以自然語言處理又叫做自然語言理解(NLU，Natural Language Understanding)，也稱為計(jì)算語言學(xué)(Computational Linguistics。一方面它是語言信息處理的一個(gè)分支，另一方面它是人工智能(AI, Artificial Intelligence)的核心課題之一。

統(tǒng)計(jì)分析：假設(shè)檢驗(yàn)、顯著性檢驗(yàn)、差異分析、相關(guān)分析、T檢驗(yàn)、方差分析、卡方分析、偏相關(guān)分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預(yù)測與殘差分析、嶺回歸、logistic回歸分析、曲線估計(jì)、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應(yīng)分析、多元對應(yīng)分析（最優(yōu)尺度分析）、bootstrap技術(shù)等等。

數(shù)據(jù)挖掘：分類（Classification）、估計(jì)（Estimation）、預(yù)測（Prediction）、相關(guān)性分組或關(guān)聯(lián)規(guī)則（Affinity grouping or association rules）、聚類（Clustering）、描述和可視化、Description and Visualization）、復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像，視頻，音頻等)

模型預(yù)測：預(yù)測模型、機(jī)器學(xué)習(xí)、建模仿真。

結(jié)果呈現(xiàn)：云計(jì)算、標(biāo)簽云、關(guān)系圖等。

6.大數(shù)據(jù)的處理

1. 大數(shù)據(jù)處理之一：采集

大數(shù)據(jù)的采集是指利用多個(gè)數(shù)據(jù)庫來接收發(fā)自客戶端（Web、App或者傳感器形式等）的數(shù)據(jù)，并且用戶可以通過這些數(shù)據(jù)庫來進(jìn)行簡單的查詢和處理工作。比如，電商會(huì)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲(chǔ)每一筆事務(wù)數(shù)據(jù)，除此之外，Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。

在大數(shù)據(jù)的采集過程中，其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高，因?yàn)橥瑫r(shí)有可能會(huì)有成千上萬的用戶來進(jìn)行訪問和操作，比如火車票售票網(wǎng)站和淘寶，它們并發(fā)的訪問量在峰值時(shí)達(dá)到上百萬，所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何在這些數(shù)據(jù)庫之間進(jìn)行負(fù)載均衡和分片的確是需要深入的思考和設(shè)計(jì)。

2. 大數(shù)據(jù)處理之二：導(dǎo)入/預(yù)處理

雖然采集端本身會(huì)有很多數(shù)據(jù)庫，但是如果要對這些海量數(shù)據(jù)進(jìn)行有效的分析，還是應(yīng)該將這些來自前端的數(shù)據(jù)導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫，或者分布式存儲(chǔ)集群，并且可以在導(dǎo)入基礎(chǔ)上做一些簡單的清洗和預(yù)處理工作。也有一些用戶會(huì)在導(dǎo)入時(shí)使用來自Twitter的Storm來對數(shù)據(jù)進(jìn)行流式計(jì)算，來滿足部分業(yè)務(wù)的實(shí)時(shí)計(jì)算需求。

導(dǎo)入與預(yù)處理過程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大，每秒鐘的導(dǎo)入量經(jīng)常會(huì)達(dá)到百兆，甚至千兆級別。

3. 大數(shù)據(jù)處理之三：統(tǒng)計(jì)/分析

統(tǒng)計(jì)與分析主要利用分布式數(shù)據(jù)庫，或者分布式計(jì)算集群來對存儲(chǔ)于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等，以滿足大多數(shù)常見的分析需求，在這方面，一些實(shí)時(shí)性需求會(huì)用到EMC的GreenPlum、Oracle的Exadata，以及基于MySQL的列式存儲(chǔ)Infobright等，而一些批處理，或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。

統(tǒng)計(jì)與分析這部分的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大，其對系統(tǒng)資源，特別是I/O會(huì)有極大的占用。

4. 大數(shù)據(jù)處理之四：挖掘

與前面統(tǒng)計(jì)和分析過程不同的是，數(shù)據(jù)挖掘一般沒有什么預(yù)先設(shè)定好的主題，主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算，從而起到預(yù)測（Predict）的效果，從而實(shí)現(xiàn)一些高級別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的Kmeans、用于統(tǒng)計(jì)學(xué)習(xí)的SVM和用于分類的NaiveBayes，主要使用的工具有Hadoop的Mahout等。該過程的特點(diǎn)和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜，并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都很大，常用數(shù)據(jù)挖掘算法都以單線程為主。

整個(gè)大數(shù)據(jù)處理的普遍流程至少應(yīng)該滿足這四個(gè)方面的步驟，才能算得上是一個(gè)比較完整的大數(shù)據(jù)處理。

7.大數(shù)據(jù)的常見誤解

一、數(shù)據(jù)不等于信息

經(jīng)常有人把數(shù)據(jù)和信息當(dāng)作同義詞來用。其實(shí)不然，數(shù)據(jù)指的是一個(gè)原始的數(shù)據(jù)點(diǎn)（無論是通過數(shù)字，文字，圖片還是視頻等等），信息則直接與內(nèi)容掛鉤，需要有資訊性（informative）。數(shù)據(jù)越多，不一定就能代表信息越多，更能不能代表信息就會(huì)成比例增多。有兩個(gè)簡單的例子：

備份。很多人如今已經(jīng)會(huì)定期的對自己的硬盤進(jìn)行備份。這個(gè)沒什么好多解釋的，每次備份都會(huì)創(chuàng)造出一組新的數(shù)據(jù)，但信息并沒有增多。

多個(gè)社交網(wǎng)站上的信息。我們當(dāng)中的很多人在多個(gè)社交網(wǎng)站上活躍，隨著我們上的社交網(wǎng)站越多，我們獲得的數(shù)據(jù)就會(huì)成比例的增多，我們獲得的信息雖然也會(huì)增多，但卻不會(huì)成比例的增多。不單單因?yàn)槲覀儠?huì)互相轉(zhuǎn)發(fā)好友的微博（或者其他社交網(wǎng)站上的內(nèi)容），更因?yàn)楹芏鄡?nèi)容會(huì)十分類似，有些微博雖然具體文字不同，但表達(dá)的內(nèi)容十分相似。

二、信息不等于智慧（Insight）

現(xiàn)在我們?nèi)コ藬?shù)據(jù)中所有重復(fù)的部分，也整合了內(nèi)容類似的數(shù)據(jù)，現(xiàn)在我們剩下的全是信息了，這對我們就一定有用嗎？不一定，信息要能轉(zhuǎn)化成智慧，至少要滿足一下三個(gè)標(biāo)準(zhǔn)：

可破譯性。這可能是個(gè)大數(shù)據(jù)時(shí)代特有的問題，越來越多的企業(yè)每天都會(huì)生產(chǎn)出大量的數(shù)據(jù)，卻還沒想好怎么用，因此，他們就將這些數(shù)據(jù)暫時(shí)非結(jié)構(gòu)化（unstructured）的存儲(chǔ)起來。這些非結(jié)構(gòu)化的數(shù)據(jù)卻不一定可破譯。比如說，你記錄了某客戶在你網(wǎng)站上三次翻頁的時(shí)間間隔：3秒，2秒，17秒，卻忘記標(biāo)注這三個(gè)時(shí)間到底代表了什么，這些數(shù)據(jù)是信息（非重復(fù)性），卻不可破譯，因此不可能成為智慧。

關(guān)聯(lián)性。無關(guān)的信息，至多只是噪音。

新穎性。這里的新穎性很多時(shí)候無法僅僅根據(jù)我們手上的數(shù)據(jù)和信息進(jìn)行判斷。舉個(gè)例子，某電子商務(wù)公司通過一組數(shù)據(jù)/信息，分析出了客戶愿意為當(dāng)天送貨的產(chǎn)品多支付10塊錢，然后又通過另一組完全獨(dú)立的數(shù)據(jù)/信息得到了同樣的內(nèi)容，這樣的情況下，后者就不具備新穎性。不幸的是，很多時(shí)候，我們只有在處理了大量的數(shù)據(jù)和信息以后，才能判斷它們的新穎性。

8.大數(shù)據(jù)時(shí)代存儲(chǔ)所面對的問題[3]

隨著大數(shù)據(jù)應(yīng)用的爆發(fā)性增長，它已經(jīng)衍生出了自己獨(dú)特的架構(gòu)，而且也直接推動(dòng)了存儲(chǔ)、網(wǎng)絡(luò)以及計(jì)算技術(shù)的發(fā)展。畢竟處理大數(shù)據(jù)這種特殊的需求是一個(gè)新的挑戰(zhàn)。硬件的發(fā)展最終還是由軟件需求推動(dòng)的，就這個(gè)例子來說，我們很明顯的看到大數(shù)據(jù)分析應(yīng)用需求正在影響著數(shù)據(jù)存儲(chǔ)基礎(chǔ)設(shè)施的發(fā)展。

從另一方面看，這一變化對存儲(chǔ)廠商和其他IT基礎(chǔ)設(shè)施廠商未嘗不是一個(gè)機(jī)會(huì)。隨著結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)量的持續(xù)增長，以及分析數(shù)據(jù)來源的多樣化，此前存儲(chǔ)系統(tǒng)的設(shè)計(jì)已經(jīng)無法滿足大數(shù)據(jù)應(yīng)用的需要。存儲(chǔ)廠商已經(jīng)意識到這一點(diǎn)，他們開始修改基于塊和文件的存儲(chǔ)系統(tǒng)的架構(gòu)設(shè)計(jì)以適應(yīng)這些新的要求。在這里，我們會(huì)討論哪些與大數(shù)據(jù)存儲(chǔ)基礎(chǔ)設(shè)施相關(guān)的屬性，看看它們?nèi)绾斡哟髷?shù)據(jù)的挑戰(zhàn)。

容量問題

這里所說的“大容量”通?？蛇_(dá)到PB級的數(shù)據(jù)規(guī)模，因此，海量數(shù)據(jù)存儲(chǔ)系統(tǒng)也一定要有相應(yīng)等級的擴(kuò)展能力。與此同時(shí)，存儲(chǔ)系統(tǒng)的擴(kuò)展一定要簡便，可以通過增加模塊或磁盤柜來增加容量，甚至不需要停機(jī)。基于這樣的需求，客戶現(xiàn)在越來越青睞Scale-out架構(gòu)的存儲(chǔ)。Scale-out集群結(jié)構(gòu)的特點(diǎn)是每個(gè)節(jié)點(diǎn)除了具有一定的存儲(chǔ)容量之外，內(nèi)部還具備數(shù)據(jù)處理能力以及互聯(lián)設(shè)備，與傳統(tǒng)存儲(chǔ)系統(tǒng)的煙囪式架構(gòu)完全不同，Scale-out架構(gòu)可以實(shí)現(xiàn)無縫平滑的擴(kuò)展，避免存儲(chǔ)孤島。

“大數(shù)據(jù)”應(yīng)用除了數(shù)據(jù)規(guī)模巨大之外，還意味著擁有龐大的文件數(shù)量。因此如何管理文件系統(tǒng)層累積的元數(shù)據(jù)是一個(gè)難題，處理不當(dāng)?shù)脑挄?huì)影響到系統(tǒng)的擴(kuò)展能力和性能，而傳統(tǒng)的NAS系統(tǒng)就存在這一瓶頸。所幸的是，基于對象的存儲(chǔ)架構(gòu)就不存在這個(gè)問題，它可以在一個(gè)系統(tǒng)中管理十億級別的文件數(shù)量，而且還不會(huì)像傳統(tǒng)存儲(chǔ)一樣遭遇元數(shù)據(jù)管理的困擾?；趯ο蟮拇鎯?chǔ)系統(tǒng)還具有廣域擴(kuò)展能力，可以在多個(gè)不同的地點(diǎn)部署并組成一個(gè)跨區(qū)域的大型存儲(chǔ)基礎(chǔ)架構(gòu)。

延遲問題

“大數(shù)據(jù)”應(yīng)用還存在實(shí)時(shí)性的問題。特別是涉及到與網(wǎng)上交易或者金融類相關(guān)的應(yīng)用。舉個(gè)例子來說，網(wǎng)絡(luò)成衣銷售行業(yè)的在線廣告推廣服務(wù)需要實(shí)時(shí)的對客戶的瀏覽記錄進(jìn)行分析，并準(zhǔn)確的進(jìn)行廣告投放。這就要求存儲(chǔ)系統(tǒng)在必須能夠支持上述特性同時(shí)保持較高的響應(yīng)速度，因?yàn)轫憫?yīng)延遲的結(jié)果是系統(tǒng)會(huì)推送“過期”的廣告內(nèi)容給客戶。這種場景下，Scale-out架構(gòu)的存儲(chǔ)系統(tǒng)就可以發(fā)揮出優(yōu)勢，因?yàn)樗拿恳粋€(gè)節(jié)點(diǎn)都具有處理和互聯(lián)組件，在增加容量的同時(shí)處理能力也可以同步增長。而基于對象的存儲(chǔ)系統(tǒng)則能夠支持并發(fā)的數(shù)據(jù)流，從而進(jìn)一步提高數(shù)據(jù)吞吐量。

有很多“大數(shù)據(jù)”應(yīng)用環(huán)境需要較高的IOPS性能，比如HPC高性能計(jì)算。此外，服務(wù)器虛擬化的普及也導(dǎo)致了對高IOPS的需求，正如它改變了傳統(tǒng)IT環(huán)境一樣。為了迎接這些挑戰(zhàn)，各種模式的固態(tài)存儲(chǔ)設(shè)備應(yīng)運(yùn)而生，小到簡單的在服務(wù)器內(nèi)部做高速緩存，大到全固態(tài)介質(zhì)的可擴(kuò)展存儲(chǔ)系統(tǒng)等等都在蓬勃發(fā)展。

并發(fā)訪問一旦企業(yè)認(rèn)識到大數(shù)據(jù)分析應(yīng)用的潛在價(jià)值，他們就會(huì)將更多的數(shù)據(jù)集納入系統(tǒng)進(jìn)行比較，同時(shí)讓更多的人分享并使用這些數(shù)據(jù)。為了創(chuàng)造更多的商業(yè)價(jià)值，企業(yè)往往會(huì)綜合分析那些來自不同平臺下的多種數(shù)據(jù)對象。包括全局文件系統(tǒng)在內(nèi)的存儲(chǔ)基礎(chǔ)設(shè)施就能夠幫助用戶解決數(shù)據(jù)訪問的問題，全局文件系統(tǒng)允許多個(gè)主機(jī)上的多個(gè)用戶并發(fā)訪問文件數(shù)據(jù)，而這些數(shù)據(jù)則可能存儲(chǔ)在多個(gè)地點(diǎn)的多種不同類型的存儲(chǔ)設(shè)備上。

安全問題

某些特殊行業(yè)的應(yīng)用，比如金融數(shù)據(jù)、醫(yī)療信息以及政府情報(bào)等都有自己的安全標(biāo)準(zhǔn)和保密性需求。雖然對于IT管理者來說這些并沒有什么不同，而且都是必須遵從的，但是，大數(shù)據(jù)分析往往需要多類數(shù)據(jù)相互參考，而在過去并不會(huì)有這種數(shù)據(jù)混合訪問的情況，因此大數(shù)據(jù)應(yīng)用也催生出一些新的、需要考慮的安全性問題。

成本問題

“大”，也可能意味著代價(jià)不菲。而對于那些正在使用大數(shù)據(jù)環(huán)境的企業(yè)來說，成本控制是關(guān)鍵的問題。想控制成本，就意味著我們要讓每一臺設(shè)備都實(shí)現(xiàn)更高的“效率”，同時(shí)還要減少那些昂貴的部件。目前，像重復(fù)數(shù)據(jù)刪除等技術(shù)已經(jīng)進(jìn)入到主存儲(chǔ)市場，而且現(xiàn)在還可以處理更多的數(shù)據(jù)類型，這都可以為大數(shù)據(jù)存儲(chǔ)應(yīng)用帶來更多的價(jià)值，提升存儲(chǔ)效率。在數(shù)據(jù)量不斷增長的環(huán)境中，通過減少后端存儲(chǔ)的消耗，哪怕只是降低幾個(gè)百分點(diǎn)，都能夠獲得明顯的投資回報(bào)。此外，自動(dòng)精簡配置、快照和克隆技術(shù)的使用也可以提升存儲(chǔ)的效率。

很多大數(shù)據(jù)存儲(chǔ)系統(tǒng)都包括歸檔組件，尤其對那些需要分析歷史數(shù)據(jù)或需要長期保存數(shù)據(jù)的機(jī)構(gòu)來說，歸檔設(shè)備必不可少。從單位容量存儲(chǔ)成本的角度看，磁帶仍然是最經(jīng)濟(jì)的存儲(chǔ)介質(zhì)，事實(shí)上，在許多企業(yè)中，使用支持TB級大容量磁帶的歸檔系統(tǒng)仍然是事實(shí)上的標(biāo)準(zhǔn)和慣例。

對成本控制影響最大的因素是那些商業(yè)化的硬件設(shè)備。因此，很多初次進(jìn)入這一領(lǐng)域的用戶以及那些應(yīng)用規(guī)模最大的用戶都會(huì)定制他們自己的“硬件平臺”而不是用現(xiàn)成的商業(yè)產(chǎn)品，這一舉措可以用來平衡他們在業(yè)務(wù)擴(kuò)展過程中的成本控制戰(zhàn)略。為了適應(yīng)這一需求，現(xiàn)在越來越多的存儲(chǔ)產(chǎn)品都提供純軟件的形式，可以直接安裝在用戶已有的、通用的或者現(xiàn)成的硬件設(shè)備上。此外，很多存儲(chǔ)軟件公司還在銷售以軟件產(chǎn)品為核心的軟硬一體化裝置，或者與硬件廠商結(jié)盟，推出合作型產(chǎn)品。

數(shù)據(jù)的積累

許多大數(shù)據(jù)應(yīng)用都會(huì)涉及到法規(guī)遵從問題，這些法規(guī)通常要求數(shù)據(jù)要保存幾年或者幾十年。比如醫(yī)療信息通常是為了保證患者的生命安全，而財(cái)務(wù)信息通常要保存7年。而有些使用大數(shù)據(jù)存儲(chǔ)的用戶卻希望數(shù)據(jù)能夠保存更長的時(shí)間，因?yàn)槿魏螖?shù)據(jù)都是歷史記錄的一部分，而且數(shù)據(jù)的分析大都是基于時(shí)間段進(jìn)行的。要實(shí)現(xiàn)長期的數(shù)據(jù)保存，就要求存儲(chǔ)廠商開發(fā)出能夠持續(xù)進(jìn)行數(shù)據(jù)一致性檢測的功能以及其他保證長期高可用的特性。同時(shí)還要實(shí)現(xiàn)數(shù)據(jù)直接在原位更新的功能需求。

靈活性

大數(shù)據(jù)存儲(chǔ)系統(tǒng)的基礎(chǔ)設(shè)施規(guī)模通常都很大，因此必須經(jīng)過仔細(xì)設(shè)計(jì)，才能保證存儲(chǔ)系統(tǒng)的靈活性，使其能夠隨著應(yīng)用分析軟件一起擴(kuò)容及擴(kuò)展。在大數(shù)據(jù)存儲(chǔ)環(huán)境中，已經(jīng)沒有必要再做數(shù)據(jù)遷移了，因?yàn)閿?shù)據(jù)會(huì)同時(shí)保存在多個(gè)部署站點(diǎn)。一個(gè)大型的數(shù)據(jù)存儲(chǔ)基礎(chǔ)設(shè)施一旦開始投入使用，就很難再調(diào)整了，因此它必須能夠適應(yīng)各種不同的應(yīng)用類型和數(shù)據(jù)場景。

應(yīng)用感知

最早一批使用大數(shù)據(jù)的用戶已經(jīng)開發(fā)出了一些針對應(yīng)用的定制的基礎(chǔ)設(shè)施，比如針對政府項(xiàng)目開發(fā)的系統(tǒng)，還有大型互聯(lián)網(wǎng)服務(wù)商創(chuàng)造的專用服務(wù)器等。在主流存儲(chǔ)系統(tǒng)領(lǐng)域，應(yīng)用感知技術(shù)的使用越來越普遍，它也是改善系統(tǒng)效率和性能的重要手段，所以，應(yīng)用感知技術(shù)也應(yīng)該用在大數(shù)據(jù)存儲(chǔ)環(huán)境里。

小用戶怎么辦？

依賴大數(shù)據(jù)的不僅僅是那些特殊的大型用戶群體，作為一種商業(yè)需求，小型企業(yè)未來也一定會(huì)應(yīng)用到大數(shù)據(jù)。我們看到，有些存儲(chǔ)廠商已經(jīng)在開發(fā)一些小型的“大數(shù)據(jù)”存儲(chǔ)系統(tǒng)，主要吸引那些對成本比較敏感的用戶。

9.大數(shù)據(jù)應(yīng)用與案例分析

1. 大數(shù)據(jù)應(yīng)用案例之：醫(yī)療行業(yè)

[1] Seton Healthcare是采用IBM最新沃森技術(shù)醫(yī)療保健內(nèi)容分析預(yù)測的首個(gè)客戶。該技術(shù)允許企業(yè)找到大量病人相關(guān)的臨床醫(yī)療信息，通過大數(shù)據(jù)處理，更好地分析病人的信息。

[2] 在加拿大多倫多的一家醫(yī)院，針對早產(chǎn)嬰兒，每秒鐘有超過3000次的數(shù)據(jù)讀取。通過這些數(shù)據(jù)分析，醫(yī)院能夠提前知道哪些早產(chǎn)兒出現(xiàn)問題并且有針對性地采取措施，避免早產(chǎn)嬰兒夭折。

[3] 它讓更多的創(chuàng)業(yè)者更方便地開發(fā)產(chǎn)品，比如通過社交網(wǎng)絡(luò)來收集數(shù)據(jù)的健康類App。也許未來數(shù)年后，它們搜集的數(shù)據(jù)能讓醫(yī)生給你的診斷變得更為精確，比方說不是通用的成人每日三次一次一片，而是檢測到你的血液中藥劑已經(jīng)代謝完成會(huì)自動(dòng)提醒你再次服藥。

2. 大數(shù)據(jù)應(yīng)用案例之：能源行業(yè)

[1] 智能電網(wǎng)現(xiàn)在歐洲已經(jīng)做到了終端，也就是所謂的智能電表。在德國，為了鼓勵(lì)利用太陽能，會(huì)在家庭安裝太陽能，除了賣電給你，當(dāng)你的太陽能有多余電的時(shí)候還可以買回來。通過電網(wǎng)收集每隔五分鐘或十分鐘收集一次數(shù)據(jù)，收集來的這些數(shù)據(jù)可以用來預(yù)測客戶的用電習(xí)慣等，從而推斷出在未來2~3個(gè)月時(shí)間里，整個(gè)電網(wǎng)大概需要多少電。有了這個(gè)預(yù)測后，就可以向發(fā)電或者供電企業(yè)購買一定數(shù)量的電。因?yàn)殡娪悬c(diǎn)像期貨一樣，如果提前買就會(huì)比較便宜，買現(xiàn)貨就比較貴。通過這個(gè)預(yù)測后，可以降低采購成本。

[2] 維斯塔斯風(fēng)力系統(tǒng)，依靠的是BigInsights軟件和IBM超級計(jì)算機(jī)，然后對氣象數(shù)據(jù)進(jìn)行分析，找出安裝風(fēng)力渦輪機(jī)和整個(gè)風(fēng)電場最佳的地點(diǎn)。利用大數(shù)據(jù)，以往需要數(shù)周的分析工作，現(xiàn)在僅需要不足1小時(shí)便可完成。

3. 大數(shù)據(jù)應(yīng)用案例之：通信行業(yè)

[1] XO Communications通過使用IBM SPSS預(yù)測分析軟件，減少了將近一半的客戶流失率。XO現(xiàn)在可以預(yù)測客戶的行為，發(fā)現(xiàn)行為趨勢，并找出存在缺陷的環(huán)節(jié)，從而幫助公司及時(shí)采取措施，保留客戶。此外，IBM新的Netezza網(wǎng)絡(luò)分析加速器，將通過提供單個(gè)端到端網(wǎng)絡(luò)、服務(wù)、客戶分析視圖的可擴(kuò)展平臺，幫助通信企業(yè)制定更科學(xué)、合理決策。

[2] 電信業(yè)者透過數(shù)以千萬計(jì)的客戶資料，能分析出多種使用者行為和趨勢，賣給需要的企業(yè)，這是全新的資料經(jīng)濟(jì)。

[3] 中國移動(dòng)通過大數(shù)據(jù)分析，對企業(yè)運(yùn)營的全業(yè)務(wù)進(jìn)行針對性的監(jiān)控、預(yù)警、跟蹤。系統(tǒng)在第一時(shí)間自動(dòng)捕捉市場變化，再以最快捷的方式推送給指定負(fù)責(zé)人，使他在最短時(shí)間內(nèi)獲知市場行情。

[4] NTT docomo把手機(jī)位置信息和互聯(lián)網(wǎng)上的信息結(jié)合起來，為顧客提供附近的餐飲店信息，接近末班車時(shí)間時(shí)，提供末班車信息服務(wù)。

4. 大數(shù)據(jù)應(yīng)用案例之：零售業(yè)

[1] "我們的某個(gè)客戶，是一家領(lǐng)先的專業(yè)時(shí)裝零售商，通過當(dāng)?shù)氐陌儇浬痰?、網(wǎng)絡(luò)及其郵購目錄業(yè)務(wù)為客戶提供服務(wù)。公司希望向客戶提供差異化服務(wù)，如何定位公司的差異化，他們通過從 Twitter 和 Facebook 上收集社交信息，更深入的理解化妝品的營銷模式，隨后他們認(rèn)識到必須保留兩類有價(jià)值的客戶：高消費(fèi)者和高影響者。希望通過接受免費(fèi)化妝服務(wù)，讓用戶進(jìn)行口碑宣傳，這是交易數(shù)據(jù)與交互數(shù)據(jù)的完美結(jié)合，為業(yè)務(wù)挑戰(zhàn)提供了解決方案。"Informatica的技術(shù)幫助這家零售商用社交平臺上的數(shù)據(jù)充實(shí)了客戶主數(shù)據(jù)，使他的業(yè)務(wù)服務(wù)更具有目標(biāo)性。

[2] 零售企業(yè)也監(jiān)控客戶的店內(nèi)走動(dòng)情況以及與商品的互動(dòng)。它們將這些數(shù)據(jù)與交易記錄相結(jié)合來展開分析，從而在銷售哪些商品、如何擺放貨品以及何時(shí)調(diào)整售價(jià)上給出意見，此類方法已經(jīng)幫助某領(lǐng)先零售企業(yè)減少了17%的存貨，同時(shí)在保持市場份額的前提下，增加了高利潤率自有品牌商品的比例。

評論 | 0條評論

評論