熱搜詞

解碼分布式:存儲(chǔ)環(huán)境下海量非結(jié)構(gòu)化數(shù)據(jù)安全~

來源:網(wǎng)絡(luò)?2021-02-20

非結(jié)構(gòu)化數(shù)據(jù)的重要之處在于它所提供的語境,通過其對(duì)應(yīng)的數(shù)據(jù)流能更準(zhǔn)確地對(duì)未來趨勢(shì)進(jìn)行解鎖,即對(duì)行業(yè)動(dòng)向進(jìn)行可視化拆分及分析。據(jù)IDC調(diào)查報(bào)告顯示,全球企業(yè)數(shù)據(jù)量中結(jié)構(gòu)化數(shù)據(jù)僅占20%,以多種格式存在的非結(jié)構(gòu)化數(shù)據(jù)及半結(jié)構(gòu)化數(shù)據(jù)占比約為80%,且逐年遞增60%。

存在Oracle、SQL Server等數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)(即行數(shù)據(jù))往往是可以通過二維邏輯表(數(shù)字、符號(hào)等)來表達(dá)實(shí)現(xiàn)。而非結(jié)構(gòu)化數(shù)據(jù)(XML、圖像、聲音、超媒體等信息)往往是先有數(shù)據(jù),再有結(jié)構(gòu),因此難以被納入關(guān)系數(shù)據(jù)庫。尤其是,將海量非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲(chǔ)絕非易事。數(shù)據(jù)專家60%的時(shí)間都花費(fèi)在清理和整理非結(jié)構(gòu)化數(shù)據(jù)上(《福布斯》)。

此外,面對(duì)海量數(shù)據(jù)劇增的情況下,通過增加存儲(chǔ)節(jié)點(diǎn),極易造成成本劇增、管理困難及系統(tǒng)的高負(fù)載性等諸多問題。對(duì)于非結(jié)構(gòu)數(shù)據(jù)SAN、NAS等傳統(tǒng)存儲(chǔ)架構(gòu)顯然是不適合的,面對(duì)未來的數(shù)據(jù)存儲(chǔ)需求,分布式存儲(chǔ)架構(gòu)具有鏈路聚合及Scale-out擴(kuò)展能力等特性,可實(shí)現(xiàn)4K/8K視頻儲(chǔ)存的帶寬需求、資源池的高可用性及訪問更加便捷。

柏科數(shù)據(jù)深耕數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)保護(hù)及數(shù)據(jù)生產(chǎn)三大領(lǐng)域,依托在存儲(chǔ)架構(gòu)、存儲(chǔ)管理軟件及存儲(chǔ)核心算法等方面的核心技術(shù),針對(duì)海量非結(jié)構(gòu)數(shù)據(jù)存儲(chǔ)需求,自主研發(fā)推出IS -Cloud分布式存儲(chǔ)系統(tǒng)。

在“智慧城市”數(shù)字化建設(shè)方案中,柏科數(shù)據(jù)為視頻監(jiān)控網(wǎng)絡(luò)部署了IS -Cloud分布式存儲(chǔ)系統(tǒng)解決方案,為其配置分布式存儲(chǔ)內(nèi)部數(shù)據(jù)交換網(wǎng)絡(luò)(集群內(nèi)網(wǎng))、業(yè)務(wù)數(shù)據(jù)訪問網(wǎng)絡(luò)(集群外網(wǎng))、IPMI管理網(wǎng)絡(luò)以及分布式存儲(chǔ)配置管理網(wǎng)絡(luò)。

整體方案配置兩臺(tái)元數(shù)據(jù)節(jié)點(diǎn)及數(shù)臺(tái)分布式存儲(chǔ)節(jié)點(diǎn),基于X86的分布式存儲(chǔ)的集群架構(gòu),實(shí)現(xiàn)了較強(qiáng)的Scale-out擴(kuò)展能力。選用SSD作為相應(yīng)的存儲(chǔ)實(shí)現(xiàn)方式??蓪/O性能線性提高到幾十個(gè)GB或者上百個(gè)GB的聚合帶寬,實(shí)現(xiàn)每秒數(shù)十萬個(gè)的文件查詢效率,大幅度減少計(jì)算任務(wù)的數(shù)據(jù)IO時(shí)間,提高系統(tǒng)的整體效率。

冗余保護(hù)策略

多副本及糾刪碼是數(shù)據(jù)冗余保護(hù)策略中,較為重要的兩項(xiàng)數(shù)據(jù)安全技術(shù)。多副本是通過多路讀寫的方式,將副本存放至不同存儲(chǔ)節(jié)點(diǎn)的資源池內(nèi),實(shí)現(xiàn)數(shù)據(jù)冗余備份,通過副本對(duì)數(shù)據(jù)進(jìn)行恢復(fù),有效應(yīng)對(duì)物理故障。即副本就是對(duì)原始數(shù)據(jù)的完全拷貝,有效地提高文件的可用性,避免在物理上分散的存儲(chǔ)節(jié)點(diǎn)或硬盤由網(wǎng)絡(luò)斷開或機(jī)器故障等不可測(cè)因素而引起的數(shù)據(jù)丟失或不可獲取。副本數(shù)量越多,文件的可靠性就越高,同時(shí)通過對(duì)多個(gè)副本的并行讀取,進(jìn)一步分散和平衡節(jié)點(diǎn)負(fù)載,提高文件讀取的效率,提高系統(tǒng)的I/O性能。副本保護(hù)機(jī)制是目前業(yè)界安全性最高底層技術(shù)。

相對(duì)于副本校驗(yàn)的方式,糾刪碼技術(shù)不需要完整寫入真實(shí)的數(shù)據(jù)副本,主要通過糾刪碼算法將原始數(shù)據(jù)進(jìn)行編碼,可實(shí)現(xiàn)存儲(chǔ)空間高可用。其基本思想是指將K塊原始的數(shù)據(jù)通過一定的計(jì)算,得M塊編碼塊。對(duì)于這K+M個(gè)數(shù)據(jù)塊,其中任意個(gè)數(shù)據(jù)塊出現(xiàn)故障,可通過對(duì)應(yīng)的重構(gòu)算法將原始的K數(shù)據(jù)塊進(jìn)行恢復(fù),提高了磁盤的整體利用率。

如圖所示,采用糾刪碼方式的存儲(chǔ)池是以 K+M 個(gè)數(shù)據(jù)塊,來存儲(chǔ)一個(gè)單一對(duì)象,其中分為 K 個(gè)數(shù)據(jù)塊和 M 個(gè)編碼塊。首先,將一個(gè)糾刪碼存儲(chǔ)池規(guī)劃為3+2的配置形式,那么一個(gè)對(duì)象需要分別存儲(chǔ)到五個(gè) OSD 上,最多可以容忍其中兩個(gè)丟失數(shù)據(jù)的風(fēng)險(xiǎn)( M = 2 )。

當(dāng)包含 ABCDEFGHI 的對(duì)象 NYAN 被寫入存儲(chǔ)池時(shí),糾刪編碼函數(shù)把內(nèi)容分割為三個(gè)數(shù)據(jù)塊,假設(shè)切割為分別包含 ABC 、 DEF 、和 GHI的三份 ,另外還會(huì)創(chuàng)建兩個(gè)編碼塊:第四份是 YXY 、第五份是 GQC ,各個(gè)塊分別存入 acting set 中的 OSD 內(nèi)。這些塊擁有相同的名字NYAN,但是位于存儲(chǔ)節(jié)點(diǎn)不同的 OSD 上;分塊順序也會(huì)作為對(duì)象的一個(gè)屬性存儲(chǔ)起來。

從糾刪碼存儲(chǔ)池中讀取 NYAN 對(duì)象時(shí),假設(shè)最先讀取到的三個(gè)塊是:包含 ABC 的塊 1 ,包含 GHI 的塊 3 和包含 YXY 的塊 4 ,解碼函數(shù)會(huì)立刻重建對(duì)象的原始內(nèi)容 ABCDEFGHI 。即使我們說塊 5 因?yàn)?OSD4 異常沒有辦法讀取, 塊2因?yàn)镺SD2 讀取較慢最后獲取到,糾刪碼的機(jī)制下只需要有三塊讀出就可以立刻調(diào)用解碼函數(shù),即為糾刪碼技術(shù)針對(duì)數(shù)據(jù)保護(hù)環(huán)境下的高性能讀寫速度及數(shù)據(jù)安全性能。

[展開全部↓]
關(guān)鍵字:
相關(guān)資訊
查看更多
熱門游戲
返回 回到頂部
x