數(shù)據(jù)壓縮

1什么是數(shù)據(jù)壓縮[1] 2數(shù)據(jù)壓縮的基本原理[1] 3數(shù)據(jù)壓縮的基本方法[1] 4數(shù)據(jù)壓縮的分類[2] 5評(píng)價(jià)數(shù)據(jù)壓縮的標(biāo)準(zhǔn)[2] 6常見(jiàn)的數(shù)據(jù)壓縮工具[2] 7數(shù)據(jù)壓縮的國(guó)際標(biāo)準(zhǔn)[3]

1.什么是數(shù)據(jù)壓縮[1]

數(shù)據(jù)壓縮是以盡可能少的數(shù)碼來(lái)表示信源所發(fā)出的信號(hào)，減少容納給定的消息集合或數(shù)據(jù)采樣集合的信號(hào)空間。這里講的信號(hào)空間，就是被壓縮的對(duì)象，是指某信號(hào)集合所占的時(shí)域、空域和頻域。信號(hào)空間的這幾種形式是相互關(guān)聯(lián)的，存儲(chǔ)空間的減少，意味著信號(hào)傳輸效率的提高，所占用帶寬的節(jié)省。只要采取某種方法來(lái)減少某個(gè)信號(hào)空間，就能夠壓縮數(shù)據(jù)。

數(shù)據(jù)壓縮是信息論中一個(gè)很重要的概念。從信息論的角度來(lái)看，信源編碼的一個(gè)最主要的目的，就是要解決數(shù)據(jù)的壓縮問(wèn)題。這一點(diǎn)，反映在整個(gè)通信過(guò)程中。

2.數(shù)據(jù)壓縮的基本原理[1]

一般來(lái)說(shuō)，數(shù)據(jù)壓縮主要是通過(guò)數(shù)據(jù)壓縮編碼來(lái)實(shí)現(xiàn)的。要想使編碼有效，必須建立相應(yīng)的系統(tǒng)模型。在給定的模型下，通過(guò)數(shù)據(jù)編碼來(lái)消除冗余，大致有如下三種情況。

(1)信源符號(hào)之間存在相關(guān)性。如果消除了這些相關(guān)性，就意味著數(shù)據(jù)壓縮。譬如，位圖圖像像素與像素之間的相關(guān)性，動(dòng)態(tài)視頻幀與幀之間的相關(guān)性。去掉這些相關(guān)性，通常采用預(yù)測(cè)編碼、變換編碼等方法。

(2)信源符號(hào)之間存在分布不等概性。根據(jù)不同符號(hào)出現(xiàn)的不同概率，分別進(jìn)行編碼，概率大的符號(hào)用較短的碼長(zhǎng)編碼，概率小的符號(hào)用較長(zhǎng)的碼長(zhǎng)編碼，最終使信源的平均碼長(zhǎng)達(dá)到最短。對(duì)此，通常采用統(tǒng)計(jì)編碼的方法。

(3)利用信息內(nèi)容本身的特點(diǎn)(如自相似性)。用模型的方法，對(duì)需傳輸?shù)男畔⑦M(jìn)行參數(shù)估測(cè)，充分利用人類的視覺(jué)、聽(tīng)覺(jué)等特性，同時(shí)考慮信息內(nèi)容的特性，確定并遴選出其中的部分內(nèi)容(而不是全部?jī)?nèi)容)進(jìn)行編碼，從而實(shí)現(xiàn)數(shù)據(jù)壓縮。通常采用模型基編碼的方法。

隨著數(shù)字通信和計(jì)算機(jī)技術(shù)的不斷發(fā)展，有關(guān)數(shù)據(jù)壓縮的技術(shù)正不斷成熟和完善，而且適應(yīng)各種應(yīng)用的新的編碼方法也不斷產(chǎn)生。一般說(shuō)來(lái)，可供壓縮的數(shù)據(jù)分為兩大類：一類是與文字和字符有關(guān)的文本數(shù)據(jù)；另一類是將模擬信號(hào)數(shù)字化后得到的多媒體數(shù)據(jù)。兩類數(shù)據(jù)所采用的數(shù)據(jù)壓縮方法相應(yīng)不同。此外，文本數(shù)據(jù)壓縮和多媒體數(shù)據(jù)壓縮(如視覺(jué)類和聽(tīng)覺(jué)類媒體)在算法上存在一定區(qū)別，主要表現(xiàn)在兩個(gè)方面：是否允許有誤差；壓縮算法有沒(méi)有高級(jí)模型可以利用。

3.數(shù)據(jù)壓縮的基本方法[1]

目前，比較認(rèn)同的常用的數(shù)據(jù)壓縮的編碼方法，大致分為兩大類。

(1)冗余壓縮法或無(wú)損壓縮法。

冗余壓縮法或無(wú)損壓縮法又稱為無(wú)失真壓縮法或熵編碼法。這類壓縮方法只是去掉數(shù)據(jù)中的冗余部分，并沒(méi)有損失熵，而這些冗余數(shù)據(jù)是可以重新插入到原數(shù)據(jù)中的。也就是說(shuō)，去掉冗余不會(huì)減少信息量，而且仍可原樣恢復(fù)數(shù)據(jù)。因此，這類壓縮方法是可逆的。

(2)熵壓縮法或有損壓縮法。

這類壓縮法由于壓縮了熵，也就損失了信息量，而損失的信息是不能恢復(fù)的。因此，在用門限值來(lái)采樣量化時(shí)，如果只存儲(chǔ)門限內(nèi)的數(shù)據(jù)，那么原來(lái)超過(guò)這個(gè)預(yù)置門限的數(shù)據(jù)就將丟失。這種壓縮方法，雖然可壓縮大量的信號(hào)空間，但那些丟失的實(shí)際樣值就不可能恢復(fù)了，是不可逆的。也就是說(shuō)，在用熵壓縮法時(shí)，數(shù)據(jù)壓縮要以一定的信息損失為代價(jià)，而數(shù)據(jù)的恢復(fù)只能是近似的，應(yīng)根據(jù)條件和要求，在允許的范圍內(nèi)進(jìn)行壓縮。

4.數(shù)據(jù)壓縮的分類[2]

數(shù)據(jù)壓縮按照映射是否固定可分為靜態(tài)數(shù)據(jù)壓縮和動(dòng)態(tài)數(shù)據(jù)壓縮。靜態(tài)數(shù)據(jù)壓縮是指壓縮前源消息集到碼字集之間的映射是固定的，出現(xiàn)在被壓縮數(shù)據(jù)中的源消息每次都被映射為同一碼字。動(dòng)態(tài)數(shù)據(jù)壓縮是指源消息集到碼字集的映射會(huì)隨著壓縮進(jìn)度的變化而變化。靜態(tài)壓縮編碼需要兩步，先計(jì)算出源消息出現(xiàn)的頻率，確定源消息到碼字之間的映射；然后完成映射。動(dòng)態(tài)數(shù)據(jù)壓縮則只需一步就能完成，它在壓縮過(guò)程中只對(duì)源消息集掃描一次。有些數(shù)據(jù)壓縮算法是混合型的，綜合應(yīng)用了靜態(tài)數(shù)據(jù)壓縮和動(dòng)態(tài)數(shù)據(jù)壓縮技術(shù)。

5.評(píng)價(jià)數(shù)據(jù)壓縮的標(biāo)準(zhǔn)[2]

從實(shí)際應(yīng)用來(lái)說(shuō)，數(shù)據(jù)壓縮可從數(shù)據(jù)壓縮速度和數(shù)據(jù)壓縮率兩方面來(lái)衡量。當(dāng)數(shù)據(jù)壓縮應(yīng)用于網(wǎng)絡(luò)傳輸時(shí)，主要考慮速度快慢；當(dāng)數(shù)據(jù)壓縮應(yīng)用于數(shù)據(jù)存儲(chǔ)時(shí)，主要考慮壓縮率，即壓縮后數(shù)據(jù)的大小。當(dāng)然這兩方面是相輔相成的。

常用的評(píng)價(jià)標(biāo)準(zhǔn)有冗余度、平均源信息長(zhǎng)度、壓縮率等。對(duì)于一種編碼方式是否為較好的編碼，主要看該編碼的冗余度是否最小。

6.常見(jiàn)的數(shù)據(jù)壓縮工具[2]

現(xiàn)在操作簡(jiǎn)單、使用方便、功能強(qiáng)大的數(shù)據(jù)壓縮工具有很多。最常見(jiàn)的是WinZip和Win-RAR。

7.數(shù)據(jù)壓縮的國(guó)際標(biāo)準(zhǔn)[3]

20世紀(jì)80年代．國(guó)際標(biāo)準(zhǔn)化組織(ISO)和國(guó)際電報(bào)電話咨詢委員會(huì)(CCITT)組成的聯(lián)合圖像專家組制定的靜止圖像壓縮標(biāo)準(zhǔn)JPEG和運(yùn)動(dòng)圖像視頻壓縮標(biāo)準(zhǔn)MPEG已被廣泛采用。

1．JPEG標(biāo)準(zhǔn)

JPEG標(biāo)準(zhǔn)適用于色調(diào)和多級(jí)灰度的靜態(tài)圖像，一般對(duì)單色和彩色圖像的壓縮比通常分別為10：1和15：1，常用于CD—ROM、彩色圖像傳真和圖文管理。許多Web瀏覽器都將JPEG圖像作為其標(biāo)準(zhǔn)的圖像文件格式。

2．MPEG標(biāo)準(zhǔn)

MPEG標(biāo)準(zhǔn)不僅適用于運(yùn)動(dòng)圖像，也適用于音頻信息，它包括了三部分：MPEG視頻、MPEG音頻、MPEG系統(tǒng)(視頻和音頻的同步)。MPEG視頻是MPEG標(biāo)準(zhǔn)的核心。MPEG標(biāo)準(zhǔn)已指定了MPEG-1、MPEG-2、MPEG-4、MPEG-7和MPEG-21等多種標(biāo)準(zhǔn)。

MPEG-1是為有限帶寬傳輸設(shè)計(jì)的，數(shù)據(jù)傳輸率為l～1．5Mb／s，平均壓縮比為50：1，可達(dá)到一般錄像機(jī)所要求的質(zhì)量。它常用于VCD壓縮，一部120分鐘長(zhǎng)的電影可壓縮到1．2GB左右。

MPEG-2是為高帶寬傳輸設(shè)計(jì)的，數(shù)據(jù)傳輸率為4～10Mb／s，壓縮比高達(dá)200：1，可支持播放高質(zhì)量的數(shù)字式電視，常用于DVD壓縮。MPEG-4是“甚低速率視聽(tīng)編碼”標(biāo)準(zhǔn)，數(shù)據(jù)傳輸率小于64Kb／s。多應(yīng)用在移動(dòng)多媒體通信、因特網(wǎng)、實(shí)時(shí)多媒體監(jiān)控以及其他低數(shù)據(jù)傳輸速率的場(chǎng)合。

3．H．261視頻通信編碼標(biāo)準(zhǔn)

國(guó)際電報(bào)電話咨詢委員會(huì)于1988年針對(duì)可視通信的需要，提出電視電話／會(huì)議的H．261編碼標(biāo)準(zhǔn)，即P*64視頻編碼／解碼標(biāo)準(zhǔn)。這是一種關(guān)于視頻和聲音的以64kb／s的整數(shù)倍作為傳輸速率的雙向傳輸標(biāo)準(zhǔn)。其中P是一個(gè)通道可變參數(shù)，取值為1～30。當(dāng)P=1或P=2時(shí)支持四分之一中間格式(QCIF)的幀率較低的視頻電話傳輸；當(dāng)P≥6時(shí)支持能用中間格式(CIF)的幀率較高的電視會(huì)議數(shù)據(jù)傳輸。

在H．261標(biāo)準(zhǔn)中，圖像采用公共中間格式CIF和1／4CIF，H．261標(biāo)準(zhǔn)與MPEG標(biāo)準(zhǔn)是相互不兼容的。

評(píng)論 | 0條評(píng)論

評(píng)論

經(jīng)理人分享