压缩[计算机术语]

fjgsd 2023-02-12 发布于广东

展开全文

压缩是一种通过特定的算法来减小计算机文件大小的机制。这种机制是一种很方便的发明，尤其是对网络用户，因为它可以减小文件的字节总数，使文件能够通过较慢的互联网连接实现更快传输，此外还可以减少文件的磁盘占用空间。

基本信息

中文名	压缩
外文名	Compression
目的	节省保存空间和传输时间
按文件分类	图片压缩、文本压缩
类别	计算机技术
按性质分类	有损压缩、无损压缩

科普中国权威合作机构

张连明教授审阅专家

湖南师范大学

简介

压缩（compression）是为了减少数据大小以节省保存空间和传输的时间。为了数据的传输，压缩能够作用于单独的数据内容或者所有的传输单元（包括数据头），这取决于一些特定的因素。

内容压缩很简单，它就是移除多余的空白字符，插入单个的重复字符指出一个字符串中重复的字符，以及将小型的位串用频繁使用的字符替代。这种类型的压缩能够将文本文件的大小减少50%。压缩由使用特定公式和算法的程序来执行，它确定如何压缩和解压数据。

原理

利用算法将文件有损或无损地处理，以达到保留最多文件信息，而令文件体积变小。压缩文件的基本原理是查找文件内的重复字节，并建立一个相同字节的'词典'文件，并用一个代码表示，比如在文件里有几处有一个相同的词'中华人民共和国'用一个代码表示并写入'词典'文件，这样就可以达到缩小文件的目的软件。由于计算机处理的信息是以二进制数的形式表示的，因此压缩软件就是把二进制信息中相同的字符串以特殊字符标记来达到压缩的目的。为了有助于理解文件压缩，在脑海里想象一幅蓝天白云的图片。对于成千上万单调重复的蓝色像点而言，与其一个一个定义“蓝、蓝、蓝……”长长的一串颜色，还不如告诉电脑：“从这个位置开始存储1117个蓝色像点”来得简洁，而且还能大大节约存储空间。这是一个非常简单的图像压缩的例子。其实，所有的计算机文件归根结底都是以“1”和“0”的形式存储的，和蓝色像点一样，只要通过合理的数学计算公式，文件的体积都能够被大大压缩以达到“数据无损稠密”的效果。

总的来说，压缩可以分为有损和无损压缩两种。如果丢失个别的数据不会造成太大的影响，这时忽略它们是个好主意，这就是有损压缩。有损压缩广泛应用于动画、声音和图像文件中，典型的代表就是影碟文件格式mpeg、音乐文件格式mp3和图像文件格式jpg。但是更多情况下压缩数据必须准确无误，人们便设计出了无损压缩格式，比如常见的zip、rar等。压缩软件（compression software）自然就是利用压缩原理压缩数据的工具，压缩后所生成的文件称为压缩包（archive），体积只有原来的几分之一甚至更小。当然，压缩包已经是另一种文件格式了，如果你想使用其中的数据，首先得用压缩软件把数据还原，这个过程称作解压缩。常见的压缩软件有Winzip、WinRAR等。

重复压缩

有两种形式的重复存在于计算机数据中，zip就是对这两种重复进行了压缩。

第一种

一种是短语形式的重复，即三个字节以上的重复，对于这种重复，zip用两个数字：1.重复位置距当前压缩位置的距离；2.重复的长度，来表示这个重复，假设这两个数字各占一个字节，于是数据便得到了压缩，这很容易理解。

一个字节有 0 - 255 共 256 种可能的取值，三个字节有 256 * 256 * 256 共一千六百多万种可能的情况，更长的短语取值的可能情况以指数方式增长，出现重复的概率似乎极低，实则不然，各种类型的数据都有出现重复的倾向，一篇论文中，为数不多的术语倾向于重复出现；一篇小说，人名和地名会重复出现；一张上下渐变的背景图片，水平方向上的像素会重复出现；程序的源文件中，语法关键字会重复出现，以几十 K 为单位的非压缩格式的数据中，倾向于大量出现短语式的重复。经过上面提到的方式进行压缩后，短语式重复的倾向被完全破坏，所以在压缩的结果上进行第二次短语式压缩一般是没有效果的。

第二种

第二种重复为单字节的重复，一个字节只有256种可能的取值，所以这种重复是必然的。其中，某些字节出现次数可能较多，另一些则较少，在统计上有分布不均匀的倾向，这是容易理解的，比如一个 ASCII 文本文件中，某些符号可能很少用到，而字母和数字则使用较多，各字母的使用频率也是不一样的，据说字母 e 的使用概率最高；许多图片呈现深色调或浅色调，深色（或浅色）的像素使用较多（这里顺便提一下：png图片格式是一种无损压缩，其核心算法就是 zip 算法，它和 zip 格式的文件的主要区别在于：作为一种图片格式，它在文件头处存放了图片的大小、使用的颜色数等信息）；上面提到的短语式压缩的结果也有这种倾向：重复倾向于出现在离当前压缩位置较近的地方，重复长度倾向于比较短（20字节以内）。这样，就有了压缩的可能：给 256 种字节取值重新编码，使出现较多的字节使用较短的编码，出现较少的字节使用较长的编码，这样一来，变短的字节相对于变长的字节更多，文件的总长度就会减少，并且，字节使用比例越不均匀，压缩比例就越大。

软件和格式

常用软件

WinMount、WinRAR、WinZip、7-Zip 、coolrar

常见压缩文件格式

主要有:rar,zip,tar,cab,uue,jar,iso,z,7-zip,ace,lzh,arj,gzip,bz2等压缩文件。

压缩

经过压缩软件压缩的文件叫压缩文件，压缩的原理是把文件的二进制代码压缩，把相邻的0,1代码减少，比如有000000,可以把它变成6个0 的写法60,来减少该文件的空间。

JAR

JAR 文件就是 Java Archive File，顾名思意，它的应用是与 Java 息息相关的，是 Java 的一种文档格式。JAR 文件非常类似 ZIP 文件——准确的说，它就是 ZIP 文件，所以叫它文件包。JAR 文件与 ZIP 文件唯一的区别就是在 JAR 文件的内容中，包含了一个 META-INF/MANIFEST.MF 文件，这个文件是在生成 JAR 文件的时候自动创建的。

ZIP

ZIP应该算是最常见的压缩文件格式了，它不需要单独的一个压缩或者解压缩软件，因为Windows系统已经集成了对ZIP压缩格式的支持。

RAR

虽然ZIP在压缩文件格式中地位很高，但相当多的下载网站都选择了用RAR格式来压缩他们的文件，最根本的原因就在于RAR格式的文件压缩率比ZIP更高。

7Z作为压缩格式的后起新秀，7Z有着比RAR更高的压缩率，能够将文件压缩的更加小巧。不过因为RAR格式已经高度普及，又没有网络普及的“天时”相助，7Z想要取代RAR的地位还是相当不容易的。

CAB

CAB是微软的一种安装文件压缩格式，主要应用于软件的安装程序中。因为涉及到安装程序，所以cab文件中包含的文件通常都不是简单的直接压缩，而是对文件名等都进行了处理，所以虽然可以对其直接解压缩，但解压后得到的文件通常都无法直接使用。

ISO

很多人都认为ISO是一种压缩格式，这源于WinRAR添加了对ISO格式“解压”的支持。而实际上，ISO并不是压缩格式，它之中所包含的文件也并没有经过压缩。ISO只是一种光盘的镜像格式，完全复制并保存了光盘上的内容而已。所谓的对ISO“解压”的过程，不过就是对ISO内文件的提取过程。

TAR

tar为后辍的文件能用WinZip或WinRAR打开，是因为WinZip或WinRar对.tar文件进行了关联，也就是指可以用相应的解压软件将其解压。

.tar是linux下较为常用的压缩文件的格式，并不是什么数据库文件。

UUE

uue是一种在遇到邮件编码混合引起乱码的情况下比较有用的压缩格式，可以用WinZip或者WinRAR打开。

上面主要只介绍了常用的压缩文件。

文件压缩机制

简介

如果从互联网上下载程序和文件，可能会遇到很多ZIP文件。这种压缩机制是一种很方便的发明，尤其是对网络用户，因为它可以减小文件中的比特和字节总数，使文件能够通过较慢的互联网连接实现更快传输，此外还可以减少文件的磁盘占用空间。在下载了文件后，计算机可使用WinZip或Stuffit这样的程序来展开文件，将其复原到原始大小。如果一切正常，展开的文件与压缩前的原始文件将完全相同。乍一听好像很神秘：它是怎样减少比特和字节的数量并将它们原封不动地还原回去的呢？这个过程背后的基本理念其实非常简单明了，就是下面这种通过简单压缩来明显减小文件的方法。

大多数计算机文件类型都包含相当多的冗余内容——它们会反复列出一些相同的信息。文件压缩程序就是要消除这种冗余现象。与反复列出某一块信息不同，文件压缩程序只列出该信息一次，然后当它在原始程序中出现时再重新引用它。

举例

以大家熟悉的信息类型——单词——为例子。

肯尼迪（John F. Kennedy）在1961年的就职演说中曾说过下面这段著名的话：

Ask not what your country can do for you——ask what you can do for your country.（不要问国家能为你做些什么，而应该问自己能为国家做些什么。）

这段话有17个单词，包含61个字母、16个空格、1个破折号和1个句点。如果每个字母、空格或标点都占用1个内存单元，那么文件的总大小为79个单元。为了减小文件的大小，需要找出冗余的部分。

可以发现：

如果忽略大小写字母间的区别，这个句子几乎有一半是冗余的。九个单词（ask、not、what、your、country、can、do、for、you）几乎提供了组成整句话所需的所有东西。为了构造出另一半句子，其实只需要拿出前半段句子中的单词，然后加上空格和标点就行了。

大多数压缩程序使用基于自适应字典的LZ算法来缩小文件。“LZ”指的是此算法的发明者Lempel和Ziv，“字典”指的是对数据块进行归类的方法。

排列字典的机制有很多种，它也可以像编号列表那样简单。在检查肯尼迪这句著名讲话时，可以挑出重复的单词，并将它们放到编号索引中。然后，直接写入编号而不是写入整个单词。

结论

因此，如果字典是：

ask

what

your

country

can

for

you

句子就应该是这样的：

1 not 2 3 4 5 6 7 8-- 1 2 8 5 6 7 3 4

如果了解这种机制，那么只需使用该字典和编号模式即可轻松重新构造出原始句子。这就是在展开某个下载文件时，计算机中的解压缩程序所做的工作。还存在能够自行解压缩的压缩文件。若要创建这种文件，编程人员需要在被压缩的文件中设置一个简单的解压缩程序。在下载完毕后，它可以自动重新构造出原始文件。

但是使用这种机制究竟能够节省多少空间呢？“1 not 2 3 4 5 6 7 8——1 2 8 5 6 7 3 4”当然短于“Ask not what your country can do for you-- ask what you can do for your country.”，但应注意的是，需要随文件一起保存这个字典。

在实际压缩方案中，计算出各种文件需求是一个相当复杂的过程。在上面的例子中，每个字符和空格都占用1个内存单元，整个原句要占用79个单元。压缩后的句子（包括空格）占用了37个单元，而字典（单词和编号）也占用了37个单元。也就是说，文件的大小为74个单元，因此并没有把文件大小减少很多。

但这只是一个句子的情况！可以想象的是，如果用该压缩程序处理完肯尼迪讲话的其余部分，这些单词以及其他单词重复了更多次。而且，正如下一节所言，为了得到尽可能高的组织效率，可以对字典进行重写。

上一个的例子挑出了所有重复的单词并将它们放在一个字典中，这是最显而易见的字典编写方法。但是压缩程序却不这样认为：它对单词没有概念——它只会寻找各个模式。为了尽可能减小文件的大小，它会仔细挑选出最优模式。

如果从这个角度处理该句子，最终会得到一个完全不同的字典。

如果压缩程序扫描肯尼迪的这句话，它遇到的第一个冗余部分只有几个字母长。在ask not what your中，出现了一个重复的模式，即字母t后面跟一个空格——在not和what中。如果压缩程序将此模式写入字典，则每次出现“t”后面跟一个空格的情况时，它会写入一个“1”。但是在这个短句中，此模式的出现次数不够多，不足以将其保留为字典中的一个条目，因此程序最终会覆盖它。

程序接下来注意到的内容是ou，在your和country中都出现了它。如果这是一篇较长的文档，将此模式写入字典会节省大量空间——在英语中ou是一个十分常见的字母组合。但是在压缩程序看完整个句子后，它立即发现了一个更好的字典条目选择：不仅ou发生了重复，而且your和country整个单词都发生了重复，并且它们实际上是作为一个短语your country一起发生重复的。在本例中，程序会用your country条目覆盖掉字典中的ou条目。

短语can do for也发生了重复，一次后面跟着your，另一次跟着you，因此我们又发现can do for you也是一种重复模式。这样，我们可以用一个数字来代替15个字符（包含空格），而your country只允许用一个数字代替13个字符（包含空格），所以程序会用r country条目覆盖your country条目，然后再写入一个单独的can do for you条目。程序通过这种方式继续工作，挑出所有重复的信息，然后计算应该将哪一种模式写入字典。基于自适应字典的LZ算法中的“自适应”部分指的就是这种重写字典的能力。程序执行此工作的过程实际上非常复杂。

无论使用什么方法，这种深入搜索机制都能比仅仅挑出单词这种方法更有效率地对文件进行压缩。如果使用上面提取出的模式，然后用“__”代替空格，最终将得到下面这个更大的字典：

ask__

what__

you

r__country

__can__do__for__you

而句子则较短：

“1not__2345__--__12354”

句子占用18个内存单元，字典占用41个单元，将文件总大小从79个单元压缩到了59个单元！这仅仅是压缩句子的一种方法，而且不一定是最高效的方法。

优势

那么这种机制到底有多好呢？文件压缩率取决于多种因素，包括文件类型、文件大小和压缩方案。

在世界上的大多数语言中，某些字母和单词经常以相同的模式一起出现。正是由于这种高冗余性，而导致文本文件的压缩率会很高。通常大小合适的文本文件的压缩率可以达到50%或更高。大多数编程语言的冗余度也很高，因为它们的命令相对较少，并且命令经常采用一种设定的模式。对于包含大量不重复信息的文件（例如图像或MP3文件），则不能使用这种机制来获得很高的压缩率，因为它们不包含重复多次的模式。

如果文件有大量重复模式，那么压缩率通常会随着文件大小的增加而增加。从上面的例子中就可以看出这一点——如果我们摘录的肯尼迪讲话再长一些，您会发现又多次出现了我们字典中的模式，因此能够通过每个字典条目节省更多的文件空间。此外，对于更大的文件，还可能出现具有更大普遍性的模式，从而能够创建出效率更高的字典。

此外，文件压缩效率还取决于压缩程序使用的具体算法。有些程序能够在某些类型的文件中更好地寻找到模式，因此能更有效地压缩这些类型的文件。其他一些压缩程序在字典中又使用了字典，这使它们在压缩大文件时表现很好，但是在压缩较小的文件时效率不高。尽管这一类的所有压缩程序都基于同一个基本理念，但是它们的执行方式却各不相同。程序开发人员始终在尝试建立更好的压缩机制。

有损和无损

上文中讨论的压缩类型称为无损压缩，因为重新创建的文件与原始文件完全相同。所有无损压缩都基于这样一种理念：将文件变为“较小”的形式以利于传输或存储，并在另一方收到它后复原以便重新使用它。

有损压缩则与此大不相同。这些程序直接去除“不必要”的信息，对文件进行剪裁以使它变得更小。这种类型的压缩大量应用于减小位图图像的文件大小，因为位图图像的体积通常非常庞大。为了了解有损压缩的工作原理，让我们看看你的计算机如何对一张扫描的照片进行压缩。

对于此类文件，无损压缩程序的压缩率通常不高。尽管图片的大部分看起来都是相同的——例如，整个天空都是蓝色的——但是大部分像素之间都存在微小的差异。为了使图片变得更小同时不降低其分辨率，您必须更改某些像素的颜色值。如果图片中包含大量的蓝色天空，程序会挑选一种能够用于所有像素的蓝色。然后，程序重写该文件，所有天空像素的值都使用此信息。如果压缩方案选择得当，不会有任何变化，但是文件大小会显著减小。

当然，对于有损压缩，在文件压缩将无法复原成原始文件的样子。压缩程序会对对原始文件重新解释。因此，如果需要完全重现原来的内容（例如软件应用程序、数据库和总统就职演说），则不应该使用这种压缩形式。

技术

简介

图像压缩技术是在传递图像时压缩信息量, 经过还原仍能看到原来的图像的一种技术。

未经压缩的图形、图像和音频数据需要非常客观的存储空间, 即便使用光盘存储技术 ,末压缩过的视频也常常是不实用的。在数字图像监控系统中 ,需要处理大量的视频数据, 因而图像的压缩编码和解码显得十分重要。现在已有多种压缩方法用于数字监控系统，目前比较普遍使用的有 :JPEG(对单幅图像)、H .261(P ×64 )、MPEG(用于视频用于视频和音频)。

技术分类

图像压缩技术可归于不同类型。对于它们在多媒体系统中的应用, 我们可用源、熵和混合编码来分辨它们。熵编码是无损编码, 而源编码是有损压缩 ,大部分多媒体系统使用混合技术 ,即将两种技术混合在一起。