多个 GZip 文件的快速连接

2024-10-29 08:35:00
admin
原创
233
摘要:问题描述:我有 gzip 文件列表:file1.gz file2.gz file3.gz 有没有办法将这些文件连接或压缩为一个 gzip 文件,而无需解压缩它们?实际上,我们将在 Web 数据库 (CGI) 中使用它。Web 将接收来自用户的查询,并根据查询列出所有文件,然后将它们以批处理文件的形式呈现给用户...

问题描述:

我有 gzip 文件列表:

file1.gz
file2.gz
file3.gz

有没有办法将这些文件连接或压缩为一个 gzip 文件,
而无需解压缩它们?

实际上,我们将在 Web 数据库 (CGI) 中使用它。Web 将接收来自用户的查询,并根据查询列出所有文件,然后将它们以批处理文件的形式呈现给用户。


解决方案 1:

使用 gzip 文件,您可以简单地将文件连接在一起,如下所示:

cat file1.gz file2.gz file3.gz > allfiles.gz

根据gzip RFC,

gzip 文件由一系列“成员”(压缩数据集)组成。[...] 成员只是一个接一个地出现在文件中,在它们之前、之间或之后没有任何附加信息。

请注意,这与构建单个 gzip 文件以合并数据并不完全相同;除此之外,所有原始文件名都会保留。但是,gunzip 似乎将其视为等同于合并。

由于现有工具通常会忽略其他成员的文件名标头,因此无法轻松地从结果中提取单个文件。如果您希望这成为可能,请改为构建 ZIP 文件。ZIP 和 GZIP 都使用 DEFLATE 算法进行实际压缩(ZIP 支持一些其他压缩算法以及一个选项 - 方法 8 是与 GZIP 压缩相对应的方法);区别在于元数据格式。由于元数据未压缩,因此可以简单地剥离 gzip 标头并添加 ZIP 文件标头和中央目录记录。请参阅gzip 格式规范和ZIP 格式规范。

解决方案 2:

以下是man 1 gzip关于您的要求的内容。

可以将多个压缩文件连接起来。在这种情况下,gunzip 将一次性提取所有成员。例如:

gzip -c file1  > foo.gz
gzip -c file2 >> foo.gz

然后

gunzip -c foo

相当于

cat file1 file2

不用说,file1可以用 来代替file1.gz

你一定注意到了这一点:

gunzip 将立即提取所有成员

因此,要单独获取所有成员,您必须使用一些额外的东西或者写下来(如果您愿意的话)。

但是,手册页中也提到了这一点。

如果您希望创建一个包含多个成员的单个存档文件,以便以后可以单独提取成员,请使用 tar 或 zip 等存档程序。GNU tar 支持-z透明调用 gzip 的选项。gzip 旨在作为 tar 的补充,而不是替代。

解决方案 3:

只需使用 cat。它非常快(对我来说 500 MB 只需 0.2 秒)

cat *gz > final
mv final final.gz

然后你可以用 zcat 读取输出以确保它很漂亮:

zcat final.gz

我尝试了另一个答案“gz -c”,但是当使用已经 gzip 压缩的文件作为输入时,最终得到了垃圾(我猜它对它们进行了双重压缩)。

光伏:

更好的是,如果你有它,用'pv'代替cat:

pv *gz > final
mv final final.gz

这会给你一个进度条,但其功能与 cat 相同。

解决方案 4:

您可以创建这些文件的 tar 文件,然后对 tar 文件进行 gzip 压缩以创建新的 gzip 文件

tar -cvf newcombined.tar file1.gz file2.gz file3.gz
gzip newcombined.tar
相关推荐
  政府信创国产化的10大政策解读一、信创国产化的背景与意义信创国产化,即信息技术应用创新国产化,是当前中国信息技术领域的一个重要发展方向。其核心在于通过自主研发和创新,实现信息技术应用的自主可控,减少对外部技术的依赖,并规避潜在的技术制裁和风险。随着全球信息技术竞争的加剧,以及某些国家对中国在科技领域的打压,信创国产化显...
工程项目管理   1565  
  为什么项目管理通常仍然耗时且低效?您是否还在反复更新电子表格、淹没在便利贴中并参加每周更新会议?这确实是耗费时间和精力。借助软件工具的帮助,您可以一目了然地全面了解您的项目。如今,国内外有足够多优秀的项目管理软件可以帮助您掌控每个项目。什么是项目管理软件?项目管理软件是广泛行业用于项目规划、资源分配和调度的软件。它使项...
项目管理软件   1354  
  信创国产芯片作为信息技术创新的核心领域,对于推动国家自主可控生态建设具有至关重要的意义。在全球科技竞争日益激烈的背景下,实现信息技术的自主可控,摆脱对国外技术的依赖,已成为保障国家信息安全和产业可持续发展的关键。国产芯片作为信创产业的基石,其发展水平直接影响着整个信创生态的构建与完善。通过不断提升国产芯片的技术实力、产...
国产信创系统   21  
  信创生态建设旨在实现信息技术领域的自主创新和安全可控,涵盖了从硬件到软件的全产业链。随着数字化转型的加速,信创生态建设的重要性日益凸显,它不仅关乎国家的信息安全,更是推动产业升级和经济高质量发展的关键力量。然而,在推进信创生态建设的过程中,面临着诸多复杂且严峻的挑战,需要深入剖析并寻找切实可行的解决方案。技术创新难题技...
信创操作系统   27  
  信创产业作为国家信息技术创新发展的重要领域,对于保障国家信息安全、推动产业升级具有关键意义。而国产芯片作为信创产业的核心基石,其研发进展备受关注。在信创国产芯片的研发征程中,面临着诸多复杂且艰巨的难点,这些难点犹如一道道关卡,阻碍着国产芯片的快速发展。然而,科研人员和相关企业并未退缩,积极探索并提出了一系列切实可行的解...
国产化替代产品目录   28  
热门文章
项目管理软件有哪些?
云禅道AD
禅道项目管理软件

云端的项目管理软件

尊享禅道项目软件收费版功能

无需维护,随时随地协同办公

内置subversion和git源码管理

每天备份,随时转为私有部署

免费试用