AI大模型如何存储海量数据？一文读懂数据重删和数据压缩

AI资讯 1年前 (2025) charles

7.9K 0 20

随着人工智能技术的飞速发展，大语言模型（LLMs）已成为自然语言处理领域的核心力量，展现出强大的语言理解和生成能力。然而，LLMs的开发与部署面临着巨大的数据管理挑战，包括数据收集、治理、存储和优化等多个方面。

AI对存储的需求几乎涵盖所有方面：高性价比的容量、高可用性、高可靠性、高IOPS、高吞吐量和安全性。更具挑战的是，AI流水线的不同阶段对存储性能也提出各异且动态变化的要求。简而言之，在满足上述需求的同时，最大化GPU利用率和最小化数据移动带来的延迟是存储面临的核心挑战。

数据重删和数据压缩是两种常见的数据缩减技术，它们在存储和数据管理中被广泛应用，以优化存储空间和提高数据处理效率。

重删和压缩，这两个技术是目前最有效节约存储空间的技术，普遍应用在主存、闪存、备份软件和数据传输软件中。那么数据重删和压缩技术区别是什么，在主存储和闪存中是如何实现的？

▉ 重删和压缩到底是什么？

我们先来看看什么是重删，重删全称重复数据删除（Deduplication）是一种数据缩减技术。

简单来说，重删就是说有很多分相同的数据，我只存储其中一份，其他的重复数据块我保留一个地址引用到这个唯一存储的块即可。

通过重删技术可以有效提高存储效率和利用率，数据可以缩减到原来的1/20～1/60。这种技术可以很大程度上减少对物理存储空间的需求，减少传输过程中的网络带宽，有效节约设备采购与维护成本。同时它也是一种绿色存储技术，能有效降低能耗。

压缩（Compression）技术原理就是将一个大字符串中的子串用一个很简短的数字来标记，然后检索该字符串出现的位置，用个简单的字符来替代。从而来减少数据表达所需要的空间，带来空间节省。

打比方来说，用1代表“AB”，用2代表“BC”，然后用255 来代表“Inside”。1到255只需要8个bit，而“AB”“CD”或者“Inside”则需要很多的空间，这样多次扫描替代之后，就可以快速的将数据缩减压缩。

用通俗的话说：重删就是讲相同的东西只存储一次，而压缩则是改造数据排布用一种算法来统计数据的排布模式，从而达到减少数据存储的模式。

重删和压缩通常会配合起来一起使用。如在备份场景中，为了提高数据的缩减效率，在数据经过重删之后会对唯一数据块再执行一次压缩。这样，数据的缩减效果就是重删和压缩效果的叠加。以下是它们的定义、原理、区别以及应用场景的详细说明：

1.数据重删（Deduplication）
定义：数据重删是一种通过识别和删除重复数据来减少存储空间需求的技术。

• 指纹计算：通过对数据块或文件进行哈希计算（如MD5或SHA-1），生成唯一的指纹。

• 数据比对：将新数据的指纹与已存储数据的指纹进行比对，如果发现重复，则只保留一份数据，并通过指针引用。

• 实现方式：

• 文件级重删：以整个文件为单位进行比对，适用于文件备份和归档，但无法识别文件内部的部分重复。

• 块级重删：将文件分割成多个数据块，对每个块进行指纹计算和比对，能够更细粒度地识别重复数据。

• 源端重删：在数据写入存储系统之前进行，节省存储空间，但可能影响写入性能。

• 目标端重删：数据写入后进行，不影响写入性能，但需要额外时间和存储资源。

优势：

• 显著减少存储空间需求，降低存储成本。

• 提高备份和恢复效率，减少数据传输量。

• 增强数据安全性，通过数据切分和随机化处理，防止数据被轻易识别。

2.数据压缩（Compression）
定义：数据压缩是通过编码技术减少数据占用存储空间的方法。

原理：

• 无损压缩：通过统计数据的模式，将重复或冗余信息用更短的编码表示，解压后数据与原始数据完全一致。常见的算法包括Huffman编码和LZ77。

• 有损压缩：允许一定程度的信息丢失以换取更高的压缩率，常用于图像、音频和视频文件。

优势：

• 减少数据存储空间，节省存储成本。
• 提高数据传输效率，减少传输时间。

3.数据重删与数据压缩的区别

• 作用对象：

• 数据重删关注的是重复数据的删除，只存储唯一的数据副本。
• 数据压缩则通过编码技术对数据进行重新编码，减少数据的物理存储空间。

• 实现方式：

• 数据重删基于哈希算法和指纹比对。
• 数据压缩基于编码算法，如Huffman编码。

• 应用场景：

• 数据重删广泛应用于备份、存档和虚拟化环境。
• 数据压缩适用于需要高效存储和传输的场景，如网络传输和存储密集型应用。

▉ 重删和压缩是怎么实现的呢？

1.重删技术的实现

重删一般分为文件级重删和块级重删，我们先看文件级重删，文件级重删理解起来比较简单，就比如我们的邮件服务器，我转发一份邮件给100个人，大家收到我的邮件后就会产生100个一样的文件，假设大家的数据盘使用的共享存储，存储只需要在每个人存入文件的时候查询一下这个文件本地有没有，有我就不再存储。这样在存储上就只存储了一个文件。

在计算机里面有个技术名字叫做”指纹”，非常的形象生动，就好像每个人的指纹肯定不一样，那么我们是不是可以用一个很小的数据来标记一个文件的唯一信息。这里有很多的算法可以快速的得到一个唯一值，比如说MD5算法、Sha算法。

块级重删的基本原理就是对写入的数据按照固定长度进行切片，切片后进行hash计算，然后进行写入处理，非重复数据就单独写入，重复数据就写入引用即可。块级重删有两种方式，定长重删和变长重删。定长重删将数据按照固定长度进行分块，之后进行重删。例入一个文件大小为128M，按照128K来切，切完就是一千份的子文件，然后对这一千份进行对比，把重复数据去掉就是定长重删。

变长重删对性能和算法要求都比较高，同时对于CPU内存消耗也大，影响了数据的实时处理效率。以下面这个图片为例，变长重删效率可能达到10：1，而定长重删只有3：1。

因此，对于全闪存存储这种响应要求高的，建议定长重删，速度快。对于归档、备份这种冷存储建议变长重删，重删率高节省成本。

2.压缩技术的实现

压缩技术由来已久，分为无损压缩和有损压缩。

有损压缩主要用于图像处理领域，比如说我微信发一个照片，明明本地10M的高清图片传输到朋友手机里面就有300K的图片。这主要为了节省网络传输的流量以及微信存储空间节省。

存储系统领域用的压缩都是无损压缩。借助于算法的普及，业界主流存储厂商的压缩实现几乎都没有算法上的区别，只是在于压缩的实现选择上，主要考虑兼顾性能和数据缩减率。

传统的存储，不需要压缩的时候，我们每个数据都是由自己在硬盘上的固定地址的。只需要记录一共由几块盘，一共组成了几个RAID组，每个RAID条带深度是多少，起始地址是多少，就能在内存中快速的用这些基本数据算出数据对应的物理地址是多少。这种基本的写入模式叫做COW（copy on write），就是说写前拷贝。

由于ROW架构每个块都需要单独存储一次地址的映射关系，所以容量越大，产生的元数据量也越大，所以ROW架构一般容量越大，性能越差。由于ROW架构的数据写入采用了新找地址写入，这样原来逻辑上连续的数据会被不断的离散化，最终连续IO也会变成随机IO，对性能影响较大。而SSD盘内部的数据处理也是类似，SSD中开启垃圾回收导致的性能下降被称之为“写悬崖”。

压缩对于存储性能带来的冲击，根本不是来自与压缩本身，而是由于实现压缩的架构而带来的影响。按照当前业界主流存储厂商的软件架构和效率来评估，一般ROW架构的存储相对于COW架构在性能上大概要下降35%左右，而压缩本身带来的性能损失一般在5%以内，所以对于整个存储系统来说，开启压缩性能下降幅度大概在40%左右。

▉ 重删和压缩的珠联璧合

数据压缩与重复数据删除两种技术具有不同层面的针对性，通常需要先应用数据删除技术，然后再使用数据压缩技术进一步降低"结构图"和基本数据块的体积。

压缩会对数据进行重新编码，从而破坏了数据原生的冗余结构，因此再应用重复数据删除效果则会大打折扣，而且消耗时间也更多。而先执行重复数据删除则不同，它首先消除了冗余数据块，然后应用数据压缩对唯一副本数据块进行再次压缩。这样，两种技术的数据缩减作用得到叠加，而且数据压缩的消耗时间大大降低。因此，先去重后压缩，可以获得更高的数据压缩率和性能。

数据重删和压缩都是优化存储和数据管理的重要技术。数据重删通过删除重复数据减少存储需求，而数据压缩通过编码技术减少数据的物理存储空间。两者结合使用可以显著提高存储效率和数据处理性能。

数据重删与压缩在AI大模型的全生命周期中发挥关键作用，从数据准备到模型部署均需精细化设计。未来趋势包括：

**智能化算法**：结合AI优化压缩与重删，实现自适应策略。

**硬件协同**：专有芯片（如TPU）支持高效压缩计算。

**标准化工具**：开源框架（如PyTorch、TensorFlow）集成一站式压缩/重删工具链。

通过合理应用这些技术，可显著降低AI大模型的资源门槛，推动其在更多场景落地。