笔记《C3: High-performance and low-complexity neural compression from a single image or video》

2024-07-14

Uncategorized

2.8k words

希望补充背景知识，所以在新概念/细节上花费精力较多。

摘要

目标：降低深度学习图像压缩的解码复杂度现有模型大多通过使用复杂结构、在大数据集训练来提高泛化性，解码复杂度高。本文中，C3通过“对每幅图像或视频过拟合一个小模型”，达到较强的RD性能和较低解码复杂度。

[!NOTE] rate-distortion (RD) （比特/数据/信息）率失真 RD 如何评估？ PSRN、SSIM等计算原图与生成图像的差异/相似程度

C3基于Cool-chic编码，在单图像上实现后迁移到视频。

[!NOTE] Cool-chic 论文链接一种基于坐标的低复杂度分层图像编码器，其中图像被表示为一个可学习的函数，将像素坐标映射到 RGB 值。然后使用熵编码发送函数的参数。

[!NOTE] Coordinates Neural Representation (CNR) COIN https://arxiv.org/abs/2103.03123

C3 在 CLIC2020 image benchmark 中以低于 3k MACs/pixel 的开销，达到与 H.266 参考实现 VTM 相当的RD；在 UVG video benchmark 中以低于 5k MACs/pixel 的开销达到与 Video Compression Transformer 相当的RD

[!NOTE] MAC Multiply–Accumulate Operations，1MACs 包含一个乘法操作与一个加法操作，大约包含 2FLOPs。开销的度量。 - [ ] 此处 3k、5k MACs/px 是什么概念？参照传统方法对比 - [ ] 为什么用MAC而不是FLOPS

[!NOTE] H.266 | VTM

[!NOTE] Video Compression Transformer VCT 论文链接

Introduction

图像压缩神经网络多基于自编码器（auto-encoder），decoder为了保证泛化性复杂度会较高，对手机等场景难以适应。 COIN 一改思路，用神经网络在要压缩的（单张）图像上过拟合，然后将量化的权重作为图像压缩编码，解码器只针对这一张图片（整个网络只为生成同一张图像），所以复杂度较低。但COIN的RD表现不好。 Cool-chic在COIN的基础上，对待压缩图片另外训练一个熵模型，改善了RD；Cool-chic v2 的RD则超过了 BPG/HEVC 编码。但Cool-chic仍不如VTM，且没有应用到视频压缩（视频对decoder开销要求更高）

C3 对 Cool-chic 进行了一系列改进，首次以较低解码复杂度达到与VTM相近的RD，且将C3扩展到视频压缩，开销少于VCT的%0.1

关于Cool-chic

首先介绍了Cool-chic。AE中模型是独立于待压缩图像的，而Cool-chic对每个带压缩图像给出一个模型（权重）。 Cool-chic中，一张图像的 latent 表达是一系列“latent grid”，在不同尺度生成；在重建图像时，先将每个 latent grid 都上采样到原图尺寸，之后 synthesis network $ f_θ $ 用堆叠的上采样后的 latent grid 预测每个像素点的RGB，有

\[ x_{rec} = f_\theta (Up(z)) \]

压缩后要传输的内容包括：latent grids、熵模型、综合模型。对于每个latent grid，先进行量化，再用熵模型估计其分布的参数 μ 和 σ，模型考虑网格的邻域。熵模型和综合模型在训练后也量化参数，其参数用预设的分布进行熵编码。（文中用 location and scale parameters 指代 μ 和 σ，相关）

此外，特别提到了训练中的 “quantization-aware”，通过在训练时加入噪声，模拟经过量化后的latent向量。

C3 对 Cool-chic 的改进

改进主要包括两类：quantization-aware（训练时）和模型结构。

Optimization改进

Cool-chic中为了使模型适应量化的 latent 和参数，在训练中分两阶段引入了“模拟的量化”

C3沿用了两个阶段的设计，主要对 “模拟量化”的方式进行了改进。其余改动较小。

Soft-rounding (stage 1)

在增加噪声前后进行 soft-rounding，$ s_T $ 为取整函数的平滑逼近（在压缩时是用取整函数量化的），有： \[ z' = s_T(s_T(z) + u) \] 其中 $ s_T $ 有温度系数T，“For large T , sT approaches the identity while for small T , sT approaches the rounding function”。

[!NOTE] 疑问文中提到 “the softrounding does not create an information bottleneck as it is an invertible function”，关于 bottleneck ？

较小的 T 使 $ s_T $ 更接近 rounding，但也让 z 的梯度变化更加剧烈。对此作者进行了退火。

[!NOTE] Anneal

Kumaraswamy noise (stage 1)

Cool-chic中对噪声 u 建模为均匀分布， “for sufficiently smooth distributions, the marginal distribution of the quantization error (z − ⌊z⌉) is approximately uniform”，对 u 的建模建立在 “量化误差与输入无关” 的假设上（如何推出？）。可能有更合适的建模。

[!NOTE] Kumaraswamy distribution 数学理论部分不懂 - [ ] 紧性

Cosine decay schedule (stage 1)

作者实验发现用 Adam 优化器 + 余弦学习率效果比较好，只给了结论。 #### Smaller quantization step (stages 1 & 2)

将量化步长减小，使模型输入减小。

[!NOTE] 疑问为什么输入大会导致 instabilities or suboptimal optimization. #### Soft-rounding for gradient (stage 2)

在阶段二的 back passing 中，由 Cool-chic v2 的 STE + 缩小系数改为使用 soft-rounding

[!NOTE] straight-through estimator(STE)

Adaptive learning rate (stage 2)

"adaptively decrease the learning rate further when the RD-loss does not improve for a fixed number of steps" ### 模型结构的改进

Tags

笔记《C3: High-performance and low-complexity neural compression from a single image or video》

摘要

Introduction

关于Cool-chic

C3 对 Cool-chic 的改进

Optimization改进

Soft-rounding (stage 1)

Kumaraswamy noise (stage 1)

Cosine decay schedule (stage 1)

Adaptive learning rate (stage 2)

扩展到视频压缩

之后

相关工作

实验结果

总结

读完之后