在视频压缩中也作为I帧压缩模型经常出现。
Abstract
本文的目标直接就是深度学习与传统算法的 rate-distortion performance
gap(失真以PSNR为标准)。主要对熵模型进行了改进,“使用 discretized
Gaussian Mixture Likelihoods 参数化 latent
code”;此外引入注意力模块提高模型表现。
Intro
传统图像压缩算法 “Typically they rely on hand-crafted creativity to
present module-based encoder/decoder (codec) block diagrams.”
?,其变换矩阵、帧内预测、量化、算术编码器等都是确定的。 “In this paper,
our main contribution is to present a more accurate and flexible entropy
model by leveraging discretized Gaussian mixture likeli...
从不能正确识别公式,到公式渲染后重复,配置过程中总有各种问题。
尝试了许多渲染器后,最终发现
https://yangliuav.github.io/2018/05/11/hexomath/ 的 hexo-math 加
hexo-renderer-pandoc 比较顺畅
关于 “pandoc exited with code null” 问题参考
https://github.com/theme-next/hexo-theme-next/issues/1454
解决,在电脑安装
pandoc(https://github.com/jgm/pandoc/releases/)并重启即可(也适用于
windows,用 msi 安装比较方便)
An Introduction to Autoencoders http://arxiv.org/abs/2201.03898An
Autoencoders http://arxiv.org/abs/2003.05991
图来自 http://arxiv.org/abs/2201.03898
记号
\[ h = g(x) \]
g表示encoder部分,h 表示AE学到的latent feature
\[ \tilde{x} \]
x tilde(/ˈtɪl.də/),表示AE重构的输出
f 表示decoder部分
\[ g(\cdot), f(\cdot)\]
中的 cdot 表示对于所有观测的平均
与一般神经网络相比
bottleneck
自编码器就该头尾宽中间窄是一种先入为主的想法,想一下就会发现,一般的分类网络网络之类都是收尾窄中间宽
“bottleneck”是设计出来的
正则化
为什么正则化和其他一些tirck增加latent特征的稀疏性?
为什么令encoder和decoder参数相同(绑定)是有效的?
来自 http:...
Activation
Regularization - serp.ai A
Gentle Introduction to Activation
\[\alpha{L}_{2}\left(m\circ{h_{t}}\right)
\]
Here, \(m\) refers to the dropout
mask used later in the model, \(\alpha\) is a scaling coefficient, and
\(h_{t}\) is the output of the RNN at
timestep \(t\). The \(L_{2}\) norm is used to calculate the
magnitude of the activations, and the result is scaled by \(\alpha\). This encourages small
activations, ultimately leading to better performance and generalization
...
为了 factorized entropy model 来看
来源
论文 https://arxiv.org/abs/1611.01704 复现
https://github.com/liujiaheng/iclr_17_compression
笔记
General nonlinear
transform coding framework
理解为
此处对压缩一笔带过,其他文章也是,虽然确实在这里不重要,但压缩具体是什么样的?
proxy loss function
针对量化带来的零梯度 为什么会出现零梯度?直觉是否正确 ——
邻近的值在数值上临近,量化后容易到同一点?
"we use a proxy loss function based on a continuous relaxation of the
probability model, replacing the quantization step with additive uniform
noise." 实际做法和DCVC等一样,不过说法很不同
又见 VAE https://e...
为了 hyper prior entropy model、hierarchical prior 来看
来源
论文 https://arxiv.org/abs/1802.01436v2 复现
https://github.com/Hannah-Neumann/ai-image-compression
side information
"a concept universal to virtually all modern image codecs, but
largely unexplored in image compression using artificial neural networks
(ANNs)."
是指先验信息? https://www.nxhh.net/qkwenda/3103389.html
Intro
本来是因为不了解 DCVC 提到的 prior 和 side information
来看,但这篇文章的 introduction 解答了我对图像压缩整体流程的很多疑问
甚至解释了一直没搞清楚的 entropy
mode...
Abstract
Deep Contextual Video Compression (DCVC), 提出使用 conditional
coding 代替 predictive coding,并提出一种 feature domain context 作为
condition。
使用高维上下文为 codec 提供更丰富的信息
condition 可替换(扩展性)
实验中比 x256 节约 26.0% 的比特率
Intro
传统方法、多数 DL 方法:将预测帧与(解码后的)当前帧间的残差编码。DL
的引入主要改变了生成预测帧的方式。
作者指出残差编码只通过人工设计的求差消除帧间冗余,因而并非最优(即其消除冗余的方式非最优);其信息熵大于等于条件编码:
\[
H(x_t - \tilde{x}_t) \ge H(x_t | \tilde{x}_t)
\]
从此式可以稍微明白条件编码中 “条件” 的含义。
猜测:传统方法中用残差表示了帧间关系,此处则将上下文特征作为条件,用转移概率表示帧间关系,从
\(x_t = \tilde{x}_t + r...
希望补充背景知识,所以在新概念/细节上花费精力较多。
摘要
目标:降低深度学习图像压缩的解码复杂度
现有模型大多通过使用复杂结构、在大数据集训练来提高泛化性,解码复杂度高。本文中,C3通过“对每幅图像或视频过拟合一个小模型”,达到较强的RD性能和较低解码复杂度。
[!NOTE] rate-distortion (RD) (比特/数据/信息)率失真 RD 如何评估?
PSRN、SSIM等计算原图与生成图像的差异/相似程度
C3基于Cool-chic编码,在单图像上实现后迁移到视频。
[!NOTE] Cool-chic 论文链接
一种基于坐标的低复杂度分层图像编码器,其中图像被表示为一个可学习的函数,将像素坐标映射到
RGB 值。然后使用熵编码发送函数的参数。
[!NOTE] Coordinates Neural Representation (CNR) COIN
https://arxiv.org/abs/2103.03123
C3 在 CLIC2020 image benchmark 中以低于 3k MACs/pixel 的开销,达...