一篇论文,只有理解了所提出的问题是什么,为了解决这个问题提出了什么方法,以及有自己的思考和收获,才算是吸收完这篇论文。
# Low-Light Image Enhancement
# 2024 CodeEnhance: A Codebook-Driven Approach for Low-Light Image Enhancement(CodeEnhance)
思考
- 利用
codebook
从High-Quality
图像中学习先验。 - 在
Unet
编码器端并行设计预训练的语义信息提取网络SEE
,在编码器末端设计一个语义信息融合模块SEM
,将语义信息与图像特征融合。 - 因为
codebook
学习的先验所用数据集和第二阶段训练所用数据集不同,设计了一个codebook
偏移机制CS
处理引入 codebook 产生的数据分布偏移问题。 - 在预训练的解码器末端附加一个特征转换模块
IFT
。一方面,利用参考图像Reference
丰富解码器High-Quality
解码图像的信息,另一方面,在IFT
内的CPT
加入两个人为设计的 $$\omega$$ 以实现可控式图像提亮。
创新
很明显知道这篇低光的论文是基于
Towards Robust Blind Face Restoration with Codebook Lookup Transformer
这篇文章的工作,所以创新是相对于Towards Robust Blind Face Restoration with Codebook Lookup Transformer
的创新。我们可以把Towards Robust Blind Face Restoration with Codebook Lookup Transformer
称为base work
- 在
encoder
并行引入一个语义感知模块,与encoder
通过一个语义融合模块融合。这个做法是借鉴了 23 年ICCV
的一篇与语义分割结合的低光工作:Learning Semantic-Aware Knowledge Guidance for Low-Light Image Enhancement
。 IFT
源于base work
的CPT
。但是base work
的CPT
是将低质量图作为参考,而本文章是把ground-truth
作为参考。- 发现
codebook
两阶段输入的数据分布不一致,提出代码本数据偏移机制。这是较base work
优秀的地方。
所以很明显,我们不应该是将别的领域的东西套过来到本领域去用,而是把自己领域的东西尽可能往别的领域靠、结合,才是更好的。要针对别的领域的工作,提出一个基于本领域的改进。
不足
- 极其依赖
ground-truth
和reference
。codebook
的训练依赖high-quality
图像进行重建不说,IFT
需要一张正常光照的图作为参考。训练时期,IFT
尚且可以。然而测试如果再依赖一张正常光照的图像作为reference
,那就没有什么应用意义。虽然通过这种方式能够实现光照恢复动态化,但缺点也很明显。 - 解决
codebook
的数据偏移问题过于粗糙,引入可学习的codebook shift
增加了训练的困难。
# 2023 CVPR Learning a Simple Low-light Image Enhancer from Paired Low-light Instances(PairLIE)
思考
- 使用两张低光的图片,结合
Retinex
理论,实现不需要额外设计手工先验的无监督低光增强。 - 在使用
Retinex
分解前,使用一个映射网络有效增强分解准确率。 - 将超分辨率中多图像辅助修复单图像的做法引入到低光照增强领域中,为多图像辅助修复单图像提供了低光照增强的做法。
- 训练阶段,两张低光图经过
L-Net
得到的结果并未充分利用。 - 这个工作更重要的意义在于,将多图像的信息辅助单图像的恢复。然而作者的做法是,多引入图片就设计一个新的,与待恢复图像相同的网络架构,即 L-Net,R-Net 和 P-Net。倘若扩展到更多图像,不可能再同样为每一张新引入的图片设计一整套网络。因此这种做法限制了多图像的信息辅助单图像的恢复,局限于双图像。
- 推理阶段,
L-Net
估计得到的L
只进行一个指数变换,得到 $ L^\lambda $ 就作为提亮后的光照,这种做法能否优化?R-Net
的输出R
并未经过任何处理,是否影响了性能的上限?
# 2024 DI-Retinex: Digital-Imaging Retinex Theory for Low-Light Image Enhancement(DI-Retinex)
思考
- 指出经典的
Retinex
理论存在缺乏考虑噪声的问题,提出了一个新的适用于数码成像的Retinex
理论DI-Retinex
。 - 根据
DI-Retinex
理论,重新规定了光照提亮的范式。范式中的偏置项即为经典Retinex
理论未考虑到的缺陷。 - 为
DI-Retinex
理论设计了两个损失,分别是将正常光照退化为低光图像的反向退化损失以及噪声的方差抑制损失。 - 相对于传统的
Retinex
理论以及改良版本的Retinex
理论,提出的DI-Retinex
理论考虑更加全面。
# 2024 CVPR Unsupervised Image Prior via Prompt Learning and CLIP Semantic Guidance for Low-Light Image Enhancement
前身工作是
2023 ICCV Iterative Prompt Learning for Unsupervised Backlit Image Enhancement
存疑
- 在
prompt learning
阶段要训练positive prompt
和negative prompt
,这两个prompt
是怎么初始化的?形式是怎么样的? - 在
training
阶段,使用曲线估计提亮后面的部分没看明白。
# 2024 GLARE: Low Light Image Enhancement via Generative Latent Feature based Codebook Retrieval(GLARE)
思考
- 第一个将
codebook
引入低光照图像增强领域的工作。将预训练的VQGAN
进行微调以更适合低光照图像增强背景。 - 为了解决
codebook
难题之阶段前后数据分布不一致,提出一个逆向潜特征正则流(Invertible Latent Normalizing Flow
)的操作,将低光特征经过转换,逼近正常光照的特征,以更加适合codebook
适用的数据分布。 - 为了解决
codebook
难题之纹理缺失,提出一个双译码器架构实现将先前Encoder
编码的特征与codebook
检索出来的特征融合。 codebook
的工作,都有泛化性相对不足的缺点。在推理阶段,codebook
是在训练集上训练的,得到的是训练集的先验知识,在后续与测试集low-quality
特征融合。因此需要从codebook
得到知识后,需要有进一步优化操作。
# 2023 ICCV Implicit Neural Representation for Cooperative Low-light Image Enhancement(NeRco)
这次我们先只看这个工作的
NRN
部分,也就是Neural Representation Normalization
。
思考:
- 将隐式神经表征
Implicit Neural Representation
第一次引入到低光照图像增强领域中。 - 将隐式神经表征与低光背景很好地结合,并且解释了为何能实现去噪。
- 对隐式神经表征了解还不够多,应该往这个领域多研究研究。
# 2024 CVPR ZERO-IG: Zero-Shot Illumination-Guided Joint Denoising and Adaptive Enhancement for Low-Light Images(Zero-IG)
思考:
- 重新思考
Retinex
的理论,认为光照的平滑性能消除光照的噪声毛刺,所以对一个经过去噪后的低光图像提取的照度能近似正常光照下的照度。 - 将
Noise2Noise
的思想引入到低光照图像增强领域,与Retinex
理论很好地结合。 - 将正常光照的照度与带噪声的反射量拼接,然后使用
Noise2Noise
的方式去噪。在过程中用损失约束光照全程一致,可以是网络更加关注于反射量的去噪。另外,与光照拼接,能够引导网络在去噪时关注哪些区域需要提亮,哪些区域需要抑制光照。所以,这较单纯用带噪声的反射量去噪更加有效。 - 借鉴
Noise2Noise
思想,将噪声图下采样为两张图片,并彼此构建自监督的方式,避免了对配对数据集的依赖,也无需学习特定噪声分布即可应用在低光任务,实现zero-shot
无监督。 - 在为反射去噪时,将光照与反射进行拼接,网络学习过程保持光照不变,使得网络更加关注对反射的去噪,这大大提高了去噪的效果。
# You Only Need One Color Space: An Efficient Network for Low-light Image Enhancement
<img src="../../assets/cidnet2.jpg" alt="image" style="zoom:50%;" />
贡献:
- 为了解决传统
sRGB
色彩空间存在的颜色与亮度存在的耦合问题,以及从sRGB
色彩空间转换到HSV
空间存在的,由于一对多映射导致信息丢失问题,本文提出了一个全新的HVI
色彩空间。通过引入三个可学习的参数和一个可学习的函数提升HVI
色彩空间的稳定性,同时解决了一对多映射导致的信息丢失问题。 - 将
HVI
空间的图像特征分解为HV
颜色特征和 I 强度特征,专门设计一个双支网络分别处理这两个信息,并用交叉注意力为两个特征信息建立交互。 - 提出了一个基于交叉注意力的模块
LCA
,促进HV
特征和I
强度特征的信息交互。
# Image Dehazing
# 2023 CVPR RIDCP: Revitalizing Real Image Dehazing via High-Quality Codebook Priors
贡献
- 第一个将
codebook
方法引入到去雾领域的工作。 - 设计了一个可控匹配机制
CHM
替代最近邻匹配机制。具体来说,在最近邻匹配公式内的欧氏距离前乘以权重,增强匹配的效果。权重是一个自然指数,以系数a
与f
乘积为底。系数a
通过最小化codebook
特征与encoder
输出特征的KL
散度得到。系数f
是codebook
激活频率与encoder
激活频率的差值(说实话论文中这个什么激活频率没交代是怎么得到的,没看明白,大概理解就是codebook
与encoder
的特征距离) - 设计一个双译码器,通过一个归一化特征匹配
NFA
模块,将第一个译码器 $ G_{vq} $ 的输出与encoder
的输出进行特征融合。
创新
- 可控匹配机制
CHM
改良了最近邻匹配机制,减轻数据分布偏差的问题。
不足
- 在可控匹配机制
CHM
的实现上面,前面提到,通过乘以一个指数权重改良最近邻匹配,这个指数以两个系数乘积为底,第二个系数f
,论文交代十分模糊,称为codebook
激活频率差,我理解是两个数据分布的距离。在代码中也不详细,f
通过一个预训练数据给出,预训练也不知道如何训练得到的。
# Vision Prompt Learning
# 2024 Towards Effective Multiple-in-One Image Restoration: A Sequential and Prompt Learning Strategy(MiOIR)
贡献
- 指出
all-in-one
模型的问题:考虑的退化任务少;每一次训练只在一个特定的退化任务数据集上训练,有可能导致灾难性遗忘。提出序列学习,每次训练的数据,是上次训练的数据与新特定退化类型数据的叠加,有效应对灾难性遗忘。 - 使用两种极端的提示学习方法,帮助模型识别特定退化任务,分别是精确提示学习与自适应提示学习。
- 精确提示学习:通过预先训练提示,提示分类器,在下一阶段通过输入的退化图片筛选出适合的提示,引导特定退化任务的图像恢复。
- 自适应提示学习:通过输入的退化图片经过卷积处理得到提示信息,引导特定退化任务的恢复。
创新
- 第一次将序列学习引入到图像恢复领域。
不足
- 个人认为,自适应提示学习不能算作提示学习,更像是特征融合。
# Blind Face Restoration
# 2022 NeurIPS Towards Robust Blind Face Restoration with Codebook Lookup Transformer(CodeFormer)
贡献
- 将
codebook
引入到人脸修复领域中。 - 指出
codebook
索引方式即最近邻特征匹配方法应用到图像恢复领域的不足在于,输入的Low-Quality
图像因为各种类型的退化严重导致Low-Quality
与codebook
的数据分布严重不匹配,进而造成了codebook
检索的困难。因此,为了能够更好地进行codebook
的检索,使用Transformer
进行codebook
的检索,提高检索精确度。 - 如果仅仅将
codebook
提取出来的特征进行解码,由于codebook
是从其他数据集上训练得来的,因此解码得到的特征与当前数据集的GT
会有很大差异,所以有必要将输入与codebook
的特征进行融合,以得到一个质量更优于Low-Quality
,数据分布更接近High-Quality
的图片。进一步,引入一个可控的特征转换器CFT
,通过一个人为设置的超参数w
,实现Encoder
到Decoder
数据流的控制,即实现可控式的特征融合。
创新
- 将
codebook
引入到人脸修复领域。 - 提出最近邻特征匹配在图像恢复的不足,为未来的工作提供了很好的指引。
- 设计了一个可控的特征融合器,进一步弥补了
codebook
的不足。
不足
- 通过单一的
Transformer
块叠加进行codebook
索引,造成索引耗时长的问题。
# Image Derain
# 2024 CVPR Bidirectional Multi-Scale Implicit Neural Representations for Image Deraining
这里先主要研究前面的
Implicit Neural Representation
部分。
贡献
- 将隐式神经表征第一次引入图像去雨领域中,以更好地帮助模型学习普遍雨纹退化特征进行退化的去除。
- 将隐式神经表征与多尺度网络结合,能够在多尺度信息流动中进行退化的去除。
创新
- 在每个尺度的网络前引入
Implicit Neural Representation
去除雨纹,形成一个在尺度上的级联Implicit Neural Representation
结构。
不足
(暂时未知)
# Image Denoise
# 2023 CVPR Zero-Shot Noise2Noise: Efficient Image Denoising without any Data(ZS-N2N)
Contributions:
- They offered a downsampling-based unsupervised method. They downsampled the noisy image into two patches by using a special method at the pixel-wise level , and subsequently used two-layer convolution kernels to process the two patches.
- Mapping between noisy patches can be equivalent to denoising the input image, where a consistency loss is applied to constrain the mapping process.
- The two patches were considered as similar as possible, so there was a residual loss applied to the mapping process.
Innovations:
- By integrating the Noise2Nosie and Neighbour2Neighbour methods, the paper offered a unsupervised learning paradigm.
- It was very light-weight.
# Image Enhancement
# 2024 CVPR Color Shift Estimation-and-Correction for Image Enhancement(CSEC)
贡献:
- 通过
PCA
分析发现一些图像增强数据集的图像里有欠曝光和过曝光的区域,而且这些区域的像素点特征存在明显的相反性。基于此发现,作者设计了一个能够处理一张图像同时存在过曝光和欠曝光的网络。作者利用一个基于Unet
的特征提取器,提取图像中相反的两个曝光特征。 - 两种相反的曝光特征一定存在一个特征,是这两种特征的正常参照。作者为曝光程度不同的两种图像分别设计了颜色偏移估计模块,估计出颜色方面的偏移以获取正常参照的特征。鉴于可变形卷积能够为卷积核估计出图像像素点相较于卷积核的偏移,作者认为通过可变形卷积能够估计出过曝光和欠曝光相较于正常参照的颜色偏移。因此设计了
COSE
模块分别估计颜色偏移。 - 为了利用估计的颜色偏移去纠正原始图像中过曝光和欠曝光的特征偏移,作者设计了一个
COMO
模块,利用交叉注意力分别将原始图像的特征与过曝光颜色偏移特征和欠曝光颜色偏移特征进行建模,得到最后的增强结果图。
创新:
- 发现同一张图像中的过曝光和欠曝光存在特征相反性,并通过估计曝光的参考特征来实现同时纠正一张图像中的过曝光和欠曝光。
- 在曝光的参考特征辅助下,对过曝光和欠曝光的区域分别估计颜色偏移,借鉴可变形卷积的思想去处理颜色的特征偏移。
- 利用交叉注意力建模三个特征信息:原始图像、过曝光偏移特征、欠曝光偏移特征。
# 2024 CVPR Empowering Resampling Operation for Ultra-High-Definition Image Enhancement with Model-Aware Guidance(LMAR)
贡献:
- 这篇文章发现通过插值降低分辨率后进行增强再上采样会导致信息丢失和性能下降的现象。具体来说,有如下方面:下采样降低分辨率导致了一些高频率的信息损失;高分辨率下采样为低分辨率,两种特征分布存在差异;传统的下采样的方法与中间增强模型无关,并未考虑模型对输入的偏好(如对特定方向的边缘或低频颜色更敏感),因此无法为模型保留偏好信息。作者提出了一个叫做
LMAR
的方法解决上述问题。 LMAR
通过结合隐式神经表征,估计出下采样图像的补偿信息,嵌入到下采样图像中,使得低分辨率输入在中间增强模型的特征空间与原始UHD
高分辨率图像的中间层特征保持一致。
创新:
- 发现下采样和重采样由于传统插值方法导致的信息丢失问题,并设计了一个基于模型感知的方法补偿损失的信息。
# All-in-One Restoration
# 2024 LoRA-IR: Taming Low-Rank Experts for Efficient All-in-One Image Restoration(LoRA-IR)
贡献:
- 针对单一退化设计专用模型的传统方法无法泛化到混合退化场景,而现有的
All-in-one
模型虽然能够处理多种退化,但存在参数冗余、计算效率低、无法捕捉退化间关联性等问题。为了解决这些问题,作者引入了LoRA
作为MoE
的专家处理网络,并通过路由引导来选择特定的专家处理特定的退化。 - 为了针对图像选择特定的专家对退化进行处理,
LoRA-IR
的退化引导路由器DG-Router
使用CLIP
模型的强大图像表征能力,提取退化表示。其中,为了避免因下采样到CLIP
特征空间时由于分辨率降低带来的信息损失问题,DG-Router
通过将滑动窗口与下采样结合来解决这个问题。另外,使用MLP
和池化技术融合下采样的全局信息和滑动窗口的局部信息,生成了更加鲁棒的退化表示。 - 预训练阶段,通过
DAM
(基于通道注意力的退化引导自适应调节器)将退化表征信息注入到统一的恢复网络中,增强特征的退化表示使得模型获得对特定退化的感知。微调阶段,基于MoE
架构,借助DG-Router
生成的退化表示动态选择多个低秩专家,进一步提升模型对未知退化的泛化能力。
创新:
将
LoRA
引入到图像恢复领域。通过LoRA
集成到MoE
的具体专家中,实现更高效的特定退化处理。借用
CLIP
强大的图像表征能力获得退化表示。结合滑动窗口和下采样缓解图像分辨率降低带来的信息损失。
# Image Motion Deblur
# 2024 CVPR Spike-guided Motion Deblurring with Unknown Modal Spatiotemporal Alignment(UaSDN)
- 传统 RGB 相机成像的各个帧之间存在时间间隔未被利用,导致了图像在时间维度的信息缺失,引发模糊问题。另外,传统 RGB 相机成像通常会因为曝光、极端环境而带来图像的纹理、结构信息缺失。
- 脉冲相机的时间分辨率高,能够准确获取连续时间内的成像信息,能为 RGB 相机成像补充关键信息。
- 引入脉冲相机,要求成像在空间、时间上对齐,这是十分困难的事情,这个工作提出在不知道时空对齐关系的情况下,
UaSDN
通过神经网络学习脉冲成像和 RGB 成像的时空对齐关系。 - 某一曝光窗口的模糊图像帧,是曝光窗口所有时刻的清晰图像帧的平均值。
- 本质上其实是引入一种新形式的先验知识,或者也可以说是一个多模态的工作。脉冲和帧是两个不同的模态,脉冲是帧的提示信息。经过 网络处理的脉冲序列实际上是灰度图序列,穿插到后续阶段的网络中引导恢复。
- 二阶段用变形卷积对称地处理两个模态的信息并融合,三阶段用光流方法进一步融合。
- 实际上这个工作并没有使用到实际的脉冲相机,而是在原有的数据集的基础上用插帧的方式模拟脉冲相机的超高时间分辨率效果。而且方法长时间未开源,真实效果存疑。
- 一段话总结:因为考虑到,某一个时间内的模糊照片是这个时间内所有时刻的清晰照片的平均值,所以是不是说明其他时刻的清晰照片能够辅助恢复模糊照片,只要神经网络知道足够多这个时间内其他时刻的清晰照片的情况,就能学习到物体高速运动的方向,就能去除模糊。
# 2024 CVPR Efficient Multi-scale Network with Learnable Discrete Wavelet Transform for Blind Motion Deblurring(MLWNet)
- 文章指出现在去模糊中的多进多出结构(
MIMO
)的若干问题:需要人工合成不同尺度分辨率的下采样图像,容易进一步引入退化;低分辨率经常通过简单的插值方式合成为高分辨率的图像,既不高效,也不足够有效。 SIMO
以原本的图像作为输入,以网络学习的方式,得到若干尺度的下采样图像,然后分别输出对应尺度的恢复图像,避免了人工合成下采样图像的问题。- 像 UNet 这样的多尺度框架,特征在低分辨率虽然在空间尺度上保留着一定的语义信息,但是纹理细节受到压缩,因此高频信息的恢复是有必要的。
- 离散傅里叶变换
DFT
通常难以处理突变信号,而在信号领域一个更好的替代方法就是离散小波变换DWT
,作者发现了小波变换与卷积上的联系,认为在原始信号上用小波基分解可以被视为使用特定卷积核的卷积操作,据此设计了2D-DWT
,去学习图像的模糊方向性。 LWN
模块中的小波卷积(2D-DWT
)将图像特征分解为低频、水平高频、垂直高频、对角高频信息,在小波域进行学习与处理,最后再反转回空间域。- 为了避免小波卷积在训练学习的过程中退化回群卷积,作者加入了小波损失作为监督。