Blind Face Restoration)旨在从低质量的人脸图像中恢复出高质量的人脸图像。它是计算机视觉和图形学领域的一项重要任务,广泛应用于监控图像恢复、老照片恢复、人脸图像超分辨率等各种场景。
然而,这项任务非常具有挑战性,因为不确定性退化会损害图像质量,甚至丢失图像信息,如模糊、噪声、下采样和压缩伪像。在过去,BFR方法通常依赖于生成对抗网络(GAN),并通过设计各种特定于人脸的先验来解决问题,包括生成先验、参考先验和几何先验。虽然这些方法已经达到了最先进的水平,但它们仍然没有完全实现恢复细粒度面部细节和同时获得逼真纹理的目标。
因为在图像恢复过程中,人脸图像的数据集通常分散在高维空间中,分布特征维数呈现长尾分布形式。与图像分类任务的长尾分布不同,图像修复中的长尾区域特征是指对身份影响不大但对视觉效果影响较大的属性,如痣、皱纹、色调等。
如图1所示,简单的实验表明,之前基于GAN的方法不能很好地同时处理位于长尾分布头部和尾部的样本,导致恢复图像中存在明显的平滑和细节消失问题。基于扩散概率模型(DPM)的方法能够很好地拟合长尾分布,在拟合真实数据分布的同时保持了尾部特征。

来自米托图像研究所(MT Lab)和中国科学院大学的研究人员共同提出了一种基于DPM的盲人脸图像恢复新方法,实现了盲人脸图像恢复,将低质量的LQ人脸图像恢复为高质量的HQ清晰图像。

论文链接:https://arxiv.org/abs/2305.04517
该方法探索了GAN和DPM两种生成模型对长尾问题的适应性,设计了合适的人脸恢复模块,以获得更精确的细节,从而减少生成方法造成的人脸过度平滑,从而提高恢复的准确度和精度。该论文已被ACMM 2023接受。
基于DPM的盲人脸图像恢复方法
发现扩散模型在避免训练模式崩溃和拟合长尾分布方面优于GAN方法。因此,DiffBFR使用扩散概率模型来增强人脸先验信息的嵌入。基于其在任何分发范围内生成HQ映像的强大能力,DPM被选为该解决方案的基本框架。
针对人脸数据集中发现的特征长尾分布和以往基于GAN方法的过平滑现象,本研究探索出一种合理的设计来更好地拟合近似长尾分布,从而克服恢复过程中的过平滑问题。通过在MNIST数据集(如图1)上对相同参数大小的GAN和DPM进行简单实验,本文认为DPM方法可以合理拟合长尾分布,而GAN会过分关注头部而忽略尾部特征,导致尾部特征不再生成。因此,选择DPM作为BFR的解决方案。
通过引入两个中间变量,DiffBFR提出了两个具体的修复模块,它们分两个阶段进行设计。首先从LQ图像中恢复身份信息,然后根据人脸的分布增强纹理细节。该设计包括两个关键部分:
(1)身份恢复模块,IRM):
该模块用于在结果中保留面部细节。同时,提出了一种截断采样方法,在LQ图像中加入一定的噪声,替代了逆过程中LQ图像条件下从纯高斯随机分布去噪的方法。本文从理论上证明了这种变化降低了DPM的理论证据下界(ELBO),从而还原了更多的原始细节。在理论证明的基础上,引入了两种不同输入大小的级联条件扩散模型来增强这种采样效果,降低直接生成高分辨率图像的训练难度。同时进一步证明了条件输入的质量越高,越接近真实的数据分布,恢复的图像越准确,这也是DiffBFR在IRM首先恢复低分辨率图像的原因。
(2)纹理增强模块(TEM):
用于图像的纹理研磨。本文引入了与LQ图像无关的无条件扩散模型,使复原结果更接近真实图像数据。本文从理论上证明了这种在纯HQ图像上训练的无条件扩散模型有助于IRM输出图像在像素级空间的正确分布,即应用该模块后图像分布的FID比使用前更低,得到的恢复图像整体上更接近HQ图像的分布。具体来说,采样按时间步长截断,像素级纹理打磨的同时保留身份信息。
DiffBFR的采样推理步骤如图2所示,采样推理过程示意图如图3所示。


实验结果





图8模型中IRM和透射电镜的性能对比



摘要
本文提出了一种基于扩散模型的盲退化人脸图像恢复模型,避免了以往基于GAN方法的训练模型的崩溃和长尾的消失。通过将先验嵌入到扩散模型中,从随机严重退化的人脸图像生成高质量和清晰的恢复图像。具体来说,提出了两个模块,IRM和透射电镜,分别恢复保真度和真实细节。理论边界的推导和实验图像的演示表明了该模型的优越性,并与现有的SOTA方法进行了定性和定量的比较。
研究团队
本文由中国科学院米托影像研究所(MT实验室)和中国科学院大学的研究人员提出。美图图像研究院(MT Lab)成立于2010年,是一个致力于计算机视觉、深度学习、增强现实等领域的算法研究、工程开发和产品化的团队。自成立以来,专注于计算机视觉领域的探索和研究。2013年开始布局深度学习,为美图所有软硬件产品提供技术支持。同时为影像行业多个垂直赛道提供针对性的SaaS服务,通过前沿的影像技术推动美图AI产品的生态发展。曾参加CVPR、ICCV、ECCV等国际顶级赛事,获得冠军、亚军十余次,发表国际顶级学术会议论文48余篇。美图图像研究院(MT Lab)长期深耕图像的研发,形成了深厚的技术储备,在图片、视频、设计、数字人等领域拥有丰富的技术经验。

剧终
授权请联系本微信官方账号。
投稿或寻求报道:content@jiqizhixin.com。
微信扫码
QQ扫码
您的IP:10.1.228.218,2025-12-20 02:50:56,Processed in 0.2601 second(s).