图像超分辨率技能指的是根据低分辨率图像天生高分辨率图像的过程,该技能希望根据已有的图像信息重构有缺失落的图像细节。视频超分辨率技能则更加繁芜,不仅须要天生细节丰富的一帧帧图像,还要保持图像之间的连贯性。
在一篇名为「Temporally Coherent GANs for Video Super-Resolution (TecoGAN)」的论文中,来自慕尼黑工业大学的研究职员提出了一种用于实现视频超分辨率的新型 GAN——TecoGAN。
此前,已经有开拓者利用 ESRGAN 这种视频超分辨率模型重制了很多单机游戏,包括经典的重返德军总部、马克思·佩恩和上古卷轴 III:晓风等等。重制的高清版游戏在画质上有很好的效果,而且还保留了原始纹理的美感与风格。

以下三幅动图的右半部分是用 TecoGAN 天生的,说不定用它来重制单机游戏会有更惊人的效果。该方法能够天生风雅的细节,较长的天生视频序列也不会影响其时间连贯度。
图中,动物皮的网格构造、蜥蜴的图案和蜘蛛背部的斑点无不彰显该方法的效果。该方法中的时空判别器在勾引天生器网络输出连贯细节方面居功至伟。
这个视频超分辨率 GAN 牛在哪里?自然图像超分辨率是图像和视频处理领域的一大经典难题。对付单一图像超分辨率(SISR),基于深度学习的方法可以达到当前最佳的峰值信噪比(PSNR),而基于 GAN 的架构在感知质量方面实现了重大改进。
在视频超分辨率(VSR)任务中,现有的方法紧张利用标准丢失函数,如均方差丢失,而不是对抗丢失函数。类似地,对结果的评估仍旧聚焦于基于向量范数的指标,如 PSNR 和构造相似性(Structural Similarity,SSIM)指标。与 SISR 比较,VSR 的紧张难点在于如何获取清晰的结果,且不会涌现不自然的伪影。基于均方差丢失,近期的 VSR 任务利用来自低分辨率输入的多个帧 [13],或重用之前天生的结果 [28] 来改进韶光连贯度。
只管对抗演习可以改进单个图像的视觉质量,但它并不常用于视频。在视频序列案例中,我们不仅要研究任意的自然细节,还要研究可以稳定形式基于较长图像序列天生的细节。
该研究首次提出了一种对抗和循环演习方法,以监督空间高频细节和韶光关系。在没有真值动态的情形下,时空对抗丢失和循环构造可使该模型天生照片级真实度的细节,同时使帧与帧之间的天生构造保持连贯。研究者还创造了一种利用对抗丢失的循环架构可能会涌现的新型模型崩溃,并提出了一种双向丢失函数用于移除对应的伪影。
该研究的核心贡献包括:
提出首个时空判别器,以得到逼真和连贯的视频超分辨率;提出新型 Ping-Pong 丢失,以办理循环伪影;从空间细节和韶光连贯度方面进行详细的评估;提出新型评估指标,基于动态估计和感知间隔来量化韶光连贯度。论文:Temporally Coherent GANs for Video Super-Resolution (TecoGAN)
论文链接:https://arxiv.org/pdf/1811.09393.pdf
择要:对抗演习在单图像超分辨率任务中非常成功,由于它可以得到逼真、高渡过细的输出结果。因此,当前最优的视频超分辨率方法仍旧支持较大略的范数(如 L2)作为对抗丢失函数。直接向量范数作丢失函数求均匀的实质可以轻松带来韶光流畅度和连贯度,但天生图像缺少空间细节。该研究提出了一种用于视频超分辨率的对抗演习方法,可以使分辨率具备韶光连贯度,同时不会丢失空间细节。
该研究聚焦于新型丢失的形成,并基于已构建的天生器框架展示了其性能。研究者证明韶光对抗学习是得到照片级真实度和韶光连贯细节的关键。除了时空判别器以外,研究者还提出新型丢失函数 Ping-Pong,该函数可以有效移除循环网络中的韶光伪影,且不会降落视觉质量。之前的研究并未办理量化视频超分辨率任务中韶光连贯度的问题。该研究提出了一组指标来评估准确率和随韶光变革的视觉质量。用户调研结果与这些指标判断的结果同等。总之,该方法优于之前的研究,它能够得到更加细节化的图像,同时时间变革更加自然。
模型方法
该研究提出的 VSR 架构包含三个组件:循环天生器、流估计网络和时空判别器。天生器 G 基于低分辨率输入循环地天生高分辨率视频帧。流估计网络 F 学习帧与帧之间的动态补偿,以帮助天生器和时空判别器 D_s,t。
演习过程中,天生器和流估计器一起演习,以欺骗时空判别器 D_s,t。该判别器是核心组件,由于它既考虑空间成分又考虑韶光成分,并对存在不现实的韶光不连贯性的结果进行惩罚。这样,就须要 G 来天生与之前帧连续的高频细节。演习完成后,D_s,t 的额外繁芜度不会有什么影响,除非须要 G 和 F 的演习模型来推断新的超分辨率视频输出。
图1
图 2
图 2:具备动态补偿(motion compensation)的循环天生器。
该研究提出的判别器构造如图 3 所示。它吸收了两组输入:真值和天生结果。
图 3
图 3:时空判别器的输入。
丢失函数
为了移除不想要的细节长期漂移,研究者提出一种新型丢失函数「Ping-Pong」(PP) 丢失。
图 4
图 4:a)不该用 PP 丢失演习出的结果。b)利用 PP 丢失演习出的结果。后者成功移除了漂移伪影(drifting artifact)。
如图 4b 所示,PP 丢失成功移除了漂移伪影,同时保留了适当的高频细节。此外,这种丢失构造可以有效增加演习数据集的规模,是一种有用的数据增强办法。
该研究利用具备 ping-pong ordering 的扩展序列来演习网络,如图 5 所示。即终极附加了逆转版本,该版本将两个「leg」的天生输出保持同等。PP 丢失的公式如下所示:
图 5
图 5:利用该研究提出的 Ping-Pong 丢失,g_t 和
之间的 L_2 间隔得到最小化,以移除漂移伪影、改进韶光连贯度。
实验结果
研究者通过掌握变量研究解释了 L_(G,F) 中单个丢失项的效果。
图 6
图 6:树叶场景比拟。对抗模型(ENet、DsOnly、DsDt、DsDtPP、
和 TecoGAN)比利用 L_2 丢失演习的方法(FRVSR 和 DUF)具备更好的视觉效果。右图「temporal profiles」中,DsDt、DsDtPP 和 TecoGAN 在韶光连续性上显著优于 ENet 和 DsOnly。本文提出的判别器网络的韶光信息成功抑制了这些伪影。