通过 AI 增强图像分辨率

我们都记得在电影和电视剧中,压缩视频的帧经常被放大数倍,从而获得证据或人群中某个人的清晰图像。我们为您准备了这篇文章的简短翻译,从中您可以发现这样的技巧确实是可能的。

图像分辨率增强是从低分辨率照片恢复高分辨率照片的任务。具有更快和更深的卷积神经网络的算法表现出令人印象深刻的准确性和速度。但一个重要的问题仍未解决:如何在大比例因子下恢复精细的纹理细节。该领域最近工作的目标是最小化图像重建中的均方误差,但随着分辨率的增加,结果往往会失去保真度。

在本文中,我们将讨论 SRGAN——一种用于提高图像分辨率(图像超分辨率)的生成对抗网络(GAN)。迄今为止,这是第一个能够从缩小四倍的图像中恢复原始纹理的解决方案。平均意见得分(MOS)显示使用 SRGAN 时质量显着提高:结果接近原始高分辨率图像的值,这是使用其他现代方法无法实现的。如果在熟悉 SRGAN 的操作原理后,您可以训练神经网络或使用现成的模型,您可以亲自看到这一点。

1、型号说明

旨在定性提高原始图像分辨率的方法称为超分辨率(SR)。我们将讨论处理单个图像(单图像超分辨率,SISR),并且不会涉及从多个图像进行高分辨率恢复的主题。

解决 SISR 问题的早期方法基于预测。例如线性滤波、双三次滤波、Lanczos滤波。这些方法见效很快,但产生的解决方案纹理过于光滑。更强大的方法旨在创建低分辨率(LR)和高分辨率(HR)图像之间的复杂映射,并且通常基于训练数据。此类方法依赖于 LR-HR 对的示例,即那些已知合适的 HR 类似物的 LR 训练模式。

更深的网络架构更难训练,

但它们可以对复杂的映射进行建模,从而显着提高重建精度。为了有效地训练此类网络,通常使用批量归一化来避免内部协方差漂移。深层网络架构还提高了 SISR 的效率。

许多方法经常使用逐像素损失函数(例如均方根误差)来尝试应对图像纹理恢复中的不确定性。误差最小化允许找到每个像素的平均概率解,但它们太平滑,因此感知质量较差,如下图所示。 SR 任务中的主要质量标准是峰值信噪比(PNSR)和结构相似性指数(SSIM),也如图所示。

为了解决平滑像素的问题

可以使用生成对抗网络(GAN)并应用例如基于在神经网络特征空间中计算的欧几里得距离的损失函数以及与对抗学习相结合的损失函数。您还可以使用从预训练的 VGG(视觉几何组)神经网络中提取的特征,将损失函数表示为这些特征图之间的欧几里得距离。使用这些方法获得的结果表明,无论是在 SR 工作还是在转移艺术风格(艺术风格转移)时,效率都很高。

GAN 提供了一个强大的框架,用于生成具有高感知质量的可信 SR 图像。在本文中,我们描述了一种使用 GAN 概念实现照片级真实 SISR 的深度 ResNet 架构。主要特点:

— 通过高缩放因子 (4x) 提高图像分辨率;

是直接营销活动的强大工具。通过了解与传真列表相 传真列表 关的优势和道德考虑,企业可以利用此资源来促进增长并增加客户参与度。使用传真列表的最重要好处之一是能够通过他们的传真列表设备直接联系消费者。

– 使用感知损失函数,使用 VGG 网络的特征图计算,该函数对像素变化更加不变;

— MOS 专家对公开数据集的平均评估结果较高。

传真列表

2. 网络架构

SISR 的目标是从输入的低分辨率 (LR) 图像重建高分辨率 (SR) 图像,该图像是原始图像 (HR) 的较小副本。 HR 图像仅在训练期间可用,而 LR 图像是通过对其应用高斯滤波器创建的,然后进行下采样操作,并使用真实张量进行描述。

任务是训练一个生成函数,在给定输入 LR 图像的情况下,估计相应的 HR 类似物。为此,我们将 GAN 训练为具有 SISR 特定感知损失函数优化的前馈卷积神经网络 (CNN)。

感知损失函数是作为多个分量的加权组合生成的,这些分量对重建的 SR 图像的各种所需特征进行建模。

接下来,

我们定义一个鉴别器网络(鉴别器)并与 美国手机号码列表 生成网络(生成器)一起顺序优化它,以解决对抗性最小-最大问题。总体思路是训练一个生成模型来“愚弄”一个鉴别器,该鉴别器经过训练可以区分 SR 图像和真实图像。通过这种方法,生成器可以学习生成与真实图像非常相似的解决方案,因此很难被鉴别器分类。

生成网络的核心是具有相同布局的 B 个残差块。每个块包含两个具有小型 3×3 内核和 64 个特征图的卷积层,后面是批量归一化层。激活函数是PReLU(参数修正线性单元)。使用两个卷积层逐像素放大输入图像。

为了区分真实的 HR 图像和生成的 SR 样本

需要使用 LeakyReLU 激活函数训练鉴 保障您的投资安全:使用我们的加密钱包随时了解比特币的实时价格 别器网络,并避免在整个神经网络中形成子采样层。判别器网络包含 8 个卷积层,其中 3×3 过滤器内核的数量不断增加(从 64 到 512,每次增加 2 倍,如 VGG 网络中一样)。每次特征数量加倍时,都会使用增量卷积来降低图像分辨率。生成的 512 个特征图附有两个密集层和最终的 sigmoid 激活函数,以获得对象分类概率。

滚动至顶部