Tic商业评论

关注微信公众号【站长自定义模块】,定时推送前沿、专业、深度的商业资讯。

 找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫码,快速开始

  • QQ空间
  • 回复
  • 收藏

GAN — 如何衡量 GAN 的性能?

lijingle gan 2022-1-6 12:30 1639人围观

在 GAN 中,生成器和鉴别器的目标函数通常衡量它们相对于对手的表现。 例如,我们测量生成器愚弄鉴别器的程度。 它不是衡量图像质量或其多样性的好指标。 作为 GAN 系列的一部分,我们研究了如何比较不同 GAN 模型的结果的 Inception Score 和 Fréchet Inception Distance。

Inception Score(IS)
IS 使用两个标准来衡量 GAN 的性能:
  1. 生成的图像的质量,以及
  2. 他们的多样性。
熵可以被视为随机性。 如果随机变量 x 的值是高度可预测的,则它的熵较低。 相反,如果它是高度不可预测的,那么熵就很高。 例如,在下图中,我们有两个概率分布 p(x)。 p2 具有比 p1 更高的熵,因为 p2 具有更均匀的分布,因此对于 x 的可预测性更小。


在 GAN 中,我们希望条件概率 P(y|x) 是高度可预测的(低熵)。 即给定图像,我们应该很容易知道对象类型。 因此,我们使用 Inception 网络对生成的图像进行分类并预测 P(y|x)——其中 y 是标签,x 是生成的数据。 这反映了图像的质量。 接下来我们需要测量图像的多样性。

P(y) 是计算的边际概率:


如果生成的图像多种多样,则 y 的数据分布应该是均匀的(高熵)。

下图形象化了这个概念。


为了结合这两个标准,我们计算了它们的 KL 散度并使用下面的等式来计算 IS。


IS 的一个缺点是,如果每个类只生成一张图像,它可能会歪曲性能。 即使多样性很低,p(y) 仍然是统一的。


Fréchet Inception Distance (FID)

在 FID 中,我们使用 Inception 网络从中间层提取特征。 然后我们使用具有均值 μ 和协方差 Σ 的多元高斯分布对这些特征的数据分布进行建模。 真实图像 x 和生成图像 g 之间的 FID 计算如下:


其中 Tr 汇总了所有对角线元素。

较低的 FID 值意味着更好的图像质量和多样性。

FID 对模式崩溃很敏感。 如下图所示,距离随着模拟的缺失模式而增加。


FID 对噪声的鲁棒性比 IS 强。 如果模型每个类只生成一张图像,距离会很大。 所以 FID 是一个更好的图像多样性度量。 FID 有一些相当高的偏差但低方差。 通过计算训练数据集和测试数据集之间的 FID,我们应该期望 FID 为零,因为两者都是真实图像。 但是,使用不同批次的训练样本运行测试显示非零 FID。


此外,FID 和 IS 都基于特征提取(特征的存在与否)。 如果不保持空间关系,生成器是否会有相同的分数?


准确率、召回率和 F1 分数

如果生成的图像平均看起来与真实图像相似,则精度很高。 高召回率意味着生成器可以生成在训练数据集中找到的任何样本。 F1 分数是准确率和召回率的调和平均值。

在 Google Brain 的研究论文“Are GANs created equal”中,创建了一个使用三角形数据集的玩具实验来测量不同 GAN 模型的精度和召回率。


这个toy datasets可以衡量不同 GAN 模型的性能。 我们可以用它来衡量不同成本函数的优点。 例如,新功能是否擅长制作覆盖率高的高质量三角形?


路过

雷人

握手

鲜花

鸡蛋
我有话说......
电话咨询: 135xxxxxxx
关注微信