Tic商业评论

关注微信公众号【站长自定义模块】,定时推送前沿、专业、深度的商业资讯。

 找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫码,快速开始

  • QQ空间
  • 回复
  • 收藏

GAN — GAN 成本函数有什么问题?

lijingle gan 2022-1-13 21:09 1305人围观

我们努力为深度学习生成数学模型。 但通常,我们并不成功,而是依靠经验数据来支持我们的论点。 Arjovsky 等人 2017 年写了一篇论文以数学方式说明 GAN 问题。 本文开发了一个数学模型,试图说明 GAN 成本函数的潜在问题。 以下是一些主张:
  1. GAN 对于两个提出的目标函数(当判别器是最优的)都存在稳定性和饱和度问题。
  2. 从理论上讲,它甚至会在基本事实和模型之间发生轻微的错位,并且
在训练期间,向生成的图像添加噪声可以稳定模型。
本文是 GAN 系列的一部分。 通过研究 GAN 目标函数的数学模型,我们得到了理解稳定性和模式崩溃问题的提示。 然而,这些说法仍然存在很大争议。

完美的判别定理
在实践中,判别器可以训练得相当好。 下面,DCGAN 被训练了 1、10 和 25 个 epoch。 然后生成器是固定的,而鉴别器是优化的。 判别器可以快速达到接近 100% 的准确率,即使在某些情况下少于 50 次迭代。


这应该是个好消息,因为一个好的鉴别器可以提供质量信息来优化生成器。但是让我们看看最优判别器的结果是什么。


来自 Arjovsky 的研究论文:如果两个分布在低维流形上具有支持并且它们不是完美对齐的,那么最佳鉴别器将是完美的,并且 GAN 对象函数的梯度几乎在所有地方都将为零。


函数的支持度是函数值不为零的点的集合。(函数 f : A→B,支持度是集合 { x∈A : f(x)≠0 })

如果用于生成图像 x (G(z)) 的潜在特征 z 的维度低于 x,我们可以训练一个鉴别器以 100% 的准确度检测生成的图像。不幸的是,梯度▽D*(X) 几乎在所有地方都为零。下面的定理显示了真实图像和生成图像(Pr 和 Pg)的数据分布的预期 KL 散度和 JS 散度,如果它们不完全匹配的话。


GAN成本函数的问题

现在让我们回到原始的 GAN 成本函数和假设解决生成器梯度递减的替代方案。



对于第一个成本函数,生成器梯度的上限如下所示。



其中,当判别器变得最优(D 接近 D*)时,梯度消失。


梯度下降取决于反向传播信号的梯度。 无论预测是否准确,梯度消失都会使学习变得非常困难。 替代成本函数提案会做得更好吗?



新梯度由反向 KL 散度和 JS 散度项组成。 反向 KL 项在生成不自然图像时分配了高成本,而模式丢弃更容易接受。 即它会生成更自然的图像,但模式可能会崩溃。


在定理 2.6 中,它表明新梯度引入了一个新问题。 模型的更新遵循具有零均值和无限方差的居中柯西分布。 这种大的方差会使模型变得不稳定。 此外,理论上,零均值不会增加平均参数的变化,即零反馈。

在这里,生成器是固定的,实验再次优化了判别器。 下图绘制了此训练期间的梯度变化。 如图所示,不仅梯度上升,而且波动更大。 所有这些都会导致模型不稳定。



添加噪音

我们如何减轻消失或爆炸的梯度?

在鉴别器的输入中添加噪声(连续噪声)以平滑概率质量的数据分布。


让我们重新计算存在噪声的生成器梯度。



加入噪声后,目标函数的梯度等于 JSD。



当 p 和 q 非常不同时,它不为零。这是一个好消息,因为当判别器最优时,生成器的梯度并没有消失。


数学模型为讨论和研究提供了一个很好的框架。但关于成本函数的争论可能会继续。该数学模型对 GAN 中的原始成本函数描绘了一幅非常负面的图景,但不一定得到实验的支持。有一个基本问题:如果梯度表现如此糟糕,我们如何使用原始 GAN 来解释结果。甚至有一份 Google Brain 报告显示,如果对具有第二个目标函数的 GAN 进行更积极的调整,“最先进的”成本函数在性能上没有差异。

数学模型是不是太简单了?batch normalization是否会引入噪声来缓解问题?更大的模型可以利用新的成本函数吗?还有很多问题。希望提出多种观点可以帮助你更好地理解基础知识。



路过

雷人

握手

鲜花

鸡蛋
我有话说......
电话咨询: 135xxxxxxx
关注微信