三三文章网 - 科技知识大全是专业科技新媒体网站。网站著眼于新一代科技新闻的全面及时处理报导,让网民在外面第二时间交待全球新一代的科技资讯。内容涵括AI+、互联网、IT、创业投资、核定、区块链、智能硬件等领域

图像生成王者不是GAN吗?扩散模型最近点火:通过加入类别条件,效果直达SOTA-量子位,

  • 时间:
  • 浏览:0

OpenAI刚发售的年末新作GLIDE,又让扩散模型燃起了熊熊大火。

基于该扩散模型的文本图像生成大模型参数规模较小,但生成的图像质量更高。

因此,仍然展出了OpenAI,论文标题直接被称为“在图像生成中打败GAN”的ADM-G模型也再次进入了大众的视线。

仅从基于Papers with Code上的ImageNet数据集的图像生成模型排行榜来看,该模型从64x64到512x512的分辨率占第一位:

将史上最强的图像生成器BigGAN-deep进行比较,风也不会落下,LSUN和ImageNet64× 64的图像生成效果达到SOTA。

一位网友感叹,直到几年前,图像生成领域还是GAN主导的,但现在已经快要成为扩散模式了。

添加类别条件的扩散模型首先来看扩散模型的定义。

这是一种新的图像生成方法,其名称“扩散”本质上是一个迭代过程。

具体来说,推论是从一幅完全由噪声构成的图像开始,通过预测每一步过滤的噪声,进行迭代去噪以获得高质量的样本,然后逐步添加细节。

OpenAI的该ADMG模型基于此对图像生成任务添加类别条件,形成独自的消融扩散模型。

研究人员分别从以下几点进行了改进:

基本架构

五种基于UNet结构的改进:

在保持模型大小的情况下,增加深度和宽度的注意头数为32×32,16×16和8×在8的分辨率下,全部使用注意力机制使用BigGAN残差块对激活函数进行上采样,下采样以将残差连接缩小到原来的1/根2类别引导(Classifier Guidance)

在噪声逐渐转化为信号的过程中,研究人员引入了一个事先训练好的分类网络。

可以预测中间生成的图像,得到标签。也就是说,您可以对生成的图像进行分类。

然后,根据分类得分与目标类别之间的交叉熵损失计算梯度,并在梯度中导出以下生成的采样:。

比例分类梯度

通过超参数缩放缩放分类网络坡度来控制生成图像的多样性和精度。

例如,左边是1.0比例的分类网络,右边是10.0大小的分类网络,你会发现右边生成图像的明显类别更一致。

也就是说,分类网络的梯度越高,类别越一致,精度也越高,同时多样性也越小。

新的生成区域热点目前,该模型在GitHub上接近千标星:

另一方面,与GAN相比,扩散模型生成的图像更加多样和复杂。

如果基于相同的训练数据集,则扩散模型可以生成全景、局部特写和具有不同角度的图像:

△左:BigGAN-deep右:ADM

其实,自2020年谷歌发布DDPM以来,扩散模式正逐渐成为生成领域的新热点

除了文章中的“OpenAI”两篇论文之外,还有多个基于扩散模型设计的生成模型,如Semantic Guidence Diffusion、Classifier-Free Diffusion Guidence等。

扩散模型下一步在视觉任务上有什么新的应用,明年再看吧。

论文链接:https://arxiv.org/abs/2105.05233

开源链接:https://github.com/OpenAI/guided-diffusion

参考链接:[1]https://www.casualganpapers.com/guided_diffusion_langevin_dynamics_classifier_guidance/Guided-Diffusion-explained.html[2]https://www.reddit.com/r/MachineLearning/comments/rq1cnm/d_diffusion_models_beat_gans_on_image_synthesis/