图像生成王者不是GAN吗?扩散模型最近点火:通过加入类别条件,效果直达SOTA-量子位,
- 时间:
- 浏览:0
OpenAI刚发售的年末新作GLIDE,又让扩散模型燃起了熊熊大火。
基于该扩散模型的文本图像生成大模型参数规模较小,但生成的图像质量更高。
因此,仍然展出了OpenAI,论文标题直接被称为“在图像生成中打败GAN”的ADM-G模型也再次进入了大众的视线。
添加类别条件的扩散模型首先来看扩散模型的定义。
这是一种新的图像生成方法,其名称“扩散”本质上是一个迭代过程。
具体来说,推论是从一幅完全由噪声构成的图像开始,通过预测每一步过滤的噪声,进行迭代去噪以获得高质量的样本,然后逐步添加细节。
OpenAI的该ADMG模型基于此对图像生成任务添加类别条件,形成独自的消融扩散模型。
研究人员分别从以下几点进行了改进:
基本架构
五种基于UNet结构的改进:
在保持模型大小的情况下,增加深度和宽度的注意头数为32×32,16×16和8×在8的分辨率下,全部使用注意力机制使用BigGAN残差块对激活函数进行上采样,下采样以将残差连接缩小到原来的1/根2类别引导(Classifier Guidance)
在噪声逐渐转化为信号的过程中,研究人员引入了一个事先训练好的分类网络。
可以预测中间生成的图像,得到标签。也就是说,您可以对生成的图像进行分类。
然后,根据分类得分与目标类别之间的交叉熵损失计算梯度,并在梯度中导出以下生成的采样:。
比例分类梯度
通过超参数缩放缩放分类网络坡度来控制生成图像的多样性和精度。
例如,左边是1.0比例的分类网络,右边是10.0大小的分类网络,你会发现右边生成图像的明显类别更一致。
也就是说,分类网络的梯度越高,类别越一致,精度也越高,同时多样性也越小。
新的生成区域热点目前,该模型在GitHub上接近千标星:
另一方面,与GAN相比,扩散模型生成的图像更加多样和复杂。
如果基于相同的训练数据集,则扩散模型可以生成全景、局部特写和具有不同角度的图像:
△左:BigGAN-deep右:ADM
其实,自2020年谷歌发布DDPM以来,扩散模式正逐渐成为生成领域的新热点
除了文章中的“OpenAI”两篇论文之外,还有多个基于扩散模型设计的生成模型,如Semantic Guidence Diffusion、Classifier-Free Diffusion Guidence等。
扩散模型下一步在视觉任务上有什么新的应用,明年再看吧。
论文链接:https://arxiv.org/abs/2105.05233
开源链接:https://github.com/OpenAI/guided-diffusion
参考链接:[1]https://www.casualganpapers.com/guided_diffusion_langevin_dynamics_classifier_guidance/Guided-Diffusion-explained.html[2]https://www.reddit.com/r/MachineLearning/comments/rq1cnm/d_diffusion_models_beat_gans_on_image_synthesis/