三三文章网 - 科技知识大全是专业科技新媒体网站。网站著眼于新一代科技新闻的全面及时处理报导,让网民在外面第二时间交待全球新一代的科技资讯。内容涵括AI+、互联网、IT、创业投资、核定、区块链、智能硬件等领域

狂徒AI对罗翔先生,下了手-量子位,狂徒AI对罗翔先生,下了手-量子位

  • 时间:
  • 浏览:0

朋友,你有没有想过自己在二次元是什么样子的

最近,这样的生成器在国内外掀起了热潮。

看,罗翔老师照片输了一张,可以“啪”地生成二维漫画风格。

一发秒变霸道总裁在吗,网友纷纷聚集。

KFC(肯德基)的官方账号也很热闹,自己打破了爷爷次元的墙壁。

各种各样的情节层出不穷:

在二维滤镜下,就连这个经典的“女人吼猫”也表示有点温暖,“居然都有点可爱”。

这是QQ小世界最近发布的二维形象生成器——《异次元的我》。

那么,这个阶层的墙壁是如何被打破的呢

据了解,QQ小世界以“异次元的我”为主题,已有100多万条帖子,浏览量超过亿。

一次我把QQ服务器爆了

这样的“万人参加”之所以成为可能,是因为有破坏次元墙壁的简单工作。

只要搜索“免费画”,就能看到入口。

之后只是当场拍照,上传图像。

而且,“异次元的我”为了让二维的画能够保持各种各样的图像,改变了使用场景,提高了适应度。

不得不说打破了次元的墙壁,现在真的变好了。

下一个问题是:

什么原理近年来,在图像生成领域,“扩散模型”正在蓬勃发展。

例如,OpenAI的GLIDE和Google的Imagen,为了得到高质量的图像生成结果,采用了基于扩散模型的pipeline。

扩散模型有两个过程。如下图所示,右边是正常图像。

从右到左的Forward Diffusion是一个逐渐将正态分布的噪波叠加到图像上的过程,最终会得到一个看起来完全像噪波的图像。

难怪你会认为,在一块牛排上继续撒盐胡椒,完全被盐胡椒覆盖而看不见了。

从左到右的“还原诊断”是一步一步地去除噪音并恢复图像的过程,这就是扩散的数据生成过程。

扩展模型的训练是学习和预测与xt重叠的噪音,得到噪音除去后的xx-1的图像,反复噪音除去,最终得到没有噪音的输出图X0。

最新的备用诊断模型结合了训练好的VAE模型。

VAE模型可以压缩或解压缩任何图像。使用VAE编码器压缩后,可以进行比原始图像小很多的特征编码。另外,根据特征编码对扩展模型进行训练,使用VAE解码器将最终生成的特征编码恢复到原来的大小,这是Stable Diffision的做法。

这一改进大大减少了生成图像所需的时间和GPU资源,使落地成为可能。

为了允许文本控制模型生成的内容,Stable Diffusion模型使用预先培训的CLIP模型来引导结果。

CLIP模型使用许多字符和图像配对训练来测量文本和文本之间的相关性。CLIP score。

从前方生成图像时,除噪声去除外,还必须增大噪声去除后的图像和引线的剪辑得分。

在这样生成的过程中,输出结果会接近给定的记述。

在上图中,左下角的孩子的脸上有一定程度的噪音。

之后在去除噪音的过程中,与“awoman wearing glasses”的距离缩短,成为戴着眼镜的成年女性。

即使生成图像,原始图像的大致结构仍保留着,但根据文章的不同,细节也会发生变化。

Stable Diffusion的技术在AI绘画,特别是在二维领域表现出了很高的欣赏性和娱乐性,draft.art、语义间AI等,以Stable Diffusion为基础的AI绘画平台层出不穷。

但是,现有的平台使用起来不方便,直接生成也不能高概率生成。

如果用户想要取得更好的结果,可以通过详细说明图片内容,加入大量提高效果的词和增强风格的词,获得更理想的效果。

而且接口可调参数很多,用户门槛很高;另一方面,这些平台通常需要非常长的等待时间才能获得一个结果。

于是,QQ小世界团队对这些问题点进行了优化改造。用户只需上传一张图片,即可获得清晰稳定的生成效果,降低使用门槛,同时保证生成质量。

从技术上来说,进行了以下改善。

精确的内容生成:在自研diffusion模型中增强生成语义,帮助分析图像的内容,提高生成内容的对应性。更快的生成速度:利用高分割模型降低difussion模型的生成分辨率,加速图像的inference进程,提高生成速度,节约GPU资源。多种风格的选择:为不同的场景设计丰富美丽的风格化效果。此外,通过简化玩法流程,研究团队积累了口碑,达到了高峰时期1000%的二次传播率,以降低使用门槛,更好的体验。

在传统的AI图形平台、“如意间AI”、“draft art”等平台上,不仅可以上传图像,还可以使用普罗姆特(prompt)来表现被摄体和风格,根据情况调整参数,获得理想的结果。

《异次元的我》对pipeline进行了改进,以降低用户的门槛。

将输入模型中的提示字分为两部分。图像主体的内容记述和样式记述。

内容描述:为了获得图像的内容描述,请针对输入图像中的信息检测人物的性别、年龄和姿势等属性,并最终获得尽可能精确和详细的内容描述词。

样式描述:为了使结果更接近二维,我们为各种场景设计了非常清晰的二维样式。以步骤1中分析的内容为基础,将每个场景细分为一男、一女、多人等。

结合内容描述和风格描述,研究人员通过原图分析最终得到完整的提示单词输入网络,从而可以稳定生成画面精致、风格突出的结果。虽然生成内容与原图保持了对应性,但通过加入更多“异次元”元素,用户可以获得穿越到二维的感觉,同时保证了较高的生成质量。

另一方面,diffusion模型加强了语义理解,使其能够更准确地理解和生成图像内容,提高了语义信息的理解和图像生成的质量。

与最近发布类似玩法的其他平台相比,“异次元的我”的内容精度更好,风格也更二维化,外观也更好。

另外,在原始的Stable Diffusion中,由于需要多次重复生成图像,所以在默认构成A100机器上生成720p的图像大约需要12s。

提高分辨率或增加步数以提高效果可能需要1分钟或更长时间。

“异次元的我”对自研模型进行了模型压缩和工序加速,最终将1张图像生成速度提高了1.6秒和7倍。

对于这种“快、好、省”的2次元玩法,你心动了吗

尝试以下方法:。

你在QQ上搜索“免费画画”就可以参加啦。

One More ThingQQ小世界队,最初想在国内做「异次元的我」,不过,不知为何在外部网站流动燃烧起来了。

知道了这个的QQ小世界队,急忙进行了算法的最优化。现在“异次元的我”可以对应各种各样的肤色,生成各种各样的图像。

对此,海外用户也对队伍的优化给予了肯定的反应

不仅仅是人类,AI也能做同样的事情吧。