狂徒AI对罗翔先生，下了手-量子位，狂徒AI对罗翔先生，下了手-量子位

时间:2023-04-12 09:49:00
浏览:0

朋友，你有没有想过自己在二次元是什么样子的

最近，这样的生成器在国内外掀起了热潮。

看，罗翔老师的照片输了一张，可以“啪”地生成二维漫画风格。

一发秒变霸道总裁在吗，网友纷纷聚集。

KFC（肯德基）的官方账号也很热闹，自己打破了爷爷次元的墙壁。

各种各样的情节层出不穷：

在二维滤镜下，就连这个经典的“女人吼猫”也表示有点温暖，“居然都有点可爱”。

这是QQ小世界最近发布的二维形象生成器——《异次元的我》。

那么，这个阶层的墙壁是如何被打破的呢

据了解，QQ小世界以“异次元的我”为主题，已有100多万条帖子，浏览量超过亿。

有一次我把QQ服务器爆了

这样的“万人参加”之所以成为可能，是因为有破坏次元墙壁的简单工作。

只要搜索“免费画”，就能看到入口。

之后只是当场拍照，上传图像。

而且，“异次元的我”为了让二维的画能够保持各种各样的图像，改变了使用场景，提高了适应度。

不得不说打破了次元的墙壁，现在真的变好了。

下一个问题是：

什么原理近年来，在图像生成领域，“扩散模型”正在蓬勃发展。

例如，OpenAI的GLIDE和Google的Imagen，为了得到高质量的图像生成结果，采用了基于扩散模型的pipeline。

扩散模型有两个过程。如下图所示，右边是正常图像。

从右到左的Forward Diffusion是一个逐渐将正态分布的噪波叠加到图像上的过程，最终会得到一个看起来完全像噪波的图像。

难怪你会认为，在一块牛排上继续撒盐胡椒，完全被盐胡椒覆盖而看不见了。

从左到右的“还原诊断”是一步一步地去除噪音并恢复图像的过程，这就是扩散的数据生成过程。

扩展模型的训练是学习和预测与xt重叠的噪音，得到噪音除去后的xx-1的图像，反复噪音除去，最终得到没有噪音的输出图X0。

最新的备用诊断模型结合了训练好的VAE模型。

VAE模型可以压缩或解压缩任何图像。使用VAE编码器压缩后，可以进行比原始图像小很多的特征编码。另外，根据特征编码对扩展模型进行训练，使用VAE解码器将最终生成的特征编码恢复到原来的大小，这是Stable Diffision的做法。

这一改进大大减少了生成图像所需的时间和GPU资源，使落地成为可能。

为了允许文本控制模型生成的内容，Stable Diffusion模型使用预先培训的CLIP模型来引导结果。

CLIP模型使用许多字符和图像配对训练来测量文本和文本之间的相关性。CLIP score。

从前方生成图像时，除噪声去除外，还必须增大噪声去除后的图像和引线的剪辑得分。

在这样生成的过程中，输出结果会接近给定的记述。

在上图中，左下角的孩子的脸上有一定程度的噪音。

之后在去除噪音的过程中，与“awoman wearing glasses”的距离缩短，成为戴着眼镜的成年女性。

即使生成图像，原始图像的大致结构仍保留着，但根据文章的不同，细节也会发生变化。

Stable Diffusion的技术在AI绘画，特别是在二维领域表现出了很高的欣赏性和娱乐性，draft.art、语义间AI等，以Stable Diffusion为基础的AI绘画平台层出不穷。

但是，现有的平台使用起来不方便，直接生成也不能高概率生成。

如果用户想要取得更好的结果，可以通过详细说明图片内容，加入大量提高效果的词和增强风格的词，获得更理想的效果。

而且接口可调参数很多，用户门槛很高；另一方面，这些平台通常需要非常长的等待时间才能获得一个结果。

于是，QQ小世界团队对这些问题点进行了优化改造。用户只需上传一张图片，即可获得清晰稳定的生成效果，降低使用门槛，同时保证生成质量。

从技术上来说，进行了以下改善。

精确的内容生成：在自研diffusion模型中增强生成语义，帮助分析图像的内容，提高生成内容的对应性。更快的生成速度：利用高分割模型降低difussion模型的生成分辨率，加速图像的inference进程，提高生成速度，节约GPU资源。多种风格的选择：为不同的场景设计丰富美丽的风格化效果。此外，通过简化玩法流程，研究团队积累了口碑，达到了高峰时期1000%的二次传播率，以降低使用门槛，更好的体验。

在传统的AI图形平台、“如意间AI”、“draft art”等平台上，不仅可以上传图像，还可以使用普罗姆特（prompt）来表现被摄体和风格，根据情况调整参数，获得理想的结果。

《异次元的我》对pipeline进行了改进，以降低用户的门槛。

将输入模型中的提示字分为两部分。图像主体的内容记述和样式记述。

内容描述：为了获得图像的内容描述，请针对输入图像中的信息检测人物的性别、年龄和姿势等属性，并最终获得尽可能精确和详细的内容描述词。

样式描述：为了使结果更接近二维，我们为各种场景设计了非常清晰的二维样式。以步骤1中分析的内容为基础，将每个场景细分为一男、一女、多人等。

结合内容描述和风格描述，研究人员通过原图分析最终得到完整的提示单词输入网络，从而可以稳定生成画面精致、风格突出的结果。虽然生成内容与原图保持了对应性，但通过加入更多“异次元”元素，用户可以获得穿越到二维的感觉，同时保证了较高的生成质量。

另一方面，diffusion模型加强了语义理解，使其能够更准确地理解和生成图像内容，提高了语义信息的理解和图像生成的质量。

与最近发布类似玩法的其他平台相比，“异次元的我”的内容精度更好，风格也更二维化，外观也更好。

另外，在原始的Stable Diffusion中，由于需要多次重复生成图像，所以在默认构成A100机器上生成720p的图像大约需要12s。

提高分辨率或增加步数以提高效果可能需要1分钟或更长时间。

“异次元的我”对自研模型进行了模型压缩和工序加速，最终将1张图像生成速度提高了1.6秒和7倍。

是

对于这种“快、好、省”的2次元玩法，你心动了吗

尝试以下方法：。

你在QQ上搜索“免费画画”就可以参加啦。

One More ThingQQ小世界队，最初想在国内做「异次元的我」，不过，不知为何在外部网站流动了燃烧起来了。

知道了这个的QQ小世界队，急忙进行了算法的最优化。现在“异次元的我”可以对应各种各样的肤色，生成各种各样的图像。

对此，海外用户也对队伍的优化给予了肯定的反应。

不仅仅是人类，AI也能做同样的事情吧。

胡渊鸣：import 1个“太极拳库，Python代码提高100倍！-量子比特，

博士意外发现秘密：DALL，E2自己制作语言，人不懂却能生成特定的图像，可能被用来做事！它是一个量子比特，

狂徒AI对罗翔先生，下了手-量子位，狂徒AI对罗翔先生，下了手-量子位

猜你喜欢

小鹏财务表现稳健，引领新能源汽车市场新篇章

小鹏汽车发起芯片升级众筹，老用户有望享受新智驾智舱体验（好的，以下是一个为您生成的新的）

从长期到短期：英伟达如何调整产品更新策略？深度解析

英伟达新产品发布率翻倍：探索技术与市场的力量

ChatGPT一周用户数激增两亿，OpenAI引领智能风潮！

最新消息：雷军退出小米电子公司董事长，已卸任相关职务（雷军卸任小米电子公司董事长职务，最新消息披露其已退出相关职务）

借呗整改之后，银行信贷也将从“花呗”中分离为“信用购”（借呗整改后，＂信用购＂独立发展，银行信贷与＂花呗＂分道扬镳）

AI技术与医疗结合！声音模拟助力患者重塑“语音 ”

小鹏财务表现稳健，引领新能源汽车市场新篇章

小鹏汽车发起芯片升级众筹，老用户有望享受新智驾智舱体验（好的，以下是一个为您生成的新的）

从长期到短期：英伟达如何调整产品更新策略？深度解析

英伟达新产品发布率翻倍：探索技术与市场的力量

ChatGPT一周用户数激增两亿，OpenAI引领智能风潮！

最新消息：雷军退出小米电子公司董事长，已卸任相关职务（雷军卸任小米电子公司董事长职务，最新消息披露其已退出相关职务）

小鹏财务表现稳健，引领新能源汽车市场新篇章

小鹏汽车发起芯片升级众筹，老用户有望享受新智驾智舱体验（好的，以下是一个为您生成的新的）

从长期到短期：英伟达如何调整产品更新策略？深度解析

英伟达新产品发布率翻倍：探索技术与市场的力量

ChatGPT一周用户数激增两亿，OpenAI引领智能风潮！

最新消息：雷军退出小米电子公司董事长，已卸任相关职务（雷军卸任小米电子公司董事长职务，最新消息披露其已退出相关职务）