如果是你的一句话,马斯克需要扫个头,项目已经开源丨Adobe等出品-量子比特
- 时间:
- 浏览:0
现在,Adobe不希望使用手P图——只要动动嘴就可以了。
只要你说一句话,电脑就能P出你想要的效果。
例如,说到想要的发型,马斯克马上就会被剃头说“Hi-top Fade(扫头),换一个!”。
输入cute cat,你可以把图中的猫变成“大眼睛萌猫”。
说到“classic car”,你可以把你的车P打造成经典老式车型,也可以手动调整复古度。
简直就是操作拙劣的P图玩家的福音。
没错,这是来自Adobe、希伯来大学、特拉维夫大学的新操作,只需一句话,就能让电脑“修理”想要的图像。
项目已开源。
GAN遭遇CLIP这一不可思议的操作来自一个名为StyleCLIP的新算法。
是的,现在最先进的GAN StyleGAN和OpenAI制作的CLIP模型相结合。
你为什么选择这两个模型。
其中,CLIP不能自己生成图像,但图像分类效果很好。
不仅可以理解输入的词语,还可以将意思和图像特征关联起来。
也就是说,CLIP与人脑有着极其相似的工作方式,不仅从技术上坦白CV和NLP,还分配了专门的处理领域。
例如,如果你听到“蜘蛛侠”三个字,或者看蜘蛛侠的照片,CLIP的某个特殊区域就会开始回应,用来回应红色和蓝色的区域也会“骚动”。
虽然StyleGAN可以实现光电级模拟,生成非常逼真的图像:
然而,一系列GAN模型,如StyleGAN、StyleGAN2,并不能自行改变面部的外观、形状、表情等参数。你只能从整体、中、微调等大方向改变形象,如下所示。
如果你把CLIP和StyleGAN合成一个新的模型,你可以用一句文本信息来控制真实而详细的图像。
点击鼠标可以调整效果,但实际上,模型的效果也确实不错,功能非常全面。
同时,也带来着用一句话说必要的事之后用鼠标能调整的图形界面窗口。
例如,要想让英国首相鲍里斯·约翰逊(Alexander Boris de Pfeffel Johnson)成为女性:
你也可以让他浮想联翩,笑一笑。
记住整张脸的特征,必要时可以改头换面,换头发,不仅可以改变化妆,还可以应用于动物,还可以把老虎变成狮子。
当然,也可以把普通的房子改成哥特式(gothic)建筑。
在单个NVIDIA GTX 1080 Ti GPU上进行全局预处理的时间为4小时。预处理后,可以应用不同的文本-图像对。
关于训练的时间,需要跑10-12个小时,加上优化程序后的推理时间为98秒。
那么,模型的稳定性如何呢。
即使背景人物不同,使用一句P图后,它们之间的相似度也可以达到73%以上,最高可以达到84%。
也就是说,模型改变特征的效果是稳定的。
当然,即使测试效果很好,网友们也发现了一些图片生成的漏洞。
例如,网友注意到一个长着胡子的男人看起来比一个没有胡子的男人更生气吗。
一位网友测试后表示,“让男性肤色变深”(tanned man)等个别效果确实不够好,需要数据清洗。
此外,也有网友建议作者尝试进一步研究,比如模式的偏见性。
例如,尝试一些形容词,比如“成功的男/女”、“罪犯”,看看这个模型会生成什么。
作者介绍了来自特拉维夫大学(Tel-Aviv University)的Or Patashnik,主要研究方向是计算机视觉。
合作作品吴宗泽(Zongze Wu)来源于希伯来大学(Hebrew University of Jerusalem),主要研究方向是计算机视觉,包括GAN、图像处理、图像翻译等。
三作Eli Shechtman来自Adobe,研究方向为计算机视觉,包括视频分析与合成、目标与动作识别、图形视觉、图像与视频检索等。
另外,特拉维夫大学出身的Daniel Cohen-Or和希伯来大学的Dani Lischinski也为这篇论文做出了贡献。
虽然不是很确定,但是Adobe真的可以把“动口P图”这个功能放入PS中。
项目地址:https://github.com/orpatashnik/StyleCLIP
论文地址:https://arxiv.org/abs/2103.17249