应邀参加LVS2020会议,分享AI合成虚拟角色的技术框架和挑战
- 时间:
- 浏览:0
作为智能视听解决方案的服务提供商,美摄科技致力于为移动互联网、智能手机、智能硬件以及传统广播、广播、电信运营商等行业组织提供最先进的整体视听解决方案。为开发者和行业合作伙伴提供高效稳定的底层技术支持,帮助合作伙伴实现业务创新,创造巨大的用户价值。2020年10月31日,LiveVideoStackCon2020音频和视频技术大会在北京丽亭华园大酒店举行,主题包括音频和视频技术与全球化、人工智能与多媒体处理、教育与多媒体、视频编解码器、服务器端开发与优化等。会议侧重于音频和视频技术和行业应用的热门话题,如教育和多媒体。来自娱乐、教育、视频会议、社交、游戏、电子商务、金融、物联网等行业的500多位资深技术专家和顶尖学者齐聚一堂,参加了多媒体发展领域的盛会。
[第1001号]
会上,北京美视网科技有限公司人工智能研究组组长侯康先生应邀分享了主题演讲“人工智能合成虚拟角色的技术框架与挑战”。讲座内容从人工智能合成虚拟角色的技术框架入手,介绍了人工智能合成虚拟角色技术的背景,即通过输入文本来生成接近现实的锚视频。并详细介绍了AI合成虚拟角色不同技术路径的差异和优缺点、面部表情和嘴角预测模型的设计与优化、3D人脸重构与渲染技术、对抗生成网络、视频帧渲染与融合等关键技术。我们分享了一些困难的解决方案,如嘴巴抖动和失真,GAN渲染结果中面部细节失真,以及最终视频前后帧之间的平滑过渡。
[第1002页]
人工智能合成虚拟锚,结合了人工智能和计算机图形学。计算机获得语音和文本内容信息后,可以通过计算机图形合成技术驱动、渲染和融合虚拟图像的人脸,生成大量的人脸数据,训练对抗网络,实现非常逼真的表情恢复,最终实现精细嘴唇同步。它实现了生动的表情姿势和虚拟锚,与真人没有什么不同。它在新闻广播、虚拟客户服务、互联网教育等领域有着丰富的应用场景。
[第1003号]
目前的产品矩阵包括以下内容:视频高清拍摄和深度编辑SDK,智能视频制作服务平台,智能剪辑解决方案,智能手机解决方案,Face + Beauty/贴纸解决方案,云剪辑,虚拟锚,视频包定制设计等服务。它覆盖了移动终端、PC终端和网络终端,实现了从拍摄到编辑的全过程功能,实现了目前主流的视频游戏玩法。采用灵活的技术架构、多线程和GPU、CPU协同预处理机制、自然语言处理算法等技术,得到了各行业龙头厂商的一致认可,目前已经与小米、OPPO、ViVO、华硕、猎豹移动、Bilibili、新浪、KEEP等龙头客户展开了深度技术合作。并与国家电网、广播电视等传统企业合作,推动政府和政府对顶级APP、金融媒体的利用。除了国内客户外,美国摄像头技术还布局海外市场,填补了海外市场智能AV解决方案的空白。目前,我们在美国、韩国、印度、新加坡等多个国家和当地的互联网企业中提供深度技术服务,辐射数千万海外用户,帮助合作伙伴实现业务创新,创造巨大的用户价值。