AI手语主播朱广权恶魔面试合格,残像级手无所畏惧,现在正式任职冰雪盛会-支援量子位,
- 时间:
- 浏览:0
什么样的手语主播可以和朱广权battle多次交往?
话不多,我们直接把板凳上的瓜子凑齐,一起围住前排(手动狗头):
目前,她将正式就冰雪盛会,在各种冰雪赛事中,为2780万聋哑人提供24小时不间断的手语服务。
虽然是首次登场,但这个AI手语数字人的专业性不容小觑。
据评价,手语的理解度达85%以上,与主流中英、中日机器翻译结果相差不大。
毕竟,“台上一分钟,台下十年之功”,为了给聋哑人带来这一美好瞬间,AI手语数字人背后的程序员们,已经有了很多辛苦人。
在谈论手语数字人背后的技术挑战技术之前,你可能会疑惑,明明有字幕,为什么体育等电视节目需要手语解说。
事实上,各种现实因素的制约使得手语比文字对聋哑人更亲切,更迅速地传递信息。
因此,屏幕一角的手语翻译对特别的人来说是“更加平等地享受信息”的窗口。
这就给AI手语数字人提出了一个本质的技术问题:如何让聋人真正理解数字人的手语?
乍一看,从语音到文本,从文本到手语符号,再到手语数字人的动作的翻译过程,但如果深入其背后的技术细节,你会发现需要克服的难点比表面要复杂得多。
首先,语音到手语的转换并不是简单的建立语音到视觉的转换模型就可以了。
单从语序来看,手语和自然语言之间也有很大的差异。例如,用手语打一句“想回家”的顺序,其实是“想回家考虑”。
另外,手语也有语言简化的特性,手语的记述简化了口语。
也就是说,如果只是把口语的词汇转换成笨拙的手势,简单地连接动作,手语只能说是“半吊子手语”,聋哑人很难理解。
其次,表情表情也是手语表达中极为重要的部分。
有时一个手势表达了好几个意思,如果没有表情和口形的组合,可能会产生误解。
此外,还必须考虑数据不足、数字人动作缺乏灵活性等各种问题。
总之,要打造高质量的手语数字人,不仅需要语音、视觉、自然语言处理等AI技术同时发力,更需要对聋人实际需求的深入调查。
因此,这次百度智能云的程序员们是如何成功地让AI手语主播拥有支持冰雪盛典的实力的呢。
两个月,当“做一些艰难而正确的事情”研发团队接受手语数字人任务时,距离期待已久的冰雪盛典只剩下两个月了。
然而,在几乎没有这种试错时间的情况下,程序员们放弃了现成的手势汉语的语费。
如上所述,对手势的简单切换通常会使聋哑观众产生理解模糊,并且实际效果被大大折扣。
为了“根本管理”,需要从一开始收集数据,尽管面临额外成本难以预测的压力,百度智能云团队果断选择了自然手语语言:
为此,百度智能云团队联合天津理工大学,邀请100多名聋哑学生进行语言材料数据显示,同时邀请手语委员会专家、特殊教育专家等专家,在示范效果和聋哑人体验中融合了大量行业知识。
打下高质量的基础,下一步就是逐步解决手语数字人的“听得懂”、“能翻译”、“能表达”三个问题。
“听得见”需要语音识别模型。
在ASR语音识别中,NLP、语音领域积累了10多年的百度本身就具备成熟的解决方案,识别精度可达98%以上,能够保持中英文混杂、陌生字、方言等特殊场景。
“会翻译”用的是手语翻译模式。
与一般的语言翻译模式不同,由于上述手语表达中语言的简化等特性,手语翻译模式需要着重于精确度和简化。
其中,精度影响数字人手势的准确性,简洁影响信息传递的及时性。
基于高质量的数据资源和百度多年积累的神经网络翻译技术,研发团队设计了中文文本到手语符号的翻译方法。
通过大规模的知识学习、中间件控制等手段,研发团队在保证翻译准确率的基础上成功减少了译文长度,实现了翻译效果与延迟的平衡。
经过两个月六次大版本的迭代,该手语翻译模式的理解度最终达到85%以上,与主流中英、中日等方向的机器翻译结果相当,达到行业领先水平。
最后,数字人的表达依赖于包括手势、口形和表情生成的动作生成模型。
针对手势问题,研发团队运用人体动作视觉识别技术,让AI学习手语视频,将其中的二维骨骼点转换成驱动三维数字人的手语动作,可以精确到每个手指。
在此基础上,百度智能云构建了拥有近万个手语动作的强大动作库。
在口型和表情方面,研发团队运用开创性的4D扫描数据进行训练,对表情和口型进行精密校准,通过超过10万个全身多边形面、超过1万个面部、超过240个面部表情行变基、超过100个身体骨骼极限给手语数字人一种自然生动的表情。
wink,吹泡泡也不说什么:
总体而言,口型生成的精度可以超过98.5%。
如果说“降低成本是虚拟数字人发展的关键”,那么百度智能云程序员能够大胆挑战更难的技术路线,与百度自身长期积累的AI技术、数字人技术不无关系。
实际上,在数字人的生产中,百度将上述的手办驱动技术、智能对话技术、语音对话技术以及智能推荐技术集中在作为其平台级产品的百度智能云发平台上。
百度智能云集数字人生产、内容创作、业务部署服务于一体,无论是虚拟员工这样的服务型数字人、虚拟主持人还是虚拟偶像这样的演艺型数字人可以基于这个平台一站式构建,甚至是“一句话生成”。
到现在为止与Marsk的妈妈Mayer Mask先生对谈了的百度小组的数字人「shiga」:
可以弹钢琴唱歌的“GONG俊数码人”:
都是基于百度智能云精灵制作的。
目前,百度智能云精灵平台已经发布了3D写实、2D写实、3D卡通三条生产线,实现了银行/保险、运营商、媒体/电台、互动娱乐/品牌、MCN/艺人中介等全场景覆盖一站式构建“能听、能说、能理解、能互动”的数字人。
从而大大加快了数字人从设计到落地的进程,有效降低了数字人的生产成本,为数字人的规模化应用奠定了基础。
百度集团副总裁吴甘在参加央视“对话”节目录制时表示:
科技使世界更公平严密地说,数字人并不是新的。
近年来,随着AI等技术的成熟,以及短视频、直播等新兴媒体需求的出现,数字人不断产生新的面貌和新的应用模式。
从被提出到今天的广泛落地,“数字人”这一科技热词,其实也经历了几个认知阶段。
第一阶段重点探讨数字人的“真不真”,这是新技术的初见。
技术落地的尝试开始了,第二阶段围绕“危机感”的讨论还在继续。人们开始关注数字人是否会剥夺人类工作的机会。
现在,我们对数字人的认识,也许是时候又进入一个新阶段了。
正如AI手语数字人让更多人接触到冰雪竞技的魅力一样,这表明数字人作为提高服务效率的方法,不是代替人类工作,而是填补人力无法完成的空白。
这正是科技背后的真正价值,不是替代,而是助人为乐,做人不能。
并且,当百度这样的科技企业致力于降低技术成本,加速技术落地时,体现了这是科技工作者的社会责任。
从这个角度来说,最先进的技术似乎冰冷而不远,使人类共同体更加公平美丽。
你怎么想?