三三文章网 - 科技知识大全是专业科技新媒体网站。网站著眼于新一代科技新闻的全面及时处理报导,让网民在外面第二时间交待全球新一代的科技资讯。内容涵括AI+、互联网、IT、创业投资、核定、区块链、智能硬件等领域

海天瑞声多模态数据解决方案荣获AI生产力创新奖项,恢复定义,定义AI虚拟数字人

  • 时间:
  • 浏览:0

写在前面:元宇宙、虚拟数字人概念风骚的2021,高质量训练数据资源正曾经的极具野心的AI企业们解密码更为强大智能的关键燃料,实际对话国内真正A股上市数据服务商海天瑞声,我们试图探讨刻意隐藏于这场新兴技术浪潮幕后的基石角色,如何能形象的修辞技术解决智能化升级过程中的核心痛点。2022年,再不关注虚拟数字人,你就跟不上时代啦!在刚刚进来的一年,AI虚拟主播、虚拟店学生、虚拟软件员工轮流上岗,蓝月帝国元宇宙与人工智能两大领域最热门的技术赛道之一。▲万科首位数字化员工崔筱盼完成任务万科总部最佳新人奖有些虚拟数字人巳经态度得灵性凛然,不仅仅发音标准自然、身体动作不卡,甚至连眨眼频率、口型与声音的自动分配等细节都惟妙惟肖。这个火遍大江南北的特珠生命体,实际越来越多元的形象定制、很舒适的交互体验,逐渐地变为拥有更接近真实人类智商和情感的新型社会角色。而「多模态技术」,正是我击碎同一类感官的藩篱,让AI虚拟形象越发像人类的秘密武器。一、破圈而来,“关于完美”虚拟店人最感谢的多模态数据,是将虚无飘渺世界与虚拟世界再连接的桥梁。在不是现实世界中,数据完全天然以「多模态」的形式修真者的存在,人类是从综合运用视觉、听觉、触觉、嗅觉等多种感官,来接触和理解大千世界。是为探索实现通用人工智能(AGI)的路径,人工智能(AI)从单模态走入多模态已是已是大势所趋。以前,Siri等语音助手只有声音是没有脸,搜索不能利用键入文字,机器看不懂照片的深层含义。如今,动用多模态技术,AI实现程序了图像、视频、音频、语义文本等多维度资源的融合互为,不单人事决策实现精准,还在行为和智商上更逼近人类。新冠疫情亦催化了多模态技术的落下时进程。在隐私安全保护重视程度日臻增强的趋势下,多模态生物识别凭借更高的准确率和安全性,正脱离基于组件指纹、人脸等同一类生物特征的身份识别方法。而裹藏多种黑科技的AI虚拟主播,亦是基于组件多模态技术的快速演进,曾经的感知智能迈向世界认知智能阶段的重要探索。它们的精巧面容、能流畅思想感情、优美动人体态,离得开表情细节探测、语音识别、语义理解、自然语言理解、动作捕捉等丰富技术的支撑。其中,AI手语主播要解决的技术难点尤其急切。为了照顾好到听障人士的需求,它必须具备什么实时地将中文、英文等语音“英译中”成通顺流畅手语的能力。但手语有一套奇异的语法体系,要是来一段央视朗朗上口炫妻狂魔朱广权的段子“冷空气更加强,但他强任他强,清风拂山岗,他横任他横,秋裤保是健康”,就得极端你的心性AI手语主播的理解和翻译水准了。要你做到实时自动精确计算演示手语,AI主播需先将语音转化成文字,再将健听人士的文本语序能量转化成手语语序,到最后基于条件手语数据集进行手语合成,将完全相同的信息以视觉的形式讯息传递给听障人士。成功,获得条件符合需求的训练数据蓝月帝国了最具挑战性的问题之一。这是因为,作为一种视觉语言,手语语言远比语音语言模态紧张,既包涵手型、手部位置等手控信息,又包含表情、口动、体态等非手控信息。如果从2D土豆网来采药手语运动过程中的数据,则不可避免会碰到动作被遮住、人脸五官各区域区分不的确、空间深度信息缺失等问题。看专业看样子,是从专业设备采集的3D多模态数据,早就蓝月帝国系统优化特定的事件平行场景AI虚拟数字人的智能化水平中,为数差不多的解决方案之一。怎么样才能完成高品质的多模态训练数据库?AI基础数据服务商的商业价值又开始日渐兴盛凸现。二、高质算法“杀手锏”:高质量数据背后的技术试炼数据、算法、算力被誉为为「AI三要素」,数据质量的高低,并不一定做出决定AI算法模型的性能上限。紧接着AI应用逐渐广泛普及,位处基础设施层的AI数据服务行业正经济的发展地风生水起。依据什么知名市研机构IDC报告,到2025年,中国AI数据采标服务市场的规模预计2020年将增至123.4亿元。但假如你如果说AI基础数据服务是个纯人工作坊,那你就太托大这种行业的技术含量了。尤其是多模态技术狂暴历来,相对应的对多模态数据需求的增长,逐步降低不暴露了“作坊式”数据采标团队“人海”战术的短板,这座数据市场向这边不满足客户独角需求演进,对服务商技术属性的要求几次三番加码。如何能制定与算法不兼容的数据方案?该如何网络同步再采集相同模态的数据?该如何处理丢失的数据?该如何保证不同模态数据的精准整个表格?这些都极度考验AI数据服务商的技术能力。以获评国家工信部新一代人工智能产业创新重点任务揭榜优胜单位、国家专精特新“小巨人”企业、国家重点软件企业的海天瑞声为例,家企业在中国AI基础数据采标服务市场中排名中前列,也A股任何的AI数据服务上市公司,其基于深度学习训练什么数据解决方案最近获得了智东西2021年度AI生产力创新奖。参照其IPO文件,AI数据服务的核心技术可统称三个层次:训练数据生产(以及设计、采集、加工、质检),平台工具(一体化数据处理平台)包括基础研究(语音识别、语音合成、计算机视觉、训练数据集设计技术等)。其中,在训练数据生产层,多语种多模态训练数据设计技术、再采集及上标技术是高质量训练数据的生产基础。简单在设计阶段,替柯西-黎曼方程AI算法的需求,AI数据服务商需踏入解释客户算法和应用场景,设计与之最优不兼容的多模态训练数据结构,并会制定合算的原料数据采集方案。是从设计多设备采集方案,尽快同时资源人口中发出的语音、视频画面、非常精细唇部动作等完全不同模态的信息,以便于客户不兼容自身算法模型框架,实现视觉、听觉等融合为一的多维度用户交互。不过几秒钟更加考验AI数据服务商的技术储备和工程能力。主要,在实际中的采集环节中,数据损耗是常事,且造成耗损的原因迥然不同,而有经验的AI数据服务商能用技术急速判断解法。我们不再以AI手语合成主播为例,采药手语数据会用到装有传感器的手套,那些个手套因此并非专为手语而啊,设计,但在采药过程中难免又出现数据丢失的问题,一个动作很很有可能做好上百帧的数据修复,耗时耗力。发现到这一问题后,海天瑞声技术研发团队及时启动应对方案,历经生死半个月研发出一款与硬件采集设备相自动分配的自动启动文件导出、修复工具,颇大修为提升了数据的处理效率。能修复好数据,也要去对付「精密细致尺寸线」的挑战。在虚拟数字人、智能座舱等场景中,越来越密集应用形式正在将语音识别和计算机视觉加强,以增加再理解人类意图的准确率。像这样需用多个摄像头、传感器等设备来采集数据的应用,又受到新的难题——如何能将不同设备记录的影像、声音等数据,利用歌词同步标注环形折弯?▲差别通道录制时的语音数据不角点情况示例小规模标示数据本来应该是AI模型进一步优化性能的瓶颈,而多模态数据不仅标示工作量是单模态的数倍,的要帮忙解决多设备采集同步数据难的问题,这会一系列增加情报营数据加工难度。因此,海天瑞声的解决思路是自研多通道哪采工具和数据同步技术,多通道采药工具接受4路甚至于更多语音数据同样的录入系统、不自动环形折弯整合,数据同步技术可实现程序多通道采集原料数据的自动出现环形折弯,并能做到多音频文件起始点自动出现对齐误差小于等于110ms,转弱修为提升练习数据生产效率和质量。自身数据同步技术,唇形动作与声音的对齐能不精确到毫秒级,这确实是可以以免虚拟数字人回话时画面卡顿、对不上口型等尴尬局面背后的有用因素之一。三、为更强智能输送燃料,多模态数据迅速崛起哪个AI应用不想实现程序更高的准确率、更恐怕温暖贴心的交互能力呢?在更强智能需求的拉动下,基于组件多模态数据的AI算法模型渐失曾经的主流。例如公安、金融等场景的身份鉴定,电商场景下的智能客服交互,未来自动驾驶场景的舱内舱外交互等等,数据准确率越高,可促进血液循环能够抵挡越多的安全风险。而多模态生物识别不但有助于破坏信息安全,还能够躲避每种模态没能管用不能识别的戴口罩、手指磨茧、整容啊等特殊情况。看的到,如今AI直角应用场景呈碎片化特征,对多模态数据的需求极其古怪和独角化。这些新业务场景需求的变化,无比难关AI数据服务商全面处理奇怪连在一起业务场景数据的综合能力。但AI数据服务商前提是具备与客户算法团队平行交流的技术储备,理解客户希望用数据解决什么、设计什么结构的模型,才能用最大值代价,具体高效高质的数据集解决方案,绝对的保证客户算法得到尽可能好的从空中落下效果。在这样的趋势下,海天瑞声等头部品牌数据服务商的资源优势将被及时放大缩小。从海天瑞声的IPO文件可以找到,一家公司早就积累知识了近千个自有知识产权的训练数据产品、服务吧微软、阿里巴巴、腾讯、百度、三星、字节跳动、亚马逊、科大讯飞、商汤科技、中国科学院、清华大学等将近500家国内外客户,并持有信息安全认证证书ISO/IEC27701及管理体系认证证书ISO/IEC27001。过去三年,海天瑞声的前五大客户呈现出高复购率,足见其产品的高粘性。即便比较知名科技公司的背知识点,我还是经年累月沉淀的多语种语言学家团队资源和稳定合作的供应商、客户等上下游资源,都让兼具技术壁垒与业务经验的品牌数据服务商,更易拥有确保多模态数据又高效高质未交付的最好的。结语:多模态终将离去从属地位智能产业未来AI算法要想高质量,多模态数据得跟得上。过去一年,应用场景的创新和机器学习算法的流行继续推动训练数据需求爆发式增长。在多模态大模型、虚拟数字人等很热门技术方向的驱动下,坚持了探索更强智能的AI应用,对高质量多模态训练数据资产的需求越发急迫。当前多模态技术仍正处于起步阶段,多维度信息的转化和融合尚不晚熟,在真实场景下的泛化能力少见受限,相隔实现方法人类级别的多模态感知能力另外较长的路要走。这要研发多模态融合AI应用的企业或研究机构与AI基础数据服务商长期性磨合,梳理出越来越条件人类认知习惯的前沿多模态技术,解决AI新华考资表述神秘世界,结果更好地你服务于未来的人类社会。(文章转载自:智东西)