三三文章网 - 科技知识大全是专业科技新媒体网站。网站著眼于新一代科技新闻的全面及时处理报导,让网民在外面第二时间交待全球新一代的科技资讯。内容涵括AI+、互联网、IT、创业投资、核定、区块链、智能硬件等领域

CCBN-思必驰:带屏终端场景中的多模式交互

  • 时间:
  • 浏览:0

第28届中国国际广播电视信息网络展览会(以下简称CCBN2021、于2021年5月28日至30日在北京中国国际展览中心(静安庄馆)举行。思必驰物联网家电线产品总监于鹏伟应邀,带来精彩的主题分享,思必驰全面展示了语音技术状况和多模态技术在带屏终端的应用和经验。

思必驰IoT家电线产品总监于鹏伟

CCBN2021展会展览面积60000平方米,设专业展区20余个,举办会议论坛和专题活动30余场,同时进行在线展览和会议交流。在5月28日同期举办的CCBN BDF2021智能广电+系列论坛智能终端篇中,思必驰IoT家电线产品总监于鹏伟进行了题为“带屏终端场景中的多模式交互”的主题共享思必驰全面展示了语音技术的情况以及多模态技术在带屏终端上的应用和经验。

在2021世界超高清视频(4K/8K)产业发展大会上,工业和信息化部部长肖亚庆表示,过去一年国内4K超高清电视市场占有率超过70%,同时8K电视的渗透开始加速。

自去年以来,受疫情影响,民众居家娱乐需求高涨,4K电视的普及加速。资料显示,2020年国内4K电视总销量约3338万台,销售额超过千亿元。

中国电子信息产业发展研究院院长张立表示,今后8K电视将成为电视厂商旗舰产品的主流构成。

据Strategy Analytics统计,2020年全球8K电视销量低于预期,仅为35万台。但到2021年,这一数字有望突破百万。到2025年,8K电视将进入北美和亚太地区最高的超过7200万户家庭的全球。

于鹏伟份额方面,智能电视作为“客厅经济”的核心代表产品,占据了客厅场景的最大流量入口,是迄今为止各家电厂商争夺的核心领域。思必驰依托智能语音行业多年的经验和重要的技术优势,在为智能电视构建平滑自然的语音入口+输出的同时,背靠DUI平台,开通了超过300家第三方资源接口,让用户能够实现对整个住宅的控制、交通出行、新闻信息、提供了生活娱乐等各领域的内容服务。此外,于鹏伟分别介绍了思必驰的AMEC技术、TH1520芯片和多模态交互技术的应用。

AMAEC,杜比全景声音非常好的合作伙伴

AMAEC(AISpeech Multichannel Acoustic Echo Cancellation)是思必驰推出的多通道回波消除技术,采用传统的信号处理方法与深度学习网络相结合,针对每个独立的发声通道建立自己的滤波系统使多扬声器系统的回波消除效果更好。

思必驰符合AMAEC、4/6/8麦+N环路场景,保障高端电视杜比全景音响效果下语音对话无障碍。流畅的自然智能语音交互与杜比全景声音的绝妙体验并存,实际上高端智能电视更出色。

目前思必驰已与电视领域龙头企业海信达成深度合作,海信及其子品牌东芝的高端电视机型全面搭载思必驰AMEC技术,包括海信85U9E、海信75U9G Pro、海信85U7G max、东芝940、东芝840、东芝740等。

TH1520、系统CPU高占用救星

TH1520是AI专用的双核扩展型低功耗DSP芯片。大容量片内的静态存储、多通道音频解码支持广域采样率,并可为上层SOC端的操作减轻压力。此外,芯片支持低功耗模式和全速模式,实现毫瓦级待机功率和100毫瓦级全速工作功率。

TH1520集成思必驰语音算法,可在家庭噪音环境下实现5米远场启动率gt,95%,识别精度gt,92%,误启动仅1次/48h(国际认可1次/24h为优秀级别),支持启动语定制,可内置本地指令数百条,响应时间lt。500ms;背靠DUI平台,可自由对接天气、音乐、故事、百科、新闻等体量技能,云服务不受限制。

目前海信S7F社交电视、近日发布的乐视GS系列电视同样搭载了TH1520语音专用芯片,未来几个月将大量上市搭载TH1520芯片的智能电视。

多模式交互技术的应用

根据“于鹏伟”,全链路语音交互技术可在一般家庭场景下为用户提供平滑的交互体验。但是,在一些特殊的场景下,例如多个用户玩激烈的游戏、好友们聚在一起等,容易发生多人同时对话,此时纯语音对话难以准确判断音源,对话成功率直线下降。

在周边噪声干扰大、多人密集交互的情况下,思必驰结合全链路语音交互技术及自研究计算机视觉技术,推出多模式交互技术方案,根据视觉和语音特点,通过多模式融合VAD分离说话人的目标语音通过不识别其他说话人的声音,实现辅助降噪,提高声源定位的精度,说话人在移动状态下也不受影响。

思必驰多模式交互技术方案还可应用于会议大屏幕、商场大屏幕显示、地铁售票机等商用带屏显示装置,目前该技术已安装在全国多个地区的地铁购票装置上。思必驰始终坚持技术源创新,结合行业最新动态,为企业提供更优质的自然语言对话解决方案,为用户带来更自然的人机对话体验。