共探语言与智能的前沿课题 2022语言与智能技术竞赛举办颁奖典礼
- 时间:
- 浏览:0
9月18日,由中国汉语信息学会(CIPS)和中国计算机学会(CCF)联合发起并共同主办的第七届语言与智能峰会正式召开。论坛期间,2022语言智能技术大赛组委会为获奖团队举行了颁奖仪式,优胜团队对参赛技术项目进行了详细汇报。
本次语言智能技术大赛由中国信息学会、中国计算机学会联合主办,由百度、中国信息学会评估工作委员会、中国计算机学会自然语言处理专责委员会共同主办。自2018年举办以来,凭借针对真实应用场景的任务设计和从真实场景衍生出来的数据集,成为全球最具权威性、最热门的中文NLP大赛之一。2022年大会还将进一步升级,与“千字”数据集开源项目合作,设置段落检索、知识对话、情感解读、视频语义理解四项任务,涵盖跨模态、知识驱动、可信学习等前沿课题,具有较高的学术和产业价值。竞赛任务的全面升级,引起了学术界和工业界的广泛关注。据统计,约有2500支队伍报名参赛,参赛者提交了7000多项有效成绩,覆盖全球262所高校和208家企业。大学参与者约占52%,来自国内外知名大学,如清华大学、北京大学、复旦大学、中国人民大学、中国科学院大学、伊利诺伊理工大学、悉尼大学等。企业参与者约占34%,来自中国移动、联通、平安保险、华为、腾讯、网易、小米、海康威视、施耐德电气等知名企业,涵盖金融、互联网、媒体、通信、工程机械、能源、生物等多个行业。经过激烈的竞争,共有16支队伍从中国科技大学、香港中文大学、阿里巴巴、腾讯和商汤科技等大学和公司获得了该奖项。获胜团队在参与项目中使用了预训练语言模型,提出了许多创新的想法和解决方案,大大提高了效果。与官方基线得分相比,段落检索任务增加了15.40%,知识对话任务增加了142.86%,情感解释任务增加了77.12%,视频语义理解任务增加了50%,各团队的技术解决方案有力地推动了相关任务的技术探索。在论坛的评估报告中,来自四个特派团的倡导者团队分享了各自的参与计划。在段落检索任务中,中国科技大学“杨的团队”提出了一种基于弱监督数据的预训练的开放式问答段落检索方法,可以有效地提高检索精度。在知识对话竞赛中,腾讯的“Take a T恤”团队设计了一个基于实时知识搜索API的知识对话系统,证明该方案可以极大地提高整个对话的一致性和吸引力。在情感可解释任务方面,阿里巴巴“阿里_农民工团队”提出了一种基于通用信息提取统一框架UIE的情感可解释分析方法,该方法根据情感可解释任务的特点,采用few-shot、文本聚类等方法,提高了模型的合理性和忠诚度。在视频语义理解任务方面,SenseTime科技&科大“SenseTime NLP × LaVi团队”针对分类标签预测任务和语义标签预测任务设计了相应的解决方案,并提出了基于多模态学习的视频语义理解模型,通过数据增强、数据加权和多模型集成进一步提升解决方案的性能。最后,你站出来了。对于比赛,百度自然语言处理部门主管刘金总结道:“四项任务的获胜方案相对于基线有了很大的提高。每个获奖团队都基于预学习模式,实施了采用预学习技术、任务导向预学习等一系列创新,有效推动了技术进步。目前,知识融合、可信学习、跨模态等技术的应用仍存在诸多挑战,未来还需要进一步突破。值得一提的是,本次比赛的数据集全部来自千字中文开源数据集项目。Qianyan是一个面向自然语言处理的中文开源数据协同构建项目,由中国计算机学会、中国中文信息学会和百度联合发起。目前,已有近20个单元数据集作者参与协作构建,中文NLP开源数据集近60个,涵盖文本生成、情感分析、阅读阅读等15个任务方向。
2022Language and Intelligence Competition发布了首个来自搜索引擎的大型中文段落搜索数据集DuReader_retrieval、首个服务信息增强对话数据集DuSinc、首个细粒度中文情感可解释评估数据集DuExplain和视频语义理解数据集DuVideoTag。游戏结束后,开发者可以继续下载和使用上述数据集,并参与相应的列表评估,不断提高技术水平,实现创新发展。语言是人类信息传递中最重要的媒介,自然语言处理近年来引起了业界的广泛关注。语言智能技术竞赛将继续为现实世界的应用场景提供数据集和具有挑战性的任务设置,引领学术研究面向现实世界的应用,提升语言理解和人机交互的智能水平,为推动语言智能领域的技术发展和应用做出贡献。