三三文章网 - 科技知识大全是专业科技新媒体网站。网站著眼于新一代科技新闻的全面及时处理报导,让网民在外面第二时间交待全球新一代的科技资讯。内容涵括AI+、互联网、IT、创业投资、核定、区块链、智能硬件等领域

谷歌开源“穷人版”;摘要生成NLP模型:在1000个样本中打倒人-量子比特

  • 时间:
  • 浏览:0

晓查凹非寺量子位报道发_公众号QbitaI

“通用”语言模型(如BERT、GPT-2和XLNet)显示出强大的威力,可应对各种任务,如文本生成、答疑等。当这些模型对各种语言任务进行微调时,可以实现SOTA性能。

以上NLP模型都是“通才”,虽然很全面,但在面向特定任务时需要微调,训练数据集也非常庞大,一般人都无法承受。

如果开发了非通用NLP模型,会不会专门针对特定的任务,在降低培训成本的同时,提高性能呢。

这就是谷歌发表的天马(PEGASUS)模型,专门产生用于机器生成的摘要,更新该领域的SOTA成绩,收录在ICML2020中。

“天马”模型只需使用1000个样本进行训练,就能接近人类摘要的水平,大大降低了对监督数据的需求,创造了低成本使用的可能性。

从填充到生成摘要

PEGASUS的全名是使用提取的间隙语句进行概括的预训练模型(Pre-training with Extracted Gap-sentences for Abstractive Summarization)即,为了改善生成摘要的微调性能,设计间隙句生成的自我监督预备训练目标。

在以往的NLP研究中,自我监督预备训练对于下游的目标是未知的,是文本生成还是摘要提取,模型倾向于通用性。

另一方面,来自谷歌的研究人员认为,自我监督预备训练目标越接近最终下游任务,微调性能越好。

论文标题的间隙句是什么意思。

在“天马”模型的预训练中,研究人员从文档中删除了一些语句,并让模型执行恢复任务。隔着这些空白删除的句子是反差句。

这些挑战使模型学习发现常见事实的能力,并学习如何从整个文档中提取信息。

选择和屏蔽“重要”语句是最有效的,由此发现自监督样本的输出与摘要更相似。

作者选择了12个不同的数据集,包括新闻、科学论文、专利文件、短篇小说、电子邮件、法律文件、使用说明等,内容丰富,表明该模式框架适合各种主题。

与先前提出的T5相比,参数的数量仅为T5的5%。

谷歌基于ROUGE标准来评估输出结果,并且通过搜索与文档的其余部分最相似的语句来自动识别输出结果。

使用n元素语法重叠来计算分数为0到100的两个文本的相似度。

1000个训练样本超过人类

PEGASUS在大型数据集中表现出卓越的性能,但令人惊讶的是,“天马”模型在微调中不需要大量样本,可以达到接近SOTA的性能。

下图示出了四个选定汇总数据集中得分与监测样本数之间的关系。虚线表示完全监视但未预训练的变换编码器-解码器的性能。

与基线相比,即使只调整了1000个示例,大多数任务的“天马”性能都有所提高。根据实际情况,请考虑样本数还要多数位。

此“示例效率”大大提高了文本摘要模型的实用性。这大大降低了监视数据收集的规模和成本。

除了机器的评价外,谷歌还进行了鉴别摘要的“图灵测试”。

模型生成的摘要和人提取的摘要一起对用户进行评价。根据在三个不同数据集上进行的实验,评分者可能喜欢机器生成摘要。

当然,“天马”模型并不是没有缺点,但在“谷歌”中发现了错误。

作者从XSum数据集中寻找了一段,其中提到了4艘英国护卫舰的名字,全篇没有提到4。“天马”仍然准确地提取了护卫舰的数量信息。

军舰的数量在2~5之间没有问题,数量增加到6的时候错误地认识到“天马”有7艘。这表明模型的“符号推理”数量有限。

最后,为了支持这一持续研究并确保可重复性,谷歌在GitHub上发布了天马代码、模型checkpoint和其他摘要数据集。

传输门

博客地址:https://ai.googleblog.com/2020/06/pegasus-state-of-art-model-for.html

论文地址:https://arxiv.org/abs/1912.08777

代码地址:https://github.com/google-research/pegasus