三三文章网 - 科技知识大全是专业科技新媒体网站。网站著眼于新一代科技新闻的全面及时处理报导,让网民在外面第二时间交待全球新一代的科技资讯。内容涵括AI+、互联网、IT、创业投资、核定、区块链、智能硬件等领域

华为AI诗人;乐府;唐诗宋词都不在话下,我居然不出时分真伪-量子位

  • 时间:
  • 浏览:0

当理科学生开始文艺时,文科学生可能真的不在了。

你不信吗?我看看这七句绝句。

读过的网友发表了以下评论。

你不仅可以写诗,还可以作词。例如,该满江红:

然后,你可以写诗。

你能想象这是完全不懂写诗的理工科学生干的吗

但是,是这样的。

华为诺亚方舟这是来自实验室新发表的诗歌AI《乐府》的诗歌。

从问世的时候开始就受到了关注。

这部作品有以下称赞

也有人说“做事情”。

也有人说“李白看了就沉默,杜甫看了就流泪”。

当然,也指出了问题点。

还有“真实帝”

对于这些问题,华为诺亚方舟实验室语音塞曼蒂克斯首席科学家刘群也用微博进行了答疑,阐明了这个AI背后的故事。

那么这个AI是怎么学习的呢。论文公布了。

与自由生成文本不同,生成中国古诗是一种挑战,通常需要满足形式和内容两方面的要求。

中国古诗有多种形式,如五绝、七绝、五律、七律、满江红、西江月、水调歌头等各种词牌和对联,每种都有对应的字数,守韵,平仄、对仗等规定;

内容上很简单,但更难的是,一首诗沿着一个主题展开,内容上有连贯性。

华为中提出的“乐府”系统与现在的很多解决方案不同,完全不需要人工的规则和特性的设定、追加的神经元组件的设计。

这项研究需要的是把训练用的诗做成格式化的文本序列,作为训练用的数据。

并通过语言模型token的采样,生成满足形式和内容要求的诗歌。比如绝句、律诗、词、对联等。

然后提出并实现了一种微调模型制作隐诗的方法。

这一背景下的能量是GPT提出的预先训练的自然语言模型。核心概念是首先使用无标签文本生成语言模型,然后根据任务使用带标签的数据微调模型。

乐府AI是GPT的首个诗作系统,与谷歌中提出的BERT有关。

整体GPT模型是基于BERT的源代码实现的,Transformer大小规格与基于BERT相同,采用BERT分发的tokenization脚本和[中文]vocab。

具体来说,我们将对诗歌进行建模训练,如下所示。

模型培训分为预培训和微调两个阶段。

华为这种GPT模式是在中文的新闻语料库中事先培训好的,收集了可以公开获得的中国古诗进行了微调。

如上图所示,首先将示例诗转换为格式化序列。序列由三个主要部分组成:在格式、主题、诗歌和标识符上居中。

在对联中,没有主题,所以以上面的句子为主题,第二个进行正文。所以,生成对联时,给上联,就成了生成下联的模式,也符合了“对子”的习惯。

总体数据集的规模不小。新闻语料库有2.35亿个句子。有25万绝句和律师,2万单词和70万对对联的数据集。

事前训练在云上的华为进行,使用8个英伟达V100(16G)GPU花90小时训练了4个echo。

微调将所有诗列输入到Transformer中,并训练自回归语言模型。目标是最大化观测所有序列的概率

微调的过程,不需要特别的时间,但是如果训练很长的话,这个模型在生成过程中倾向于直接从语料库中使用原来的句子。

训练结束后,将第一个生成的诗的形式和主题转换为第一个序列。在模型中输入第一个序列,然后用标记对诗部分的其余字段进行解码。

不是通过硬约束来保证格式的正确性,而是在模型自动为特定位置指定逗号和句号,并识别出令牌为“EOS”时结束解码。

它还使用截断top-k采样策略来获得不同的诗歌,而不是光束搜索。具体来说,每次对一个令牌进行采样时,首先选择具有top-k最大概率的令牌,然后从top-k令牌中对特定令牌进行采样。

他们说,即使使用剪短的top-k采样,诗也会变成正确的形状

论文指出,训练藏诗的方法也是这样,在格式化序列时据介绍只是方法稍有不同:以各行首字母组合代替诗首主题:“五言绝句(形式)地板疑低(藏诗)地板前明月光,疑…月,低头思故乡。”

效果如何,华为也在论文中得到充分展示。例如,在接下来的四个“江上田家”中,唐朝诗人写的只有一个,其他三个首都来自乐府AI。

从上到下,ABCD,你能辨别哪个是真的吗(答案在句末出现

华为“乐府”不是第一个也不是最后一个。

在此之前,有清华大学孙茂松团队倡导的“九歌”。

官方发布称,该系统采用深度学习技术,结合为诗歌生成特别设计的多个模型,根据80多万首人类诗人创作的诗歌进行训练学习,包括多模态输入、多体裁多风格、具有人机交互创作模式等特点。

最近,也有人根据中文版的语料训练中文版gpt-2,用于诗歌的生成。

在“乐府”公开亮相的这一天,北京大学、国防科学大学等联合发布了新的作诗模式。这是基于无监督的机器翻译的手法,使用基于段的填充和强化学习从白话文生成七言律诗。

那么,哪个更强呢

中文版本gpt-2和北大联合系统还没有开放体验,所以参加这把“华山论剑”的只有华为“乐府”和清华“九歌”两位选手。

第1回:主题是“夏天”,七言绝句

清华九歌有首诗。

华为乐府赋诗是这样的。

这两种AI都有缺点。清华九歌一张嘴就开始说“秋天来了”。华为乐府也叫“四月”。没有什么特别的意义。

另一方面,华为夏天的香味和夏天阴天等,夏天的要素大量地能看见。

第二轮:主题“长夜”,五言绝句

清华九歌的诗是这样的

不担心一个人坐着,相对来说更可怕吗?这个境地Emmm……结婚会破裂吗

华为乐府作品:

直观地印象好,不过,冲击不足。

这次,无论哪个AI都有相应的气氛。清华九歌相对来说感情比较丰富。

第3轮,西藏诗歌《神经网》,七言绝句

清华九的作品是这样的。

从韵和气氛来看,都不错。华为乐府写了如下诗歌:。

同样,这首西藏诗歌也能显示出一些意境。

这时,两只AI更切实地完成了课题,给了我们一首有意义的诗。

虽然到现在为止有三轮比赛,但整体上不分优劣。那个差异在于彼此实现的方法。

清华九歌是基于专门为诗歌生成而设计的复杂模式。在诗的格式上,控制很严格。虽然很严肃,但是作诗的速度确实很慢。

华为乐府,只是基于GPT,据刘群所说,他们也不懂诗歌,没有用诗歌的常规来训练这个系统,完全是系统自己学的,生成诗歌的时速非常快。

刘群对乐府AI生成的诗的水平也很谦虚。

哪一个更优秀,可以参考“文无第一”这个词。

华为诺亚方舟实验室成立于2012年,隶属于华为2012实验室。

诺亚方舟这个名字表示这个实验室在华为中的重要性。伦津费伊先前表示,希望这些研究所能成为“华为”的“诺亚”“方舟”。

目前在深圳、香港、北京、上海、西安、北美、欧洲等城市设有基地。研究方向包括计算机视觉、自然语言处理、检索推荐、决策推理、人机交互、AI理论、快速计算等。

关于乐府AI,华为在论文中也说明了这是研究GPT时的副产品。目前,华为乐府AI在微件EI体验空间上线。

支持五言绝句、七言绝句、五言律诗和七言律诗,以及藏头诗模式。作词,配对还没有在线。

最后,附上乐府生成的7个律诗人工智能。

对了,答案是C。

相关传送门:

乐府AI论文

GPT-based Generation for Classical Chinese Poetry

https://arxiv.org/pdf/1907.00151.pdf

清华九歌作诗网站:

http://118.190.162.99:8080/