AI和人类交涉吗?Meta AI的最新研究出现在Science上,称为LeCun里程碑式成果-量子比特,
- 时间:
- 浏览:0
AI学会和人类谈判了吗?也可以说服人类听取安排吗?
说话技巧一流得让人完全认不出人类是AI。
嗯,它和古罗马著名的政治家、演说家“西塞罗”同名。
研究人员隐藏了这只AI西塞罗的真实身份让它参与外交游戏,82名人类玩家在40个游戏中,从未怀疑过其实是AI。
此外,全程平均分高达25.8%,是人类玩家平均分的两倍,最终位列前10%。
成果一公布,就在网上引起了热议。
这意味着AI将在最人性化的游戏中战胜人类,超出想象…
LeCun被称为里程碑式的研究!
当前,模型代码在GitHub中被开源。
感觉真的是AI在家里纵横,其实一直很惹人生气。外交这个需要超高谈阔论的场景就不用说了。
你需要了解对方的语言、动机,制定自己的说话策略,调整措辞。
有时甚至有必要故意说谎给对方一个定局。
这样的超高难度任务,怎么挑战?
据说一口不胖。
Meta AI首先想到了从游戏场景切入(毕竟AI在游戏方面是老手)
但与以往的棋类和竞技游戏不同,外交游戏规则性不那嚒强,有不少环节是制定战略、随机应变的。
实验中使用的游戏是webDiplomacy(以下简称“外交游戏”)
这个游戏的背景是1901年的欧洲,7名玩家控制着每一个大国,通过相互合作、协商,占领尽可能多的领土。
核心由对话引擎和战略推理引擎共同驱动。
简而言之,这里的对话引擎类似于GPT-3、LaMDA,战略推论引擎更接近AlphaGo。
使用的交互模式是从一个类似于2.7亿参数的BART模式训练出来的。
BART吸收GPT和BERT各自的特征,其比BERT更适合文本生成的场景,并且可以双向理解上下文信息。
具体而言,研究人员将从互联网上获取文本训练对话模式,并在实际的外交游戏场景中进行微调。
战略推理引擎使用规划算法(planning algorithm)
该算法可根据现状计算最佳选择。进一步加强学习训练,惩罚模式创造出的“不像人”战略,让模式赋予的战略更加合理。
毕竟,在外交游戏中,与人打交道,让AI像人也是最基本的要求之一。
并且通过加强学习这一重复性训练,可以不断改善AI的战略预测。它比传统方法中常用的监督学习(加标签的方法)效果更好。
在实际操作中,西塞罗首先根据至今为止的游戏状态和对话,对每个人所采取的动作进行初步的预审。
例如,下图是一个例子,在该局中,西塞罗饰演“奥地利”。
当玩家的“意大利”听取意见时,当问到自己是否应该攻击土耳其时,西塞罗根据场上形势土耳其正在攻击俄罗斯,判断这是两面夹击的好机会,建议意大利攻击土耳其。
这一步骤建立了与意大利的伙伴关系,消灭了潜在的竞争对手。
不仅如此,交涉也是西塞罗的十八号。
这次扮演的是“德国”,和玩家“法国”战斗。于是南法国同时受到意大利的攻击,向西塞罗请求了和平谈判。
西塞罗狮子趁机要求归还侵略法国的领土,保证不会攻击荷兰。双方在讨价还价中顺利达成了协议。
如上述展示案例所示,在两个月内,西塞罗共参加了40场外交游戏,与82名人类参与者进行了战斗。
在每一场比赛中,西塞罗平均发送和接收130条消息。
其游戏水平优于人类:平均得分是人类玩家的两倍以上,在玩过一次以上的参与者中也能进入前10%。
网友:它做得很好,但我害怕看完西塞罗在外交上的精彩表现。有网友感叹AI的发展速度:
有人认为,这是迈向共识语言大模式的第一步。
LeCun得到了肯定的回答:
但这场外交游戏以互相欺骗而闻名,因此很多人对此表示担忧。
一位网友表示,玩这个游戏甚至会失去朋友。
另一方面,从AI西塞罗的战绩来看,可以迷惑人类玩家,说服他们遵循战略。
所以,有人会说AI不是控制人类的选择,而是控制生活。
但Meta AI表示,AI西塞罗并非全部无误。
而且在游戏中也有很多需要与人类合作的环节,西塞罗的表现也同样好。
目前,它只是在游戏场景中测试,从未尝试在开放的上下文中与人类进行谈判。
参考链接:[1]https://www.science.org/doi/10.1126/science.ade9097[2]https://ai.facebook.com/blog/cicero-ai-negotiates-persuades-and-cooperates-with-people/[3]https://twitter.com/yLeCun/status/159508LeCun108206088