三三文章网 - 科技知识大全是专业科技新媒体网站。网站著眼于新一代科技新闻的全面及时处理报导,让网民在外面第二时间交待全球新一代的科技资讯。内容涵括AI+、互联网、IT、创业投资、核定、区块链、智能硬件等领域

OpenDILab幕后的“孤勇者”:AI研究员、e体育冠军和他们的开源梦想,

  • 时间:
  • 浏览:0

生物智能的产生,一直以来被定义为“奇迹”和“谜”。

从宇宙的尘埃开始,人类的进化花费了数十亿年的时间。我无法想象你和我都起源于地球上出现的单细胞生物。

时至今日,人类凭借自身的智慧,创造了地球上最繁荣的文明。同时,这种进化还在继续,没有尽头。

但进化的方向已经悄然改变:下一代文明的方向,将由人类自己创造的“智能体”来探索。

这就导致了人类智能和人工智能,谁的上限更高的问题。

过去几十年,研究人员从清早起来到深夜,把无数人类的智慧注入其中,不断提高“人工智能”能力的上限。刚出生的智能体,就像初出茅庐的婴儿一样,模糊却蕴藏着无限的潜力。在不断的进化之后,智能体终于被认为是超越人类的。

这一演化规律在OpenDILab平台的开源过程中明显显现。它的源头是一些算法研究员的跨界构想,是面向最复杂竞技游戏的挑战。仅仅两年多,今天的OpenDILab就演化成了一个覆盖最全学术界算法和工业级规模的国产决策智能开源平台。在整个决策智能领域开发了一个新的开源社区,这个社区正以惊人的速度增长。

项目地址:https://github.com/opendilab

2022年6月12日,《星际争霸 II》原中国冠军IG战队iA再次登陆斗鱼直播室。好久不见,我发现iA开始讲PPT啦。

两年前,iA低调退役。两年后,e体育少年归来,已经是AI研究员,带来了目前开源项目中最具实力的《星际争霸 II》AI-DI-star。

实时视频:https://www.bilibili.com/video/BV15T411G7xDspm_id_from=333.999.0.0

在一个多小时的直播中,iA演示了多个对局。在所有演示中,DI-star都显示了人类最高段位的格兰玛明星赛段的竞技水平。

令人惊讶的是,DI-star的决策能力相当灵活,常常在复杂的对局中迅速找到最佳策略。比如在对阵前世界冠军Scarlett时,DI-star使用了“女王前压”这一人类不常见的战术,取得了一场奇特的胜利:

此时,DI-star及其背后的决策智能平台OpenDILab的开源已经过去一年了。

2022年9月,OpenDILab正式升级到1.0版本,幕后团队两年多的心血,全部凝聚在这里。

白手起家

所有的故事都将从2020年的第一个月开始。来自中国的算法研究员和工程师们决定在人脸识别数据的海洋中挣扎多年,然后跳出舒适区域,探索未来。

例如,从零开始打造星际霸权AI。

在当时AI学界眼中,决策AI是不同于电脑视觉等知觉型AI的另一个难关,《星际争霸 II》被认为是检验AI决策能力的好舞台,也是AI挑战的“珠穆朗玛峰”。

星际争霸系列游戏可以保持20多年的长盛不衰,部分原因在于其丰富的多层次游戏机制。《星际争霸 II》的空间复杂度达到10的1685次方,远远超过围棋10的170次方复杂度。对于AI来说,这是一个非常接近现实世界的虚拟环境。

开源社区是帮助AI发展的重要因素之一,但在项目启动阶段,DI-star的开发者们准备了足够的计算力和资源,而星际争霸AI的开源生态基本上是空白的,只能找到DeepMind公开的原版论文我们发现有非常多的技术细节需要考证。就像老师教我九九乘法表,突然让我做微积分作业一样。

DI-star的开发者们首先对现有的强化学习开源平台进行了调查,发现开源的算法、工具等基本上都是以“小而精”的学术研究为中心,星际霸权这一大规模环境的开源项目无根无果。

“没有轮子,马上做一个就是极客精神。”

因此,DI-star的开发者们,有到现在为止自己在计算机视觉任务培育了的经验,打算多路复用某种程度的知识。但很快他们意识到,这不仅仅是来自一个舒适的地方的问题,而是一个仿佛踏入深水区,每天都会产生新的灵魂折磨。

本来好好的张量图像,被高度结构化,成为动态变化的游戏信息。

原本直筒式简单积木的神经网络设计,成为一场复杂多样的“毛线团网络”设计大赛。

易于扩展的分布式培训体系结构已转变为多个硬件和计算模式混合的关东煮系统……

在继续用《一日速成法》了解各种游戏AI设计和分布式系统设计知识后,团队终于建立了第一版正常运行的分布式培训体系。这也是后来OpenDILab的第一个原型。

只是,如何让AI学会打星际的技术,要集深学习、强化学习、游戏AI三大技术和力量于一身。

技术后天会努力学习,游戏才能真是命中注定,于是,他们找到了中国星际传奇人物:iA周航。于是,决定AI零基础的几个基本人组成了DI-star项目的第一组。

“最初即使有正常运行的AI,也几乎无法训练。”。DI-star队一度伤透了脑筋。没办法,前半部分只能一点点地解开错误,慢慢地教。发现不合理的AI行为,从游戏视频开始分析,对应具体的游戏操作,解析游戏引擎内存中的数据片段,再一步一步追踪来源,最终分析神经网络中具体神经元的激活输出从而定位于代码实现和算法设计的相关问题。

“程序不会欺骗你,只要用心去盯着它”,要像上面那样打圈,需要高度集中注意力的详细分析,DI-star前期阶段,几乎每天都会进行。

终于,经过半年的艰苦奋斗,在2020年6月,DI-star击败了一台简单的电脑。2020年7月,团队对DI-star进行了首次人机内测量,AI战胜了刚入门《星际争霸 II》的研究员。

进入轨道后,探索AI的上限在哪里。DI-star团队希望在整个系统的每个阶段都尽可能地尝试所有可能,而不是重现最强的决策AI问题。从神经网络的角度,设计更稳定的大批量样本优化技术和高效处理动态决策空间的网络层的人,强化学习优化方向,精心调整搜索和利用多方面平衡的人,从游戏AI领域,融合即时策略类游戏的百家之长将AI微操作优势培养到新境界,从系统效率出发,进行各种资源折衷、存储/网络/计算的人,所有可能的方法都用于优化培训效率。

在收集了全队的技术积累后,经过人类视频模仿学习和自我游戏强化学习两个阶段,共计1亿局星际对局,经过5周的最终训练期,2021年6月,DI-star终于战胜了DI-star的创造者之一周航本人。随后,周航又带着一些职业e体育时代的老朋友与DI-star交锋,包括MMR6000分的中国最强虫族选手Rex。

好消息是,DI-star全部获胜,一年多的练习没有白费。

从宇宙AI到开源平台

路走到这里,下一步怎么走。

极客探索回归探索,但如果想让技术长时间发挥影响力,复盘是必不可少的。在当时的马拉松复盘会上,研发团队一致认为要积累足够牢固的技术工具链。DI-star的小农式精耕细作复制太难,推广也很难。需要使决策AI技术真正发光的基础设施。自然,打造决策的智能开源平台和生态,将成为大家的新目标。

更具体地说,在算法方面,哪些技术适合前期探索代理策略的多样性和潜力,哪些方法适合作为最终超大规模强化学习训练的核心模块,在系统方面,哪些系统设计可以提高采样效率有助于大规模强化学习的优化效率,什么样的设计使快速的算法迭代和想法验证变得容易。这些积累的经验和知识,都是价值沉淀的。

告诉AI『星际争霸 II』的事不仅仅是终点。探索AI的决策能力的极限,才能面对更复杂的现实世界,这才是青春时代应该努力的事情。从这样的原点开始,之后成立的OpenDILab团队,以di-star为起点,进一步探索开源化。

当时的决策智能领域的开源生态系统,与CV和NLP等成熟的研究领域相比,确实很差。

但是在决策智能领域,开发者最需要的不仅仅是一组代码,也不仅仅是一组工具。这个领域要求一个全功能、易于使用的开源平台。

但是,如何打造一个平台来满足广大研究者的需求,我们必须认真思考。

此时,更多学界、产业界决策智能研究存在的问题进入了团队成员的视野:

决策问题与感知智能不同,多数情况下会处理图像、声音、结构化数据等具有复杂模态的数据种类。另外,一台单卡、多台多卡、甚至集群间决策AI的计算逻辑也完全不同。最佳算法的部署因任务而异。决策智能很难标准化

另一个客观现象是,关于决策智能的问题定义或研究视角,学术界与产业界之间存在着很大的隔阂。许多最先进的理论算法在环境和计算pipeline上缺乏通用性,仅限于玩具模型级实验环境,无法真正过渡到产业场景。

因此,团队对开源平台的要求是,在实现学术算法层面上最广泛的覆盖和集成的同时,在实际场景中实际运用这些算法,解决各个领域的工业级应用问题。当然,两者兼顾是极其困难的,但由于系统和平台设计本身有着各种各样的折衷,开源的社区成为了使该平台成长和进化的重要力量。

这是一个产生长期价值的项目,旨在将技术的广度和深度极大化,凝聚数千、数万开发商的智慧和努力,在各行各业进化出无限的可能性。

它是一个开源决策智能平台

2021年7月,由di-star派生的决策智能平台OpenDILab在GitHub上开源。

最初公开的OpenDILab的贝塔版自上而下覆盖了应用的生态层算法抽象层支持分布式管理层和分布式执行层,以及单体到万级CPU/GPU联合培训的全调度系统的优化完全开源化OpenDILab团队自di-star项目以来积累的各种经验。开源社区的建立需要不断磨练。贝塔版在各种折衷中留下了一些难度问题,但在这一年多的开发商和开源社区的共同努力下,OpenDILab1.0版本在易用性、效率、多元化等方面展示了新的思路和理解。