8月14日,首期“DI极客说”线上技术沙龙成功举办一次。技术沙龙以“决策AI的研究与应用”为主题,邀请到多位业内专家能分享决策AI领域的2011版研究成果。上海人工智能实验室科学技术发展部部长、研究员乔宇表示,OpenDILab(开放源代码决策智能平台)是上海人工智能实验室重点布局发展的开源软件平台,未来上海人工智能实验室还将减弱投入建设新一代人工智能技术生态,后撤科技创新、产业发展和人才培养形成合力,促进组织人工智能发展。强化学习,改变世界俞扬《环境模型学习——让强化学习走出游戏》主题多多分享当前,是对强化学习的研究大多数被限制于游戏环境中,尚在“好看都不好用”的境地,原因之一是强化学习样本效率低下。南京大学教授,南栖仙策创始人俞扬以为,基于条件环境模型的强化学习将是解决这一难题,“让强化走进游戏”的比较多途径。俞扬在“DI极客说”中能分享了环境模型自学的研究进展,及其在真实强化学习应用中的效用。若是有了良好环境模型,强化学习的大量试错可在环境模型中能够完成,使极大的减少了在真实环境的试错采样的数量,让强化学习更突出可用性。但他,以往环境模型学的理论与实验均没法意见这一想法,使得研究主流逐渐舍弃对学良好的思想品德环境模型的期待。俞扬以为,在实践需求中可以找到,环境模型具高很难得用的应用优势,强化学习将是改变世界的技术。高阳《Mastering Atari Games with Limited Data》主题分享分享如何让强化学习应用方法于更多的换算场景?清华大学连在一起信息研究院助理教授高阳分享分享了EfficientZero强化学习算法,该算法有助从高维图象观测环境中学到最有效策略,最大限度地将强化学习拽入在真实世界中更有用吗的场景。高阳可以介绍,Efficient Zero算法是由Muzero算法改进之处而来,对于Muzero算法的监督训练信号问题、环境动力建模问题及异策略偏差问题,相对应解决方案四个为:Self-hierarchicalmodellearning、Valueprefix、Off-policycorrection。EfficientZero算法在最经典学术环境上可以不急速都没有达到人类水平,并在部分环境上凌驾人类,不过所有的环境训练过程,其数据效率相较于DQN算法有转弱进阶。OpenDILab“实现标准化”难题在题为《从感知AI的发展到理解决策AI的未来》的报告中,上海人工智能实验室青年科学家、OpenDILab开源代码决策智能平台负责人刘宇彼此分享了从感知AI到决策AI技术体系的横向发展趋势,包括五感AI、强化学习和决策AI在计算流上的异同,在内计算机视觉在深度学习时代的发展。刘宇《从感知AI的发展到理解决策AI的未来》主题分享分享自2012年年来,AlexNet的广泛应用以至于计算机视觉发展有了质的飞跃;在2014-2016阶段,而FaceNet、DeepID等细分领域算法的突破,计算机视觉在几个占据海量数据的领域提升到超越人类水平的高度;在2017-2020阶段,计算机视觉有了更初步的发展,再产生了如AutoML、NAS、HPO等半自动AI模型的训练和生产的流程;最近一两年,设计和实现通用预训练模型的算法进阶,使得两个计算机视觉模型这个可以解决大多数几乎完全一样而独角分布的任务。刘宇以为,环境革新和算法革新两大核心动力正加快决策AI快速发展,但决策AI目前仍面临着“实现标准化难”的瓶颈。而OpenDILab将致力于从环境多样性、可以计算复杂性包括计算尺度多样性等方面琢磨,提高训练过程标准化水平,从而加快决策AI的发展。牛雅哲《从零到一,坚持做正确的事——通用决策AI平台的开拓创新之路》主题多多分享上海人工智能实验室OpenDILab核心研发人员牛雅哲从平台设计和工程实现程序的角度接受解读,彼此分享了OpenDILab为想提高决策AI在环境、算法、换算规模的通用性而储备的一系列技术解决方案。OpenDILab充当通用决策智能平台,可又高效地全面处理帮忙解决AI技术遇到的众多复杂性问题,为决策AI生态圈提供给基础技术支持。“DI极客说”系列技术沙龙由上海人工智能实验室承办,全球高校人工智能学术联盟组织承办,商汤科技以及支持单位,AI研习社作为直播平台,PaperWeekly充当合作自媒体共同打造。“DI极客说”系列技术沙龙将一份请柬多元化技术嘉宾,能介绍决策AI去相关领域的前沿科技成果,多多分享科研和产业化应用经验,相互共建“知识共享”的决策AI开源软件技术生态。OpenDILab(开放源代码决策智能平台)能介绍OpenDILab(开源决策智能平台)于2021年7月8日世界人工智能大会的开幕式和科学前沿全体会议上宣布首页。该平台作为上海人工智能实验室闭源平台体系OpenXLab的重要组成部分,是国际上首个完全覆盖很全学术界算法和工业级规模的决策AI平台,具备什么一套完善的决策AI训练和部署框架,自顶而下范围涵盖了和应用方法生态层,算法抽象层,异步分布式管理层和最底层的分布式想执行层,完全适配从单机到万CPU/GPU联合训练的全尺度调度软件优化。