AI ×为了让研究能够深入到每一位研究者的身边,需要什么呢,
- 时间:
- 浏览:0
引导语言:
70多年来,AI的技术突破将为人类的未来开辟新的可能性。如果它与科学深入融合,无论多少都有可能出现。
正文:
今年10月获得诺贝尔奖的嫡传rdquo;诺贝尔化学奖终于公布了。链接化学和生物正交化学的发展贡献了rdquo;Carolyn R.Bertozzi(美国)、Morten Meldal(丹麦)、K。Barry Sharpless(美国)的三位化学家。
事实上,在靴子落地之前,谁会获奖就成了热门话题。其中,在化学领域具有国际权威的学术杂志《Chemical Reviews》通过读者投票进行了预测,开发出准确预测蛋白质结构的AlphaFold2的DeepMind团队的John Jumper被选为第一名。
因为ldquo;时间问题rdquo;约翰Jumper失败了,但在此之前约翰Jumper的团队已经获得了ldquo。豪华版诺贝尔奖rdquoldquo;科学界奥斯卡奖是mdash;mdash;2023年的突破奖(Breakthrough Prize in Life Sciences)是生物学和医学领域迄今为止最高的奖项。
约翰让普开发的AlphaFold之所以受欢迎,是因为它解决了半个多世纪以来一直困扰生物学界的经典问题。1972年获得诺贝尔化学奖的克里斯蒂安芬森提出的蛋白质折叠问题mdash。mdash;ldquo;蛋白质的氨基酸序列应该完全决定rdquo结构。
约翰让普的研究小组使用人工智能划时代地打破了这个著名的假说,不仅使蛋白质结构预测的研究进入了一个新的阶段,而且引起了人们对ldquo的关注。是AI for Science(科学智能)rdquo。这样的关注让气氛高涨起来。
人工智能for Science是指人工智能利用自己强大的归纳分析能力学习科学规律和原理,得出解决实际科研问题的模型。特别是科学家在各种假设下反复验证和尝试,将大大加快科研进程。现在,在各种最尖端的科学领域取得了惊人的成果。
与以往任何人都熟悉并能马上上手的人工智能应用相比,AI for Science在生物医药品、能源、素材开发等方面看起来都不是很熟悉,但其背景是使用人工智能的ldquo。释放rdquo;工作效率mdash;mdash;它可以从许多重复的、机械的基础工作中解放出来,在人工智能的支持下进行更高效的生产工作。这才是ai的价值和魅力。
人工智能:用人工智能催化新的ldquo。科学革命
回到阿尔法福尔德的话题,从蛋白质解析技术的进化来看,加入AI会如何改变科学。
作为生命的物质基础的蛋白质,与生命和各种各样的生命活动非常密切相关,身体的所有疾病的发生几乎都与这个功能异常有关。换句话说,如果辣根素酶激活或抑制蛋白质靶向,则ldquo;控制rdquo通过这种蛋白质的结构和作用,加速开发疑难病症的靶向药物和有效的治疗方法。
为了解读蛋白质的三维结构,X射线衍射和冷冻电子显微镜等实验技术曾经被广泛使用,但这花费了时间和成本。因此,我参加了从1994年开始每两年举办一次的国际蛋白质结构预测大赛(CASP:Critical Assessment of protein Structure Prediction),它是RaptorX和RosettAFold等蛋白质结构预测模型
问题是,大多数计算机理论上预测的蛋白质结构模型与实际观测到的实验数据大相径庭,正确率不到40%。今后需要继续提高预测模型的精度,无限地减小预测结构和实验误差。
不仅如此,从蛋白质的结构预测到创药,根据创药设计的手法,原理和应用场景也有很大的不同。例如在制药过程中,前端目标的发现、先导化合物的筛选优化,以及后期的ADMET预测,甚至临床效果的预测,都面临着自己独特的课题。在这一过程中,研究者们不得不花上好几年时间进行高吞吐量的反复实验,而且还要进行几百万次的验证。
现在,回过头来看,在过去半个世纪里,令众多研究者着迷却又无法跨越的难题,只是遍布科学研究领域的墙的冰山一角。它是由精致的AI技术和研究领域和学问领域的融合而诞生的ldquo。AI for Sciencerdquo;毫无疑问,这一难题给人类对科学无人区的更多探索带来了全新的可能。
从2020年开始,AI for Science进入了集中爆发式发展阶段。其中有最新成果AlphaFold项目mdash。mdash;深情在2021年发布的AlphaFold2,成功预测了人类蛋白质98.5%的三维结构,与大多数蛋白质的实际结构只有一个原子的宽度变化,达到了传统冷冻电子显微镜等复杂实验所能预测的水平。
和生命科学领域一样,分子动力学领域也出现了影响力巨大的deepmd-kit项目。deepmd-kit项目利用机器学习,结合高性能计算技术和物理模型,将分子动力学极限提高到10亿原子规模,在保持高精度的同时,大大解决了传统分子动力学的ldquo。快不允许rdquo;、ldquo;准确而令人不快rdquo;的难题。
在气象预测领域,以新算子学习为基础的神经网络模型FourCastNet实现了4.5万倍的高速天气预报。在工业领域,PDE方程(如流体和结构)的解决方案,通过数据+物理机制的融合,AI方法已被证明是解决复杂和高维物理问题的突破口。hellip;
一言以蔽之,今年爆发式增长的AI绘画、AI对话模式ChatGPT等AI应用,或是AI for Science领域的许多项目案例,都表明AI为各行各业、行业带来了范式的创新。然而,AI for Science的重要意义在于,加快前沿科学研究,将对人类社会和经济发展产生更基础和深远的影响。
此外,AI for Science的应用不仅可以简单地根据已知的科学原理进行有效的验证和试错,还可以在AI的基础上探索更复杂的场景,在复杂的场景中倒算更准确的物理规律。
可以毫不夸张地说,人工智能已经成为科学家仅次于计算机的新生产工具,并催化着新的ldquo。是科学革命。
跨越落地壁垒从深度学习框架出发
但是,要想从梦想回到现实,人工智能行业得到巨大发展,真正成为人类新的生产手段,就必须跨越落地这一关口。AI for Science的全面而深刻的创新价值,面临着远远超过一般AI应用的落地壁垒。
其主要原因是AI for Science的应用需要在工业场景中的大量数据支持和合理的科学机制等的等价性,而且高维、大量的数据要求计算力和内存。总体来看,目前AI for Science落地应用的最大壁垒主要体现在数据、平台技术、软硬协同、领域解决能力和优秀的研发生态系统。
从数据的角度来看,产业场景中的数据是维度高、格式复杂、孤岛式的存在,同时由于隐私和法律上的制约,很难公开和共享部分数据。如何有效管理这些多特征、多源数据,解决小样本,建模零样本数据,是当前AI研究领域的落脚点。
从软硬件协同的角度来看,AI for Science的发展既离不开深度学习框架的支持,也离不开底层高性能硬件的支持。另一方面,AI for Science需要更科学地解决实际的物理问题,例如高阶PDE方程组的解、由数据+物理机制驱动的模型开发等。另一方面,传统的科学计算中心已经广泛支持各种科研任务,在持续增加智能计算硬件能力的同时,也需要科学计算/智计算硬件与AI开发框架的深入整合,支持各种新型AI for Science计算场景需要达到性能领先。
从研发生态的角度,AI for Science作为充分体现交叉学科的新兴科研范式,涉及生物学、分子动力学、计算流体力学、固体力学等学科,需要大量跨领域科研人才而且不断扩展的开源生态库只有通过传统的数据集仿真软件、数据集,才能满足研发人员对开发工具链的需求。稳定优质的科研生态逐步形成。
为了跨越这些壁垒,研究AI for Science的应用壁垒、产、学和各界科学家,企业们开始走AI for Science范式创新+普遍之路。
在深度学习框架领域,如TensorFlow、PyTorch、MXNet等AI框架在国外,自诞生以来,一直帮助众多科学家和工程师实现学术研究和工程,极大地促进了AI领域的发展。作为国内AI领域的先驱者,百度也用百度飞碟(PadddlePaddle)从2016年开始打出国产AI框架开源第一弹,向全面的AI技术配置迈进。目前,环形平台已经能够对各种硬件实现广泛的适应,并可直接部署在大规模的科学计算集群中,与现有的科学计算生态紧密融合,有力支持AI for Science方案的部署和应用。
同样在2016年,向辉也开始在百度接触AI行业,之后亲身经历AI在计算机视觉、自然语言处理、推荐等领域的技术应用和快速轮换,如今已成为百度平坦球道AI for Science产品负责人。
向辉在接受36氪采访时,面对AI for Science落地的挑战,百度费奥认为核心需要解决的是搭建一个通用化的深度学习平台,连接下游各种异构计算力,提供帮助解决科学计算问题的API能够更好地支持典型科学计算场景的建设和分析,如编译加速机制等,如气象预测、支持流体模拟的材料发现等领域的问题。ldquo;同时要构建可持续、融合科研、科学计算、平台以及最终用户开放的生态。rdquo;她说。
为了让不同领域的科学家能够灵活使用当下热门的科研模式,2019年百度平坦球道开始在AI for Science领域尝试技术形态、产品渠道等规划,并在2020年初至2021年底相继推出生物计算平台ldquo。螺旋桨PaddleHelixrdquo,量子计算平台ldquo;PaddleQuantumrdquo以及面向流体、固体、电磁等领域的科学计算平台ldquo;划桨的PaddleSciencerdquo;。
另外,百度飞碟提供了PINN、FNO、DeepONet等主流模型,以及CFD中障碍物的卷绕、涡流激励、达西流等用户能够直接复用的标准事例。
百度环绕还支持基于组件定制问题的再现和分析,支持数据驱动以及与物理机制相结合的多种方法,分别在物理模拟、化合物分子表征、量子纠缠处理等场景上取得了突破性进展。
其中,为了更好地服务广大科学计算用户对各种PDE方程的解决需求,百度飞龙也积极实现了与优秀科学计算Repo-DepXDE的全量模型支持,目前已经初步完成了所有模型的精度对齐工作在百度费林最新的高阶自动微分机制、自动化分布式策略以及编译加速机制等的加持下,部分用例的解决效率,领先于同类产品。
为了进一步推进AI for Science落地进程,百度Feor还与多所高校、科研机构等开展了流体、材料、生物等范例建设,形成了一些开放的、多学科交叉的生态社区。今年5月,ldquo、骷髅AI for Science共创计划rdquo;、愿与各方一道进行技术协同开发,推广资源共享,共建生态商机。
回想这些社区的发展经验,向辉对许多学生团队的项目记忆犹新。她回忆,其中北航学生队在真空条件下开展了地面不可再现的真空羽流模拟,但通过费扎林AI for Science的产品,团队产生了玻尔兹曼方程的一些系数,最终达到了惊人的效果。ldquo;这些案例证明,在一些场景中,飞越百度桨的AI for Science可以在一定程度上解决开发者们的科研问题。rdquo;对辉说。
在以往的发展中,百度公平AI for Science工具集能够支持AI方法与基础学科方法的交叉融合,最大的特点是能够突破基础学科中的ldquo。基于数值计算求解控制方程rdquo,面对面维数高、时间长、跨尺度、计算力不足等挑战,将数值差分等效为ldquo。基于数据、物理机制驱动的神经网络模型实现rdquo。
开拓AI for Science课程对百度桨来说无疑是AI能力的进一步挑战和飞跃。在大幅加快解决科学问题的同时,也将加速进入行业更多探索未知科学问题的道路。
平台下基础计算力赋能软硬协同发展
如前所述,要加快解决AI for Science的科学问题和产业扎根,不仅需要框架和软件平台层面的支持,而且基础架构需要提供强大的计算力和软件优化能力。
面向科学计算领域,众多芯片厂商如何提高AI的计算力,加快AI应用落地做出相应部署。英特尔是该课程的代表性领先公司之一,此前一直致力于ldquo。让AI无处不在的rdquo;。
在接受英特尔人工智能架构师杨威和36氪的采访时,他从芯片企业的角度对AI for Science这一领域给予了不同的视角和视角。
杨威认为,AI for Science普及的主要重点是如何降低AI硬件成本,以及需要一个易于使用的AI软件优化工具。
他强调,英特尔从第二代至强可扩展处理器开始,实现了CPU内置的AI加速。通过AVX-512和DL Boost等AI加速技术,ldquo;现在可以用CPU在AIrdquo上运行。这一举措的意义在于,它可以充分激活和利用部署更广泛、成本优势更显著的CPU计算力,在输出大多数应用所需的通用计算力的同时,还可以通过加速AI推理推动AI应用落地。同时英特尔还免费提供各种AI软件优化工具,包括oneAPI、OpenVINO等。这些软件的技术门槛和使用难度较低,有助于用户释放至强CPU的AI加速能力。
此外,AI for Science领域的模型和类似变体对内存消耗非常敏感,考虑到CPU平台的计算资源对于大容量内存应用通常更有利,英特尔有进一步增强这方面能力mdash的放矢地,mdash;与至强处理器合作的英特尔安腾持续内存提供了远超主流DRAM的容量,可以轻松实现TB级内存配置,并提供接近DRAM的性能。也就是说,在尽可能减少整个链路上的科学计算模型的延迟的同时,可以突破限制AI for Science应用的存储器容量瓶颈。
现阶段,英特尔AI for Science等AI应用的核心硬件布局以CPU为主,加速的应用类型也以推理为主,但这只是XPU时代扩展AI产品组合的第一步。英特尔ldquo;XPU视觉rdquo;在背面,随着未来数据类型和应用类型的高速增长和分裂,其基础硬件架构也从CPU扩展到GPU、FPGA和AISC加速器的所有XPU架构。
基于这一策略,英特尔不仅可以在2023年推出代号为Sapphire Rapids的第四代至强可扩展处理器,还可以与这款CPU结合,专门研究科学计算和AI加速,推出代号为Ponte Vecchio的数据中心GPU产品从而在AI推理上形成以高价格比、易于获得和使用的CPU为主,在AI训练上以GPU为主的更完整布局。此外,该XPU组合能够利用oneAPI工具包实现异构硬件的统一编程和管理,具有灵活调配、无缝协作、高效易用等特点。
凭借上述产品组合带来的强大计算支持,英特尔从硬件到软件提供了多维度的AI for Science优化,让更多的科研人员直接参与开发和定制,努力实现科学智能的真正普及。在其不断的努力下,现在很多合作伙伴都实现了产品落地。
例如,在AI小分子药物设计领域,英特尔有望与剂泰生物合作,在小分子药物优化方面实现高通量的分子生成,在更大的化学空间中探索更多潜在的候选分子。在高分子药物设计领域,英特尔与百度费林、晶泰科技、上海交大等各机构和高校进行了深入合作,基于AlphaFold2实现了高通量和长序列蛋白结构预测推论的优化,在AlphaFold2中引入TB级存储技术,整体达到了降本增效。
其中,英特尔和百度羽毛也从2017年开始了以软硬件协同效应为主的合作。随着双方在AI领域的不断布局,合作的广度和深度也在提升。例如,英特尔和百度公平致力于实现英特尔全堆栈软件硬件和公平的相互支持,通过oneAPI实现深度自适应和性能优化,并通过公平+OpenVINO等方式共同构建部署生态。
有趣的是,百度骷髅目前在AI for Science领域与英特尔合作,不仅与这些前导码的合作有关,还与开发商的生态有关。
长期以来,百度酚积极发展开发商生态。例如,他希望建设菲奥尔特别兴趣小组(PPSIG),通过开放的社区形式与全球开发商共同构建开放的、多元的、结构性的、包容的生态系统。英特尔的一位专家恰好是PPSIG-科学计算Science集团的第一个成员,积极参与PaddlePaddle科学计算开源社区的建设,对分子动力学模拟应用于生物蛋白质分子和能量材料产生了浓厚兴趣。
由此,双方在AI for Science上的合作也化为泡影。自2022年3月起,百度平坦球道与英特尔结合各自实际,经过多次讨论交流,最终确定任务方向与合作内容,共同开展AI for Science在分子动力学与生命科学领域的实质性工作,并取得一系列成果。包括:百度酚实现了国内首个完成与传统分子动力学软件LAMMPS及AI势函数训练软件DeepMD-kit融合工作的AI深度学习框架,并基于英特尔oneAPI实现了从训练到推理的全过程ldquo0到1rdquo;式突破性进展,百度Helix Fold模型基于Xeon平台的AVX-512、oneDNN和大容量存储能力进行了优化,不仅实现了性能的大幅提高,而且易于预测推理长度超过4000,即超长序列的蛋白质结构。
结语:AI for Science的普遍道路,临界点接近
一是在深度学习领域耕耘多年,成长为国内开源AI框架一哥的百度猎豹,一是作为科学计算领域顶级玩家的英特尔,双方依靠各自的优势产品和对AI领域的持续部署灵活多样的ldquo组合冲头rdquo;不断降低AI for Science的应用门槛,共同走向ldquo。让AI无处不在,让千行百业更普遍rdquo;然后ldquo;合作贯穿产、学、研、AI for Science的理论,实验与产业应用之路ldquo;的目标。
站在这个重要的时间节点上,我们可以再次追溯AI发展的70多年,或者更清楚地看到,它是每一个发展阶段的爆发,都在历史长河中掀起了创新的浪潮这些风波终于在今天叠加在推动产业变革的巨大浪潮上。像今天的AI for Science一样,不断驱动着科研冲击范式创新的临界点。其中所有与会者都在不断思考这一冲击成功后对人类未来的开创可能性。
最终,它将成为无限可能,如核裂变链结反应和坎布里亚纪生命大爆炸。
来源:36氪