降低AI for Science门槛,实现生命科学领域新突破,
- 时间:
- 浏览:0
出处:科技日报
AlphaGo一般人或多或少都听说过因为击败人类围棋名人而被称为ldquo。世界壮举rdquo;、这表明人类在通用型人工智能上迈出了里程碑式的重要一步。
目前,AlphaFold2模型在前沿科学研究中是各界人士青睐的人工智能(AI)应用的又一标志,因为它显示了AI for Science的巨大潜力。
AlphaFold2辅助蛋白质结构预测,树AI for Science新高度
蛋白质是构成人体细胞组织的重要成分,对蛋白质的三维结构展开有效的解析和预测,可为生物学、医学、药学乃至农业、畜牧业等行业未来的研究和发展提供重要依据,尤其对研究开发与人类健康直接相关的药物具有重要意义。
然而,用X射线、冷冻电子显微镜、核磁共振等传统方法分析蛋白质结构,远远赶不上氨基酸序列的增长速度,这将导致大量待测样品在实验室等待数月甚至数年。国际权威数据库SWISS-PROT显示,目前累计的蛋白质序列信息已超过56万,用传统方法完成这一庞大的测序无疑是ldquo。不可能的任务rdquo;我们必须另辟蹊径。
科技创新的车轮滚滚向前。如上所述,人工智能的发展为蛋白质的测序效率带来了契机。其中AlphaFold2模型使人工智能在生物医药领域发挥着重要作用。
一般认为,当人工智能法的预测精度超过90分时,预测结果与实验法得到的蛋白质结构基本一致。另一方面,AlphaFold2的92.4分不仅可以分析X射线晶体学难以解决的在细胞膜中放入楔子的蛋白质结构,而且还可以成功地阐明蛋白质折叠问题,有助于研究者们制造在自然界中不会发生的蛋白质。
AlphaFold2带来的这些重大突破表明,AI辅助药物的基础理论研究进入了一个新阶段,确立了AI for science的新高度。
例如,目前全球设计的大多数药物都作用于蛋白质,一般来说,它们需要像开锁一样精确匹配,而这个过程的第一步是确定开锁,用更专业的语言来说,就是寻找药物的靶点就是要弄清楚药物的分子作用和哪些蛋白质结合在一起。通过可解码蛋白质结构的人工智能算法,可以快速筛选出成千上万个新的药物靶点,从而大大缩短新药的研制周期,创造自然界中不存在的蛋白质这无疑有助于人类以前所未有的方式应对重大挑战。
端到端优化AlphaFold2,使人工智能更普遍救民
AlphaFold2为蛋白质结构解析和预测提供了途径,为人工智能在生物医药等领域的应用开辟了新的窗口,但随着其在产、学、研各细分领域的落地,也遭遇了严峻的挑战。例如,随着各种应用对推理的高吞吐量和高性能的需求以及日剧的增加,使用者需要更充分地挖掘平台的计算潜力,提高执行效率。
高通量测序技术也称为革命性蛋白质测序方法,也是ldquo。14、5 rdquo ;时期生物经济领域重点推进创新应用的关键技术之一,简而言之就是对大量核酸分子进行并行测序的技术,但实施一次测序可以产出100Mb以上的数据,这一巨大的数据量给AlphaFold2的应用带来了很大的困扰。
本来,AlphaFold2出现之初就有GPU并行计算等算法和硬件架构本身的问题,但这种硬件有严重的内存限制,即使使用单卡最大内存,可输入预测的蛋白质序列长度也不到1000个氨基酸。
面对突破这一瓶颈的迫切需求,英特尔reg、架构产品:内置AI加速能力的至强reg、可扩展平台结合傲慢trade的永久内存产品组合,使得CPU平台具备TB级内存容量可能满足高吞吐量测序需求。基于此优点,我们对不同氨基酸序列长度下蛋白质结构预测所需的记忆进行了实验,实践了其组合打破了限制预测序列长度的ldquo实现了AlphaFold2的高吞吐量优化。
结果表明,短至206个氨基酸,长至2797个氨基酸,最终达到预期效果,经Xeon reg验证的可扩展平台产品组合,可轻松应对AlphaFold2蛋白测序20GB至510GB的内存占用有助于实现更大范围的蛋白质结构探索。
在推动AlphaFold2普遍性提升和拓展应用的过程中,英特尔发挥了Xeon reg,可扩展平台产品组合提供了强大的通用计算能力,同时利用丰富的软件工具实施吞吐量优化,实现了处理器内置的英特尔reg、AVX512技术、英特尔在reg、MoneAPI软件工具的激活与配合下,实现并行计算加速,为AlphaFold2应用提供进一步的性能调整空间。
该软件级调优可以在预处理阶段对模型进行高吞吐量优化,然后将模型迁移到PyTorch框架中,然后在PyTorch版本中进行详细的推理优化,最后给出TB级内存支持,从而实现更好的加速效果。
通过上述基于Xeon的reg,可扩展平台是对AlphaFold2实施的端到端优化,对于包含765个氨基酸的蛋白质测试实例,采用CPU64个物理核心同时模式,支持最高3.2TB的存储消耗试验通量由未经任何优化的4.56序列/日上升105.35序列/日,效率上升23.11倍,另外,如果单节点最高搭载8TB存储器,则能够实现比10000氨基酸序列长的蛋白质结构的预测人工智能在药物开发等领域的广泛应用显示出无限的可能性。
在国际学术期刊《Science》联合在《英特尔》上发表的《架构师成长计划》课程中,晶泰科技首席研发专家杨明俊博士说。以AlphaFold2为代表的研究成果被认为开拓了科研的第四范式,基于大量的数据,然后采用以深度神经网络为代表的模型,提供了对问题的解答。蛋白质结构预测曾经被认为是不可能的,这表明AI算法已经实现,AI在生物医药领域的进展进入了新的领域和阶段。rdquo;
《ldquo;145rdquo;生物经济发展规划》明确,作为开展前沿生物技术创新的重要手段,将加快发展高通量基因测序技术。支持采用人工智能等信息技术,实现药物产业精准化研发,并通过生物技术与信息技术的融合更好惠民。
在这一过程中,英特尔在架构上的优势也尽善尽美,其硬软性使AlphaFold2生物信息测序效率实现了端到端的优化,并使其具备了更高适用性的生动实践,展示了人工智能与科研的相互融合并相信为人类在前沿科学领域的未来发展带来了广阔的想象空间。通过不断示范创新成果建立新的ldquo。AI for Sciencerdquo;里程碑,创造更好的未来!(来源:科技日报)