英伟达要革“计算光刻_的命 CPU大厂尬住:那我走?
- 时间:
- 浏览:0
全球AI工业计算技术盛会将如期举行。在周二举行的Nvidia Spring2023GTC会议上,该公司首席执行官黄仁顺穿着标志性的皮夹克,向开发人员展示了最新的硬件和人工智能应用进展。简而言之,这个演示文稿有“亮点”、“点”和多个“点”。“亮点”是英伟达秘密研发并向芯片制造行业发布的技术“核弹”。光刻计算库cuLitho可以用500套DGX H100替换用于驱动计算光刻的40,000CPU服务器。“焦点”是发布一系列围绕生成人工智能的加速模型训练和推理软件产品和服务,“焦点”则是展示量子计算、云服务、元宇宙、汽车等领域的新进展。
为了出口到中国市场,英伟达在旗舰芯片H100的基础上开发了H800芯片,并表示800系列产品完全符合出口管理规定,并被国内多家科技企业采用。然而,业内人士指出,H800的数据传输速度已经下降到旗舰H100的一半左右。在本次主题演讲中,在半导体巨头的支持下,最大的亮点是英伟达秘密研发4年,英伟达秘密研发将技术“核弹”抛向行业,通过突破性的光刻计算库cuLitho,计算光刻加速了40倍以上。可以说,计算光刻是提高光刻分辨率、推动芯片制造走向尖端工艺的关键手段。作为芯片制造过程中最复杂、最昂贵和最重要的环节之一,光刻成本约占晶圆加工成本的三分之一以上。与光刻计算EDA工具相结合,它可以缩短晶圆厂原型制作周期,提高产量,为2nm及以后的先进工艺奠定基础,并为新技术节点(如曲线掩模、高NA EUV和亚原子级光阻模型)提供新解决方案和创新技术的可能性。计算光刻是芯片设计和制造中最大的计算工作负载,每年消耗数千亿CPU小时。“大型数据中心每天24/7运行,为光刻系统创建了一个面具。这些数据中心是芯片制造商每年约2000亿美元资本支出的一部分。Nvidia H100GPU需要89个掩码,在CPU上运行时需要两周时间来处理单个掩码,而cuLitho在GPU上只需要8个小时。通过该应用程序,台积电可以用500台DGX H100取代40,000台驱动计算光刻的CPU服务器,从而将功耗从35兆瓦降低到5兆瓦。此外,cuLitho的晶圆厂每天可以生产3-5倍的光掩膜,功率仅为当前配置的九分之一。
事实上,在开发计算光刻库的过程中,NVIDIA已经与全球三大顶级芯片制造商进行了四年的合作,其中包括晶圆制造巨头台积电、光刻制造商ASML和EDA巨头Synopsys。目前,这三家公司都已开始在芯片设计和制造过程中引入cuLitho技术。对于这项“四年磨剑”的技术,台积电CEO魏智嘉表示,cuLitho为台积电在芯片制造中广泛部署光刻解决方案开辟了新的可能性。ASML首席执行官Peter Wennink表示,ASML计划将GPU支持集成到其所有的计算光刻软件产品中。Synopsys表示,通过在cuLitho平台上运行其光学接近校正(OPC)软件,性能从数周加速到数天。ChatGPT专用GPU的发布是GTC开发者大会的另一个重点,无疑是当前热门的生成式AI。在演讲中,NVIDIA推出了一系列新的硬件、软件和服务,以加速模型训练和推理。Nvidia H100GPU基于Hopper架构及其内置的Transformer引擎,针对生成AI、大规模语言模型和推荐系统的开发、培训和部署进行了优化。在DGX AI基础设施领域,自从NVIDIA向OpenAI交付第一台DGX超级计算机以来,财富100强企业中有一半都在使用此类产品。DGX(AI超级计算机)是大规模语言模型实现突破背后的引擎,已成为AI领域的必备工具。NVIDIA DGX H100AI超级计算机现已全面投入生产,并将很快提供给全球企业。
值得注意的是,英伟达在H100芯片的基础上开发出了H800版本,并出口到中国。英伟达发言人表示,“我们的800系列产品完全符合出口管制规定”,阿里巴巴、百度和腾讯控股等中国科技公司的云计算部门正在使用新芯片。至于两款芯片之间的差异,业内人士表示,H800主要是将芯片之间的数据传输速率降低到H100的一半左右。在推理硬件方面,英伟达还宣布了一个新的GPU推理平台,其中包括针对不同工作负载优化的四种配置,用于AI视频、图像生成、大规模语言模型(LLM)部署和推荐系统(L4Tensor Core GPU、L40GPU、H100NVL GPU和Grace Hopper超级芯片)H100NVL是专门为LLM设计的GPU,它包含Transformer加速解决方案,适用于大型语言模型(如ChatGPT)的大规模部署。Huang表示,HGX A100是目前唯一能够在云中处理ChatGPT的GPU。与用于GPT-3处理的HGX A100相比,配备四对H100和双GPU NVLink的标准服务器的速度提高了10倍。此外,L4是用于AI生成视频的通用GPU,用于加速AI视频,提供比CPU高120倍的性能和约99%的能源效率。优化视频解码和转码、视频内容审核、视频通话等性能。因此,将100多个用于处理AI视频的双插槽CPU服务器替换为8GPU L4服务器。L40用于图像生成,针对2D和3D图像生成进行了优化,可与Omniverse结合直接生成3D内容、元宇宙等,推理性能比NVIDIA最受欢迎的云推理GPU T4高10倍。Grace Hopper超级芯片专为推荐系统和大型语言模型AI数据库而设计,可通过900GB/s的高速一致性芯片间接口将Nvidia Grace CPU与Hopper GPU连接起来。Blue Field-3DPU增加了量子计算布局除了计算光刻和生成人工智能外,NVIDIA还在GTC会议上展示了许多公司最新的升级技术产品和服务。在DPU方面,Huang宣布Nvidia Blue Field-3DPU已投入生产,并被腾讯、百度、京东、微软和甲骨文等领先的云服务提供商采用,以加速其云计算平台。在计算生态方面,NVIDIA希望通过云服务为更多用户提供制造大模型的能力。在大会上,NVIDIA推出了DGX Cloud云服务,该服务提供了专用的NVIDIA DGX AI超级计算集群。与NVIDIA AI软件相结合,任何企业都可以使用简单的Web浏览器访问AI超级计算,消除获取、部署和管理本地基础设施的复杂性,并为生成式AI和其他突破性应用程序训练高级模型。Huang在云计算方面的另一个重大公告是NVIDIA AI Foundations,包括语言模型NEMO、视觉模型PICASSO和生物模型BIONEMO,为用户提供定制的LLM和生成AI解决方案。NEMO可以提供80亿、430亿和5300亿个参数模型。PICASSO可用于训练生成的AI模型,如图像、视频和3D应用程序。PICASSO可以使用高文本提示符和来自DGX Cloud模型的元数据创建AI模型。
NVIDIA在量子计算等尖端技术方面也取得了突破。在演讲中,黄先生介绍的第一个新产品是NVIDIA DGX Quantum,与量子机器合作开发。结合通用量子控制系统Quantum Machines OPX+和NVIDIA Grace Hopper超级芯片,该产品为高性能、低延迟量子经典计算的研究人员提供了一种革命性的新架构。NVIDIA DGX Quantum是世界上第一个GPU加速的量子计算系统,在GPU和量子处理单元(QPU)之间提供亚微秒延迟。这种组合将使研究人员能够为校准、控制、量子纠错和混合算法构建强大的应用程序,这些算法将量子计算与最先进的经典计算相结合。此外,英伟达还宣布在元太空、汽车和工业领域的一系列新发展,包括推出第三代OVX运算系统和新一代工作站。PaaS服务NVIDIA Omniverse Cloud目前对特定企业开放,并将扩大与宝马集团的合作,比亚迪将有更多车型使用NVIDIA DRIVE Orin平台。在GTC大会上,“数字孪生”工业仿真应用Omniverse终于出现了。其主要用途是使企业在实际建造工厂并生产产品之前,能够通过数字模拟“预览”实际的成品。生成式人工智能将推动人工智能的快速采用,并将改变几乎所有行业。黄先生多次表示,整个人工智能行业正处于“iPhone时刻”。初创公司竞相建立颠覆性的商业模式,而行业巨头们也在寻找解决这一问题的方法。因此,AIGC为全球商界带来了制定人工智能战略的紧迫感。NVIDIA发布了一系列尖端技术和产品,重点是人工智能、计算光刻、量子计算和芯片等尖端技术,从GPU、DPU等硬件到云服务,帮助企业加速构建定制生成的人工智能模型,升级数据中心、芯片制造流程等。可以看出,他们围绕行业的上下游行为构建了一套应用开发生态系统。黄先生显然正在推动英伟达进入下一阶段,并进一步释放行业的新创造力。在过去的十年里,人工智能快速发展的背后,是英伟达的硬件和硬件支持。今天,在生成人工智能将迫使几乎所有行业重新思考其业务战略和技术路线的愿景下,NVIDIA在使行业合作伙伴受益于人工智能等尖端应用的变革力量的过程中,正变得越来越强大和不可替代。(图片来源:微网络)