上万颗芯片、数亿美元投资 揭秘ChatGPT背后的微软昂贵超级计算机
- 时间:
- 浏览:0
北京时间3月14日消息,微软的超级计算机使用了数万颗Nvidia GPU,人工智能聊天机器人ChatGPT在全球范围内火爆,但外界可能不知道ChatGPT为何如此智能,它背后是微软打造的昂贵超级计算机。2019年,微软同意向ChatGPT开发商OpenAI投资10亿美元,为AI研究初创公司打造一台巨大的、最先进的超级计算机。唯一的问题是,微软并不具备OpenAI所需要的东西,而在Azure云服务上构建这么大的东西并不能破坏它。当时,OpenAI试图训练越来越大的AI程序或“模型”,吸收越来越多的数据,学习越来越多的参数。这些参数是通过训练和再训练AI系统获得的变量。这意味着OpenAI需要长期使用强大的云计算服务。为了克服这一挑战,微软需要找到一种方法,将成千上万的NVIDIA A100图形芯片(人工智能模型训练的主力)组合在一起,重新定位服务器在机架上的位置,以防止停电。微软云计算和人工智能执行副总裁斯科特·格思里拒绝透露该项目的具体成本,但表示“可能超过数亿美元”。“我们在超大规模上运行,并构建了一个可靠的系统架构。 微软Azure AI基础设施总经理Nidhi Chappell表示,这就是为什么ChatGPT成为可能。“这是一个从那里衍生出来的模型,未来还会有很多其他的模型。”
Nvidia A100帮助OpenAI发布了ChatGPT。该技术在去年11月推出后的几天内就吸引了超过100万用户,并已被纳入其他公司的商业模式,从亿万富翁对冲基金创始人肯格里芬经营的公司到外卖公司Instacart。随着像ChatGPT这样的生成式人工智能工具吸引了企业和消费者的兴趣,微软、亚马逊和谷歌等云提供商将面临越来越大的压力,要求他们能够提供数据中心所需的巨大计算能力。现在,微软正在使用为OpenAI构建的相同资源集来训练和运行自己的大规模AI模型,包括我们上个月宣布的新Bing搜索机器人。微软也在向其他客户销售产品。作为微软和OpenAI之间100亿美元额外投资协议的一部分,这家软件巨头已经在开发下一代人工智能超级计算机。格思里在一次采访中说:“我们不想让它成为定制产品。它最初是作为一个定制产品开始的,但我们一直在寻找方法使它成为一个通用产品,这样任何想要训练大型语言模型的人都可以利用相同的改进。训练一个巨大的人工智能模型需要在一个地方有许多相互连接的图形处理单元,就像微软组装的人工智能超级计算机一样。当模型运行时,它需要稍微不同的配置来回答用户提出的所有查询(称为推理)微软还推出了用于推理的图形芯片,但这些处理器在地理上分布在60多个数据中心区域。微软周一在一篇博客文章中表示,它正在为AI工作负载添加最新的Nvidia图形芯片H100,以及最新版本的Nvidia Infiniband网络技术,以实现更快的数据共享。
微软Azure云服务目前,新的Bing搜索仍处于预览阶段。微软正在从等待名单中招募更多的用户。Gasly的团队每天与大约24名员工会面,他们被称为“后勤工人”,这是一群在比赛中协调赛车的机械师。该团队的任务是让更多的计算能力快速上线,并找到解决突然出现的问题的方法。“这就像一次会议,说'嘿,如果有人有一个好主意,我们今天就把它放在桌子上讨论一下。你能在这里节省几分钟吗?“”就像这样。 你能节省几个小时吗? 几天?“我知道,”Guthrie说。云服务依赖于数千种不同的组件和项目,包括服务器中的单个组件、管道、建筑物中的混凝土以及各种金属和矿物,任何一个组件的延迟或供应不足都可能导致故障,无论多小。最近,维修人员不得不处理电缆桥架短缺的问题。电缆桥架是一种复杂的装置,像篮子一样,用来固定从机器上脱落的电缆。因此,他们设计了一个新的电缆桥架,这样微软就可以自己生产,或者在其他地方购买。Guthrie表示,他还在考虑如何尽可能多地压缩全球现有数据中心的服务器,这样他就不必等待新大楼的出现了。当OpenAI或微软大规模训练AI模型时,这些任务只完成一次。在某些情况下,它被分配到所有的GPU上,单元必须相互通信并共享工作。对于人工智能超级计算机,我们需要确保处理芯片之间所有通信的网络设备能够处理这种负载,并开发能够充分利用GPU和网络设备的软件。该公司目前正在发布软件,可以用数万亿个参数训练模型。由于所有机器都是同时启动的,微软必须考虑机器的位置和电源的位置。否则,Guthrie说,这将导致数据中心版本,就像厨房里同时打开微波炉、烤面包机和吸尘器一样。微软Azure下一代超级计算机全球基础设施主管Alistair Speirs表示,该公司还需要对所有这些机器和芯片进行冷却,以便在寒冷的气候中使用蒸发、室外空气,在炎热的气候中使用高科技湿地冷却器。Guthrie表示,微软将继续开发定制服务器和芯片设计,并寻求优化供应链的方法,以最大限度地提高速度、效率和成本节约。“现在震惊世界的模型是建立在我们几年前开始建造的超级计算机上的。新模型将建立在我们正在训练的新超级计算机上。它更大,更复杂。”【来源:网】