1000 亿美元!微软和 OpenAI 合作打造 AI 超级计算机?
阿法兔研究笔记
2024-03-30 04:27
订阅此专栏
收藏此文章
本文主体部分来自 the information,为保持阅读通顺内容有所调整。

* 转载本文,请附上所有参考文献链接

“星际之门”的核心要点

*本文 3900 字左右


  • 微软希望最快于 2028 年启动 "星际之门

  • 超级计算机将需要前所未有的能源

  • OpenAI 的下一次重大人工智能升级预计将于明年初启动

“星际之门”的核心要点


根据科技媒体 Information 和相关消息人士透露,微软和 OpenAI 的高管一直在筹划一项新的数据中心项目。该项目包含一台超级计算机,配备数百万个专用服务器芯片,旨在为 OpenAI 的人工智能提供动力。据一位与 OpenAI 首席执行官 Sam Altman 交谈过的人士和看过微软初步成本估算的人士称,此项目的成本可能高达 1000 亿美元。


微软将负责为该项目提供资金,成本将是目前一些最大数据中心的 100 倍。这表明未来几年为人工智能建立计算能力可能需要巨额投资。这个超级计算机将名为“星际之门”(Stargate),计划在美国建造,是这两家公司希望在未来六年内建造的最大项目。


虽然该项目尚未获得批准,但微软和 OpenAI 的合作也许是近十年来最重要的科技行业合作之一。迄今为止,微软已承诺向 OpenAI 提供 130 多亿美元的资金,使这家初创公司能够利用微软的数据中心为 ChatGPT 及其对话式人工智能背后的模型提供动力。作为交换,微软获得了 OpenAI 的技术,并获得了向摩根士丹利(Morgan Stanley)等自家云客户转售该技术的独家权利。


此外,微软还将 OpenAI 的软件整合到 Office、Teams 和必应的新 AI Copilot 功能中。


据报道称,微软是否愿意继续实施“星际之门”计划,部分取决于 OpenAI 能否真正提高其人工智能的能力。OpenAI 去年未能向微软交付其承诺的新模型,这表明人工智能前沿领域的变化多端。尽管如此,OpenAI 首席执行官 Sam Altman 还是公开表示,阻碍更好的人工智能发展的主要瓶颈是缺乏足够的算力。


如果“星际之门”计划得以推进,它所产生的计算能力将比微软目前从凤凰城和其他地方的数据中心向 OpenAI 提供的计算能力高出数个数量级。据其中两位知情人士称,这台拟议中的超级计算机还需要至少几千兆瓦的电力,相当于目前至少几个大型数据中心的运行所需电力。其中两人表示,项目成本的大部分将用于采购芯片,但获得足够的能源来运行它也可能是一个挑战。


数字地产公司(Digital Realty)的首席技术官 Chris Sharp 表示,这样一个项目对于人工通用智能来说是绝对必要的,因为人工智能可以完成人类所做的大部分计算任务。尽管按照现在的标准,这个项目的规模似乎难以想象,但他说,等到这样一台超级计算机完成时,数字就不会那么惊人了。


参与讨论的人士表示,高管们已经讨论过最快在 2028 年启动 "星际之门",并将其扩展到 2030 年,到最后可能需要多达 5 千兆瓦的电力。


“星际之门”的核心要点


奥特曼和微软员工曾谈到,这些超级计算机将分为五个阶段,第五阶段是 "星际之门"(Stargate)。"星际之门 "因一部科幻电影而得名,在这部电影中,科学家们开发了一种在星系间旅行的装置。( 该代号源自 OpenAI,但并非微软正在使用的官方项目代号,一位参与其中的人士说)


在 "星际之门 "之前的阶段,成本要低得多。据其中两位知情人士透露,微软正在为 OpenAI 开发更小的第四阶段超级计算机,目标是在 2026 年左右推出。高管们计划在威斯康星州的普莱森特山(Mt. Pleasant)建造该超级计算机,Wisconsin Economic Development Corporation 最近表明,微软耗资 10 亿美元的数据中心扩建工程已在动工。


其中一位人士说,超级计算机和数据中心的最终完工费用可能高达 100 亿美元。这比现有数据中心的成本高出许多倍。微软还讨论过在该项目中使用英伟达(Nvidia)生产的人工智能芯片。

关于算力、能源和电力


目前,微软和 OpenAI 正处于五阶段计划中的第三阶段。接下来两个阶段的大部分成本将用于采购人工智能芯片。两位没有参与该项目的数据中心从业者表示,在其他公司目前正在建设的以人工智能为重点的数据中心中,人工智能服务器芯片通常占初始总成本的一半左右。


总而言之,拟议的工作可能耗资超过 1150 亿美元,是微软去年用于服务器、建筑和其他设备的资本支出的三倍多。假设微软继续保持其在 2023 年下半年披露的资本支出速度,今年的支出将达到 500 亿美元左右。微软首席财务官 Amy Hood 今年 1 月表示,在 "云计算和人工智能基础设施 "投资的推动下,未来几个季度此类支出将大幅增长。


微软发言人 Frank Shaw 没有对超级计算计划发表评论,但在一份声明中表示:"我们一直在规划下一代基础设施创新,以继续推动人工智能能力的前沿发展。" OpenAI 发言人没有对本文发表评论。


Altman 曾私下表示,OpenAI 最大的竞争对手之一谷歌在短期内将比 OpenAI 拥有更强的计算能力,而他也曾公开抱怨自己的 AI 服务器芯片数量不尽如人意。


这也是他一直提倡建立一家新的服务器芯片公司的原因之一,该公司将开发一款与目前为 OpenAI 软件提供动力的英伟达图形处理器相当的芯片。对 Nvidia GPU 服务器的需求激增,导致微软和 OpenAI 等客户的成本上升。除了控制成本,微软还有其他潜在的理由支持 Altman 的替代芯片。GPU 的迅速发展使 Nvidia 控制着市场,因为它能决定哪些客户能获取最多的芯片,并帮助与微软竞争的小型云计算提供商。Nvidia 还向自己的客户转售云服务器。


无论微软是否参与,奥特曼的努力都需要大量投资于电力和数据中心,以满足芯片的需求。参与讨论的人表示,“星际之门”的目标是让微软和 OpenAI 有选择地使用除了英伟达之外的其他公司生产的 GPU,比如 AMD,甚至是微软最近推出的人工智能服务器芯片。目前还不清楚奥特曼是否相信他未来几年计划开发的理论 GPU 能够为“星际之门”做好准备。


“星际之门”超级计算机的总成本可能会取决于软件和硬件的改进,随着时间的推移,数据中心的效率会越来越高。据知情人透露,两家公司已经讨论了使用核能等替代能源的可能性(亚马逊刚刚购买了宾夕法尼亚州一个可以使用核能的数据中心)。据两位参与谈判的人士透露,微软也曾讨论过竞购该数据中心。奥特曼本人也表示,开发超级智能可能需要在能源方面取得重大突破。


并非坦途

这两位人表示,要将“星际之门”变为现实,微软还必须克服几项技术挑战。例如,目前的设计方案要求在一个机架上安装比微软习惯的更多 GPU,以提高芯片的效率和性能。他们指出,由于 GPU 的密度更高,微软还需要想办法防止芯片过热。


微软和 OpenAI 还在讨论使用哪种电缆将数百万个 GPU 串联起来。网线对于大量数据快速进出服务器芯片至关重要。据两位参与讨论的人透露,OpenAI 已经告诉微软,它不想在“星际之门”超级计算机中使用 Nvidia 专有的 InfiniBand 电缆,尽管微软目前正在其现有的超级计算机中使用 Nvidia 电缆。OpenAI 希望使用更通用的以太网电缆。


人工智能计算比传统计算更昂贵、更复杂,这也是为什么各家公司都密切关注其人工智能数据中心的细节,包括 GPU 的连接和冷却方式。英伟达公司首席执行官黄仁勋曾表示,在未来四到五年内,企业和国家将需要建设价值 1 万亿美元的新数据中心,以处理即将到来的所有人工智能计算。


至少从去年夏天开始,微软和 OpenAI 的高管就一直在讨论数据中心项目。除了首席执行官萨提亚 - 纳德拉和首席技术官凯文 - 斯科特之外,参与超级计算机谈判的其他微软管理人员还包括普拉迪普 - 辛杜和布莱恩 - 哈里。据与他们共事过的人说,普拉迪普 - 辛杜负责微软数据中心人工智能服务器芯片缝合方式的战略,而布莱恩 - 哈里则负责帮助 Azure 云服务器部门开发人工智能硬件。


目前,合作双方仍在讨论一些关键细节,可能不会很快敲定。目前还不清楚这台超级计算机的实际位置,也不清楚它是建在一个数据中心内,还是建在临近的多个数据中心内。人工智能从业者表示,当 GPU 集群位于同一个数据中心时,它们的工作效率往往更高。


OpenAI 已经超越了微软在数据中心方面的极限。在 2019 年对这家初创公司进行初始投资后,微软建造了第一台 GPU 超级计算机,其中包含数千个英伟达(Nvidia)GPU,以处理 OpenAI 的计算需求,并在数年内为该系统花费了 12 亿美元。一位了解 OpenAI 计算需求的人士表示,微软已计划在今明两年为 OpenAI 提供总计数十万个 GPU 的服务器。


GPT-5 是下一个晴雨表


微软和 OpenAI 对世界一流数据中心的宏伟设计,几乎完全取决于 OpenAI 能否帮助微软证明对这些项目的投资是正确的,即在超级智能方面取得重大进展,这种超级智能有助于解决癌症、核聚变、全球变暖或殖民火星等复杂问题。


这样的成就可能只是一个遥不可及的梦想。虽然一些消费者和专业人士已经接受了 ChatGPT 和其他会话式人工智能以及人工智能生成的视频,但要将这些最新突破转化为能够产生可观收入的技术,可能需要比该领域从业者预期的更长的时间。亚马逊(Amazon)和谷歌(Google)等公司已悄然降低了对销售额的预期,部分原因是这类人工智能成本高昂,需要大量工作才能在大型企业内部推出,或为数百万人使用的应用程序提供新功能。


奥特曼在上个月的一次英特尔活动上说,当研究人员向人工智能模型投入更多计算能力时,人工智能模型会 "可预见地变得更好"。OpenAI 已经发表了关于这一主题的研究报告,并将其称为对话式人工智能的 "扩展法则"。


Databricks 公司首席执行官阿里 - 戈德西(Ali Ghodsi)表示,OpenAI 不断提高计算能力(以扩大现有人工智能的规模)有可能导致客户陷入'幻灭的低谷',因为他们意识到了这项技术的局限性。他说:“我们应该真正专注于让这项技术对人类和企业有用。这需要时间。我相信它会令人惊叹,但这不会一蹴而就。”


对于 OpenAI 来说,证明其下一个主要的对话式人工智能(被称为大型语言模型)明显优于 GPT-4(其目前最先进的 LLM)的赌注很大。一年前发布了 GPT-4 的 OpenAI,谷歌在此期间也发布了一个类似的模型,试图迎头赶上。一位知情人士透露,OpenAI 的目标是在明年初发布下一个主要的 LLM 升级版本。在此之前,OpenAI 可能会发布更多 LLM 的增量改进。


有了更多的服务器,OpenAI 的一些领导者认为,公司可以利用现有的人工智能和最近的技术突破(如 Q*-- 一种可以推理出以前没有训练过的数学问题的模型)来创建合适的合成(非人类生成)数据,以便在人类生成的数据用完后训练出更好的模型。这些模型或许还能找出现有模型(如 GPT-4 模型)的缺陷,并提出技术改进建议 -- 换句话说,这就是自我完善的人工智能。




参考资料:

1.https://www.theinformation.com/articles/microsoft-and-openai-plot-100-billion-stargate-ai-supercomputer?rc=ypdxx3

【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

阿法兔研究笔记
数据请求中
查看更多

推荐专栏

数据请求中
在 App 打开