就在去年,H100 GPU 的每小时租赁价格还高达 8 美元。可现如今,不单可选的租赁商更加丰富,市场平均价甚至开始低于 2 美元。短短时间究竟发生了什么?
最近,英伟达的全新 Blackwell 系列已经开始向 OpenAI 出货,甚至表示明年的产能储备已经售罄。消息一出立即引起广泛关注,甚至有声音认为这将是“行业历史上最成功的产品”。
与此同时,各前沿实验室在训练和推理方面的支出仍然高于实际收入。尽管 OpenAI 在史上最大规模的一轮风险投资中筹集到 66 亿美元,但仍预计 2026 年的亏损额将达到 140 亿美元。如果不能实现通用人工智能(AGI),生成式 AI 的整个财务逻辑都根本解释不通。
本文的“太长不看”版:别买 H100。随着预留计算转租、开放模型微调和新型基础设施厂商的衰落,GPU 资源已经从供应短缺(对应 8 美元 / 小时)转变为供过于求(2 美元 / 小时)。所以,去租,别买。对于常规市场而言,在目前供应过剩的情况下,大家已经可以用接近成本的价格租到 GPU 资源,所以投资购置新 H100 已经失去意义。
ChatGPT 于 2022 年 11 月发布,当时配套的 GPU 是 A100 系列。H100 于 2023 年 3 月上市,给投资者和创始人们的宣传线 倍。
也就是说,只要能够迅速出手在 H100 身上砸下资金,买家就能建立起规模更大、质量更高的模型,甚至有望超过 OpenAI 率先实现通用人工智能——一切的前提,就是要有钱!
怀着这种愿望,数十亿美元被砸向握有 GPU 资源的 AI 初创公司,旨在推动下一轮技术革命。于是乎,
市场价格一路飙升,H100 最初的租赁价格约为每小时 4.70 美元,但很快涨到了 8 美元以上。对于绝望的创始人们来说,为了尽早让自己的模型开始训练,他们必须想办法说服投资者参与一轮又一轮的亿级美元融资。
而从 2024 年开始,多家服务商的 H100 租赁价来到 2.85 美元。随着越来越多服务商相继上线,我开始收到这样的邮件:
这就太可怕了,肯定会有人因此蒙受损失——特别是对那些新款 GPU 的买家来说。可是,究竟发生了什么?
这里我们只根据各种市场价格,尝试讨论经济成本和租赁投资回报率。机会成本或者商业价值不在讨论范围之内。
对于上述投资回报与收入预测,我们引入了“混合价格”的概念,即假设租金会在 5 年之内逐渐下降至 50%。
考虑到 GPU 目前每年的租赁价格跌幅超过 40%,可以说 5 年才降至一半已经是个相当乐观的前提,但至少这能在一定程度上勾勒出 GPU 的投资回报走势。
按每小时 4.50 美元的起始价格计算,哪怕是基于混合价格,整个回本周期也只有两年,相当于内部收益率(IRR)超过了 20%。
然而如果按每小时 2.85 美元计算,则内部收益率将仅仅略高于 10%。也就是说,如果我们当下购买一台全新 H100 服务器,而市场租赁价格又不到每小时 2.85 美元(毕竟谁也不敢说肯定能租出高于市场平均的价位),那这买卖还勉强能做。如果更低,不如直接去买股票,回报率要比建设 H100 基础设施更好。
如果价格跌破每小时 1.65 美元,那么五年周期之内基础设施服务商反而会遭受亏损。特别是如果今年才决定购买节点和集群,那结果将更加惨痛。
所以在去年的最新周期内,他们开始大力推动 3 到 5 年的预付款租约及 / 或 4 美元以上价位的订单(预付比例一般在 50% 到 100%)。如今,他们将价格范围调整到了 2.85 美元以上,为的就是能把利润牢牢锁住。
2023 年 AI 大爆发期间,各种基础模型公司(特别是图像生成领域)只能接受这种为期三到五年的高价合格,只为跟上行业趋势、保持自身竞争力、率先发布自己的目标模型。如果不这么做,他们将失去竞逐下一轮融资的机会,直接人间蒸发。
这事当然不经济,但能否比竞争对手行动更快将决定一切。而这也引发了有趣的市场动态——如果愿意为 H100 支付每小时 3 到 4 美元的价格,那么在接下来的三年之内,你将再无改价的余地。
可是在模型训练完成之后,也就不需要集群了,那他们会怎么做?答案很简单,继续转租来收回部分成本。
算力容量经销商:Runpod、SFCompute、Together.ai、Vast.ai、GPUlist.ai 等;
虽然堆栈之下的任何层间都可以垂直集成(例如跳过基础设施运营方),但其中最核心的驱动因素是“尚有闲置容量的经销商”和“高质量”开放权重模型(例如 Llama 3)的兴起,这些正是当前 H100 经济压力的主要来源。
由于大量“开放”模型缺乏适当的“开源”许可证,但却允许免费分发并进行广泛使用,甚至应用于商业用途,因此我们在这里将其统称为“开放权重”或者“开放”模型。
如今,对于企业可能需要的绝大多数用例,现成的开放权重模型都能很好地提供支持。在某些基准测试中,它们往往只比最先进的专有模型稍逊一筹。这带来了以下优势:
可靠性:不再需要通过小规模模型更新影响用例(目前社区相当抵触通过公共 API 端点,以未经通知而悄悄变更的方式调整模型权重,因此生成结果的解释和溯源相对较好);
这里的“模型创建者”,是对那些从头开始构建模型的组织的统称。对于主做微调开发的,我们称之为“模型微调者”。
众多企业乃至中小型基础模型初创公司——特别是那些以“小体量、专精型领域特定模型”为卖点的厂商,都没有从头开始训练大规模基础模型(大于 70B 参数)的长期计划 / 目标。
对这两类群体来说,对现成的开放权重模型进行微调,要远比“自主训练”更加经济和高效。于是乎,H100 的市场需求就迎来了三重打击:
与从头开始训练(对于 7B 参数及以上模型,至少需要 16 个节点甚至更多)相比,微调对于算力资源的要求要低很多(通常为 4 个或者更少节点,大多只需要单个节点)。这种全行业式的转变,实际上消除了很大一部分小型集群需求。
2023 年,在文本和图像领域出现了很多的中小型基础模型。然而如今,除非大家有绝对的信心可以超越 Llama 3,或者引入了一些全新的元素(例如新架构、百分之一级别的推理成本、上百种语言支持等),否则根本就不会再从头开始开发新的基础模型。一般而言,大型企业(Facebook 等)定期发布的中小型开放模型,已经让小公司没有理由再训练自己的基础模型(除非在技术或者数据层面有着强大的差异化优势),甚至不再需要向更大的模型扩展。最近投资者的倾向也反映了这一点,新基础模型创建者能够获得的资金急剧下降。绝大多数小规模组织已经转向微调(也有不少公司被迫退出市场)。
就目前的情况看,我估计全球范围内大约只存在不到 20 家大规模模型创建团队(即远超 70B 级别的参数,但其同时也可能开发小体量模型);不到 30 家中 / 小规模模型创建团队(参数在 7B 到 70B 之间)。总的来说,全球只有不到 50 支团队愿意随时采购 16 个或者更多的 H100 节点以进行基础模型训练。全球共有 50 多个容纳有 16 节点以上的 H100 集群。
对于集群所有者,特别是各类基础模型初创公司和风险投资公司来说,他们在 2023 年最初的“圈地运动”中签下了大量长期租约。随着负载类型转向微调,加上 H100 的交货周期太过漫长(峰值时超过 6 个月),其中不少很可能已经预付了款项,最终造成了承租硬件“到手即过时”的局面。或者,哪怕是按时拿到了硬件来训练自己模型的企业也已经意识到,下一个迭代模型最好采用微调方式开发,而不再自主构建。
无论是以上哪种情况,他们都将掌握大量闲置容量,而这些容量将通过调控市场供应的“算力经销商”面向广大用户开放。
所有主要模型创建者,包括 Facebook、X.AI 乃至 OpenAI(算作是微软的一部分),都在尝试摆脱现有公有云提供商并构建起自己价值数十亿美元的集群,旨在消除对外部资源的依赖。这一举措主要出于以下考量:
现有的约 1000 节点集群(构建成本超过 5000 万美元)体量不够,无法训练出更大的模型;
在十亿美元的规模下,财务部门更倾向于采购具有账面价值(即充当公司估值及资产)的资产(例如服务器和土地等),而不愿接受纯粹的开支性租赁成本;
在大多数情况下,集群所有者掌握着一套小型或者中型集群(通常拥有 8 到 64 个节点),但资源利用率却很低。这对已经花出去的集群采购资金来说,肯定不是笔好买卖。所以为了尽可能多地收回成本,他们宁愿削弱市场价位来增加供应,而这必然会让各大主要供应商的日子也不好过。
这部分供应主要依托于固定费率、拍卖系统或者自由市场交易等方式交付,而后面两种都会压低市场价格。
性能是三分之一,价格是五分之一,唯一短板就是不适用于多节点训练。英伟达自己就在削弱 H100 在这部分细分市场的定价权。
AMD 和英特尔分别发布了 MX300 和 Gaudi 3,虽然迟迟没有投放市场,但早已在用户心中埋下了期待的种子。我们对这些系统进行了测试和验证,并发现:
虽然受到硬件限制(例如 PCIe 带宽不足、网络传输不稳定等),绝大多数 GPU 无法被用于训练甚至是推理类工作负载,但转售的硬件已经充斥市场,并被重新收归 AI 工作负载所用。所以在多数情况下,只要大家的预期参数规模低于 10B,就完全可以用极低的价格获取这些 GPU 并获得不错的性能表现。
如果再做进一步优化(例如使用各种技巧),甚至可以让 405B 级别的模型在这类小型硬件集群之上运行,且成本要远低于 H100 节点。
从宏观角度看,预计大规模集群仍将拥有一定的溢价空间(但不高于 2.90 美元 / 小时),毕竟这部分负载仍然别无选择。
更具体地讲,使用 Infiniband 的集群将继续保持较高费率。而基于以太网的实例则更适合推理,且价格相对更低,并可根据具体用例 / 可用性进行价格调整。虽然基础模型创建者团队总体呈下降趋势,但很难预测这是否会随着开放权利及 / 或替代架构的增长而复苏。
预计未来我们还会看到按集群规模进行的深层细分,即使用 Infiniband 的大规模 512 节点集群的每 GPU 费用,可能会高于 16 节点集群。
如果受种种不利因素影响而导致当前定价低于 2.25 美元,那么一旦您的运营成本优化不够彻底,很可能会面临无利可图的风险。而如果定价过高(超过 3 美元),则可能无法吸引到足够的买家来消化容量。继续观望?那更不行,在有限的 GPU 寿命周期之内,我们必须想办法收回当初按 4 美元 / 小时合同约定的高昂成本。
虽然我认为实际情况没这么悲观,但如果新集群真在 AI 投资组合中占据很大一部分,那么资金链因此断裂的资方很可能身陷困境,最终引发新一轮连锁反应。
不好不坏:相较于采购或签订长期租约的大规模模型创建者,中型模型创建者获得的转租价值仍有机会抵消溢价
这不是在安慰大家,部分将未使用计算资源转租出去的模型创建者已经开始获取回报。融资市场已经为此类集群及其模型训练定价并支付了费用,额外“提取的价值”将可用于支撑当前及下一轮融资。
考虑到开放权重模型已经来到 GPT4 的水平,H100 价格下跌或将成为开放权重 AI 普及的放大器。对于业余爱好者、AI 开发人员以及业内工程师来说,运行、微调和修改这些开放模型的成本将越来越低。特别是如果后续发布的 GPT5++ 没有什么重大飞跃,则意味着开放权重模型和闭源模型之间的边界将愈发模糊。