博通昨天盘中飙了约11%,英伟达却没怎么跟上。市场在短时间里把这个数字跟谷歌刚刚公布的Gemini联系到一起,觉得这次的上涨不是偶然。

要把这个事儿看清楚,先把视角放远一点:过去几年里,许多人都习惯把AI算力简单地等同于英伟达的GPU。实际是,大多数模型训练、推理的确 大量依赖通用GPU,这种工具性带来了巨大的商业回报,也造就了英伟达接近75%的毛利率。换句话说,买H100的账单里,有很大一部分是为英伟达的通用性和生态付钱的。
回过头来看昨天的触发点。谷歌把Gemini推到台面上,那个模型能做的事和它背后的运行方式,让人注意到一个硬件选择的分岔路口。谷歌并没有把这套极大模型完全交给通用GPU来跑,而是用自己设计的张量处理单元TPU,第六代的TPU v5p,还有接下来会用到的Trillium做底座。它们在长上下文、多模态处理上的表现,是建立在专门为Transformer类矩阵运算裁剪过的硬件之上的,不是把通用功能堆满再去适配。
往前再退一步,OpenAI那边依旧大量用英伟达的H100训练早期的大模型,这种用法把英伟达的地位放在了显眼位置。但谷歌选择走另一条路,就开始动摇“只有GPU能撑起高级AI”的认知。定制ASIC的成本很高,流片(NRE)费用那一项不是小数目,但当你的规模够大,分摊到每次训练的成本就会降下来,这会直接改变长期的TCO(总体拥有成本)计算。
这件事里,博通不是一个简单的配角。谷歌能把TPU架起来,除了架构和算法,自身还需要把这些逻辑设计落成能跑在数据中心的实际硅片上,并在高带宽内存(HBM)接口、SerDes高速串并行接口、片间互联等环节做到极致。这些都是博通擅长的领域。换句话说,谷歌画了车的蓝图,博通帮忙造了发动机里那些精密的传动和高速通信部件,最后再交给台积电流片。
博通手里有行业领先的高速混合信号IP,这些技术在实现大规模互联和低延迟传输上很关键。市场开始意识到,协助巨头定制XPU(各种定制计算单元)和提供关键互联组件,已成为博通的新生意。公司在财报电话会上透露,AI相关收入正快速增长,预计2024财年会跨过100亿美元门槛。这不是小钱,说明巨头们愿意把大笔开支投向“去通用化”的硬件路线。
再说网络问题,这往往被外行忽略。到了万亿参数级别,单卡算力已经不是瓶颈,瓶颈变成了成千上万张卡之间的数据如何高效移动。英伟达有自己的InfiniBand和NVLink,尝试把计算和网络绑在一起卖一个封闭的套装;博通则在数据中心交换芯片领域多年耕耘,Tomahawk、Jericho这些系列是业界常见的基石产品。更重大的是,博通推动以太网路线,主导了所谓的Ultra Ethernet方向,主张用开放的以太网+高性能SerDes来替代昂贵且封闭的InfiniBand。这套组合在谷歌的TPU大规模扩张里扮演了重大角色:光路交换(OCS)和高效的互联设计让整个系统能线性扩展到数万个Pod。
数据方面也给了直观的对比。第三方机构的测算显示,在同等算力需求下,TPU v5p在大规模部署时的TCO比租用英伟达H100集群低大约30%。当模型训练需要数万张卡连续数月时,这差距就不是小数目,而是能把数亿美元利润搬走的量级。对那些年采购硬件上亿级别的云厂商和互联网巨头来说,这不仅是省钱,还是战略层面的选择。
博通的角色还不仅限于谷歌。市场怀疑它可能会参与或推动Meta下一代MTIA芯片、甚至支持字节跳动等公司做自研硬件。这样一来,原本被视为英伟达市场的部分,开始被“定制+互联”的组合系统性蚕食。博通把为超大规模用户做定制变成一套可复制的服务,这本身就是一种商业模式上的迁移。
英伟达的优势也在那儿:CUDA生态、开发者习惯、广泛的兼容性,让它在通用市场上的统治短期内难以被撼动。对中小客户和大多数开发者来说,通用GPU仍是最方便的选择。但头部客户的算力需求和成本考量不一样,他们有能力也有动力去投资定制硬件,这一点被谷歌的做法验证了。
把视角再拉远一点看,博通CEO陈福阳的经营风格解释了公司的打法。他不靠炒作,注重现金流和能形成护城河的技术。卖给大家“挖金子的铲子”似乎更适合他:不必站在舞台中央,只要手里的工具别人离不开就够了。
某种程度上,昨天的股价波动是市场对这些链条重估的一次反应。投资者在重新算账:如果越来越多的巨头把算力从标准化GPU向定制硬件迁移,那么涉及到设计、互联和高速接口的公司会更吃香。是不是会走到那一步,时间和几个季度的数据会告知我们。