首页 手机网
入驻财经号 登录 客服 |
首页> 股票> 正文

TPU集群利好光模块?谷歌论文里好像不是这么写的

财经号APP
估值之家估值之家 2025-11-27 10:26:50 786
分享到:

  

  受各类难以考证的“小作文”、市场情绪推动、以及卖方分析师的观点影响,11月26日光模块行业普遍大涨,逻辑也很简单:谷歌的成功也是靠堆算力,光模块就是谷歌英伟达之战的铲子股,不管谁当县长,光模块都是县长夫人。

  然而,事实真的是这样吗?对于更加专业的投资者来说,面对行业中出现的新变化,选择更加严谨和理性一些,或许更为妥当。

  谷歌的两篇重磅论文

  关于谷歌TPU集群的架构,谷歌曾发表过两篇重磅论文:

  第一篇是在SIGCOMM 2022上发表的论文《Jupiter Evolving: Transforming Google's Datacenter Network via Optical Circuit Switches and Software-Defined Networking》,这是谷歌官方首次大规模公开其数据中心网络架构演进细节的论文,主要讲述了谷歌TPU集群的设计理念;

  第二篇是2023年在ISCA上发表的论文《TPUv4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings》,详细披露了TPU v4的互联架构,主要讲述了TPU v4集群如何通过OCS构建3D Torus拓扑架构。

  估值之家作为一家财经媒体,本身是中立的,并不指向明确的观点和结论,因此估值之家只负责提出一些疑问,具体的结论需要由读者自己思考后给出。

  在估值之家仔细阅读完上述两篇文论后,有一个比较困惑的点是:如果真的按“小作文”所说,TPU集群是利好光模块的,这似乎与谷歌设计TPU集群架构的理念是背道而驰的?

  在正文论述前,需要特别指出:自己发表的论文,相比于产业专家、卖方分析师、“小作文”等渠道,未必具有更高的权威性,因为谷歌现在已经进化到基于Ironwood的TPU v7集群,其最新架构并未公开,部分“小作文”也有可能是已经在非公开渠道了解到TPU v7的最新架构后,才发布出来的。

  另外,还需要指出的是,不能小看谷歌在通信领域的技术实力和产业地位,谷歌所采用的技术方案未必就不如英伟达收购Mellanox后的技术差,甚至更优。

  谷歌TPU集群 vs 英伟达GPU集群

  在芯片层面,作为ASIC的Ironwood和作为GPU的GB200,前者应用范围较窄、后者应用范围更广,但在AI大模型中的用途相似,不再过多叙述。

  谷歌TPU集群显著有别于英伟达GPU集群的差异是:谷歌引入了基于MEMS的OCS光交换机,创新性的采用了3D Torus拓扑架构,这显著有别于英伟达的Clos拓扑架构。

  更具体地说,在Scale Out层面,英伟达的Clos拓扑是脊(Spine)、叶(Block)、机架(Machine Racks)三层架构,三层架构之间时刻发生着海量的光电转化,而这非常依赖基于博通Tomahawk系列芯片的EPS电交换机,以及A股上市公司的光模块。

  

  图片说明:英伟达GPU集群架构,数据来源于谷歌论文

  谷歌在论文中指出,Clos拓扑的缺点在于:随着每隔2~3年算力和传输的大幅提高(如200G到800G到1.6T),除了要换新的芯片以外(如H100到BlackWell再到Rubin),还需要更换EPS电交换机、光模块等,这使得资本开支非常庞大。此外,谷歌还指出,EPS电交换机需要进行大量的光-电-光转换,随着速率提升,功耗和散热成本急剧上升。

  针对Clos拓扑结构的缺点,谷歌移除了Clos拓扑架构中的脊,并引入OCS光交换机,在谷歌3D Torus拓扑架构中,没有光电转换,纯物理光路反射,OCS不关心光信号里跑的是40G、100G还是800G,OCS只负责反射光,不负责光转换电、或电转换光,这意味着未来算力升级时,OCS是不需要更换的。

  换句话说,OCS的寿命比EPS电交换机长的多。

  

  图片说明:谷歌TPU集群架构,数据来源于谷歌论文

  谷歌TPU集群中光模块用量真的会增加吗?

  关于谷歌TPU架构的内容、优缺点等还有很多,不再详细论述。关于光模块的部分,上面的内容已经足够提出关于“TPU集群增加光模块用量”的质疑了。

  在英伟达GPU集中,两个机架A和B之间进行通信,A出口需要一次电转光、Spine入口需要一次光转电、Spine出口需要一次电转光、B入口需要一次光转电。

  在谷歌TPU集群中,两个机架A和B之间进行通信,A出口需要一次电转光、光被OCS的MEMS镜面反射到B的入口,B入口需要一次光转电。

  显然相比于英伟达GPU集群方案,谷歌的TPU集群方案中,光电转换的次数减少了,而光模块的作用正是光电转换,那为什么还要增加光模块的用量呢?

  最后,或许限于认知所限,上述关于“TPU集群增加光模块用量”的质疑在逻辑上还有待商榷,但谷歌在论文《Jupiter Evolving: Transforming Google's Datacenter Network via Optical Circuit Switches and Software-Defined Networking》的开头摘要中,明确指出了“30% reduction in CAPEX”,或许还是值得重视的。

  

  

财经号声明: 本文由入驻中金在线财经号平台的作者撰写,观点仅代表作者本人,不代表中金在线立场。仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。同时提醒网友提高风险意识,请勿私下汇款给自媒体作者,避免造成金钱损失,风险自负。如有文章和图片作品版权及其他问题,请联系本站。

0条评论 网友评论文明上网,理性发言

中金登录 微博登录 QQ登录

    查看更多评论

    举报此人

    X
    确认
    取消

    热门视频换一批

    温馨提示

    由于您的浏览器非微信客户端浏览器,无法继续支付,如需支付,请于微信中打开链接付款。(点击复制--打开微信--选择”自己“或”文件传输助手“--粘贴链接--打开后付款)

    或关注微信公众号<中金在线>底部菜单”名博看市“,搜索您要的作者名称或文章名称。给您带来的不便尽请谅解!感谢您的支持!

    复制链接

    鲜花打赏 X

    可用金币:0

    总支付金额:0

    您还需要支付0
    我已阅读《增值服务协议》
    确认打赏

    1鲜花=0.1元人民币=1金币    打赏无悔,概不退款

    举报文章问题 X
    参考地址

    其他问题,我要吐槽

    确定

    温馨提示

    前往财经号APP听深入解析

    取消 确认