欢迎进入华体会HTH登陆

璐琥铝业

用心服务 共赢未来

全国咨询热线:

15021644131(微信同号)

华体会HTH登陆
华体会HTH登陆:谷歌对外销售芯片:博通大涨英伟达AMD应声下跌
来源:华体会HTH登陆    发布时间:2025-11-26 20:39:36
产品详情

华体会hth最新网站:

  据报道,谷歌母公司Alphabet (正与Meta Platforms 等公司洽谈,希望它们能使用谷歌的Tensor AI芯片,此举将加剧其与英伟达的竞争。谷歌及其AI芯片合作伙伴博通股价尾盘上涨,而英伟达和AMD股价则下跌。

  谷歌传统上将客户使用的张量处理单元(TPU)用于自己的数据中心,然后出租给客户。但据The Information周一晚间报道,谷歌现在开始向客户出售TPU,供其在自己的数据中心使用。

  报道指出,Meta Platforms 正在考虑从 2027 年开始在其数据中心购买价值数十亿美元的谷歌 TPU,同时最早从 2026 年就开始从谷歌云租用 TPU 容量。Meta 一直以来主要是依靠英伟达图形处理器 (GPU) 来满足其人工智能需求。

  对于谷歌和博通(它们参与了Tensor AI芯片的设计)来说,这可能是一个巨大的新市场。但它也可能对英伟达和AMD构成重大竞争,威胁到它们巨大的销售和定价权。

  受The Information报道的影响,谷歌股价在盘后交易中上涨超过2%,博通股价上涨近2%,延续了常规交易时段的强劲涨势。

  周一,博通股价飙升 11.1%,达到 377.96 美元,重新再回到 50 日均线之上,并触及投资的人能利用的旧杯柄形态买入点 363.24 美元。

  谷歌股价周一上涨 6.3%,至 318.58 美元,创下新高,此前一周已上涨 8.4%。

  英伟达股价在盘后交易中下跌近2%。周一,该股上涨2.05%至182.55美元,但仍低于50日均线。

  AMD股价在尾盘下跌近2%。周一,AMD股价上涨5.5%至215.05美元,略低于50日均线。

  台积电股价周一上涨3.5%后,尾盘小幅下跌,略低于50日均线。台积电为英伟达、AMD和博通等公司生产芯片。

  小心了,Jensen!谷歌凭借其 TPU 一次又一次地证明,重要的不是加速器的大小,而是它们在生产环境中扩展的效率。

  如今,随着最新一代 Ironwood 加速器计划在未来几周内全面上市,Chocolate Factory 不仅拥有规模优势,而且还配备了强大的张量处理单元 (TPU),足以与 Nvidia 的 Blackwell巨兽一较高下。

  谷歌的 TPU v7 加速器于 4 月份首次发布,同时还与 El Capitan 超级计算机进行了滑稽的糟糕比较——不,Ironwood TPU Pod 的速度并不是美国能源部最大的钢铁机器的 24 倍——与前几代相比,谷歌的 TPU v7 加速器在性能上有了重大飞跃。

  从历史上看,谷歌的 TPU 在原始 FLOPS、内存容量和带宽方面一直远逊于英伟达以及最近的 AMD 等公司的当代 GPU,谷歌只是通过增加 TPU 的数量来弥补这一不足。

  谷歌以 Pod(大型、可扩展的计算域)的形式提供其 TPU,每个 Pod 包含数百甚至数千个芯片。若需要额外的计算能力,用户都能够扩展到多个 Pod。

  在将浮点运算性能标准化到相同精度后,谷歌的 TPU v7 加速器提供的性能与英伟达 Blackwell GPU 的性能非常接近。

  简而言之,Ironwood 是谷歌迄今为止功能最强大的 TPU,其性能是 TPU v5p 的 10 倍,是去年发布的 TPU v6e“Trillium”加速器的 4 倍,并且大致与英伟达和 AMD 的最新芯片的性能相当。

  但正如我们之前提到的,谷歌真正的诀窍在于能够将TPU扩展到真正庞大的计算域。英伟达的NVL72机架式系统利用其专有的NVLink互连技术,将72个最新的Blackwell加速器连接成一个单一的计算域。AMD明年也将在其Helios机架式系统和MI450系列中实现类似的功能。

  Ironwood不单单是对谷歌第六代 TPU 的渐进式改进。根据该公司公布的技术规格,与上一代产品相比,Ironwood 在训练和推理工作负载方面的性能提升超过四倍——谷歌将这一提升归功于系统级协同设计方法,而不仅仅是增加晶体管数量。

  该架构最引人注目的特点是其规模。单个 Ironwood“模块”(由紧密集成的 TPU 芯片组成,作为一个超级计算机运行)能够最终靠谷歌专有的芯片间互连网络连接多达 9216 个独立芯片,传输速度高达每秒 9.6 太比特。为了更直观地理解这个带宽,它大致相当于在不到两秒的时间内下载整个美国国会图书馆。

  这种庞大的互连架构使9216颗芯片能够共享1.77PB的高带宽内存——其速度足以跟上芯片的处理速度。这相当于约4万部高清蓝光电影的工作内存,可供数千个处理器同时即时访问。谷歌在技术文档中指出:“作为参考,这在某种程度上预示着Ironwood Pods的FP8 ExaFLOPS性能是其最接近的竞争对手的118倍。”

  该系统采用光路交换技术,构成一个“动态可重构架构”。当个别组件出现故障或要维护时(在这种规模下,这样的一种情况不可避免),OCS 技术会在几毫秒内自动将数据流量绕过中断点,从而使工作负载能够继续运行,而不会对用户造成任何可见的干扰。

  这种对可靠性的重视体现了从前五代TPU部署中汲取的经验教训。谷歌报告称,自2020年以来,其液冷系统的整体正常运行时间从始至终保持在约99.999%的可用性水平——相当于每年停机时间不到6分钟。

  需要明确的是,包含数十万个英伟达GPU的计算集群确实存在,而且实际上已经很常见。不同之处在于,在Blackwell架构之前,这些集群都是使用八路GPU单元构建的,并以大规模横向扩展的方式排列。英伟达的NVL72将计算单元的性能提升了九倍,但仍然远不及谷歌的TPU POD。

  谷歌扩展计算架构的方法与英伟达截然不同。这家GPU巨头为其机架级平台选择了一种大型、相对扁平的交换机拓扑结构,而谷歌则采用了一种3D环面拓扑结构,其中每个芯片都以三维网格的形式与其他芯片连接。

  这种拓扑结构无需使用高性能数据包交换机,而高性能数据包交换机价格昂贵、耗电量大,并且在高负载下可能会引入不必要的延迟。

  虽然环面拓扑可以消除交换机延迟,但网状拓扑意味着任何一个芯片与其他芯片通信可能需要更多跳数。随着环面规模的扩大,芯片间延迟的可能性也会增加。利用交换机,英伟达和AMD能保证其GPU与下一个芯片之间的距离最多不超过两跳。

  据我们了解,哪种方案更优取决于工作负载。某些工作负载可能受益于大型多跳拓扑结构,例如谷歌 TPU pod 中使用的 2D 和 3D 环面,而另一些工作负载则可能在英伟达和 AMD 机架式设计所提供的较小规模的交换式计算域上表现更佳。

  因此,谷歌采用了一种不同的交换技术,使其能够将 TPU 模块切割成各种形状和尺寸,以便更好地适应其自身内部和客户的工作负载。

  与你可能熟悉的包交换机不同,谷歌采用的是光路交换机(OCS)。这种交换机更像是20世纪的电话交换机。OCS设备使用多种方法(例如MEMS器件)将一个TPU连接到另一个TPU。由于这种连接通常是通过物理方式将一个端口连接到另一个端口来实现的,因此几乎不会引入延迟。

  此外,OCS 还有助于提高容错能力,因为如果 TPU 出现故障,OCS 设备能将其从网络中移除,并用正常工作的部件替换它。

  尽管像谷歌Ironwood这样的AI加速器在AI时代的计算领域往往抢尽风头,但CPU对于应用程序逻辑、服务托管以及运行某些AI工作负载(例如数据采集)仍然至关重要。因此,除了第七代TPU之外,谷歌还在部署其首款基于Armv9架构的通用处理器,名为Axion。

  谷歌尚未公布其 Axion CPU 的完整芯片规格:目前尚不清楚每个芯片的核心数量(除了 C4A Metal 实例最多可支持 96 个虚拟 CPU 和 768 GB DDR5 内存之外),也未公开时钟频率和工艺节点等信息。我们已知的是,Axion 基于 Arm Neoverse v2 平台构建,旨在提供比现代 x86 CPU 提升高达 50% 的性能和高达 60% 的能效,以及比目前云端速度最快的通用 Arm 架构实例高出 30% 的性能。有报道称,该 CPU 每个核心配备 2 MB 私有 L2 缓存,80 MB L3 缓存,支持 DDR5-5600 MT/s 内存,并支持统一内存访问 (UMA)。

  Axion战略体现了一种日益增强的信念,即未来的计算基础设施既需要专用AI加速器,也需要高效的通用处理器。TPU负责运行AI模型这一计算密集型任务,而Axion级处理器则负责管理数据摄取、预处理、应用逻辑、API服务以及现代AI应用堆栈中的无数其他任务。

  早期客户反馈表明,这种方法能带来可衡量的经济效益。Vimeo 在初步的 N4A 测试中报告称,与同类 x86 虚拟机相比,其核心转码工作负载的性能提升了 30%。ZoomInfo 的首席基础设施架构师 Sergei Koren 表示,该公司在 Java 服务上运行的数据处理管道的性价比提升了 60%。

  如果开发者无法轻松利用硬件性能,那么硬件性能就毫无意义。谷歌强调,Ironwood和Axion都集成到了其所谓的AI 超级计算机中——“这是一个集成了计算、网络、存储和软件的超级计算系统,旨在提高系统级性能和效率。”

  根据 IDC 2025 年 10 月发布的《商业经济价值快照》研究,人工智能超级计算机客户平均实现了 353% 的三年投资回报率、降低了 28% 的 IT 成本,并提高了 55% 的 IT 团队效率。

  谷歌公布了多项旨在最大限度提高 Ironwood 利用率的软件增强功能。谷歌 Kubernetes Engine现在为 TPU 集群提供高级维护和拓扑感知功能,以此来实现智能调度和高弹性部署。该公司开源的 MaxText 框架现在支持包括监督式微调和生成式强化策略优化在内的高级训练技术。

  对于生产环境部署而言,谷歌推理网关最重要的优势或许在于它能够智能地在模型服务器之间进行请求负载均衡,从而优化关键指标。据谷歌称,通过前缀缓存感知路由等技术,它可以将首次令牌延迟降低 96%,并将服务成本降低高达 30%。

  推理网关会监控关键指标,包括键值缓存命中率、GPU 或 TPU 利用率以及请求队列长度,然后将传入的请求路由到最佳副本。对于多个请求可能共享上下文的对话式 AI 应用,将具有共享前缀的请求路由到同一服务器实例可以显著减少冗余计算。

  自 2021 年 TPU v4 发布以来,谷歌就一直在其 TPU pod 中使用2D 和 3D 环面以及 OCS 设备。谷歌在生产环境中运行大规模计算架构方面也经验丰富。

  这些海量计算资源的出现无疑引起了各大模型构建者的关注,这中间还包括那些与谷歌Gemini模型直接竞争的公司。Anthropic是谷歌最大的客户之一,该公司已宣布计划利用多达一百万个TPU来训练和运行其下一代Claude模型。

  考虑到模型开发商 Anthropic 还在Project Rainier下将其工作负载部署到亚马逊数十万台 Trainium 2 加速器上,而这些加速器在其计算结构中也采用了 2D 和 3D 环面网格拓扑结构,因此 Anthropic 采用 Google 的 TPU 技术也就不足为奇了。

  尽管英伟达首席执行官黄仁勋可能会淡化人工智能ASIC对其GPU帝国的威胁,但很难忽视这样一个事实:谷歌、亚马逊等公司的芯片在硬件能力和网络可扩展性方面正在迅速赶上,而软件往往最终成为决定性因素。

  *免责声明:本文由作者原创。文章的主要内容系作者本人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  “港八大”已被内地学霸挤爆!2026香港本科申请时间、学费、高考分数要求汇总

  什么情况?上海市中心大面积爆发!很多人拍下照片,现已捞出8万多吨!最新进展↗

  NBA史上最疯狂MVP争夺战!5人都打出神级表现,场均31+10+6仅第四

  东契奇43+9+13湖人击沉快船杯赛3连胜出线轮不败进前八 阿劳霍染红

  长安马自达吴旭曦:新能源快速地发展背景下,车企需以全球化标准与品质为前提

  无线显卡!七彩虹iGame RTX 50 Ultra Z系列显卡现货发售

推荐产品
联系我们
  • 售后:158-2158-8781
  • 订购:150-2164-4131
  • 邮箱:shluhu8@163.com
  • 地址:江苏省苏州市昆山市千灯镇支浦路23号2号厂房

华体会HTH登陆

【扫一扫关注我们】
  • 首页
  • 电话
  • 返回顶部