(原标题:谷歌云狡计,用了哪些芯片?)
要是您但愿不错常常碰面,接待标星储藏哦~
开端:施行编译自hpcwire,谢谢。
谷歌云狡计正在迎来多半硬件,该公司正在进行要紧升级,准备在来岁将 Nvidia 的 Blackwell GPU 纳入旗下。
10 月下旬通知的升级包括其名为 Trillium 的新 TPU、自主研发的 Axion CPU 和 Nvidia 的新 H200 GPU 的预览。
新硬件被输入到谷歌的“超等狡计机”中,这是一台遍布谷歌云基础瑕玷的大型超等狡计机。它包括一套适用于多种责任负载的种种化软件和芯片居品。
谷歌在系统和软件层面再行计划了其基础瑕玷,为硬件和软件提供了一个通用层。
这也催生了谷歌的超等狡计机,它复古传统狡计和当代狡计。它交融了狡计、集聚、存储和软件,以清闲不同的 AI 和 HPC 吃亏步地。
谷歌副总裁兼狡计和东谈主工智能基础瑕玷总司理 Mark Lohmeyer 在一篇博文中默示,该公司在 10 月下旬还共享了东谈主工智能超等狡计机的办法,它“集成了责任负载优化的硬件(TPU、GPU 和 CPU)、怒放软件和纯果然吃亏模子,为早先进的东谈主工智能模子提供复古”。
Lohmeyer 对 Google Cloud 运作形势的工夫愿景肖似于 Google 公司的精神——接待通盘硬件和软件,为其提供用户友好的器具,并提供一系列吃亏选项。
一款名为 Hypercompute Cluster 的新址品等于按照这个念念路设立起来的,它是一种高度可扩张的集群系统。超等狡计畛域正在奋勉均衡传统的高精度狡计和东谈主工智能估计,因此 Hypercompute Cluster 处理种种责任负载的才智不错弥补模拟和科学狡计之间的差距。
Lohmeyer 默示,该集群将联接谷歌的东谈主工智能基础瑕玷工夫,“无缝部署和处理多半加快器算作一个单位”。
密集托管功能将多个资源连合在一谈,费解量高,因此责任负载不错快速可靠地完成。此功能关于科学狡计和 AI 都很进攻。
Google 的宗旨是为超等狡计机所履行的任务提供保险。举例,Google 但愿通过其吃亏模子为时辰和恶果带来可靠性和纯真性。
在软件和硬件层构建硬件和诬捏化层可能很复杂,但 Google 不错通过在 Google Cloud 上进行预配置部署的单一 API 调用使其变得浅显。
科学家不错遴荐一个环境,将集群部署到 Google Cloud,并遴荐节点数目、CPU 或 GPU 中枢以及内存。
Lohmeyer 解说说:“这包括具有框架和参考完了的容器化软件(举例 JAX、PyTorch、MaxText)、编排(举例 GKE、Slurm)以及流行的怒放模子(举例 Gemma2 和 Llama3)。”
此功能使 HPC 堆栈的部署变得更容易,因为部署 HPC 堆栈可能绝顶复杂,因为它们波及处理硬件和软件。借助 Google Cloud 处理硬件和软件资源,具有工夫常识的创意科学家不错细目使用开源 AI 模子补充科学狡计的表率。
当全寰宇都在追求 Nvidia GPU 时,谷歌也为客户提供了更快速、更具资本效益的替代决策来完成他们的 AI 责任。
Google 将 Trillium TPU 添加到其云居品中,该居品现已推出预览版。在 Google I/O 大会上发布的 Trillium TPU 不错扩张到大范围集群,为 Nvidia GPU 提供替代决策,用于查验 AI 模子并贬低范围以进行推理。Trillium 是 TPUv5 居品的后继者。
Trillium 芯片将大要运行继现时 Gemini 大型谈话模子之后的 AI 模子。谷歌宣称,通过比较 BF16 与 Cloud TPU v5e 的每芯片峰值狡计性能,Trillium 的速率升迁了 4.7 倍。
Trillium 芯片领有下一代 HBM 内存,但谷歌并未具体评释它领有的是 HBM3 已经 HBM3e,Nvidia 在其 H200 和 Blackwell GPU 中使用了后者。TPU v5e 上的 HBM2 容量为 16GB,因此 Trillium 将领有 32GB 的容量,HBM3 和 HBM3e 均有提供。HBM3e 提供最大的带宽。
职业器舱可承载 256 个 Trillium 芯片,AI 芯片的通讯速率将比肖似的 TPU v5 舱成立快 2 倍。这些舱可摆列成更大的集群,并通过 Jupiter 光路交换采聚合构进行通讯,该结构可提供 400 Gb/s 的带宽。
谷歌还增多了其自主研发的 Axion CPU,该公司默示,与同类现时基于 x86 的通用责任负载实例比拟,该 CPU 可提供“高达 65% 的性价比和高达 60% 的能效”。
Axion CPU 基于 ARMv9 架构和领导集。
Axion 融入了名为 Titanium 的中枢基础瑕玷工夫,该工夫通过种种工夫承担大部分狡计责任负载,包括定制硅片、集聚、基础瑕玷处理单位和块存储。这些工夫减弱了 AI 加快器和 CPU 的负载。
Titanium 也取得了升级。谷歌通知推出搭载 Nvidia H200 Tensor Core GPU 和全新 Titanium ML 集聚适配器的 A3 Ultra VM,该适配器经由优化,可为“AI 责任负载提供安全、高性能的云体验”,谷歌默示。
谷歌发言东谈主在一封电子邮件中默示,Titanium ML 集聚适配器“包含并构建在”Nvidia 的 ConnectX-7 NIC 上,当与数据中心范围的 4 向轨谈对皆集辘集成时,不错通过 RoCE 提供 3.2 Tbps 的 GPU 到 GPU 流量。
谷歌在一封电子邮件中默示,超等狡计集群将从 A3 Ultra VM 运转提供。
Google Cloud 的理想情况是客户启动 AI 责任负载,从而充分诓骗多个加快器。可是,该公司在一封电子邮件中默示,本周通知的 Titanium 更新并未完了 TPU-GPU 互操作性。
Google Cloud 升级是 Nvidia Blackwell GPU 的预热,该 GPU 将于来岁加入 Google 的云职业。Google 正在将其我方的“Gen4”液体冷却工夫引入 GB200 职业器托盘,但 Google 尚未走漏太多细节。
包括 AWS 和微软在内的竞争敌手都领有我方的 AI 基础瑕玷,其中包括自主研发的 CPU 和 AI 加快器。各大公司正投资数十亿好意思元设立 AI 大型数据中心。
https://www.hpcwire.com/2024/11/05/google-cloud-sporting-a-new-look-in-hpc-and-ai-hardware/
半导体极品公众号推选
专注半导体畛域更多原创施行
关切环球半导体产业动向与趋势
*免责声明:本文由作家原创。著作施行系作家个东谈主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或复古,要是有任何异议,接待研究半导体行业不雅察。
今天是《半导体行业不雅察》为您共享的第3938施行,接待关切。
『半导体第一垂直媒体』
及时 专科 原创 深度
公众号ID:icbank
可爱咱们的施行就点“在看”共享给小伙伴哦