谷歌表示,Trillium 是谷歌张量处理单元(TPU)的第六次迭代,在峰值计算性能和内存带宽方面比其前身 TPUv5 提高了近五倍。
谷歌在周二举行的年度I/O大会上发布了一款新芯片Trillium,用于训练和运行Gemma和Gemini等基础大型语言模型。
据该公司称,Trillium 是谷歌张量处理单元(TPU)的第六次迭代,能效比上一代产品 TPU v5 提高了 67%,速度提高了近五倍。谷歌计划将 Trillium 用于其 AI Hypercomputer(一种专为尖端 AI 相关工作负载而设计的超级计算架构),并将在今年年底前向企业提供这种芯片。
"与TPU v5e相比,Trillium TPU的单芯片峰值计算性能提高了4.7倍,令人印象深刻。我们将高带宽内存(HBM)容量和带宽提高了一倍,芯片间互连(ICI)带宽也比TPU v5e提高了一倍,"谷歌系统和云人工智能总经理阿明-瓦哈达特(Amin Vahdat)在一篇博客文章中写道。
Vahdat 表示,计算性能的提升是通过扩大矩阵乘法单元(MXU)的规模和提高时钟速度实现的,这反过来又使得下一波基础模型的训练速度更快、运行延迟更短、成本更低成为可能。
矩阵乘法单元是 TPU 芯片架构的一部分。通常,TPU 芯片包含一个或多个 TensorCore,每个 TensorCore 由一个或多个 MXU、一个向量单元和一个标量单元组成。
Vahdat 补充说,Trillium 芯片可以在单个高带宽、低延迟 pod 中扩展到 256 个 TPU。
Trillium 的其他功能还包括数据流处理器,它可以加速依赖于推荐模型中嵌入的模型,并支持更多的高带宽内存(HBM),以便处理具有更多权重和更大键值缓存的大型模型。
此外,Trillium 还配备了谷歌的多切片技术,这是该公司在去年 8 月发布 TPU v5e 时首次推出的预览版技术。
据该公司称,多片技术允许企业用户轻松扩展人工智能模型,使其超越物理 TPU pod 的界限--多达数万个云 TPU v5e 或 TPU v4 芯片。
在这项技术发布之前,使用 TPU 的训练作业仅限于单片 TPU 芯片,TPU v4 的最大作业规模上限为 3,072 片芯片。
上一条: AWS澄清英伟达芯片订单:升级而非停止