人气 5103

谷歌第四代TPU芯片更多细节曝光 [复制链接]

谁于争锋 2022-5-13 15:57:26
本周是GoogleI/O2022,除此之外,我们希望对Google在去年的I/O活动中暗示的TPUv4矩阵数学引擎进行架构深入研究。
  
  这家搜索引擎和广告巨头是这个星球上最大的人工智能创新者之一,因为它需要使用大量的数据,它确实也在大会上提供了更多关于TPUv4处理器和使用的更多信息。
  
  谷歌还表示,它正在俄克拉荷马州梅斯县的数据中心安装8个TPUv4系统Pods,该数据中心正在接近9exaflops的总计算能力,供其谷歌云部门使用,这样研究人员和企业就可以访问相同的类型和谷歌必须自己进行内部人工智能开发和生产的计算能力。
  
  自2007年以来,谷歌一直在塔尔萨东北部的梅斯县运营数据中心,自那时以来已投资44亿美元用于设施建设。它位于美国的地理中心——就在它的南边和西边——这使得它很有用,因为它对美国大部分地区的延迟相对较短。现在,根据定义,梅斯县拥有世界上最大的铁矿之一来推动人工智能工作量。(如果八个TPUv4pod联网在一起并且可以同时工作,我们可能会毫不含糊地说“最大的”......谷歌肯定做到了,正如您将在下面的引用中看到的那样。)
  
  在他的主题演讲中,谷歌及其母公司Alphabet的首席执行官SundarPichai顺便提到,TPUv4pod正在其云上进行预览。
  
  “我们今天分享的所有进步都是可能的,因为我们的基础设施不断创新,”Pichai谈到一些非常有趣的自然语言和沉浸式数据搜索引擎增强功能时说,它已经将这些功能融入到各种应用中。“最近,我们宣布计划在美国各地的数据中心和办事处投资95亿美元。我们最先进的数据中心之一位于俄克拉荷马州的梅斯县,我很高兴地宣布,我们将为我们所有的GoogleCloud客户推出全球最大的公开机器学习中心。这个机器学习中心有8个CloudTPUv4pod,它们是在为Google最大的神经模型提供支持的同一网络基础设施上定制构建的。总共提供近9exaflops的计算能力,为我们的客户带来前所未有的运行复杂模型和工作负载的能力。我们希望这将推动从医药到物流再到可持续发展等各个领域的创新。”
  
  Pichai补充说,这个基于TPUv4Pods的人工智能中心已经有90%的电力来自可持续的无碳资源。(他没有说风能、太阳能或水电有多少。)
  
  在我们了解TPUv4芯片和Pod的速度和馈送之前,可能值得指出的是,据我们所知,Google已经在其面向内部的数据中心中拥有TPUv5Pod,而且它可能拥有更大的集合的TPU来驱动自己的模型并使用AI算法和例程增强自己的应用程序。那将是Google做事的老方法:在销售N-1代产品时谈论N代产品,并且已经转移到N+1代产品来处理其内部工作负载。
  
  情况似乎并非如此。在GoogleCloud副总裁兼基础设施总经理SachinGupta和CloudTPU产品经理MaxSapozhnikov撰写的博客文章中,去年构建TPUv4系统时,Google向Cohere的研究人员提供了早期访问权限、LGAIResearch、MetaAI和SalesforceResearch,此外,他们还补充说,TPUv4系统用于创建Pathways语言模型(PaLM),该模型支持作为今天主题演讲核心的自然语言处理和语音识别创新。具体来说,PaLM是在两个TPUv4pod上开发和测试的,每个pod都有4,096个TPUv4矩阵数学引擎。
  
  如果谷歌最闪亮的新模型是在TPUv4上开发的,那么它可能没有隐藏在某个数据中心的TPUv5舰队。虽然我们会添加,但如果TPUv5机器被隐藏在距离我们办公室西南26.7英里处的Lenoir数据中心,那就太好了。
  
  让我们谈谈一些反馈和速度。最后,这里是一些将TPUv4与TPUv3进行比较的容量:
  
  去年,当Pichai暗示TPUv4时,我们猜测谷歌正在为这一代TPU转向7纳米工艺,但考虑到非常低的功耗,它看起来可能是使用5纳米工艺蚀刻的。(我们假设谷歌试图保持功率包络不变,它显然想减少它。)我们还猜测它正在将核心数量增加一倍,从TPUv3上的两个核心移动到TPUv4上的四个核心,这谷歌没有确认或否认。
  
  在内核翻倍的同时将性能翻倍将使TPUv4达到每芯片246teraflops,从16纳米到7纳米将允许在大致相同的功率包络和大约相同的时钟速度下翻倍。转向5纳米可以使芯片更小,运行速度更快,同时降低功耗——随着5纳米工艺的成熟,芯片更小,成品率可能更高。平均功耗下降了22.7%,考虑到二换工艺节点从TPUv3跳转到TPUv4,时钟速度提高了11.8%。
  
  该表和Google在此博客中所做的声明中有一些非常有趣的内容。
  
  除了TPUv4的芯片制造过程带来的2X内核和轻微的时钟速度增加之外,有趣的是,谷歌将内存容量保持在32GB,并且没有转移到Nvidia与“Hopper”一起使用的HBM3内存GH100GPU加速器。Nvidia痴迷于设备上的内存带宽,并且通过其NVLink和NVSwitch扩展,节点内的内存带宽以及现在跨节点的内存带宽,单个映像中最多有256个设备。
  
  Google并不担心专有TPU互连、设备内存带宽或设备内存容量上的内存原子(据我们所知)。TPUv4具有与TPUv3相同的32GB容量,它使用相同的HBM2内存,并且速度仅提高了33%,低于1.2TB/秒。Google感兴趣的是TPUPods互连的带宽,它正在转向3D环面设计,该设计将64个TPUv4芯片与“环绕连接”紧密耦合——这是与TPUv3Pods一起使用的2D环面互连无法实现的。环面互连尺寸的增加允许将更多TPU拉入更紧密的子网以进行集体操作。(这引出了一个问题,为什么不是4D、5D或6D环面呢?)
  
  TPUv4pod的TPU芯片数量是之前的4倍——高达4,096个,TPU内核的数量则高达16,384,是之前的两倍;我们相信Google已将MXU矩阵数学单元的数量保持在每个内核两个,但这只是一种预感。
  
  Google可以保持TPU核心数量相同,并将MXU单元增加一倍,并获得相同的原始性能;不同之处在于需要在这些MXU上完成多少前端标量/矢量处理。无论如何,在Google的DeepMind部门创建的16位BrainFloat(BF16)浮点格式下,TPUv4pod提供1.1exaflops算力,而BF16仅提供126petaflops。原始计算量增加了8.7倍,与整个pod的all-to-all缩减带宽增加了3.3倍以及整个pod的TPUv4互连的对分带宽增加了3.75倍相平衡。
  
  博客中的这句话引起了我们的兴趣:“每个CloudTPUv4芯片的峰值FLOP比CloudTPUv3多约2.2倍,每美元的峰值FLOP多约1.4倍。”如果您根据该声明进行计算,这意味着使用TPUv4在GoogleCloud上租用TPU的价格上涨了60%,但它的工作量是原来的2.2倍。这种定价和性能飞跃与Google期望从其为其数据中心购买的交换机ASIC中获得的那种价格/性能改进完全一致,这些交换机通常以1.3到1.5倍的成本提供2倍的带宽。
  
  TPUv4有点贵,但它有更好的网络来运行更大的模型,这也有成本。
  
  TPUv4pod可以在GoogleCloud上的VM中运行,大小从低至四个芯片到“数千个芯片”不等,我们认为这意味着包括整个pod。
您需要登录后才可以回帖 登录 | 立即注册

QQ|手机版|精益人 ( 沪ICP备19004111号-1 )

GMT+8, 2024-11-21 18:07 , Processed in 0.246027 second(s), 19 queries .

Powered by Lean.ren X3.5 Licensed  © 2001-2030 LEAN.REN