展会名称:2024南昌国际半导体光电技术与显示应用博览会
首届南昌国际半导体光电产业高质量发展论坛
时间:2024年9月27-29日
地点:南昌绿地国际博览中心
展馆详细地址:南昌市红谷难区怀玉山大道1315号
来源:内容由半导体芯闻(ID:MooreNEWS)编译自fierce-network,谢谢。
在高性能人工智能 (AI) 计算方面,Nvidia 是当之无愧的领头羊。但亚马逊网络服务 (AWS) 基础设施服务副总裁Prasad Kalyanaraman 本周在接受 Fierce Network 采访时透露,亚马逊网络服务 (AWS) 正凭借即将推出的 Trainium3 芯片争夺 AI 芯片排行榜上的一席之地。
AWS 一直在打造自己的芯片,但 Trainium3 将跨越一个关键的功率阈值。
Kalyanaraman 没有具体说明 Trainium3 及其前身 Trainium2 的功率,后者于 2023 年 11 月发布,预计将于今年晚些时候上市。但他表示,使用 1,000 瓦以上的芯片需要液体冷却。
虽然 Trainium2 不需要液体冷却,但 Kalyanaraman 指出 Trainium3 需要。
“当前一代芯片不需要液冷,但下一代芯片将需要液冷。当芯片功率超过 1,000 瓦时,就需要液冷。”他表示,并补充说该公司的另一款 AI 芯片 Inferentia 所需的功率要低得多。
Trainium3的功率 当被问及对 AWS 发布内容的看法时,Dell'Oro 集团研究总监 Lucas Beran 告诉 Fierce:“Trainium3 芯片有可能成为一款非常强大的芯片,但一切都取决于时机。”考虑到 Nvidia 已经在规划其下一代Rubin芯片,而且据传英特尔也在研发一款 1,500 瓦的芯片。 “对我来说,这是一个明确的信号,他们说,如果不将功率密度推高到需要液体冷却的水平,他们就无法与 Nvidia 的芯片竞争,”他补充道。 Kalyanaraman 并未透露 Trainium3 何时上市,也没有透露何时将在其数据中心推出液体冷却技术。 然而,贝兰表示,考虑到冷却剂分配装置(液体冷却系统的核心)的交货时间可能长达一年,AWS 提前为未来的芯片做好准备是有道理的。 Beran 表示,AWS 购买并提供 Nvidia 芯片,没有迹象表明 Trainium3 的推出会改变这一点。 保持凉爽 谈到数据中心基础设施,贝兰表示,就像Nvidia 今年早些时候宣布Blackwell 将采用液冷一样,AWS 预计将采用液冷,这对行业来说是“一大步”。 他解释说,虽然 Nvidia 的举措有望帮助液体冷却在更广泛的客户群中普及,但 AWS 的做法仍将在纯收入方面对市场产生重大影响。 当然,部署如此高功率的芯片对于 AWS 的数据中心来说有着重大影响。 如今,Kalyanaraman 表示,AWS 的数据中心几乎都使用传统的空气冷却。这对于当前一代芯片来说已经足够了,但该公司正在为未来需要液体冷却做准备。 么,AWS 计划使用哪一种液体冷却方式呢?Kalyanaraman 表示,目前不考虑浸入式冷却,AWS 计划采用单相冷板技术。他补充说,AWS 仍在研究微流体技术,该技术将允许 AWS 将液体直接输送到芯片的高热区域。 数据中心改造 Kalyanaraman 表示,除了设计支持液体冷却的数据中心外,AWS 还通过战略机架定位和网络设置进行了其他几项优化。 在网络方面,Kalyanaraman 表示,AWS 长期以来一直在构建自己的商用交换机,并于 2019 年推出了自己的 Elastic Fabric Adapter 网络接口,该接口使用可扩展可靠数据报低延迟传输协议。他说,关键在于,这意味着 AWS 不受专有协议(InfiniBand)的限制。 目前,该公司的大多数交换机都支持 12.8 Tbps。Kalyanaraman 表示,其下一代交换机将把这一速度提升至 51.2 Tbps。 除了交换机之外,该公司还制造了商用光学器件,以避免使用 OEM 光学器件,并与 EML 供应商以及激光器和转发器供应商合作,以确保能够混合搭配光学元件,并且“不受单一供应商的束缚”。如果您想知道的话,该公司运行 400G 光学器件,每条通道可提供 100G 带宽。 在机架定位方面,Kalyanaraman 表示 AWS 正在精心规划布局,以避免浪费宝贵的资源:电力。 这是什么意思?数据中心不仅仅有用于 AI 的机架和服务器。它还有用于内存、存储和通用计算的机架和服务器,每个机架和服务器消耗的电量不同。当您预计有一定量的电量流向通道时,您希望最大限度地提高每个通道的耗电量。 如果你把所有的人工智能服务器和机架都放在一个过道里,这就意味着其他放置存储服务器的过道可能不会使用所有可用的电力。然后,你就陷入了电力短缺的困境。所以,这最终有点像俄罗斯方块,是一场巨大的打包游戏。 他说:“你必须仔细考虑预测情况,我们预计未来几周和几个月会运送多少个货架,然后你必须精确地打包。” 尽管它们看起来毫不相关,但所有上述部分——冷却、电力利用和网络——都是 AWS 正在拼凑的更大谜团的一部分。 据 Kalyanaraman 介绍,这些都是公司提高效率和到 2040 年实现碳中和计划的一部分。谁能想到呢?
免责声明:来源标记为网络的文章其原创性及文中陈述文字和内容未经我司证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺请读者仅作参考并请自行核实相关内容,版权归原作者所有,如有侵权请联系我们删除。