缃戠粶褰掓。 - 鐟炴妧绉戞妧

BBT Partner Channel — Fri, 30 Aug 2024 09:41:39 +0000

1984�q�_��孙正义因宣称“网�l�即计算机”而闻名。四十年后，随着人工��的到来，我们再一�ơ看到这一周期的到来。AI 训练模型的集体性质依赖于无损、高可用性的�|�络�Q�以便无�~�地��集��中的每�?GPU �怺��q�接�Q��ƈ实现峰值性能。网�l�还��训�l�过�?AI 模型与数据中心的最�l�用户和其他�pȝ��Q�如存储�pȝ��Q�连接�v来，从而�ɾpȝ��成�ؓ��越各部分��d��的存在。因此，数据中心正在演变为新�?AI 中心�Q�而网�l�则成�ؓ AI ��理的中心�?/p>

AI ��势

��Z��理解�q�一点，让我们首先关�?AI 数据集的爆炸式增�ѝ��随着 AI 训练中大型语�a�模型�Q�LLMs�Q�规模的扩大�Q�数据�ƈ行化变得不可避免。训�l�这些更大规模模型所需�?GPU 数量无法跟上庞大的参数数量和数据集大��。无论是数据、模型还是管道，AI �q�行化的有效性都取决于将 GPU �怺��q�接的网�l�。GPU 必须交换和计��全局梯度以调整模型的权重。�ؓ此，AI ��N��的各个不同组成部分必��M��为单一�?AI 中心协同工作�Q�GPU、网卡（NICs�Q�、光�?�U�缆�{�互�q�配件、存储系�l�，以及最重要的中心网�l��?/p>

信息孤岛

在当今基�?AI 的数据中心中�Q�性能不理想的原因有很多。首先，AI �|�络需要一致的端到端服务质量以保证无损传输。这意味着服务器中的网卡以及网�l��^台必��L��有统一的标�?映射、精��的控制和拥塞通知�Q�包括��用数据中心量化拥塞控�Ӟ��DCQCN�Q�的优先��控�Ӟ��PFC�Q�和昑ּ�拥塞通知�Q�ECN�Q�）以及适当的缓冲区利用率阈��|��以��每个�l��g都能及时响应�|�络事�g�Q�如拥塞�Q�，��保发送方能够�_��控制��量速率�Q�避免丢包。然而，目前�|�卡和网�l�设备是分开配置的，在大�?AI �|�络中，��M��配置不匹配都极难调试�?/p>

性能不佳的一个常见原因是�l��g故障。服务器、GPU、网卡、收发器、电�~�、交换机和�\由器都可能出现故障，��D��重传�Q�go-back�Q�或更糟�p�的�l�果——可能��整个作业停滞�Q�从而导致巨大的性能损失。随着集群规模的扩大，�l��g发生故障的可能性变得越来越大。传�l�上�Q�GPU 供应商的集体通信库（CCL�Q�会��试使用定位技术来发现底层�|�络拓扑�Q�但发现的拓扑与实际拓扑之间的差异可能会严重影响 AI 训练的作业完成时间�?/p>

AI �|�络的另一个问题是�Q�大多数�q�营商都有单独的团队来设计和��理不同的计��和�|�络基础设施。这涉及使用不同的编排系�l�进行配�|�、验证、监控和升��。缺乏单�Ҏ��制和可见性��得识别和定位性能问题变得极其困难。随着 AI 集群规模的扩大，�q�些问题会变得更加严重�?/p>

不难看出�Q�这些孤岛问题是如何不断加剧问题的严重性的。计��和�|�络之间的分割会��D��这两项技术结合�v来以最大化性能的操作充满挑战，同时延误诊断和解��x��能下降或宕机等问题。网�l�本�w�也可以分�ؓ��Z��以太�|�的数据中心�|�络�?InfiniBand 高性能计算�Q�HPC�Q�集��孤岛网�l�。这反过来又可能造成孤岛间数据传输的挑战�Q�迫使组�l��用笨拙的�|�关�Q��ƈ造成计算和存储到最�l�用��L��q�接障碍。只��x��某一技术（如计��）而忽视整体解��x��案的其他斚w��Q�会忽视技术之间相互依赖和�怺��q�接的本质，如下图所�C��?/p>

当前的网�l�孤岛示意图

�?AI 中心的崛�?/h2>

新的 AI 中心认识和接受了�q�一��C��、相互依存的生态系�l�的整体性。整个系�l�共同提升以辑ֈ�最��x��能�Q�而不是像之前的网�l�孤岛那样孤立无援。GPU 需要一个优化和无损的网�l�，以便在最短的旉��内完�?AI 训练�Q�然后这些训�l�好�?AI 模型需要连接到 AI 推理集群�Q�以便最�l�用戯��够查询模型。计��节点，包括 GPU / AI 加速器�?CPU / 通用计算�Q�也需要与存储�pȝ��以及现有数据中心中的其他 IT �pȝ��q�行通信和连接。没有�Q何部分是孤立工作的，�|�络��像�q�接�l�织一��P��Ȁ发了所有交互点�Q�就像神�l�系�l��ؓ人类��经元提供通�\一栗��?/p>

每个部分的�h值在于整个系�l�作��Z��个整体相互连接所产生的集体结果，而不是单个部分孤立工作的成果。对于�h�c�L��_��价值来自于��经�pȝ��所赋予的思想和行动，而不仅仅是神�l�元本��n。同��P��AI 中心的�h值在于最�l�用户通过 AI 解决问题所消耗的输出�Q�这些输出是��p��l�集��与推理集群、存储系�l�和其他 IT �pȝ��相连接，�q��成到一个无损网�l�中作�ؓ中枢��经�pȝ��而实现的。AI 中心通过消除孤岛�Q�实现完��的性能调优、故障排除和�q�营而大攑ּ�彩，其中中央�|�络在创建和驱动�q�一互联�pȝ��中发挥着核心作用�?/p>

大规模以太网�Q�AI 中心

Arista EOS �?AI 中心提供支持

EOS �?Arista 的顶�U�操作系�l�，它支持全球最大的扩展�?AI �|�络�Q�将生态系�l�的所有部分整合在一��P��以创建新�?AI 中心。如果说�|�络�?AI 中心的神�l�系�l�，那么 EOS ��是驱动�q�个��经�pȝ��的大脑�?/p>

Arista 的一��Ҏ��创新被集成到 EOS 中，通过更紧密地��网�l�与�q�接的主��Z��Z��个整体系�l�联�p��v来，�q�一步扩展了 AI 中心的互联概��c��EOS ��网�l�范围内的控制、遥��和无损 QoS�Q�服务质量）�Ҏ��从�|�络交换机扩展到直连在服务器 / GPU 上的�|�卡上的�q�程 EOS 代理。部�|�在 AI �|�卡 / 服务器上的远�E�代理将交换��{变�ؓ AI �|�络的中心，以便�?AI ��L��?GPU �q�行配置、监控和故障调试。这��生一个单一且统一的控制和可视化点。利用远�E�代理，可以��保包括端到端流量调优在内的配置的一致性。Arista EOS 实现�?AI 中心的通信�Q�以便即时跟�t�和报告��L��和网�l�行为。这样就可以在网�l�中�q�行�?EOS 与主��Z��的远�E�代理之间的通信中隔��L��障。这意味着 EOS 可以直接报告�|�络拓扑�Q�集中进行拓扑发玎ͼ��q�利用熟悉的 Arista EOS 配置和管理结构来跨所�?Arista Etherlink �q�_��和合作伙伴进行操作�?/p>

丰富的合作生态系�l�：AMD、Broadcom、Intel �?NVIDIA

Arista AI 中心的目标是以最低的作业旉��来构建强大、超大规模的 AI �|�络。它正在��网�l�交换机、网卡、收发器、电�~�、GPU 和服务器�{�整个生态系�l�整合到新的 AI 中心中，�q�作为单一�l��g�q�行配置、管理和监控。这�U�方式降低了��L��本，�q�提高了计算或网�l�的生��力。AI 中心的愿景是实现 AI �|�络与主��Z��间开放、连贯的互操作性和可管理性的�W�一步。欢�q�来�?AI 中心的新世界�Q?/p>

联系瑞技

Arista 坚持 EOS 开放标准的承诺�Q�利�?OpenConfig 来支持新时代�?AI 中心。欢�q�联�p?Arista 在华正规授权代理商——瑞技�U�技�Q�一��h��?AI 中心的奥妙吧�?/p>

400-8866-490 �?| sales.cn@bytebt.com

缃戠粶褰掓。 - 鐟炴妧绉戞妧

缃戠粶褰掓。 - 鐟炴妧绉戞妧

AI ���势

信息孤岛

�?AI 中心的崛�?/h2>

Arista EOS �?AI 中心提供支持

丰富的合作生态系�l�：AMD、Broadcom、Intel �?NVIDIA

联系瑞技

阅读更多

AI ��势