缃戠粶褰掓。 - 鐟炴妧绉戞妧 //51269984.cn/tag/¾|‘络 一站å¼IT解决æ–ÒŽ¡ˆæä¾›å•?/description> Fri, 11 Oct 2024 09:20:21 +0000 zh-Hans hourly 1 //wordpress.org/?v=6.8.3 //51269984.cn/wp-content/uploads/2023/06/cropped-fav-32x32.png 缃戠粶褰掓。 - 鐟炴妧绉戞妧 //51269984.cn/tag/¾|‘络 32 32 缃戠粶褰掓。 - 鐟炴妧绉戞妧 //51269984.cn/bytebridge-blog/ai-center-era-with-arista-eos.html?utm_source=rss&utm_medium=rss&utm_campaign=ai-center-era-with-arista-eos Fri, 30 Aug 2024 09:41:39 +0000 //51269984.cn/?p=24591 1984òqß_¼Œå­™æ­£ä¹‰å› å®£ç§°â€œç½‘¾lœå³è®¡ç®—机â€è€Œé—»å。四åå¹´åŽï¼Œéšç€äººå·¥æ™ø™ƒ½çš„到æ¥ï¼Œæˆ‘们å†ä¸€‹Æ¡çœ‹åˆ°è¿™ä¸€å‘¨æœŸçš„到æ¥ã€‚A […]

‹Æ¢è¿Žæ¥åˆ° AI 中心新时代——Arista EOS ¾pÈ»ŸåŠ©åŠ›æž„å¾å¼ºå¤§çš?AI ¾|‘络最先出现在瑞技¿U‘技ã€?/p> ]]>

1984òqß_¼Œå­™æ­£ä¹‰å› å®£ç§°â€œç½‘¾lœå³è®¡ç®—机â€è€Œé—»å。四åå¹´åŽï¼Œéšç€äººå·¥æ™ø™ƒ½çš„到æ¥ï¼Œæˆ‘们å†ä¸€‹Æ¡çœ‹åˆ°è¿™ä¸€å‘¨æœŸçš„到æ¥ã€‚AI 训练模型的集体性质ä¾èµ–于无æŸã€é«˜å¯ç”¨æ€§çš„¾|‘络åQŒä»¥ä¾¿æ— ¾~地ž®†é›†¾Ÿ¤ä¸­çš„æ¯ä¸?GPU ç›æ€º’˜qžæŽ¥åQŒåƈ实现峰值性能。网¾lœè¿˜ž®†è®­¾lƒè¿‡çš?AI 模型与数æ®ä¸­å¿ƒçš„æœ€¾lˆç”¨æˆ·å’Œå…¶ä»–¾pÈ»ŸåQˆå¦‚存储¾pÈ»ŸåQ‰è¿žæŽ¥è“væ¥ï¼Œä»Žè€Œä‹É¾pÈ»ŸæˆäØ“­‘…è¶Šå„部分æ€Õd’Œçš„存在。因此,数æ®ä¸­å¿ƒæ­£åœ¨æ¼”å˜ä¸ºæ–°çš?AI 中心åQŒè€Œç½‘¾lœåˆ™æˆäØ“ AI ½Ž¡ç†çš„中心ã€?/p>

AI ­‘‹åŠ¿

ä¸ÞZº†ç†è§£˜q™ä¸€ç‚¹ï¼Œè®©æˆ‘们首先关æ³?AI æ•°æ®é›†çš„爆炸å¼å¢žé•Ñ€‚éšç€ AI 训练中大型语­a€æ¨¡åž‹åQˆLLMsåQ‰è§„模的扩大åQŒæ•°æ®åƈ行化å˜å¾—ä¸å¯é¿å…。训¾lƒè¿™äº›æ›´å¤§è§„模模型所需çš?GPU æ•°é‡æ— æ³•è·Ÿä¸Šåºžå¤§çš„å‚æ•°æ•°é‡å’Œæ•°æ®é›†å¤§ž®ã€‚无论是数æ®ã€æ¨¡åž‹è¿˜æ˜¯ç®¡é“,AI òq¶è¡ŒåŒ–的有效性都å–决于将 GPU ç›æ€º’˜qžæŽ¥çš„网¾lœã€‚GPU 必须交æ¢å’Œè®¡½Ž—全局梯度以调整模型的æƒé‡ã€‚äØ“æ­¤ï¼ŒAI éšùN¢˜çš„å„个ä¸åŒç»„æˆéƒ¨åˆ†å¿…™åÖM½œä¸ºå•一çš?AI 中心ååŒå·¥ä½œåQšGPUã€ç½‘å¡ï¼ˆNICsåQ‰ã€å…‰å­?¾U¿ç¼†½{‰äº’˜qžé…ä»¶ã€å­˜å‚¨ç³»¾lŸï¼Œä»¥åŠæœ€é‡è¦çš„中心网¾lœã€?/p>

ä¿¡æ¯å­¤å²›

在当今基äº?AI 的数æ®ä¸­å¿ƒä¸­åQŒæ€§èƒ½ä¸ç†æƒ³çš„原因有很多。首先,AI ¾|‘络需è¦ä¸€è‡´çš„端到端æœåŠ¡è´¨é‡ä»¥ä¿è¯æ— æŸä¼ è¾“。这æ„å‘³ç€æœåŠ¡å™¨ä¸­çš„ç½‘å¡ä»¥åŠç½‘¾lœåã^å°å¿…™åÀL‹¥æœ‰ç»Ÿä¸€çš„æ ‡è®?映射ã€ç²¾¼‹®çš„æŽ§åˆ¶å’Œæ‹¥å¡žé€šçŸ¥åQˆåŒ…括ä‹É用数æ®ä¸­å¿ƒé‡åŒ–拥塞控åˆÓž¼ˆDCQCNåQ‰çš„优先‹¹æŽ§åˆÓž¼ˆPFCåQ‰å’Œæ˜‘ּ拥塞通知åQˆECNåQ‰ï¼‰ä»¥åŠé€‚当的缓冲区利用率阈å€û|¼Œä»¥ä‹Éæ¯ä¸ª¾l„äšgéƒ½èƒ½åŠæ—¶å“应¾|‘络事äšgåQˆå¦‚拥塞åQ‰ï¼Œ¼‹®ä¿å‘逿–¹èƒ½å¤Ÿ¾_„¡¡®æŽ§åˆ¶‹¹é‡é€ŸçއåQŒé¿å…丢包。然而,目剾|‘å¡å’Œç½‘¾lœè®¾å¤‡æ˜¯åˆ†å¼€é…置的,在大åž?AI ¾|‘络中,ä»ÖM½•é…ç½®ä¸åŒ¹é…都æžéš¾è°ƒè¯•ã€?/p>


性能ä¸ä½³çš„一个常è§åŽŸå› æ˜¯¾l„äšg故障。æœåС噍ã€GPUã€ç½‘å¡ã€æ”¶å‘器ã€ç”µ¾~†ã€äº¤æ¢æœºå’Œèµ\由器都å¯èƒ½å‡ºçŽ°æ•…éšœï¼Œå¯ÆD‡´é‡ä¼ åQˆgo-backåQ‰æˆ–更糟¾p•çš„¾l“果——å¯èƒ½ä‹Éæ•´ä¸ªä½œä¸šåœæ»žåQŒä»Žè€Œå¯¼è‡´å·¨å¤§çš„æ€§èƒ½æŸå¤±ã€‚éšç€é›†ç¾¤è§„模的扩大,¾l„äšgå‘生故障的å¯èƒ½æ€§å˜å¾—è¶Šæ¥è¶Šå¤§ã€‚ä¼ ¾lŸä¸ŠåQŒGPU 供应商的集体通信库(CCLåQ‰ä¼šž®è¯•ä½¿ç”¨å®šä½æŠ€æœ¯æ¥å‘现底层¾|‘络拓扑åQŒä½†å‘现的拓扑与实际拓扑之间的差异å¯èƒ½ä¼šä¸¥é‡å½±å“ AI è®­ç»ƒçš„ä½œä¸šå®Œæˆæ—¶é—´ã€?/p>


AI ¾|‘络的å¦ä¸€ä¸ªé—®é¢˜æ˜¯åQŒå¤§å¤šæ•°˜qè¥å•†éƒ½æœ‰å•独的团队æ¥è®¾è®¡å’Œ½Ž¡ç†ä¸åŒçš„计½Ž—å’Œ¾|‘络基础设施。这涉åŠä½¿ç”¨ä¸åŒçš„编排系¾lŸè¿›è¡Œé…¾|®ã€éªŒè¯ã€ç›‘控和å‡çñ”。缺ä¹å•ç‚ÒŽŽ§åˆ¶å’Œå¯è§æ€§ä‹Éå¾—è¯†åˆ«å’Œå®šä½æ€§èƒ½é—®é¢˜å˜å¾—æžå…¶å›°éš¾ã€‚éšç€ AI 集群规模的扩大,˜q™äº›é—®é¢˜ä¼šå˜å¾—更加严é‡ã€?/p>


ä¸éš¾çœ‹å‡ºåQŒè¿™äº›å­¤å²›é—®é¢˜æ˜¯å¦‚何䏿–­åŠ å‰§é—®é¢˜çš„ä¸¥é‡æ€§çš„。计½Ž—å’Œ¾|‘ç»œä¹‹é—´çš„åˆ†å‰²ä¼šå¯ÆD‡´ž®†è¿™ä¸¤é¡¹æŠ€æœ¯ç»“åˆè“væ¥ä»¥æœ€å¤§åŒ–性能的æ“ä½œå……æ»¡æŒ‘æˆ˜ï¼ŒåŒæ—¶å»¶è¯¯è¯Šæ–­å’Œè§£å†Ïx€§èƒ½ä¸‹é™æˆ–宕机等问题。网¾lœæœ¬íw«ä¹Ÿå¯ä»¥åˆ†äØ“åŸÞZºŽä»¥å¤ª¾|‘的数æ®ä¸­å¿ƒ¾|‘络å’?InfiniBand 高性能计算åQˆHPCåQ‰é›†¾Ÿ¤å­¤å²›ç½‘¾lœã€‚è¿™å过æ¥åˆå¯èƒ½é€ æˆå­¤å²›é—´æ•°æ®ä¼ è¾“的挑战åQŒè¿«ä½¿ç»„¾l‡ä‹É用笨拙的¾|‘å…³åQŒåƈ造æˆè®¡ç®—和存储到最¾lˆç”¨æˆïLš„˜qžæŽ¥éšœç¢ã€‚åªå…Ïx³¨æŸä¸€æŠ€æœ¯ï¼ˆå¦‚计½Ž—)而忽视整体解å†Ïx–¹æ¡ˆçš„å…¶ä»–æ–šw¢åQŒä¼šå¿½è§†æŠ€æœ¯ä¹‹é—´ç›¸äº’ä¾èµ–å’Œç›æ€º’˜qžæŽ¥çš„æœ¬è´¨ï¼Œå¦‚下图所½Cºã€?/p>

当今的数æ®å­¤å²›ç¤ºæ„图
当å‰çš„网¾lœå­¤å²›ç¤ºæ„图

�AI 中心的崛�/h2>

æ–°çš„ AI 中心认识和接å—了˜q™ä¸€çŽîC»£ã€ç›¸äº’ä¾å­˜çš„生æ€ç³»¾lŸçš„æ•´ä½“性。整个系¾lŸå…±åŒæå‡ä»¥è¾‘Öˆ°æœ€ä½Ïx€§èƒ½åQŒè€Œä¸æ˜¯åƒä¹‹å‰çš„网¾lœå­¤å²›é‚£æ ·å­¤ç«‹æ— æ´ã€‚GPU 需è¦ä¸€ä¸ªä¼˜åŒ–和无æŸçš„网¾lœï¼Œä»¥ä¾¿åœ¨æœ€çŸ­çš„æ—‰™—´å†…完æˆ?AI 训练åQŒç„¶åŽè¿™äº›è®­¾lƒå¥½çš?AI 模型需è¦è¿žæŽ¥åˆ° AI 推ç†é›†ç¾¤åQŒä»¥ä¾¿æœ€¾lˆç”¨æˆ¯‚ƒ½å¤ŸæŸ¥è¯¢æ¨¡åž‹ã€‚计½Ž—节点,包括 GPU / AI 加速器å’?CPU / 通用计算åQŒä¹Ÿéœ€è¦ä¸Žå­˜å‚¨¾pÈ»Ÿä»¥åŠçŽ°æœ‰æ•°æ®ä¸­å¿ƒä¸­çš„å…¶ä»– IT ¾pÈ»Ÿ˜q›è¡Œé€šä¿¡å’Œè¿žæŽ¥ã€‚没有ä“Q何部分是孤立工作的,¾|‘络ž®±åƒ˜qžæŽ¥¾l„ç»‡ä¸€æ øP¼Œ‹È€å‘了所有交互点åQŒå°±åƒç¥ž¾lç³»¾lŸäؓ人类¼œžç»å…ƒæä¾›é€šèµ\一栗÷€?/p>


æ¯ä¸ªéƒ¨åˆ†çš„ä­h值在于整个系¾lŸä½œä¸ÞZ¸€ä¸ªæ•´ä½“ç›¸äº’è¿žæŽ¥æ‰€äº§ç”Ÿçš„é›†ä½“ç»“æžœï¼Œè€Œä¸æ˜¯å•ä¸ªéƒ¨åˆ†å­¤ç«‹å·¥ä½œçš„æˆæžœã€‚对于äh¾cÀL¥è¯ß_¼Œä»·å€¼æ¥è‡ªäºŽ¼œžç»¾pÈ»Ÿæ‰€èµ‹äºˆçš„æ€æƒ³å’Œè¡ŒåŠ¨ï¼Œè€Œä¸ä»…仅是神¾l元本èínã€‚åŒæ øP¼ŒAI 中心的ä­h值在于最¾lˆç”¨æˆ·é€šè¿‡ AI 解决问题所消耗的输出åQŒè¿™äº›è¾“出是ç”Þp®­¾lƒé›†¾Ÿ¤ä¸ŽæŽ¨ç†é›†ç¾¤ã€å­˜å‚¨ç³»¾lŸå’Œå…¶ä»– IT ¾pÈ»Ÿç›¸è¿žæŽ¥ï¼Œòq‰™›†æˆåˆ°ä¸€ä¸ªæ— æŸç½‘¾lœä¸­ä½œäؓ中枢¼œžç»¾pÈ»Ÿè€Œå®žçŽ°çš„ã€‚AI 中心通过消除孤岛åQŒå®žçŽ°å®Œ¾ŸŽçš„æ€§èƒ½è°ƒä¼˜ã€æ•…障排除和˜qè¥è€Œå¤§æ”‘Ö¼‚彩,其中中央¾|‘络在创建和驱动˜q™ä¸€äº’蔾pÈ»Ÿä¸­å‘æŒ¥ç€æ ¸å¿ƒä½œç”¨ã€?/p>

大规模以太网åQšAI 中心

Arista EOS ä¸?AI 中心æä¾›æ”¯æŒ

EOS æ˜?Arista 的顶¾U§æ“作系¾lŸï¼Œå®ƒæ”¯æŒå…¨çƒæœ€å¤§çš„æ‰©å±•åž?AI ¾|‘络åQŒå°†ç”Ÿæ€ç³»¾lŸçš„æ‰€æœ‰éƒ¨åˆ†æ•´åˆåœ¨ä¸€èµøP¼Œä»¥åˆ›å»ºæ–°çš?AI 中心。如果说¾|‘络æ˜?AI 中心的神¾lç³»¾lŸï¼Œé‚£ä¹ˆ EOS ž®±æ˜¯é©±åЍ˜q™ä¸ª¼œžç»¾pÈ»Ÿçš„大脑ã€?/p>


Arista 的一™åÒŽ–°åˆ›æ–°è¢«é›†æˆåˆ° EOS 中,通过更紧密地ž®†ç½‘¾lœä¸Ž˜qžæŽ¥çš„主æœÞZ½œä¸ÞZ¸€ä¸ªæ•´ä½“ç³»¾lŸè”¾p»è“væ¥ï¼Œ˜q›ä¸€æ­¥æ‰©å±•了 AI ä¸­å¿ƒçš„äº’è”æ¦‚å¿üc€‚EOS ž®†ç½‘¾lœèŒƒå›´å†…的控制ã€é¥‹¹‹å’Œæ— æŸ QoSåQˆæœåŠ¡è´¨é‡ï¼‰ç‰ÒŽ€§ä»Ž¾|‘ç»œäº¤æ¢æœºæ‰©å±•到直连在æœåС噍 / GPU 上的¾|‘å¡ä¸Šçš„˜qœç¨‹ EOS 代ç†ã€‚部¾|²åœ¨ AI ¾|‘å¡ / æœåŠ¡å™¨ä¸Šçš„è¿œ½E‹ä»£ç†å°†äº¤æ¢æœø™{å˜äØ“ AI ¾|‘络的中心,以便å¯?AI ä¸ÀLœºå’?GPU ˜q›è¡Œé…ç½®ã€ç›‘控和故障调试。这ž®†äñ”生一个å•一且统一的控制和å¯è§†åŒ–点。利用远½E‹ä»£ç†ï¼Œå¯ä»¥¼‹®ä¿åŒ…括端到端æµé‡è°ƒä¼˜åœ¨å†…çš„é…置的一致性。Arista EOS 实现äº?AI 中心的通信åQŒä»¥ä¾¿å³æ—¶è·Ÿítªå’ŒæŠ¥å‘Šä¸ÀLœºå’Œç½‘¾lœè¡Œä¸ºã€‚这样就å¯ä»¥åœ¨ç½‘¾lœä¸­˜q行çš?EOS 与主æœÞZ¸Šçš„远½E‹ä»£ç†ä¹‹é—´çš„通信中隔¼›ÀL•…障。这æ„å‘³ç€ EOS å¯ä»¥ç›´æŽ¥æŠ¥å‘о|‘络拓扑åQŒé›†ä¸­è¿›è¡Œæ‹“扑å‘玎ͼŒòq¶åˆ©ç”¨ç†Ÿæ‚‰çš„ Arista EOS é…置和管ç†ç»“æž„æ¥è·¨æ‰€æœ?Arista Etherlinkâ„? class= òq›_°å’Œåˆä½œä¼™ä¼´è¿›è¡Œæ“作ã€?/p>

丰富的åˆä½œç”Ÿæ€ç³»¾lŸï¼šAMDã€Broadcomã€Intel å’?NVIDIA

Arista AI 中心的目标是以最低的作业旉™—´æ¥æž„建强大ã€è¶…大规模的 AI ¾|‘络。它正在ž®†ç½‘¾lœäº¤æ¢æœºã€ç½‘å¡ã€æ”¶å‘器ã€ç”µ¾~†ã€GPU å’ŒæœåС噍½{‰æ•´ä¸ªç”Ÿæ€ç³»¾lŸæ•´åˆåˆ°æ–°çš„ AI 中心中,òq¶ä½œä¸ºå•一¾l„äšg˜q›è¡Œé…ç½®ã€ç®¡ç†å’Œç›‘控。这¿Uæ–¹å¼é™ä½Žäº†æ€ÀLˆæœ¬ï¼Œòq¶æé«˜äº†è®¡ç®—或网¾lœçš„生äñ”力。AI 中心的愿景是实现 AI ¾|‘络与主æœÞZ¹‹é—´å¼€æ”¾ã€è¿žè´¯çš„互æ“作性和å¯ç®¡ç†æ€§çš„½W¬ä¸€æ­¥ã€‚欢˜qŽæ¥åˆ?AI 中心的新世界åQ?/p>

Arista EOS ¾pÈ»ŸåŠ©åŠ›æž„å¾å¼ºå¤§çš?AI ¾|‘络

è”系瑞技

Arista åšæŒ EOS 开放标准的承诺åQŒåˆ©ç”?OpenConfig æ¥æ”¯æŒæ–°æ—¶ä»£çš?AI 中心。欢˜qŽè”¾p?Arista åœ¨åŽæ­£è§„授æƒä»£ç†å•†â€”—瑞技¿U‘技åQŒä¸€èµähŽ¢è®?AI 中心的奥妙å§ã€?/p>

400-8866-490 �|  sales.cn@bytebt.com

‹Æ¢è¿Žæ¥åˆ° AI 中心新时代——Arista EOS ¾pÈ»ŸåŠ©åŠ›æž„å¾å¼ºå¤§çš?AI ¾|‘络最先出现在瑞技¿U‘技ã€?/p> ]]>