死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？-数据猿的专栏

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

2024-07-02 20:11:43栏目：默认栏目 IP属地：IP未知

随着人工智能的发展，计算的核心正在经历从CPU集群向GPU算力集群的转变，这一变革将彻底改变整个计算体系。GPU凭借其强大的并行计算能力，正在成为大规模AI模型训练的主力。然而，随着计算集群规模的扩张，传统的网络通信架构已难以支撑高频数据交换和海量计算需求。这种情况下，计算集群的网络通信需要发生巨大的变革，以充分发挥GPU集群的潜力。

在这样的背景下，腾讯推出星脉网络。7月1日，腾讯宣布了星脉网络的全新升级。作为一套软硬协同的高性能网络体系，星脉网络2.0通过全面升级的自研网络设备、通信协议、通信库和运营系统，为解决AI大模型训练中的通信瓶颈问题，提供了一个新的可能。

AI大模型训练，网络已经成为一个关键的“堵点”

近年来，人工智能技术突飞猛进地发展，特别是AI大模型的规模在不断扩大。例如，OpenAI的GPT-3拥有1750亿参数，而更先进的GPT-4模型则突破了万亿参数的大关。这种参数规模的飞速增长，使得AI模型能够捕捉到更多的语义和上下文信息，从而显著提升其生成和理解能力。然而，随之而来的计算、存储和网络通信的需求也急剧增加，传统的计算和网络架构已经难以应对。

不仅参数规模在增长，AI大模型的架构也在不断演变。从传统的密集型模型（Dense Model）到最新的混合专家模型（MoE, Mixture of Experts），这些架构变化的目的在于提高模型的训练效率和推理能力。Dense模型在所有计算任务中使用相同的参数，导致计算资源的利用率较低。而MoE模型通过动态选择部分专家模型进行计算，大幅降低了计算复杂度和资源消耗，从而提高了整体效率。

这种参数规模的增长和架构的演变，对大模型训练提出了更高的要求。训练这些模型需要极高的计算能力，这就需要构建强大的GPU集群，分布式计算成为必然选择。然而，分布式计算也带来了新的挑战，特别是节点之间的通信开销和同步问题。如何高效地管理和协调多个GPU节点，成为提升分布式计算性能的关键。

集群训练中产生庞大的通信需求，解决通信开销与性能瓶问题迫在眉睫。

在分布式计算环境中，AI大模型训练需要在不同的GPU节点之间频繁交换数据。这种庞大的通信需求不仅包括模型参数和梯度的同步，还涉及各种数据并行和模型并行操作。特别是对于万亿参数级别的模型，单次计算迭代内的通信量可以达到百GB量级，这对现有的网络带宽提出了极高的要求。

通信开销是分布式计算中不可忽视的因素，在集群训练过程中，各个节点之间的通信延迟和带宽瓶颈会导致计算资源的浪费。例如，节点在等待数据同步的过程中无法进行计算，从而降低了整体的算力利用效率。

AI大模型训练，为网络系统提出了全新的要求。传统网络架构在面对万亿参数级模型的高频数据交换时显得力不从心，因此，需要更高的网络传输速率、更大的组网规模、优化的通信协议以及更高的可用性和稳定性，以满足AI大模型训练的需求。

腾讯星脉网络2.0，专为10万级GPU的网络通信而生

上面分析了AI大模型训练对于网络通信的全新需求，以及目前所面临的挑战。腾讯推出的星脉网络2.0，正是为了应对这些挑战。

星脉网络2.0的核心目标是通过高性能、自研的网络设备、通信协议、通信库和运营系统，打造一个高效、稳定的计算环境，以支持万亿级参数规模的AI大模型训练。

那么，相对于星脉网络1.0，腾讯此次推出的2.0版本，都升级了哪些能力呢？具体来看，星脉网络2.0主要实现了四大关键组件的升级，包括自研网络设备、自研通信协议TiTa、集合通信库TCCL和全栈网络运营系统。

自研网络设备，交换机容量、光模块速率都提升一倍。

网络设备的性能直接影响到数据传输的速度和效率，是实现快速数据交换的基础。传统网络设备，在面对万亿级参数模型的高频数据交换时往往显得力不从心，因此，需要对交换机、光模块和网卡进行全面升级，以满足更高的传输速率和更大的组网规模。

在硬件方面，腾讯星脉网络2.0进行了显著升级。交换机的容量从原来的25.6T提升至51.2T，大大增加了数据传输的容量。光模块的速率从200G升级到400G，显著降低了网络延迟，提升了数据传输速度。同时，CNIC网卡作为公有云业内首款为AI训练设计的网卡，整卡带宽达400Gbps，具备3.2T整机通信带宽。这些硬件升级不仅提升了通信效率，还减少了网络拥塞，显著提高了整体网络性能。

自研通信协议TiTa，采用主动拥塞控制算法，在拥塞发生前就进行调控。

在AI大模型训练过程中，通信协议的效率和稳定性至关重要。传统的被动拥塞控制算法主要依赖交换机上的ECN标记，当检测到拥塞后再通知各节点调整发送速率，这种方式在高频数据交换中效率较低。为了提升通信效率，腾讯自研的TiTa协议采用了主动拥塞控制算法。这种算法通过端侧网卡主动感知并调整数据包发送速率，从而在拥塞发生前就进行调控，避免网络性能大幅下降。相比传统被动拥塞控制算法，TiTa协议能够更有效地避免网络拥堵，减少数据包丢失，提高网络吞吐量，优化数据包发送速率，降低通信过程中的延迟和网络拥堵。

集合通信库TCCL，实现了GPU间数据的高效传输。

在AI大模型训练中，不同节点之间的数据交换频繁且复杂。集合通信库TCCL通过NVLINK+NET异构并行通信技术，实现了GPU间数据的高效传输。每个GPU网卡构建了独立的网络通道，实现数据并行传输，间接提升了传输链路的带宽。此外，Auto-TuneNetworkExpert自适应算法能够根据不同的机型、网络规模、模型算法和数据包大小等因素，动态调整网络参数，确保在各种场景下实现最优性能。这些优化使得TCCL通信库不仅提升了数据传输带宽和速度，还通过自适应算法根据不同场景优化网络参数，提高了资源利用率，减少了资源浪费。

灵境仿真平台，将GPU故障定位时间从传统的天级缩短到分钟级。

高效稳定的运营系统，是确保AI大模型训练连续性的关键。腾讯的灵境仿真平台作为网络运营系统的一部分，能够收集训练过程中的日志和GPU相关信息，通过仿真模拟还原训练任务，定位训练中的卡顿和性能抖动问题，这一功能使得问题定位时间从传统的天级缩短到分钟级。此外，全栈网络运营系统在星脉网络2.0中得到了全面升级，并提供360度无死角的立体监控，能够更快发现和定位网络问题，并快速修复故障，确保训练任务的连续性。这种全方位的监控和快速修复能力，显著提升了训练的稳定性和高可用性。

需要指出的是，星脉网络2.0的四个关键组件并不是孤立的，而是相互协同配合，共同提升大模型训练过程中的网络性能。可以用赛车来类比：如果将调度GPU集群训练大模型比作赛车，目标是通过赛场软硬件系统的升级来发挥最大性能。硬件（交换机、光模块）相当于赛道，升级后的带宽提升至3.2T，如同拓宽和改善了赛道，增加宽度和容量。TiTa协议如同赛事指挥中心，智能化调控“车速”，避免拥堵。TCCL通信库如同专业车队管理系统，通过NVLINK+NET异构并行通信和自适应算法优化赛车性能。运营系统则如同专业的抢修队，全方位监控和修复故障，确保比赛顺利进行。

腾讯星脉网络2.0，为解决现有网络架构在高频、大规模通信需求中的瓶颈问题，提供了全新的解决方案。这些创新不仅满足了当前AI大模型训练的需求，也为未来的技术发展和应用奠定了坚实的基础。

我们处在一个网络技术变革的拐点上，进化才刚刚开始

展望未来，AI大模型可能会进一步突破参数规模的限制，朝着更大、更复杂的方向发展。预计未来的模型将会包含数十万亿甚至百万亿参数，这将极大地提升模型的表达能力和泛化能力。

当前，网络技术已经在不断进步，但未来仍需持续创新以满足日益增长的模型训练需求我们仍然需要在提高传输速率、扩展网络规模和优化通信协议等方面持续努力。例如，未来的高性能网络将致力于实现更高的传输速率，达到数十Tbps甚至更高的水平。此外，扩展网络规模也是一个重要方向，支持更多计算节点的集群组网能力将成为关键，以适应超大规模AI模型的训练需求。

在大规模计算集群的发展趋势中，超节点是一个值得关注的技术方向。在分布式计算和网络架构中，超节点一般指的是具备卓越计算能力、数据协调和任务管理功能的高性能节点。

随着AI技术的迅猛发展，特别是在2020年后，超节点在大规模AI模型训练中的作用变得尤为重要。2020年，OpenAI的GPT-3问世，OpenAI利用超节点技术来优化资源分配和数据流动。英伟达在2021年推出的DGX SuperPOD集群也采用了超节点架构，通过将数百个甚至数千个GPU节点整合在一起，提供了前所未有的计算能力和网络带宽。腾讯也一直在关注超节点技术的发展，并进行积极布局。在即将推出的星脉网络3.0，将融入最新的超节点技术。

超节点技术在大规模AI模型训练中的作用，不仅限于提供强大的计算能力和高效的数据协调。它还通过智能调度和资源管理，显著提升了训练效率和性能，减少了通信延迟和传输瓶颈。通过超节点，计算节点之间的协同变得更加顺畅，数据传输更为高效，从而加速了模型训练过程。

通过持续的技术创新，在通信效率和成本优化方面，未来的网络技术将更加注重智能化和自适应性。通过进一步优化通信协议和引入智能调度算法，可以更高效地管理数据传输，减少网络拥堵和延迟。同时，采用低功耗、高性能的网络设备，将在降低通信成本的同时，提升整体网络性能。

可以预见，高性能网络助推AI大模型训练，对于推动大模型技术升级和产业应用落地具有重要意义。通过持续优化网络性能和通信效率，可以显著提升AI模型的训练速度和效果，加速技术创新和应用推广。高性能网络技术不仅是AI大模型训练的基础保障，更是未来智能社会建设的重要支撑。以腾讯大模型技术产品体系为例，其星脉网络，就是腾讯混元和元宝背后的高性能网络基础。正是星脉网络解除了大模型训练和推理的网络瓶颈，腾讯的整个大模型产业大厦才有一个牢固的根基。

在市场需求的驱动下，对高效能算力和高性能网络的需求将推动相关技术的快速发展和应用。预计未来几年，全球高性能网络的市场规模将显著增长，并带动网络相关产业链的发展。通过不断推进技术进步和产业合作，AI大模型训练和高性能网络技术必将迎来更加光明的未来。