Une architecture spéciale IA chez Arista
Pour contrôler l'intense trafic de l'IA, réduire la latence et éviter les pertes de paquets, AI Spine s'appuie sur les commutateurs d'Arista avec tampons de paquets profonds et sur son logiciel de mise en réseau Extensible Operating System (EOS).
Selon Martin Hull, vice-président de Cloud Titans and Platform Product Management chez Arista Networks, « le problème est que les interconnexions réseau traditionnelles actuelles ne peuvent pas fournir la montée en charge et la bande passante nécessaires pour répondre aux demandes de l'IA ». Historiquement, la seule option pour connecter les coeurs de processeurs et la mémoire était fournie par des interconnexions propriétaires comme InfiniBand, PCI Express et d'autres protocoles qui connectent les clusters de traitement. Mais, pour la plupart, cela ne fonctionnera pas avec l'IA et ses exigences en matière de ressources.
Arista AI Spine
La technologie développée par Arista doit répondre à ces préoccupations. Appelée AI Spine, elle repose sur des commutateurs de datacenter dotés de tampons de paquets profonds et d'un logiciel de mise en réseau qui fournit une surveillance en temps réel pour gérer les tampons et contrôler efficacement le trafic. « L'arrivée d'une multitude d'applications basées sur l'IA, le langage naturel, l'apprentissage machine se traduit par une énorme ingestion de données distribuées sur des centaines ou des milliers de puces - CPU, GPU, DPU - qui prennent tous en charge la tâche de calcul, la découpent en morceaux, traitent chacun leur part et la renvoient à nouveau », a déclaré M. Hull. « Et si le réseau interrompt le trafic, c'est que le traitement initial de l'IA est retardé parce qu'il faut le transmettre à nouveau. De plus, si, pendant le traitement de ces charges de travail IA, le trafic fait d'autres allers-retours, cela ralentit les tâches IA, et elles peuvent même échouer », a-t-il ajouté.
L'architecture AI Spine
L'architecture AI Spine d'Arista est basée sur les commutateurs pour datacenter de la série 7800R3, lesquels, dans le haut de gamme, offrent une capacité de commutation de 460 Tb/s et des centaines d'interfaces de 40Gb/s, 50Gb/s, 100Gb/s ou 400Gb/s, ainsi que 384 Go de mémoire tampon. « Les mémoires tampons sont essentielles pour maintenir le trafic en mouvement et éviter toute perte », a encore déclaré Martin Hull. « Certains s'inquiètent de la latence que pourraient générer les tampons de grande taille, mais nos analyses montrent que cela ne se produit pas », a ajouté le VP Cloud Titans and Platform Product Management d'Arista Networks. Selon un livre blanc sur AI Spine, les systèmes AI Spine devraient être contrôlés par le logiciel réseau principal d'Arista, Extensible Operating System (EOS). Adapté aux réseaux Ethernet à large bande passante, sans perte et à faible latence, ce logiciel serait capable d'interconnecter des milliers de GPU à des vitesses de 100, 400 et 800 Gb/s, selon les schémas d'allocation de mémoire tampon.
« Pour y parvenir, les commutateurs et l'ensemble EOS créent un fabric qui décompose les paquets et les reformate en cellules de taille uniforme, les « pulvérisant » uniformément sur le fabric », a expliqué Arista. L'objectif est de garantir un accès égal à tous les chemins disponibles au sein du fabric et une perte de paquets nulle. « Un fabric basé sur les cellules ne se préoccupe pas des vitesses de connexion en frontal, si bien que le mélange et l'appariement des 100G, 200G et 400G ne posent pas de problèmes », a écrit le fournisseur. « De plus, la structure cellulaire le protège des problèmes de « collision de flux » auquel est exposé un fabric Ethernet. Un mécanisme de planification distribuée est utilisé au sein du commutateur pour garantir l'équité des flux de trafic qui se disputent l'accès à un port de sortie encombré ». Comme chaque flux utilise n'importe quel chemin disponible pour atteindre sa destination, le fabric est bien adapté à la gestion d'un trafic très dense, de type « flux éléphant », commun aux applications AI/ML, et par conséquent, « il n'y a pas de points chauds internes dans le réseau », a encore écrit Arista.
Modèles AI Spine
Pour expliquer le fonctionnement d'AI Spine, le livre blanc d'Arista fournit deux exemples. Dans le premier, un design Leaf & Spine dédié avec des commutateurs Arista 7800 est lié à des centaines de racks de serveurs, les capacités d'équilibrage de charge automatique d'EOS contrôlant le trafic entre les serveurs pour éviter les collisions. La classification QoS (Qualité de service, Quality of service), la notification explicite de congestion (Explicit Congestion Notification, ECN) et la régulation de débit prioritaire (Priority Flow Control, PFC) sont configurés sur tous les commutateurs pour éviter les pertes de paquets. L'analyseur de latence Latency Analyzer (LANZ) d'Arista EOS détermine les seuils appropriés pour éviter les pertes de paquets tout en maintenant un débit élevé et permet au réseau d'évoluer tout en garantissant une latence prédictive et faible. Le second cas d'usage, qui pourrait s'étendre à des centaines de points d'extrémité, connecte tous les modes GPU directement aux commutateurs 7800R3 dans AI Spine. « Ainsi, le fabric résultant fournit un seul saut entre tous les points d'extrémité, ce qui réduit la latence et permet un seul grand réseau sans perte ne nécessitant aucune configuration ou réglage », a expliqué Arista.
Les défis de la mise en réseau de l'IA
Ce sont principalement des technologies et des applications comme la virtualisation de serveurs, la conteneurisation des applications, l'informatique multi-cloud, le Web 3.0, le big data et le HPC qui ont motivé le développement de l'architecture AI Spine. Afin d'optimiser et d'accroître les performances de ces nouvelles technologies, un fabric IP distribué, sans échelle et à tampon profond, a prouvé qu'il pouvait offrir des performances constantes et prendre en charge des modèles de trafic extrême « Est-Ouest » », a encore écrit Arista. Si, pour la plupart des entreprises, il est peut-être trop tôt pour s'inquiéter de la gestion des charges de travail des clusters IA à grande échelle, certains environnements plus importants, comme les hyperscalers, les réseaux HPC pour la finance, la réalité virtuelle, le jeu et le développement automobile, se préparent déjà aux perturbations du trafic que ces environnements pourraient provoquer sur les réseaux traditionnels. « À mesure que les charges de travail IA se développent, elles exercent une pression croissante sur le réseau en termes d'échelle et de bande passante, mais également en termes de stockage et de profondeur de mémoire tampon, de latence prévisible et de gestion des petits paquets et des flux éléphant », a récemment déclaré Jayshree Ullal, le CEO d'Arista, lors d'une réunion technologique de Goldman Sachs. « Il faut énormément d'ingénierie pour faire fonctionner l'Ethernet traditionnel comme un réseau de back-end afin de soutenir cette technologie pour l'avenir, et l'usage croissant du 400G va ajouter un volume de trafic supplémentaire », a déclaré M. Ullal.