1 Go de données par seconde à l'accélérateur de particules du CERN
Le CERN inaugure le plus puissant accélérateur de particules du monde. Wolfgang von Rüden, chef du département informatique, décrit les détails de l'infrastructure informatique qui aidera les scientifiques à comprendre la naissance du monde.
Ce 10 septembre, le CERN (Conseil européen pour la recherche nucléaire) inaugure l'accélérateur de particules le plus puissant du monde, le LHC (grand collisionneur de hadrons). Ce tunnel souterrain de 27 kms, situé sur la frontière franco-suisse près de Genève, sera le lieu d'expériences de physique attendu depuis des années. Les particules seront précipitées à grande vitesse les unes contre les autres. De ces collisions naîtront de nouvelles particules qui devraient aider les scientifiques à mieux comprendre la naissance de l'univers. Pour récupérer les résultats de ces expériences, le LHC héberge de gigantesques détecteurs (45 m de long sur 22 m de haut) enregistrant les traces de ces nouvelles particules et les convertissant en données numériques. « Ces détecteurs correspondent à ce que pourraient être des caméras de 150 millions de pixels, explique Wolfgang von Rüden, chef du département IT du CERN. Lorsque le LHC aura atteint sa vitesse de croisière, sans doute début 2009, les expériences scientifiques seront à l'origine de 1 Po de données chaque seconde. Après plusieurs nettoyages successifs afin de ne conserver que les données utiles, il en restera encore près de 1 Go par seconde. Soit « L'équivalent d'un DVD toutes les cinq secondes, note Wolfgang von Rüden. A raison de 100 jours de fonctionnement par an, cela représente presque 9 Po auxquelles il faut ajouter les informations de simulation. Ce sont donc 15 millions de milliards d'octets qui sortiront chaque année des essais du LHC. Autant dire qu'un centre informatique classique n'y suffirait pas. Aussi, dès les débuts du projet, l'organisation a opté pour un système de grille de données et de calcul (grid). Les informations sont distribuées sur différents systèmes pour être stockées et prétraitées. Photo : Wolfgang von Rüden, chef du département informatique du CERN L'infrastructure des serveurs compte trois niveaux. Le premier, le « tier 0 », est installé au CERN. Il stocke l'ensemble des informations sur disque et sur bande magnétique (5 Po de capacité de stockage sur disque et 16 Po sur bande). Onze autres centres informatiques dans le monde constituent le « tier 1 ». Chacun obtient une copie des données et des métadonnées associées (calibrage, conditions de l'expérience, etc.). Enfin, plus d'une centaine de centres distribués viennent en « tier 2 » (dont un à Orsay, un à Marseille, un à Nantes, un à Clermont-Ferrand, etc.) Toutes ces informations sont synchronisées en temps réel avec l'ensemble des sites distants sur des bases Oracle. « Nous travaillons directement avec Oracle sur la technologie Streams qui permet une telle synchronisation. Nous avons un projet commun avec eux, tout comme avec Intel, HP ou Siemens, par exemple, dans le cadre de l'initiative Openlab,, explique Wolfgang von Rüden. « You make it, we break it, c'est ce que nous disons à nos partenaires technologiques. Nous poussons les technologies dans leurs derniers retranchements. Nous avons souvent les versions bêta, voire alpha, des machines, par exemple , plaisante le responsable IT. « Vous le fabriquez, nous le cassons ». Une boutade qui reflète bien la réalité. Le centre du CERN (« tier 0 ») héberge des grappes de PC ainsi que quelques serveurs. Les plus puissants comptent 4 quadri-coeurs Intel. « En 2009, à Genève, nous devrions avoir une grille de 100 000 coeurs. Et sans doute 150 000 coeurs, dès l'année d'après, détaille Wolfgang von Rüden. Pour choisir les machines qui constituent ces grappes, étonnamment le CERN fait appel au benchmark SpecINT qui mesure les capacités de calcul sur les nombres entiers des PC. Alors que la plupart du temps, les applications scientifiques s'appuient sur la performance en virgule flottante. « « Les performances des entrées/sorties entre machines n'ont pas tellement d'importance. Et finalement, le calcul en nombres entiers correspond davantage à notre charge de travail que le calcul en virgule flottante. Les analyses de données auxquelles les scientifiques procéderont impliquent davantage de comparaisons de données que de calculs en virgule flottante,, justifie ainsi Wolfgan von Rüden. La grille fonctionne sous un Linux appelé Scientific Linux. Il s'agit d'une version compatible au niveau binaire avec la distribution de Red Hat, dont le noyau a été cependant quelque peu modifié par le CERN. Le système de gestion de la grille est un environnement Open Source qui s'appuie entre autres sur les techniques du projet Globus mais aussi sur des développements du CERN dans le cadre du projet européen EGEE (Enabling Grids for E-sciencE) qu'il chapeaute. Le réseau interne s'appuie sur Ethernet et un backbone à 10 Gbit/s. Quant aux liens entre les sites, sans surprise, il s'agit de fibre dédiée. « Nous avons besoin de marge pour nos communications. Si un centre a un problème quelconque de transmission, il transfère ses données avec retard, et donc en quantité plus importante. Ce qui exige davantage de bande passante. Ce sont environ 2 Go de données qui transitent chaque seconde sur les réseaux entre les centres de données. Mais nous avons déjà eu, lors des essais, des pointes à 3 ou 4 Go, raconte Wolfgang von Rüden. Il est à noter qu'avec une telle infrastructure, le CERN surveille sa consommation électrique et donne, lui-aussi, dans le green IT. Dans ses appels d'offre, s'il regarde évidemment le prix des machines, il tient également compte « de la consommation électrique par rapport à la puissance de calcul fourni, ainsi que d'autres paramètres tel que le volume occupé ou la connexion au réseau. Cela nous permet de favoriser les fournisseurs qui offrent des solutions plus écologiques, ajoute Wolfgang von Rüden. Le centre de calcul date des années 70 et consomme environ 4,7 MW avec une charge utile inférieure à 3 MW. « Il a été adapté aux besoins du LHC, mais dans les limites du possible. Et il est loin d'être aussi efficace que des solutions modernes. » Le CERN mène des études pour un nouveau centre plus adapté et plus performant qui verra le jour probablement vers la fin de 2011. Reste que parmi les 6 000 employés du site genevois, 350 informaticiens assisteront avec fierté, mais forcément un peu d'angoisse, à l'inauguration. Ils ont passé des heures et des jours à mettre en place l'infrastructure informatique du LHC. Ils ont réalisé deux tests grandeur nature, en février et en mai, qui ont duré chacun quatre semaines. Alors pour eux, le Graal n'est sans doute pas le Boson de Higgs, la particule chérie des scientifiques, mais tout simplement le bon fonctionnement de la grille.