Leave Your Message

Défis liés au refroidissement des serveurs d'IA : un combat entre température et performance

10 février 2025

Les serveurs d'IA, avec leurs capacités de calcul parallèle élevées et leurs nœuds de calcul densément regroupés, génèrent une chaleur importante dans un espace restreint. Il en résulte une forte consommation d'énergie. En cas de forte charge, la chaleur produite par le serveur peine à se dissiper efficacement, ce qui peut entraîner une baisse des performances matérielles, voire des dommages. Par conséquent, un refroidissement efficace constitue l'un des principaux défis auxquels sont confrontés les serveurs d'IA.

dferg1.jpg

Solutions de refroidissement traditionnelles : défis posés par les puces d’IA haute puissance

Serveur traditionnel solutions de refroidissement Ces systèmes sont similaires à ceux utilisés en informatique générale, leur fonction principale étant le refroidissement des puces à forte consommation énergétique. La chaleur est généralement transférée des puces vers des dissipateurs thermiques à ailettes multiples via des caloducs et des dissipateurs de chaleur, puis dissipée activement par des ventilateurs.

Cependant, cette solution de refroidissement par air s'est avérée insuffisante pour les serveurs d'IA modernes. En effet, la consommation énergétique des puces d'IA hautes performances augmente considérablement avec la puissance de calcul.

dferg2.jpg

Quelle est la limite de refroidissement du refroidissement par air ?

Les rapports de recherche suggèrent que la limite de refroidissement de refroidissement par air La consommation est d'environ 250 W dans un espace serveur 2U, avec des capacités de refroidissement allant de 400 W à 600 W dans un espace 4U.

Pour information, « U » est une unité de mesure normalisée définie par l’Electronic Industries Alliance (EIA). Un « U » correspond à une hauteur de 4,445 cm (1,75 pouce), une baie de serveurs standard mesurant généralement 42U de hauteur. Toutefois, le nombre total de serveurs 1U qu’une baie peut accueillir est généralement limité par les contraintes de refroidissement.

Par exemple, lors de l'utilisation de puces NVIDIA H100, un rack 4U est nécessaire lorsqu'on utilise un module de refroidissement par air.

Solutions de refroidissement : Refroidissement liquide et refroidissement par immersion

Pour relever ces défis en matière de refroidissement, le refroidissement liquide et le refroidissement par immersion se sont imposés comme deux solutions de pointe, notamment dans les environnements haute densité où la puissance par rack dépasse 30 kW. À ce stade, les problèmes de points chauds deviennent plus fréquents, nécessitant des stratégies de refroidissement avancées, telles que le refroidissement liquide. Lorsque la densité de puissance atteint 60 à 80 kW par rack, le refroidissement liquide direct au niveau des puces se généralise.

Refroidissement liquide : efficace et performant pour les charges de travail d’IA haute densité

Le refroidissement liquide fonctionne en faisant circuler un liquide de refroidissement (eau, 3M Novec ou Fluorinert, par exemple) à travers une plaque froide en contact direct avec des composants tels que le processeur ou la carte graphique. La chaleur est absorbée par le liquide de refroidissement, puis transférée à l'air ambiant via un échangeur de chaleur ou un radiateur. Le liquide refroidi est ensuite recirculé, assurant ainsi un refroidissement continu.

Comparé au refroidissement par air traditionnel, le refroidissement liquide offre une efficacité nettement supérieure, ce qui le rend particulièrement performant pour la gestion des charges de travail d'IA. Le liquide de refroidissement étant beaucoup plus efficace que l'air pour dissiper la chaleur (des milliers de fois plus par unité de volume), les systèmes de refroidissement liquide sont fréquemment utilisés pour gérer la chaleur importante générée dans les espaces confinés. Le liquide absorbe la chaleur des composants internes et la transporte vers des milieux externes, comme l'air, pour sa dissipation.

Dans les environnements à forte densité énergétique, les systèmes de refroidissement liquide excellent. Toutefois, il est important de noter que, même si le refroidissement liquide cible généralement les processeurs ou les cartes graphiques, le système peut générer un excès de chaleur nécessitant une climatisation supplémentaire pour refroidir les autres composants de la pièce.

Refroidissement par immersion : une approche révolutionnaire du refroidissement

Le refroidissement par immersion consiste à plonger les composants électroniques dans un liquide de refroidissement non conducteur, tel que 3M Novec ou Fluorinert. Ce liquide absorbe la chaleur générée par les composants, laquelle est ensuite transférée par circulation vers un échangeur de chaleur où elle est refroidie avant d'être recirculée.

Le refroidissement par immersion a suscité un intérêt considérable dans les centres de données de calcul haute performance (HPC) grâce à sa capacité à supporter des densités de puissance plus élevées et une efficacité énergétique (PUE) plus faible. L'un de ses principaux avantages réside dans sa capacité à refroidir non seulement les processeurs, mais aussi d'autres composants tels que les cartes de circuits imprimés (PCB) ou les cartes mères, généralement difficiles à refroidir par les méthodes traditionnelles.

Conclusion : Trouver la solution de refroidissement adaptée aux serveurs d’IA

Alors que les serveurs d'IA continuent de repousser les limites de la puissance de calcul, l'air traditionnel solutions de refroidissement Les serveurs peinent à répondre aux exigences de refroidissement. Le refroidissement liquide et le refroidissement par immersion offrent des alternatives prometteuses, garantissant une efficacité de refroidissement supérieure et répondant aux besoins énergétiques croissants des charges de travail d'IA modernes. Cependant, chaque solution présente des avantages et des inconvénients, et s'adapte à des cas d'utilisation spécifiques. Le refroidissement liquide est idéal pour les environnements à haute densité, tandis que le refroidissement par immersion convient à des besoins de refroidissement plus complets. En définitive, le choix de la solution de refroidissement adéquate est crucial pour maintenir les performances et la fiabilité des serveurs d'IA face à l'augmentation constante de la consommation d'énergie.