Leave Your Message

Défis de refroidissement des serveurs d'IA : une bataille entre température et performances

10/02/2025

Les serveurs d'IA, avec leurs capacités de calcul parallèle élevées et leurs nœuds de calcul denses, génèrent une chaleur importante dans un espace confiné. Cela entraîne une consommation d'énergie élevée. Sous forte charge, la chaleur produite par le serveur peine à se dissiper efficacement, ce qui entraîne une baisse des performances matérielles, voire des dommages matériels. Par conséquent, un refroidissement efficace est l'un des principaux défis des serveurs d'IA.

dferg1.jpg

Solutions de refroidissement traditionnelles : défis des puces d'IA haute puissance

Serveur traditionnelsolutions de refroidissementSont similaires à ceux utilisés en informatique générale, l'accent étant mis principalement sur le refroidissement des puces à forte consommation d'énergie. En général, la chaleur est transférée des puces via des caloducs et des dissipateurs thermiques vers des dissipateurs thermiques à ailettes multiples, puis dissipée activement par des ventilateurs.

Cependant, cette solution de refroidissement par air s'est avérée inadaptée aux serveurs d'IA modernes. En effet, la consommation d'énergie des puces d'IA hautes performances augmente considérablement avec la puissance de calcul.

dferg2.jpg

Quelle est la limite de refroidissement deRefroidissement par air?

Les rapports de recherche suggèrent que la limite de refroidissement derefroidissement par airest d'environ 250 W dans un espace serveur 2U, avec des capacités de refroidissement allant de 400 W à 600 W dans un espace 4U.

Pour rappel, le « U » est une unité de mesure normalisée définie par l'Electronic Industries Alliance (EIA). Un « U » équivaut à une hauteur de 4,445 cm (1,75 pouce), un rack de serveur standard mesurant généralement 42 U de hauteur. Cependant, le nombre total de serveurs 1 U qu'un rack peut accueillir est généralement limité par des contraintes de refroidissement.

Par exemple, lors de l'utilisation de puces NVIDIA H100, un rack 4U est nécessaire lors de l'utilisation d'un module de refroidissement par air.

Solutions de refroidissement : refroidissement liquide et refroidissement par immersion

Pour relever ces défis de refroidissement, le refroidissement liquide et le refroidissement par immersion se sont imposés comme deux solutions de pointe, notamment dans les environnements à haute densité où la puissance par rack dépasse 30 kW. À ce stade, les problèmes de points chauds deviennent plus importants, nécessitant des stratégies de refroidissement avancées, comme le refroidissement liquide. Lorsque la densité de puissance atteint 60 à 80 kW par rack, le refroidissement liquide direct au niveau de la puce devient de plus en plus courant.

Refroidissement liquide : efficace et performant pour les charges de travail d'IA à haute densité

Le refroidissement liquide fonctionne en faisant circuler un liquide de refroidissement (comme de l'eau, du 3M Novec ou du Fluorinert) à travers une plaque froide en contact direct avec des composants comme les processeurs ou les cartes graphiques. La chaleur est absorbée par le liquide de refroidissement puis transférée à l'air ambiant via un échangeur de chaleur ou un radiateur. Le liquide refroidi est ensuite recyclé, assurant un refroidissement continu.

Comparé au refroidissement par air traditionnel, le refroidissement liquide offre une efficacité nettement supérieure, ce qui le rend particulièrement efficace pour gérer les charges de travail d'IA. Le liquide de refroidissement étant beaucoup plus efficace que l'air pour dissiper la chaleur (des milliers de fois par unité de volume), les systèmes de refroidissement liquide sont souvent utilisés pour gérer l'importante chaleur générée dans les espaces confinés. Le liquide absorbe la chaleur du matériel interne et la transporte vers des fluides externes, comme l'air, pour la dissiper.

Dans les environnements à forte densité de puissance, les systèmes de refroidissement liquide sont excellents. Cependant, il est important de noter que, même si le refroidissement liquide cible généralement les processeurs ou les cartes graphiques, le système peut néanmoins générer une chaleur excessive nécessitant une climatisation supplémentaire pour refroidir d'autres composants de la pièce.

Refroidissement par immersion : une approche révolutionnaire du refroidissement

Le refroidissement par immersion consiste à immerger les composants électroniques dans un liquide de refroidissement non conducteur, tel que 3M Novec ou Fluorinert. Ce liquide absorbe la chaleur générée par les composants, qui est ensuite transférée par circulation vers un échangeur de chaleur, refroidie avant d'être recirculée.

Le refroidissement par immersion a suscité un intérêt considérable dans les centres de données de calcul haute performance (HPC) en raison de sa capacité à supporter des densités de puissance plus élevées et un faible rendement énergétique (PUE). L'un de ses principaux avantages réside dans sa capacité à refroidir non seulement les processeurs, mais aussi d'autres composants comme les circuits imprimés (PCB) ou les cartes mères, généralement difficiles à refroidir avec les méthodes traditionnelles.

Conclusion : trouver la solution de refroidissement adaptée aux serveurs d'IA

Alors que les serveurs d'IA continuent de repousser les limites de la puissance de calcul, les serveurs d'air traditionnelssolutions de refroidissementLes besoins en refroidissement sont difficiles à satisfaire. Le refroidissement liquide et le refroidissement par immersion offrent des alternatives prometteuses, offrant une efficacité de refroidissement supérieure et répondant aux besoins énergétiques croissants des charges de travail d'IA modernes. Cependant, chaque solution présente des compromis et des cas d'utilisation spécifiques : le refroidissement liquide est idéal pour les environnements à haute densité, tandis que le refroidissement par immersion convient à des besoins plus complets. En fin de compte, le choix de la solution de refroidissement la plus adaptée est crucial pour maintenir les performances et la fiabilité des serveurs d'IA face à l'augmentation des besoins énergétiques.