Desafíos de refrigeración de servidores de IA: una batalla entre la temperatura y el rendimiento
Los servidores de IA, con su alta capacidad de computación paralela y la densidad de nodos, generan un calor considerable en un espacio reducido. Esto se traduce en un alto consumo de energía. Bajo cargas elevadas, el calor generado por el servidor tiene dificultades para disiparse eficazmente, lo que reduce el rendimiento del hardware o incluso lo daña. Por lo tanto, la refrigeración eficiente es uno de los principales retos a los que se enfrentan los servidores de IA.
Soluciones de refrigeración tradicionales: desafíos de los chips de IA de alta potencia
Servidor tradicionalsoluciones de refrigeraciónSon similares a los utilizados en informática general, con un enfoque principal en la refrigeración de chips de alto consumo. Normalmente, el calor se transfiere desde los chips mediante tubos de calor y disipadores térmicos a disipadores de calor de múltiples aletas, y luego se disipa activamente mediante ventiladores.
Sin embargo, esta solución de refrigeración por aire ha demostrado ser inadecuada para los servidores de IA modernos. Esto se debe a que el consumo de energía de los chips de IA de alto rendimiento aumenta significativamente con la potencia de procesamiento.
¿Cuál es el límite de enfriamiento deRefrigeración por aire?
Los informes de investigación sugieren que el límite de enfriamiento derefrigeración por airees de alrededor de 250 W en un espacio de servidor 2U, con capacidades de enfriamiento que varían de 400 W a 600 W en un espacio 4U.
Para contextualizar, "U" es una medida estandarizada definida por la Electronic Industries Alliance (EIA). Una "U" equivale a una altura de 4,445 cm (1,75 pulgadas), y un rack de servidores estándar suele tener una altura de 42 U. Sin embargo, la cantidad total de servidores de 1 U que puede albergar un rack suele estar limitada por las limitaciones de refrigeración.
Por ejemplo, cuando se utilizan chips NVIDIA H100, es necesario un rack 4U si se emplea un módulo de refrigeración por aire.
Soluciones de refrigeración: refrigeración líquida y refrigeración por inmersión
Para afrontar estos retos de refrigeración, la refrigeración líquida y la refrigeración por inmersión se han convertido en dos soluciones líderes, especialmente en entornos de alta densidad donde la potencia por rack supera los 30 kW. En este punto, los problemas de puntos calientes se agudizan, requiriendo estrategias de refrigeración avanzadas, como la refrigeración líquida. Cuando la densidad de potencia alcanza los 60 kW a 80 kW por rack, la refrigeración líquida directa a nivel de chip se vuelve cada vez más común.
Refrigeración líquida: eficiente y eficaz para cargas de trabajo de IA de alta densidad
La refrigeración líquida funciona haciendo circular un líquido refrigerante (como agua, 3M Novec o Fluorinert) a través de una placa fría que entra en contacto directo con componentes como CPU o GPU. El calor es absorbido por el refrigerante líquido y luego transferido al aire circundante mediante un intercambiador de calor o radiador. El líquido enfriado se recircula, garantizando así una refrigeración continua.
En comparación con la refrigeración por aire tradicional, la refrigeración líquida ofrece una eficiencia significativamente mayor, lo que la hace especialmente eficaz para gestionar cargas de trabajo de IA. Dado que el refrigerante líquido disipa el calor con mucha mayor eficiencia que el aire (miles de veces por unidad de volumen), los sistemas de refrigeración líquida se emplean a menudo para gestionar el calor masivo generado en espacios reducidos. El líquido absorbe el calor del hardware interno y lo transporta a medios externos, como el aire, para su disipación.
En entornos de alta densidad de potencia, los sistemas de refrigeración líquida son excelentes. Sin embargo, es importante tener en cuenta que, si bien la refrigeración líquida suele estar dirigida a CPU o GPU, el sistema puede generar un calor excesivo que requiera aire acondicionado adicional para refrigerar otros componentes de la sala.
Refrigeración por inmersión: un enfoque revolucionario para la refrigeración
El enfriamiento por inmersión consiste en sumergir los componentes electrónicos en un líquido refrigerante no conductor, como 3M Novec o Fluorinert. El líquido refrigerante absorbe el calor generado por los componentes, que posteriormente se transfiere mediante circulación a un intercambiador de calor y se enfría antes de recircularlo.
La refrigeración por inmersión ha cobrado gran importancia en los centros de datos de computación de alto rendimiento (HPC) debido a su capacidad para soportar mayores densidades de potencia y una menor eficiencia energética (PUE). Una de las principales ventajas de la refrigeración por inmersión es su capacidad para refrigerar no solo las CPU, sino también otros componentes como placas de circuito impreso (PCB) o placas base, que suelen ser difíciles de refrigerar con los métodos tradicionales.
Conclusión: Cómo encontrar la solución de refrigeración adecuada para servidores de IA
A medida que los servidores de IA continúan ampliando los límites de la potencia informática, el aire tradicionalsoluciones de refrigeraciónLa refrigeración líquida y la refrigeración por inmersión son alternativas prometedoras que ofrecen una mayor eficiencia y satisfacen las crecientes necesidades energéticas de las cargas de trabajo de IA modernas. Sin embargo, cada solución tiene sus desventajas y casos de uso específicos: la refrigeración líquida es ideal para entornos de alta densidad, mientras que la refrigeración por inmersión es adecuada para necesidades de refrigeración más amplias. En definitiva, seleccionar la solución de refrigeración adecuada es crucial para mantener el rendimiento y la fiabilidad del servidor de IA ante la creciente demanda energética.