Desafios de resfriamento do servidor de IA: uma batalha entre temperatura e desempenho
Servidores de IA, com suas altas capacidades de computação paralela e nós de computação densamente compactados, geram calor significativo dentro de um espaço confinado. Isso resulta em alto consumo de energia. Sob carga pesada, o calor produzido pelo servidor luta para se dissipar efetivamente, levando à redução do desempenho do hardware ou até mesmo danos ao hardware. Portanto, o resfriamento eficiente é um dos principais desafios enfrentados pelos servidores de IA.
Soluções de resfriamento tradicionais: desafios com chips de IA de alta potência
Servidor tradicionalsoluções de refrigeraçãosão semelhantes aos usados na computação geral, com foco principal no resfriamento de chips de alto consumo de energia. Normalmente, o calor é transferido dos chips por meio de tubos de calor e dissipadores de calor para dissipadores de calor multi-aletas e, em seguida, dissipado ativamente por ventiladores.
No entanto, essa solução de resfriamento a ar provou ser inadequada para servidores de IA modernos. O motivo está no fato de que o consumo de energia de chips de IA de alto desempenho aumenta significativamente com o poder de computação.
Qual é o limite de resfriamento deResfriamento de ar?
Relatórios de pesquisa sugerem que o limite de resfriamento deresfriamento de aré de cerca de 250 W em um espaço de servidor 2U, com capacidades de resfriamento variando de 400 W a 600 W em um espaço 4U.
Para contextualizar, "U" é uma medida padronizada definida pela Electronic Industries Alliance (EIA). Um "U" é equivalente a uma altura de 4,445 cm (1,75 polegadas), com um rack de servidor padrão medindo tipicamente 42U de altura. No entanto, o número total de servidores 1U que um rack pode suportar é geralmente limitado por restrições de resfriamento.
Por exemplo, ao usar chips NVIDIA H100, um rack 4U é necessário ao empregar um módulo de resfriamento a ar.
Soluções de resfriamento: resfriamento líquido e resfriamento por imersão
Para lidar com esses desafios de resfriamento, o resfriamento líquido e o resfriamento por imersão surgiram como duas soluções líderes, especialmente em ambientes de alta densidade onde a potência por rack excede 30 kW. Neste ponto, os problemas de hotspot se tornam mais proeminentes, exigindo estratégias avançadas de resfriamento, como o resfriamento líquido. Quando a densidade de potência atinge 60 kW a 80 kW por rack, o resfriamento líquido direto no nível do chip se torna cada vez mais comum.
Resfriamento líquido: eficiente e eficaz para cargas de trabalho de IA de alta densidade
O resfriamento líquido funciona circulando um líquido de resfriamento (como água, 3M Novec ou Fluorinert) através de uma placa fria que entra em contato direto com componentes como CPUs ou GPUs. O calor é absorvido pelo líquido de resfriamento e então transferido por meio de um trocador de calor ou radiador para o ar ao redor. O líquido resfriado é então recirculado, garantindo resfriamento contínuo.
Comparado ao resfriamento a ar tradicional, o resfriamento líquido oferece eficiência significativamente maior, tornando-o especialmente eficaz para gerenciar cargas de trabalho de IA. Como o resfriamento líquido é muito mais eficiente na dissipação de calor do que o ar (por milhares de vezes por unidade de volume), os sistemas de resfriamento líquido são frequentemente empregados para lidar com o calor massivo gerado em espaços confinados. O líquido absorve o calor do hardware interno e o transporta para meios externos, como o ar, para dissipação.
Em ambientes de alta densidade de potência, os sistemas de resfriamento líquido se destacam. No entanto, é importante observar que, embora o resfriamento líquido normalmente tenha como alvo CPUs ou GPUs, o sistema ainda pode gerar calor em excesso que requer ar condicionado adicional para resfriar outros componentes na sala.
Resfriamento por imersão: uma abordagem revolucionária ao resfriamento
O resfriamento por imersão envolve submergir componentes eletrônicos em um líquido de resfriamento não condutivo, como 3M Novec ou Fluorinert. O líquido de resfriamento absorve o calor gerado pelos componentes, que é então transferido por circulação para um trocador de calor e resfriado antes de ser recirculado.
O resfriamento por imersão ganhou atenção significativa em data centers de computação de alto desempenho (HPC) devido à sua capacidade de suportar densidades de energia mais altas e menor eficácia de uso de energia (PUE). Uma das principais vantagens do resfriamento por imersão é sua capacidade de resfriar não apenas CPUs, mas também outros componentes, como placas de circuito impresso (PCBs) ou placas-mãe, que normalmente são desafiadoras de resfriar com métodos tradicionais.
Conclusão: Encontrando a solução de resfriamento certa para servidores de IA
À medida que os servidores de IA continuam a expandir os limites do poder de computação, o ar tradicionalsoluções de refrigeraçãolutam para atender às demandas de resfriamento. O resfriamento líquido e o resfriamento por imersão oferecem alternativas promissoras, proporcionando maior eficiência de resfriamento e suportando as crescentes necessidades de energia das cargas de trabalho de IA modernas. No entanto, cada solução tem suas compensações e casos de uso específicos, com o resfriamento líquido sendo ideal para ambientes de alta densidade e o resfriamento por imersão sendo adequado para necessidades de resfriamento mais abrangentes. Por fim, selecionar a solução de resfriamento certa é crucial para manter o desempenho e a confiabilidade do servidor de IA diante das crescentes demandas de energia.