Leave Your Message

Desafios de resfriamento do servidor de IA: uma batalha entre temperatura e desempenho

2025-02-10

Servidores de IA, com suas altas capacidades de computação paralela e nós de computação densamente compactados, geram calor significativo dentro de um espaço confinado. Isso resulta em alto consumo de energia. Sob carga pesada, o calor produzido pelo servidor luta para se dissipar efetivamente, levando à redução do desempenho do hardware ou até mesmo danos ao hardware. Portanto, o resfriamento eficiente é um dos principais desafios enfrentados pelos servidores de IA.

dferg1.jpg

Soluções de resfriamento tradicionais: desafios com chips de IA de alta potência

Servidor tradicionalsoluções de refrigeraçãosão semelhantes aos usados ​​na computação geral, com foco principal no resfriamento de chips de alto consumo de energia. Normalmente, o calor é transferido dos chips por meio de tubos de calor e dissipadores de calor para dissipadores de calor multi-aletas e, em seguida, dissipado ativamente por ventiladores.

No entanto, essa solução de resfriamento a ar provou ser inadequada para servidores de IA modernos. O motivo está no fato de que o consumo de energia de chips de IA de alto desempenho aumenta significativamente com o poder de computação.

dferg2.jpg

Qual é o limite de resfriamento deResfriamento de ar?

Relatórios de pesquisa sugerem que o limite de resfriamento deresfriamento de aré de cerca de 250 W em um espaço de servidor 2U, com capacidades de resfriamento variando de 400 W a 600 W em um espaço 4U.

Para contextualizar, "U" é uma medida padronizada definida pela Electronic Industries Alliance (EIA). Um "U" é equivalente a uma altura de 4,445 cm (1,75 polegadas), com um rack de servidor padrão medindo tipicamente 42U de altura. No entanto, o número total de servidores 1U que um rack pode suportar é geralmente limitado por restrições de resfriamento.

Por exemplo, ao usar chips NVIDIA H100, um rack 4U é necessário ao empregar um módulo de resfriamento a ar.

Soluções de resfriamento: resfriamento líquido e resfriamento por imersão

Para lidar com esses desafios de resfriamento, o resfriamento líquido e o resfriamento por imersão surgiram como duas soluções líderes, especialmente em ambientes de alta densidade onde a potência por rack excede 30 kW. Neste ponto, os problemas de hotspot se tornam mais proeminentes, exigindo estratégias avançadas de resfriamento, como o resfriamento líquido. Quando a densidade de potência atinge 60 kW a 80 kW por rack, o resfriamento líquido direto no nível do chip se torna cada vez mais comum.

Resfriamento líquido: eficiente e eficaz para cargas de trabalho de IA de alta densidade

O resfriamento líquido funciona circulando um líquido de resfriamento (como água, 3M Novec ou Fluorinert) através de uma placa fria que entra em contato direto com componentes como CPUs ou GPUs. O calor é absorvido pelo líquido de resfriamento e então transferido por meio de um trocador de calor ou radiador para o ar ao redor. O líquido resfriado é então recirculado, garantindo resfriamento contínuo.

Comparado ao resfriamento a ar tradicional, o resfriamento líquido oferece eficiência significativamente maior, tornando-o especialmente eficaz para gerenciar cargas de trabalho de IA. Como o resfriamento líquido é muito mais eficiente na dissipação de calor do que o ar (por milhares de vezes por unidade de volume), os sistemas de resfriamento líquido são frequentemente empregados para lidar com o calor massivo gerado em espaços confinados. O líquido absorve o calor do hardware interno e o transporta para meios externos, como o ar, para dissipação.

Em ambientes de alta densidade de potência, os sistemas de resfriamento líquido se destacam. No entanto, é importante observar que, embora o resfriamento líquido normalmente tenha como alvo CPUs ou GPUs, o sistema ainda pode gerar calor em excesso que requer ar condicionado adicional para resfriar outros componentes na sala.

Resfriamento por imersão: uma abordagem revolucionária ao resfriamento

O resfriamento por imersão envolve submergir componentes eletrônicos em um líquido de resfriamento não condutivo, como 3M Novec ou Fluorinert. O líquido de resfriamento absorve o calor gerado pelos componentes, que é então transferido por circulação para um trocador de calor e resfriado antes de ser recirculado.

O resfriamento por imersão ganhou atenção significativa em data centers de computação de alto desempenho (HPC) devido à sua capacidade de suportar densidades de energia mais altas e menor eficácia de uso de energia (PUE). Uma das principais vantagens do resfriamento por imersão é sua capacidade de resfriar não apenas CPUs, mas também outros componentes, como placas de circuito impresso (PCBs) ou placas-mãe, que normalmente são desafiadoras de resfriar com métodos tradicionais.

Conclusão: Encontrando a solução de resfriamento certa para servidores de IA

À medida que os servidores de IA continuam a expandir os limites do poder de computação, o ar tradicionalsoluções de refrigeraçãolutam para atender às demandas de resfriamento. O resfriamento líquido e o resfriamento por imersão oferecem alternativas promissoras, proporcionando maior eficiência de resfriamento e suportando as crescentes necessidades de energia das cargas de trabalho de IA modernas. No entanto, cada solução tem suas compensações e casos de uso específicos, com o resfriamento líquido sendo ideal para ambientes de alta densidade e o resfriamento por imersão sendo adequado para necessidades de resfriamento mais abrangentes. Por fim, selecionar a solução de resfriamento certa é crucial para manter o desempenho e a confiabilidade do servidor de IA diante das crescentes demandas de energia.