Leave Your Message

Desafios de resfriamento de servidores de IA: uma batalha entre temperatura e desempenho.

2025-02-10

Servidores de IA, com suas altas capacidades de computação paralela e nós de computação densamente compactados, geram calor significativo em um espaço confinado. Isso resulta em alto consumo de energia. Sob carga pesada, o calor produzido pelo servidor tem dificuldade para se dissipar de forma eficaz, levando à redução do desempenho do hardware ou até mesmo a danos aos componentes. Portanto, o resfriamento eficiente é um dos principais desafios enfrentados pelos servidores de IA.

dferg1.jpg

Soluções tradicionais de resfriamento: desafios com chips de IA de alta potência

Servidor tradicional soluções de resfriamento São semelhantes aos usados ​​em computação em geral, com foco principal no resfriamento dos chips de alto consumo de energia. Normalmente, o calor é transferido dos chips por meio de heat pipes e dissipadores de calor para dissipadores de calor com múltiplas aletas, sendo então dissipado ativamente por ventiladores.

No entanto, essa solução de resfriamento a ar provou ser inadequada para servidores de IA modernos. O motivo reside no fato de que o consumo de energia de chips de IA de alto desempenho aumenta significativamente com a capacidade de processamento.

dferg2.jpg

Qual é o limite de resfriamento do resfriamento a ar?

Relatórios de pesquisa sugerem que o limite de resfriamento de resfriamento a ar O consumo de energia é de aproximadamente 250W em um servidor de 2U, com capacidades de refrigeração que variam de 400W a 600W em um servidor de 4U.

Para contextualizar, "U" é uma unidade de medida padronizada definida pela Electronic Industries Alliance (EIA). Uma "U" equivale a uma altura de 4,445 cm (1,75 polegadas), sendo que um rack de servidores padrão geralmente mede 42U de altura. No entanto, o número total de servidores 1U que um rack pode suportar é normalmente limitado por restrições de refrigeração.

Por exemplo, ao usar chips NVIDIA H100, um rack 4U é necessário ao empregar um módulo de resfriamento a ar.

Soluções de refrigeração: Refrigeração líquida e refrigeração por imersão

Para lidar com esses desafios de resfriamento, o resfriamento líquido e o resfriamento por imersão surgiram como duas soluções líderes, especialmente em ambientes de alta densidade onde a potência por rack ultrapassa 30 kW. Nesse ponto, os problemas de pontos quentes tornam-se mais evidentes, exigindo estratégias de resfriamento avançadas, como o resfriamento líquido. Quando a densidade de potência atinge de 60 kW a 80 kW por rack, o resfriamento líquido direto no nível do chip torna-se cada vez mais comum.

Resfriamento líquido: eficiente e eficaz para cargas de trabalho de IA de alta densidade.

O resfriamento líquido funciona através da circulação de um líquido refrigerante (como água, 3M Novec ou Fluorinert) em uma placa fria que entra em contato direto com componentes como CPUs ou GPUs. O calor é absorvido pelo líquido refrigerante e, em seguida, transferido para o ar circundante por meio de um trocador de calor ou radiador. O líquido resfriado é então recirculado, garantindo o resfriamento contínuo.

Em comparação com o resfriamento a ar tradicional, o resfriamento líquido oferece uma eficiência significativamente maior, tornando-o especialmente eficaz para o gerenciamento de cargas de trabalho de IA. Como o fluido refrigerante é muito mais eficiente na dissipação de calor do que o ar (milhares de vezes mais eficiente por unidade de volume), os sistemas de resfriamento líquido são frequentemente empregados para lidar com o calor intenso gerado em espaços confinados. O líquido absorve o calor do hardware interno e o transporta para meios externos, como o ar, para dissipação.

Em ambientes com alta densidade de potência, os sistemas de refrigeração líquida se destacam. No entanto, é importante observar que, embora a refrigeração líquida seja normalmente direcionada para CPUs ou GPUs, o sistema ainda pode gerar calor excessivo, exigindo ar condicionado adicional para resfriar outros componentes no ambiente.

Resfriamento por imersão: uma abordagem revolucionária para o resfriamento.

O resfriamento por imersão consiste em submergir componentes eletrônicos em um líquido refrigerante não condutor, como o 3M Novec ou o Fluorinert. O líquido refrigerante absorve o calor gerado pelos componentes, que é então transferido por meio de circulação para um trocador de calor e resfriado antes de ser recirculado.

O resfriamento por imersão tem ganhado destaque em data centers de computação de alto desempenho (HPC) devido à sua capacidade de suportar densidades de potência mais elevadas e menor eficiência de uso de energia (PUE). Uma das principais vantagens do resfriamento por imersão é a capacidade de resfriar não apenas CPUs, mas também outros componentes, como placas de circuito impresso (PCBs) ou placas-mãe, que normalmente são difíceis de resfriar com métodos tradicionais.

Conclusão: Encontrando a solução de resfriamento ideal para servidores de IA

À medida que os servidores de IA continuam a expandir os limites da capacidade computacional, a tecnologia aeróbica tradicional (air) torna-se cada vez mais complexa. soluções de resfriamento Os servidores de IA enfrentam dificuldades para atender às demandas de refrigeração. O resfriamento líquido e o resfriamento por imersão oferecem alternativas promissoras, proporcionando maior eficiência de resfriamento e suportando as crescentes necessidades de energia das cargas de trabalho de IA modernas. No entanto, cada solução tem suas vantagens e desvantagens e casos de uso específicos, sendo o resfriamento líquido ideal para ambientes de alta densidade e o resfriamento por imersão adequado para necessidades de resfriamento mais abrangentes. Em última análise, selecionar a solução de resfriamento correta é crucial para manter o desempenho e a confiabilidade do servidor de IA diante da crescente demanda por energia.