Leave Your Message

Sfide del raffreddamento dei server AI: una battaglia tra temperatura e prestazioni

2025-02-10

I server AI, con le loro elevate capacità di elaborazione parallela e i nodi di elaborazione densamente stipati, generano calore significativo in uno spazio ristretto. Ciò si traduce in un elevato consumo energetico. Sotto carico pesante, il calore prodotto dal server fa fatica a dissiparsi in modo efficace, portando a prestazioni hardware ridotte o addirittura a danni all'hardware. Pertanto, un raffreddamento efficiente è una delle principali sfide affrontate dai server AI.

dferg1.jpg

Soluzioni di raffreddamento tradizionali: sfide con i chip AI ad alta potenza

Server tradizionalesoluzioni di raffreddamentosono simili a quelli usati nell'informatica generale, con un focus primario sul raffreddamento dei chip ad alto consumo energetico. In genere, il calore viene trasferito dai chip tramite heat pipe e heat spreader ai dissipatori di calore multi-aletta, e poi dissipato attivamente dalle ventole.

Tuttavia, questa soluzione di raffreddamento ad aria si è dimostrata inadeguata per i moderni server AI. Il motivo risiede nel fatto che il consumo energetico dei chip AI ad alte prestazioni aumenta significativamente con la potenza di calcolo.

dferg2.jpg

Qual è il limite di raffreddamento diRaffreddamento ad aria?

I rapporti di ricerca suggeriscono che il limite di raffreddamento diraffreddamento ad ariaè di circa 250 W in uno spazio server 2U, con capacità di raffreddamento che vanno da 400 W a 600 W in uno spazio 4U.

Per contestualizzare, "U" è una misura standardizzata definita dall'Electronic Industries Alliance (EIA). Una "U" equivale a un'altezza di 4,445 cm (1,75 pollici), con un rack server standard che in genere misura 42U in altezza. Tuttavia, il numero totale di server 1U che un rack può contenere è solitamente limitato da vincoli di raffreddamento.

Ad esempio, se si utilizzano chip NVIDIA H100, è necessario un rack 4U quando si impiega un modulo di raffreddamento ad aria.

Soluzioni di raffreddamento: raffreddamento a liquido e raffreddamento a immersione

Per affrontare queste sfide di raffreddamento, il raffreddamento a liquido e il raffreddamento a immersione sono emersi come due soluzioni principali, specialmente in ambienti ad alta densità in cui la potenza per rack supera i 30 kW. A questo punto, i problemi di hotspot diventano più evidenti, richiedendo strategie di raffreddamento avanzate, come il raffreddamento a liquido. Quando la densità di potenza raggiunge i 60 kW - 80 kW per rack, il raffreddamento a liquido diretto a livello di chip diventa sempre più comune.

Raffreddamento a liquido: efficiente ed efficace per carichi di lavoro AI ad alta densità

Il raffreddamento a liquido funziona facendo circolare un liquido di raffreddamento (come acqua, 3M Novec o Fluorinert) attraverso una piastra fredda che entra direttamente in contatto con componenti come CPU o GPU. Il calore viene assorbito dal liquido refrigerante e poi trasferito tramite uno scambiatore di calore o un radiatore all'aria circostante. Il liquido raffreddato viene poi ricircolato, assicurando un raffreddamento continuo.

Rispetto al tradizionale raffreddamento ad aria, il raffreddamento a liquido offre un'efficienza significativamente più elevata, rendendolo particolarmente efficace per la gestione dei carichi di lavoro AI. Poiché il refrigerante liquido è molto più efficiente nel dissipare il calore rispetto all'aria (migliaia di volte per unità di volume), i sistemi di raffreddamento a liquido sono spesso impiegati per gestire l'enorme calore generato in spazi ristretti. Il liquido assorbe il calore dall'hardware interno e lo trasporta verso mezzi esterni, come l'aria, per la dissipazione.

In ambienti ad alta densità di potenza, i sistemi di raffreddamento a liquido eccellono. Tuttavia, è importante notare che mentre il raffreddamento a liquido in genere è mirato a CPU o GPU, il sistema potrebbe comunque generare calore in eccesso che richiede aria condizionata aggiuntiva per raffreddare altri componenti nella stanza.

Raffreddamento a immersione: un approccio rivoluzionario al raffreddamento

Il raffreddamento a immersione prevede l'immersione dei componenti elettronici in un liquido di raffreddamento non conduttivo, come 3M Novec o Fluorinert. Il liquido di raffreddamento assorbe il calore generato dai componenti, che viene poi trasferito tramite circolazione a uno scambiatore di calore e raffreddato prima di essere ricircolato.

Il raffreddamento a immersione ha guadagnato notevole attenzione nei data center di elaborazione ad alte prestazioni (HPC) grazie alla sua capacità di supportare densità di potenza più elevate e una minore efficacia di utilizzo della potenza (PUE). Uno dei principali vantaggi del raffreddamento a immersione è la sua capacità di raffreddare non solo le CPU, ma anche altri componenti come schede a circuito stampato (PCB) o schede madri, che sono in genere difficili da raffreddare con i metodi tradizionali.

Conclusione: trovare la giusta soluzione di raffreddamento per i server AI

Mentre i server AI continuano a spingere i confini della potenza di calcolo, i tradizionali server di intelligenza artificialesoluzioni di raffreddamentofaticano a soddisfare le richieste di raffreddamento. Il raffreddamento a liquido e il raffreddamento a immersione offrono alternative promettenti, offrendo una maggiore efficienza di raffreddamento e supportando le crescenti esigenze di potenza dei moderni carichi di lavoro AI. Tuttavia, ogni soluzione ha i suoi compromessi e casi d'uso specifici, con il raffreddamento a liquido ideale per ambienti ad alta densità e il raffreddamento a immersione adatto per esigenze di raffreddamento più complete. In definitiva, la scelta della giusta soluzione di raffreddamento è fondamentale per mantenere le prestazioni e l'affidabilità del server AI di fronte alle crescenti richieste di potenza.