Leave Your Message

Herausforderungen bei der Kühlung von KI-Servern: Ein Kampf zwischen Temperatur und Leistung

10.02.2025

KI-Server erzeugen aufgrund ihrer hohen parallelen Rechenleistung und der dicht gepackten Rechenknoten auf engstem Raum erhebliche Wärme. Dies führt zu einem hohen Stromverbrauch. Unter Volllast kann die vom Server erzeugte Wärme nur schwer effektiv abgeführt werden, was die Hardwareleistung beeinträchtigt oder sogar zu Hardwareschäden führen kann. Daher ist eine effiziente Kühlung eine der größten Herausforderungen für KI-Server.

dferg1.jpg

Traditionelle Kühllösungen: Herausforderungen bei KI-Chips mit hoher Leistung

Traditioneller Server Kühllösungen Sie ähneln denen, die in allgemeinen Computern verwendet werden, wobei der Schwerpunkt auf der Kühlung der energieintensiven Chips liegt. Typischerweise wird die Wärme von den Chips über Heatpipes und Wärmeverteiler zu Kühlkörpern mit mehreren Lamellen transportiert und anschließend aktiv von Lüftern abgeführt.

Diese Luftkühlungslösung hat sich jedoch für moderne KI-Server als unzureichend erwiesen. Der Grund dafür liegt darin, dass der Stromverbrauch von Hochleistungs-KI-Chips mit der Rechenleistung deutlich ansteigt.

dferg2.jpg

Was ist die Kühlleistungsgrenze der Luftkühlung?

Forschungsberichte legen nahe, dass die Kühlungsgrenze von Luftkühlung Der Verbrauch liegt bei etwa 250 W in einem 2U-Servergehäuse, die Kühlleistung reicht von 400 W bis 600 W in einem 4U-Gehäuse.

Zur Einordnung: „U“ ist eine von der Electronic Industries Alliance (EIA) definierte Standardmaßeinheit. Eine „U“ entspricht einer Höhe von 4,445 cm (1,75 Zoll), wobei ein Standard-Serverschrank typischerweise 42 HE hoch ist. Die maximale Anzahl an 1-HE-Servern, die ein Schrank aufnehmen kann, ist jedoch in der Regel durch Kühlungsbeschränkungen begrenzt.

Beispielsweise ist bei Verwendung von NVIDIA H100-Chips ein 4U-Rack erforderlich, wenn ein Luftkühlmodul zum Einsatz kommt.

Kühllösungen: Flüssigkeitskühlung und Tauchkühlung

Um diese Kühlungsherausforderungen zu bewältigen, haben sich Flüssigkeitskühlung und Immersionskühlung als zwei führende Lösungen etabliert, insbesondere in Umgebungen mit hoher Leistungsdichte, in denen die Leistung pro Rack 30 kW übersteigt. Ab diesem Punkt treten Hotspot-Probleme verstärkt auf und erfordern fortschrittliche Kühlstrategien wie die Flüssigkeitskühlung. Bei einer Leistungsdichte von 60 kW bis 80 kW pro Rack wird die direkte Flüssigkeitskühlung auf Chipebene immer häufiger eingesetzt.

Flüssigkeitskühlung: Effizient und effektiv für KI-Workloads mit hoher Dichte

Flüssigkeitskühlung funktioniert, indem eine Kühlflüssigkeit (z. B. Wasser, 3M Novec oder Fluorinert) durch eine Kühlplatte zirkuliert, die direkten Kontakt zu Komponenten wie CPUs oder GPUs hat. Die Wärme wird von der Kühlflüssigkeit aufgenommen und anschließend über einen Wärmetauscher oder Radiator an die Umgebungsluft abgegeben. Die gekühlte Flüssigkeit wird dann rezirkuliert, wodurch eine kontinuierliche Kühlung gewährleistet wird.

Im Vergleich zur herkömmlichen Luftkühlung bietet die Flüssigkeitskühlung eine deutlich höhere Effizienz und eignet sich daher besonders gut für die Bewältigung von KI-Anwendungen. Da flüssiges Kühlmittel Wärme wesentlich effizienter abführt als Luft (tausendfach pro Volumeneinheit), werden Flüssigkeitskühlsysteme häufig eingesetzt, um die in beengten Räumen entstehende enorme Wärme zu bewältigen. Die Flüssigkeit absorbiert die Wärme der internen Hardware und transportiert sie zur Wärmeabfuhr an externe Medien wie die Luft.

In Umgebungen mit hoher Leistungsdichte spielen Flüssigkeitskühlsysteme ihre Stärken aus. Es ist jedoch wichtig zu beachten, dass die Flüssigkeitskühlung zwar typischerweise auf CPUs oder GPUs abzielt, das System aber dennoch überschüssige Wärme erzeugen kann, die eine zusätzliche Klimatisierung zur Kühlung anderer Komponenten im Raum erforderlich macht.

Immersionskühlung: Ein revolutionärer Ansatz zur Kühlung

Bei der Immersionskühlung werden elektronische Bauteile in eine nichtleitende Kühlflüssigkeit, wie beispielsweise 3M Novec oder Fluorinert, eingetaucht. Die Kühlflüssigkeit absorbiert die von den Bauteilen erzeugte Wärme, die anschließend über einen Kreislauf zu einem Wärmetauscher transportiert, dort abgekühlt und dann wieder in den Kreislauf zurückgeführt wird.

Die Immersionskühlung hat in Hochleistungsrechner-Rechenzentren (HPC) aufgrund ihrer Fähigkeit, höhere Leistungsdichten und einen geringeren Energieverbrauch (PUE) zu ermöglichen, große Bedeutung erlangt. Einer der Hauptvorteile der Immersionskühlung ist ihre Fähigkeit, nicht nur CPUs, sondern auch andere Komponenten wie Leiterplatten (PCBs) oder Motherboards zu kühlen, deren Kühlung mit herkömmlichen Methoden typischerweise schwierig ist.

Fazit: Die richtige Kühllösung für KI-Server finden

Da KI-Server die Grenzen der Rechenleistung immer weiter verschieben, werden traditionelle Luft Kühllösungen Die Anforderungen an die Kühlung stehen vor großen Herausforderungen. Flüssigkeits- und Immersionskühlung bieten vielversprechende Alternativen, da sie eine höhere Kühlleistung ermöglichen und den steigenden Energiebedarf moderner KI-Workloads decken. Jede Lösung hat jedoch ihre Vor- und Nachteile und eignet sich für spezifische Anwendungsfälle. Flüssigkeitskühlung ist ideal für Umgebungen mit hoher Dichte, während Immersionskühlung für umfassendere Kühlanforderungen geeignet ist. Letztendlich ist die Wahl der richtigen Kühllösung entscheidend, um die Leistung und Zuverlässigkeit von KI-Servern angesichts des steigenden Energiebedarfs aufrechtzuerhalten.