Leave Your Message

Herausforderungen bei der Kühlung von KI-Servern: Ein Kampf zwischen Temperatur und Leistung

10.02.2025

KI-Server mit ihren hohen parallelen Rechenkapazitäten und dicht gepackten Rechenknoten erzeugen auf engem Raum erhebliche Wärme. Dies führt zu einem hohen Stromverbrauch. Unter hoher Belastung kann die vom Server erzeugte Wärme nur schwer abgeleitet werden, was zu Leistungseinbußen oder sogar Hardwareschäden führt. Daher ist eine effiziente Kühlung eine der größten Herausforderungen für KI-Server.

dferg1.jpg

Herkömmliche Kühllösungen: Herausforderungen bei leistungsstarken KI-Chips

Traditioneller ServerKühllösungenähneln denen in der allgemeinen Computertechnik, wobei der Schwerpunkt auf der Kühlung der stromintensiven Chips liegt. Typischerweise wird die Wärme von den Chips über Heatpipes und Wärmeverteiler auf Mehrlamellen-Kühlkörper übertragen und anschließend aktiv durch Lüfter abgeführt.

Für moderne KI-Server hat sich diese Luftkühlungslösung allerdings als unzureichend erwiesen. Der Grund liegt darin, dass der Stromverbrauch leistungsstarker KI-Chips mit zunehmender Rechenleistung deutlich steigt.

dferg2.jpg

Was ist die Kühlgrenze vonLuftkühlung?

Forschungsberichte legen nahe, dass die Kühlgrenze vonLuftkühlungbeträgt etwa 250 W in einem 2U-Serverraum, mit Kühlkapazitäten von 400 W bis 600 W in einem 4U-Raum.

Zur Veranschaulichung: „U“ ist eine standardisierte Maßeinheit der Electronic Industries Alliance (EIA). Eine „U“ entspricht einer Höhe von 4,445 cm (1,75 Zoll), wobei ein Standard-Server-Rack typischerweise 42 HE hoch ist. Die Gesamtzahl der 1-HE-Server, die ein Rack aufnehmen kann, ist jedoch in der Regel durch Kühlungseinschränkungen begrenzt.

Beispielsweise ist beim Einsatz von NVIDIA H100-Chips ein 4U-Rack erforderlich, wenn ein Luftkühlungsmodul verwendet wird.

Kühllösungen: Flüssigkeitskühlung und Immersionskühlung

Um diese Kühlprobleme zu lösen, haben sich Flüssigkeitskühlung und Immersionskühlung als zwei führende Lösungen etabliert, insbesondere in Umgebungen mit hoher Leistungsdichte, in denen die Leistung pro Rack 30 kW übersteigt. An diesem Punkt treten Hotspot-Probleme stärker in Erscheinung und erfordern fortschrittliche Kühlstrategien wie Flüssigkeitskühlung. Bei Leistungsdichten von 60 bis 80 kW pro Rack wird die direkte Flüssigkeitskühlung auf Chipebene immer häufiger eingesetzt.

Flüssigkeitskühlung: Effizient und effektiv für KI-Workloads mit hoher Dichte

Bei der Flüssigkeitskühlung zirkuliert eine Kühlflüssigkeit (z. B. Wasser, 3M Novec oder Fluorinert) durch eine Kühlplatte, die direkt mit Komponenten wie CPUs oder GPUs in Kontakt steht. Die Wärme wird vom flüssigen Kühlmittel aufgenommen und anschließend über einen Wärmetauscher oder Radiator an die Umgebungsluft abgegeben. Die gekühlte Flüssigkeit wird anschließend wieder in Umlauf gebracht und sorgt so für kontinuierliche Kühlung.

Im Vergleich zur herkömmlichen Luftkühlung bietet die Flüssigkeitskühlung eine deutlich höhere Effizienz und ist daher besonders effektiv für die Verwaltung von KI-Workloads. Da flüssiges Kühlmittel Wärme deutlich effizienter ableitet als Luft (tausendfach pro Volumeneinheit), werden Flüssigkeitskühlsysteme häufig eingesetzt, um die enorme Wärmeentwicklung in engen Räumen zu bewältigen. Die Flüssigkeit absorbiert die Wärme der internen Hardware und leitet sie zur Ableitung an externe Medien wie Luft weiter.

In Umgebungen mit hoher Leistungsdichte eignen sich Flüssigkeitskühlungen hervorragend. Es ist jedoch wichtig zu beachten, dass Flüssigkeitskühlung zwar typischerweise auf CPUs oder GPUs abzielt, das System jedoch dennoch überschüssige Wärme erzeugen kann, die eine zusätzliche Klimaanlage zur Kühlung anderer Komponenten im Raum erfordert.

Immersionskühlung: Ein revolutionärer Kühlansatz

Bei der Immersionskühlung werden elektronische Bauteile in eine nichtleitende Kühlflüssigkeit wie 3M Novec oder Fluorinert getaucht. Die Kühlflüssigkeit absorbiert die von den Bauteilen erzeugte Wärme und leitet diese anschließend über einen Kreislauf an einen Wärmetauscher weiter, wo sie abgekühlt und anschließend wieder in den Kreislauf zurückgeführt wird.

Die Immersionskühlung hat in High-Performance-Computing-Rechenzentren (HPC) aufgrund ihrer Fähigkeit, höhere Leistungsdichten und eine geringere Power Usage Effectiveness (PUE) zu unterstützen, stark an Bedeutung gewonnen. Ein großer Vorteil der Immersionskühlung ist die Möglichkeit, nicht nur CPUs, sondern auch andere Komponenten wie Leiterplatten (PCBs) oder Motherboards zu kühlen, die mit herkömmlichen Methoden typischerweise nur schwer zu kühlen sind.

Fazit: Die richtige Kühllösung für KI-Server finden

Da KI-Server die Grenzen der Rechenleistung immer weiter verschieben,Kühllösungenhaben Schwierigkeiten, den Kühlbedarf zu decken. Flüssigkeitskühlung und Tauchkühlung bieten vielversprechende Alternativen, die eine höhere Kühleffizienz bieten und den steigenden Strombedarf moderner KI-Workloads decken. Jede Lösung hat jedoch ihre Vor- und Nachteile und spezifischen Anwendungsfälle. Flüssigkeitskühlung eignet sich ideal für Umgebungen mit hoher Dichte und Tauchkühlung für umfassendere Kühlanforderungen. Letztendlich ist die Wahl der richtigen Kühllösung entscheidend, um die Leistung und Zuverlässigkeit von KI-Servern angesichts steigender Stromanforderungen aufrechtzuerhalten.