AI Sunucu Soğutma Zorlukları: Sıcaklık ve Performans Arasındaki Savaş
Yüksek paralel hesaplama yetenekleri ve yoğun paketlenmiş hesaplama düğümleriyle AI sunucuları, sınırlı bir alanda önemli miktarda ısı üretir. Bu, yüksek güç tüketimiyle sonuçlanır. Ağır yük altında, sunucunun ürettiği ısı etkili bir şekilde dağılmakta zorlanır ve bu da donanım performansının düşmesine veya hatta donanım hasarına yol açar. Bu nedenle, verimli soğutma AI sunucularının karşılaştığı en büyük zorluklardan biridir.
Geleneksel Soğutma Çözümleri: Yüksek Güçlü AI Çipleriyle İlgili Zorluklar
Geleneksel sunucusoğutma çözümlerigenel bilgisayarlarda kullanılanlara benzerdir ve birincil odak noktası yüksek güç tüketen yongaları soğutmak üzerinedir. Tipik olarak, ısı yongalardan ısı boruları ve ısı yayıcılar aracılığıyla çok kanatlı ısı emicilere aktarılır ve ardından fanlar tarafından aktif olarak dağıtılır.
Ancak bu hava soğutma çözümü modern AI sunucuları için yetersiz olduğunu kanıtladı. Bunun nedeni, yüksek performanslı AI çiplerinin güç tüketiminin hesaplama gücüyle önemli ölçüde artmasıdır.
Soğutma Sınırı Nedir?Hava Soğutma?
Araştırma raporları, soğutma sınırınınhava soğutma2U sunucu alanında yaklaşık 250W, 4U alanda ise 400W ile 600W arasında değişen soğutma kapasitelerine sahiptir.
Bağlam için, "U", Electronic Industries Alliance (EIA) tarafından tanımlanan standart bir ölçüdür. Bir "U", 4,445 cm (1,75 inç) yüksekliğe eşdeğerdir ve standart bir sunucu rafı genellikle 42U yüksekliğindedir. Ancak, bir rafın tutabileceği toplam 1U sunucu sayısı genellikle soğutma kısıtlamalarıyla sınırlıdır.
Örneğin NVIDIA H100 çipleri kullanıldığında hava soğutma modülü kullanıldığında 4U rafa ihtiyaç duyulur.
Soğutma Çözümleri: Sıvı Soğutma ve Daldırma Soğutma
Bu soğutma zorluklarının üstesinden gelmek için, özellikle raf başına gücün 30 kW'ı aştığı yüksek yoğunluklu ortamlarda, sıvı soğutma ve daldırma soğutma iki önde gelen çözüm olarak ortaya çıkmıştır. Bu noktada, sıcak nokta sorunları daha belirgin hale gelir ve sıvı soğutma gibi gelişmiş soğutma stratejileri gerektirir. Güç yoğunluğu raf başına 60 kW ila 80 kW'a ulaştığında, doğrudan çip düzeyinde sıvı soğutma giderek daha yaygın hale gelir.
Sıvı Soğutma: Yüksek Yoğunluklu Yapay Zeka İş Yükleri için Verimli ve Etkili
Sıvı soğutma, CPU'lar veya GPU'lar gibi bileşenlerle doğrudan temas eden soğuk bir plakadan bir soğutma sıvısı (su, 3M Novec veya Fluorinert gibi) dolaştırılarak çalışır. Isı, sıvı soğutucu tarafından emilir ve ardından bir ısı değiştirici veya radyatör aracılığıyla çevredeki havaya aktarılır. Soğutulan sıvı daha sonra yeniden dolaştırılarak sürekli soğutma sağlanır.
Geleneksel hava soğutmasıyla karşılaştırıldığında, sıvı soğutma önemli ölçüde daha yüksek verimlilik sunar ve bu da onu AI iş yüklerini yönetmek için özellikle etkili hale getirir. Sıvı soğutucu, ısıyı dağıtmada havadan çok daha verimli olduğundan (birim hacim başına binlerce kat), sıvı soğutma sistemleri genellikle sınırlı alanlarda oluşan büyük ısıyı idare etmek için kullanılır. Sıvı, iç donanımdan gelen ısıyı emer ve dağıtmak için hava gibi harici ortamlara iletir.
Yüksek güç yoğunluklu ortamlarda, sıvı soğutma sistemleri mükemmeldir. Ancak, sıvı soğutmanın tipik olarak CPU'ları veya GPU'ları hedeflediğini, ancak sistemin yine de odadaki diğer bileşenleri soğutmak için ek klima gerektiren aşırı ısı üretebileceğini belirtmek önemlidir.
Daldırma Soğutma: Soğutmaya Devrim Niteliğinde Bir Yaklaşım
Daldırma soğutma, elektronik bileşenlerin 3M Novec veya Fluorinert gibi iletken olmayan bir soğutma sıvısına daldırılmasını içerir. Soğutma sıvısı, bileşenler tarafından üretilen ısıyı emer, bu daha sonra sirkülasyon yoluyla bir ısı eşanjörüne aktarılır ve tekrar sirküle edilmeden önce soğutulur.
Daldırma soğutma, daha yüksek güç yoğunluklarını ve daha düşük güç kullanım etkinliğini (PUE) destekleme yeteneği nedeniyle yüksek performanslı bilgi işlem (HPC) veri merkezlerinde önemli ilgi görmüştür. Daldırma soğutmanın en büyük avantajlarından biri, yalnızca CPU'ları değil, aynı zamanda geleneksel yöntemlerle soğutulması genellikle zor olan baskılı devre kartları (PCB'ler) veya anakartlar gibi diğer bileşenleri de soğutabilmesidir.
Sonuç: AI Sunucuları için Doğru Soğutma Çözümünü Bulmak
Yapay zeka sunucuları bilgi işlem gücünün sınırlarını zorlamaya devam ederken, geleneksel havasoğutma çözümlerisoğutma taleplerini karşılamakta zorlanıyor. Sıvı soğutma ve daldırma soğutma, daha yüksek soğutma verimliliği sağlayan ve modern AI iş yüklerinin artan güç ihtiyaçlarını destekleyen umut verici alternatifler sunuyor. Ancak, her çözümün kendine özgü avantajları ve belirli kullanım durumları var; sıvı soğutma yüksek yoğunluklu ortamlar için idealken, daldırma soğutma daha kapsamlı soğutma ihtiyaçları için uygundur. Sonuç olarak, artan güç talepleri karşısında AI sunucu performansını ve güvenilirliğini korumak için doğru soğutma çözümünü seçmek çok önemlidir.