Leave Your Message

AI 서버 냉각 과제: 온도와 성능 간의 전투

2025-02-10

AI 서버는 높은 병렬 컴퓨팅 기능과 밀집된 컴퓨팅 노드를 갖추고 있어 제한된 공간에서 상당한 열을 발생시킵니다. 이로 인해 전력 소모가 높아집니다. 부하가 많으면 서버에서 발생하는 열이 효과적으로 발산되지 않아 하드웨어 성능이 저하되거나 하드웨어가 손상될 수 있습니다. 따라서 효율적인 냉각은 AI 서버가 직면한 주요 과제 중 하나입니다.

디퍼그1.jpg

기존 냉각 솔루션: 고전력 AI 칩의 과제

전통적인 서버냉각 솔루션일반 컴퓨팅에서 사용되는 것과 유사하며, 주로 고전력 소모 칩을 냉각하는 데 중점을 둡니다. 일반적으로 열은 히트 파이프와 히트 스프레더를 통해 칩에서 멀티핀 히트 싱크로 전달된 다음 팬에 의해 적극적으로 소산됩니다.

그러나 이 공랭 솔루션은 현대 AI 서버에는 부적합한 것으로 입증되었습니다. 그 이유는 고성능 AI 칩의 전력 소비가 컴퓨팅 파워와 함께 크게 증가하기 때문입니다.

디퍼그2.jpg

냉각 한계는 무엇입니까?공기 냉각?

연구 보고서에 따르면 냉각 한계는 다음과 같습니다.공기 냉각2U 서버 공간에서는 약 250W이고, 4U 공간에서는 냉각 용량이 400W~600W입니다.

문맥상 "U"는 Electronic Industries Alliance(EIA)에서 정의한 표준화된 측정 단위입니다. 1 "U"는 높이 4.445cm(1.75인치)에 해당하며, 표준 서버 랙은 일반적으로 높이가 42U입니다. 그러나 랙이 보유할 수 있는 1U 서버의 총 수는 일반적으로 냉각 제약으로 제한됩니다.

예를 들어, NVIDIA H100 칩을 사용하는 경우 공기 냉각 모듈을 채택하면 4U 랙이 필요합니다.

냉각 솔루션: 액체 냉각 및 침지 냉각

이러한 냉각 과제를 해결하기 위해 액체 냉각과 침지 냉각이 두 가지 주요 솔루션으로 부상했으며, 특히 랙당 전력이 30kW를 초과하는 고밀도 환경에서 그렇습니다. 이 시점에서 핫스팟 문제가 더욱 두드러져 액체 냉각과 같은 고급 냉각 전략이 필요합니다. 전력 밀도가 랙당 60kW~80kW에 도달하면 직접 칩 레벨 액체 냉각이 점점 더 일반화됩니다.

액체 냉각: 고밀도 AI 워크로드에 효율적이고 효과적

액체 냉각은 냉각 액체(예: 물, 3M Novec 또는 Fluorinert)를 CPU 또는 GPU와 같은 구성 요소에 직접 접촉하는 냉각판을 통해 순환시켜 작동합니다. 열은 액체 냉각수에 의해 흡수된 다음 열 교환기 또는 라디에이터를 통해 주변 공기로 전달됩니다. 그런 다음 냉각된 액체가 재순환되어 지속적인 냉각이 보장됩니다.

기존의 공기 냉각에 비해 액체 냉각은 훨씬 더 높은 효율성을 제공하여 AI 워크로드를 관리하는 데 특히 효과적입니다. 액체 냉각수는 공기보다 열을 발산하는 데 훨씬 더 효율적이기 때문에(단위 부피당 수천 배) 액체 냉각 시스템은 종종 제한된 공간에서 발생하는 막대한 열을 처리하는 데 사용됩니다. 액체는 내부 하드웨어에서 열을 흡수하여 공기와 같은 외부 매체로 전달하여 발산합니다.

고전력 밀도 환경에서는 액체 냉각 시스템이 뛰어납니다. 그러나 액체 냉각은 일반적으로 CPU나 GPU를 대상으로 하지만, 시스템은 여전히 ​​과도한 열을 발생시켜 실내의 다른 구성 요소를 냉각하기 위해 추가적인 에어컨이 필요할 수 있다는 점에 유의하는 것이 중요합니다.

침지 냉각: 냉각에 대한 혁신적인 접근 방식

침지 냉각은 전자 부품을 3M Novec 또는 Fluorinert와 같은 비전도성 냉각 액체에 담그는 것을 포함합니다. 냉각 액체는 부품에서 생성된 열을 흡수한 다음 순환을 통해 열교환기로 전달되고 재순환되기 전에 냉각됩니다.

침지 냉각은 더 높은 전력 밀도와 더 낮은 전력 사용 효율성(PUE)을 지원할 수 있는 능력으로 인해 고성능 컴퓨팅(HPC) 데이터 센터에서 상당한 주목을 받았습니다. 침지 냉각의 주요 장점 중 하나는 CPU뿐만 아니라 인쇄 회로 기판(PCB)이나 마더보드와 같은 다른 구성 요소도 냉각할 수 있는 능력인데, 이는 일반적으로 기존 방식으로는 냉각하기 어렵습니다.

결론: AI 서버를 위한 올바른 냉각 솔루션 찾기

AI 서버가 컴퓨팅 성능의 경계를 계속 넓혀가면서 기존의 공기냉각 솔루션냉각 수요를 충족하기 위해 고군분투하고 있습니다. 액체 냉각 및 침지 냉각은 더 높은 냉각 효율을 제공하고 현대 AI 워크로드의 증가하는 전력 수요를 지원하는 유망한 대안을 제공합니다. 그러나 각 솔루션에는 트레이드오프와 특정 사용 사례가 있으며, 액체 냉각은 고밀도 환경에 이상적이고 침지 냉각은 보다 포괄적인 냉각 요구에 적합합니다. 궁극적으로 적절한 냉각 솔루션을 선택하는 것은 증가하는 전력 수요에 직면하여 AI 서버 성능과 안정성을 유지하는 데 중요합니다.