NVIDIA DGX STATION A100 수리 일지
안녕하세요, H3SOLUTION입니다. 지난 포스팅에서 DGX STATION V100의 냉각 계통 수리에 대해 소개해드렸는데, 이번에는 그 후속 모델인 DGX STATION A100의 수리에 대해 다뤄보려고 합니다. DGX STATION A100은 2020년에 공개된 NVIDIA의 2세대 워크스테이션형 AI 시스템으로, Ampere 아키텍처 기반의 A100 Tensor Core GPU 4기를 탑재하고 있습니다.
외형상으로는 V100과 동일한 타워형 샷시를 사용하고 있어 겉보기엔 크게 달라진 것이 없어 보이지만, 내부는 사실상 완전히 새롭게 설계된 시스템입니다. 가장 큰 변화는 냉각 구조에 있는데, V100이 냉각수를 순환시키는 전통적인 수냉 방식을 채택했다면, A100은 밀폐형 냉매 기반의 상변화 냉각 시스템이 적용되었습니다. CPU와 GPU 모두에 콜드 플레이트가 장착되어 있으며, 금속 하드라인 배관을 통해 냉매가 순환하면서 열을 흡수하고 방출하는 구조입니다.
이전 포스팅에서도 소개해드렸듯이, 저희 H3SOLUTION은 V100에 이어 A100까지 국내에서 유일하게 DGX STATION의 냉각 계통 수리를 전문적으로 진행하고 있습니다. 특히 이번 포스팅에서 다루는 A100의 수냉 전환 작업은, 국내는 물론 해외에서도 유사한 사례를 찾아보기 어려운 저희만의 독자적인 수리 방식입니다. 이번 글에서는 A100의 내부 구조를 살펴보고, 실제 수리 과정에서 확인된 문제점과 해결 과정을 순서대로 정리해보겠습니다.
내부 구조 살펴보기






DGX STATION V100과 동일한 타워형 샷시를 사용하고 있지만, 내부 구성은 상당히 다릅니다. V100에서는 GPU가 전면부에 직접 장착되는 구조였다면, A100은 라이저 케이블을 통해 GPU가 후면부의 HGX 보드에 연결되는 방식을 채택하고 있습니다.
메인보드는 ASRock ROMED8-2T가 사용되었으며, 4개의 라이저 슬롯을 통해 A100 GPU가 연결됩니다. 하단에는 화면 출력을 위한 별도의 NVIDIA 그래픽카드 장착되어 있고, 우측에는 SSD 베이가 배치되어 있습니다.



후면 패널을 열면 HGX A100 보드 위에 장착된 4개의 GPU 콜드 플레이트가 한눈에 들어옵니다. V100에서는 매니폴드를 통해 냉각수를 분배하는 구조였다면, A100은 각 GPU 콜드 플레이트가 금속 하드라인으로 직접 연결되어 있는 밀폐형 냉매 순환 구조를 채택하고 있습니다. 콜드 플레이트 사이를 연결하는 U자형 금속 배관이 보이며, 각 콜드 플레이트는 스프링 텐션 나사로 GPU 칩셋에 균일한 압력을 가하도록 고정되어 있습니다.
V100의 수냉 시스템이 냉각수의 산화와 이물질 축적으로 인한 문제가 빈번했던 반면, A100의 밀폐형 냉매 시스템은 외부 공기와의 접촉이 차단되어 있어 이론적으로는 냉각수 오염 문제에서 자유롭지만, 장기 사용에 따른 냉매 누출이나 펌프 노후화 등의 문제가 발생할 수 있습니다.

좌) CPU 콜드플레이트/우)A100 콜드 플레이이트
이번에 입고된 DGX STATION A100은 GPU와 CPU의 온도가 비정상적으로 상승하여 정상적인 사용이 불가능한 상태로 입고되었습니다. 위 열화상 이미지에서 확인할 수 있듯이 CPU 영역과 GPU 영역 모두에서 과도한 발열이 관측되었으며, 냉각 시스템이 제 기능을 다하지 못하고 있는 것으로 판단됩니다. 냉매 부족, 순환 펌프의 성능 저하, 혹은 배관 경로 내 문제 등 원인은 여러 가지가 될 수 있으나, 냉각 계통에 이상이 발생한 것은 분명한 상황이었습니다.
분해



우측에 있던 패널을 제거하면, 배관과 펌프를 확인 할 수 있습니다.




전면부 배관을 제거하면 CPU를 확인 할 수 있습니다.




GPU의 워터블럭을 분해한 모습입니다. A100은 여타 일반적인 PCIE 형태의 GPU와는 다르게 SXM3 형태로 구성되어있습니다. 바로 수리를 진행하기 위해 기존 냉각 계통을 전부 분해하였습니다. 콜드 플레이트, 순환 펌프, 라디에이터,금속 하드라인 배관까지 밀폐형 냉매 시스템을 구성하는 모든 부품을 제거하고, 수냉 방식으로 냉각 계통 전체를 재구성합니다.






A100 SXM 모듈에 정확히 맞는 기성 워터블럭 제품은 시중에 존재하지 않습니다. 따라서 GPU 워터블럭은 저희 H3SOLUTION에서 직접 설계하고 가공하여 제작한 커스텀 제품을 사용합니다. A100 GPU의 칩셋 레이아웃과 HBM2e 메모리 배치를 정밀하게 반영한 자체 설계 도면을 기반으로, CNC 가공을 통해 깎아낸 제품으로, 단순히 냉각 성능을 복원하는 것을 넘어 기존 밀폐형 시스템 대비 이상의 열 해소 능력을 확보하기 위한 저희만의 방식이기도 합니다.


라디에이터는 기존 부품 대신 360mm 65T 라디에이터로 교체하여, 최대 TDP 1500W까지 대응 가능한 냉각 시스템을 구축합니다.





기존의 밀폐형 냉매 콜드 플레이트를 제거하고, 수냉용 CPU 워터블럭으로 교체하였습니다. 순환 펌프 또한 기존 펌프 대신 D5 펌프로 교체하여, 시스템 전체의 냉각수 순환을 담당하도록 구성하였습니다.
또한 A100 STATION의 경우 GPU가 라이저 카드를 통해 후면부의 HGX 보드와 연결되는 구조이기 때문에, 라이저 카드 자체에서 발생하는 발열도 무시할 수 없는 수준입니다. 이를 해결하기 위해 라이저 카드 부근에 별도의 쿨링 팬을 장착하여 직접적인 공기 흐름을 만들어주었으며, 이를 통해 라이저 발열로 인한 시스템 불안정이나 셧다운, 온도 상승으로 인한 성능 저하 문제를 사전에 차단할 수 있도록 하였습니다.




후면부에서는 기존 밀폐형 냉매 콜드 플레이트를 모두 제거한 후, 앞서 설명드린 자체 설계 A100 전용 워터블럭을 4기의 GPU 모두에 장착하였고, 이렇게 기존 밀폐형 냉매 방식에서 수냉식으로 전환한 DGX STATION A100은, 내부적으로 안정성 테스트와 장시간 부하 테스트를 거쳐 GPU와 CPU의 온도가 안정적으로 유지되는 것을 확인한 후 최종 납품을 진행합니다.
마무리 & FAQ

지난 V100 수리에 이어, 이번 포스팅에서는 DGX STATION A100의 수리 과정을 소개해드렸습니다. V100의 경우 출시 후 상당한 시간이 지나 대부분의 제품이 보증 기간이 만료된 상태이지만, A100은 아직 NVIDIA의 정식 AS 기간이 남아 있는 제품도 존재합니다. 다만 정식 서비스를 통해 냉각 계통 수리를 받았음에도 동일한 증상이 재발하여, 반복적인 수리 끝에 저희에게 입고되는 사례도 실제로 발생하고 있습니다.
현재 DGX STATION A100의 밀폐형 냉매 시스템을 수냉 방식으로 전환하는 수리를 진행하는 곳은, 국내는 물론 해외에서도 사례를 찾아보기 어렵습니다. GPU 워터블럭의 자체 설계 및 제작부터 냉각 계통 전체의 재구성까지, 저희 H3SOLUTION이 보유한 수냉 시스템에 대한 경험과 노하우가 있기에 가능한 작업이라고 생각합니다. DGX STATION의 냉각 문제로 어려움을 겪고 계신 분이 계시다면, 편하게 문의 남겨주시기 바랍니다.
Q. NVIDIA DGX Station A100 보증이 끝났는데 수리 가능한가요?
A. 보증 만료 장비도 냉각계통 진단 및 수리 가능 여부를 확인할 수 있습니다. 증상에 따라 순정 복원보다는 커스텀 수냉 전환 방식이 필요할 수 있습니다.
Q. DGX Station A100 GPU 온도가 높으면 바로 사용을 멈춰야 하나요?
A. 부하 중 온도가 비정상적으로 상승하거나 쓰로틀링, 셧다운이 발생한다면 추가 손상을 막기 위해 고부하 작업은 중단하고 진단을 받는 것이 좋습니다.
Q. H3솔루션은 NVIDIA 공식 서비스센터인가요?
A. 아닙니다. H3솔루션은 NVIDIA 공식 서비스센터가 아닌 독립 수리·리워크 업체입니다. 다만 DGX Station V100/A100 냉각계통 수리 및 수냉 전환 작업 경험을 보유하고 있습니다.
Q. DGX Station A100 순정 냉매식 냉각계를 그대로 수리하나요?
A. 장비 상태에 따라 다르지만, H3솔루션의 공개 A100 수리 사례는 기존 밀폐형 냉매식 냉각계통을 커스텀 수냉 방식으로 전환한 사례입니다.
Q. 문의할 때 어떤 정보를 보내면 되나요?
A. 장비 모델명, 보증 여부, nvidia-smi 온도 화면, 발생 증상, 부하 작업 종류, 셧다운/쓰로틀링 여부를 함께 보내주시면 진단이 빠릅니다.

