PR CENTER

PR센터

홈>PR센터>보도자료

보도자료

게시물 상세
[GIGABYTE] GIGAPOD가 원스톱 서비스를 제공하고 포괄적인 AI 혁명을 가속화하는 방법
작성자 : 관리자( )  작성일 : 2024.10.25   조회수 : 182
첨부파일 2024-10-25-g1.JPG
소개
GIGABYTE는 대규모 언어 모델(LLM) 훈련 및 실시간 추론과 같은 최신 AI 애플리케이션을 강화하도록 설계된 고급 확장형 AI 슈퍼컴퓨팅 인프라 솔루션인 GIGAPOD를 소개합니다. 강력한 GPU 서버를 기반으로 구축되었으며 NVIDIA HGX™ H100 및 H200, AMD Instinct™ MI325X 및 MI300X 또는 Intel® Gaudi® 3 AI 가속기와 같은 가속기를 통합합니다. NVIDIA® NVLink®, AMD Infinity Fabric™ Link 또는 RoCEv2를 통한 GPU 상호 연결을 활용하여 고속 네트워킹을 통해 클러스터의 노드를 단일 컴퓨팅 장치로 결합하여 AI 애플리케이션에서 중요한 고속 병렬 컴퓨팅 수요를 크게 높입니다.

설계, 생산에서 배포까지 GIGABYTE는 유연하고 확장 가능한 아키텍처 덕분에 GIGAPOD로 모든 것을 관리할 수 있습니다. AI 훈련 모델의 폭발적인 성장을 수용하도록 설계되어 기존 데이터 센터를 대규모 AI 클라우드 서비스 공급자로 전환하기 위한 원스톱 솔루션을 제공합니다. GIGABYTE의 하드웨어 전문성과 선도적인 상류 GPU 제조업체와의 강력한 파트너십을 활용하면 원활한 AI 슈퍼컴퓨터 구축이 보장될 뿐만 아니라 사용자에게 안정적인 AI 생산성도 제공됩니다.

 
 
현대 컴퓨팅 아키텍처의 과제
GPU 애플리케이션과 AI 개발의 초기에는 컴퓨팅 요구 사항이 비교적 낮고 상호 연결 기술이 아직 성숙하지 않았을 때 GPU 컴퓨팅은 주로 간단한 단일 서버 아키텍처에서 실행되었습니다. 그러나 학습 모델의 규모가 커지면서 다중 GPU 및 다중 노드 아키텍처의 중요성이 더욱 분명해졌으며, 특히 수천억 개의 매개변수가 있는 LLM을 학습하는 경우에 그러했습니다. GPU는 중요하지만 클러스터 컴퓨팅 상호 연결은 AI 학습 시간을 크게 단축할 수 있고 대규모 컴퓨팅 센터의 필수 구성 요소가 되었기 때문에 간과할 수 없습니다.

고급 기업이 이상적인 AI 애플리케이션 솔루션을 구축할 때 일반적으로 초기 하드웨어 배포 중에 세 가지 주요 요구 사항에 직면합니다.
  1. 강력한 컴퓨팅 : GPU 노드는 동시에 컴퓨팅을 수행하여 AI 학습 및 시뮬레이션 중에 행렬 연산과 같은 병렬 처리 작업을 효율적으로 수행할 수 있습니다.
  2. 체계적인 하드웨어 배포 : 데이터 센터를 배포하려면 데이터 센터 전원, 바닥 레이아웃, 랙 구성, 열 관리와 같은 주요 측면에 대한 세심한 계획이 필요하며, 완전한 시스템 하드웨어 통합을 보장해야 합니다.
  3. 중단 없는 고속 네트워크 아키텍처 : 고속 네트워크 토폴로지는 높은 대역폭, 낮은 지연 시간의 네트워크 상호 연결을 제공하여 데이터 전송 속도를 높이고 시스템 성능을 향상시킵니다.

데이터 센터 구축에 대한 논의는 종종 GPU 수와 컴퓨팅 파워에 초점을 맞추지만, 잘 확립된 전원 공급 및 냉각 시스템이 없다면 서버실의 GPU는 잠재력을 실현할 수 없습니다. 또한 고속 네트워킹 아키텍처는 각 컴퓨팅 노드가 실시간으로 통신하여 기하급수적으로 증가하는 데이터를 처리할 수 있는 빠른 GPU 간 통신을 가능하게 하는 데 중요한 역할을 하므로 필수적입니다.

현대 데이터 센터가 직면한 과제를 극복하기 위해 다음 섹션에서는 GIGAPOD가 오늘날 AI 데이터 센터를 구축하는 데 가장 적합한 솔루션인 이유를 자세히 설명합니다.

 
 
최적화된 하드웨어 구성
기본 GIGAPOD 구성은 각각 8개의 GPU가 장착된 32개의 GPU 서버로 구성되어 총 256개의 상호 연결된 GPU를 제공합니다. 또한 네트워크 스위치와 스토리지 서버를 수용하기 위한 전용 랙이 필요합니다.
그림 1: GIGABYTE G593 시리즈 서버

GIGABYTE G593 시리즈 서버의 구성/사양은 다음과 같습니다.
  • CPU : 듀얼 4/5세대 Intel ® Xeon ® 확장 가능 프로세서 또는
    AMD EPYC™ 9005/9004 시리즈 프로세서
  • GPU : NVIDIA HGX™ H100/H200 GPU 또는
    OAM 호환 가속기: AMD Instinct™ MI300 시리즈 및 Intel ® Gaudi ® 3 AI
  • 메모리 : 24x DIMM(AMD EPYC) 또는 32x DIMM(Intel Xeon)
  • 저장 장치 : 8x 2.5” Gen5 NVMe/SATA/SAS-4 핫스왑 드라이브
  • PCIe 슬롯 : 4x FHHL 및 8x 로우 프로파일 PCIe Gen5 x16 슬롯
  • 전원 : 4+2 3000W 80 PLUS Titanium 중복 전원 공급 장치

G593 시리즈의 모든 서버 모델은 8-GPU 베이스보드와 듀얼 CPU를 지원합니다. 병렬 컴퓨팅 워크로드에서 서버는 주로 GPU에 의존하는 반면 복잡한 선형 처리 작업은 CPU가 처리합니다. 이러한 워크로드 분배는 AI 교육 애플리케이션에 이상적이며 사용자는 AMD 또는 Intel 중에서 선호하는 CPU 플랫폼을 선택할 수 있습니다.
 
 
GIGABYTE G593 시리즈의 독특한 장점:
  • 업계를 선도하는 고밀도 디자인 : G593 시리즈는 시중에서 가장 높은 밀도의 8-GPU 공랭식 서버를 제공합니다. 더 크고 업계 표준인 7U/8U 디자인과 비교했을 때, GIGABYTE는 더 컴팩트한 5U 섀시에서 동일한 컴퓨팅 성능을 달성합니다.
  • 전면 장착 GPU 트레이 : 분리형 전면 GPU 트레이를 통해 GPU 모듈의 유지 관리와 접근이 더 쉽습니다.
  • 첨단 냉각 기술 : CPU, GPU, NVSwitch에 대한 직접 액체 냉각(DLC)을 지원하여 에너지 소비를 줄이고 PUE(전력 사용 효율)를 낮춥니다.
  • 1:1 균형 설계 : 각 PCIe 스위치는 동일한 수의 GPU, 스토리지 장치 및 PCIe 슬롯에 연결되므로 GPU RDMA 및 NVMe 드라이브에서 직접 데이터 액세스에 이상적입니다.
  • 6개의 CRPS 중복 전원 공급 장치 : N+N 중복성을 달성하기 위한 3600W PSU 옵션이 있는 중복 전원 설계를 특징으로 합니다.

성능 최적화된 AI 컴퓨팅 솔루션을 구축할 때 대역폭 병목 현상을 피하는 것이 중요합니다. 고성능 AI 시스템 또는 클러스터에서 이상적인 시나리오는 모든 데이터 전송이 GPU의 고대역폭 메모리를 사용하여 프로세서의 PCIe 레인을 통한 데이터 전송을 피하는 것입니다. 대역폭 성능 병목 현상을 해결하기 위해 GIGABYTE는 시스템 보드에 4개의 Broadcom PCIe 스위치를 통합하여 GPU가 CPU를 통해 라우팅하지 않고도 RDMA(Remote Direct Memory Access)를 통해 데이터에 액세스할 수 있도록 합니다. 가속화된 네트워킹을 위해 각 GPU는 최대 400Gb/s의 InfiniBand 또는 이더넷 네트워킹을 사용하는 NVIDIA ®  ConnectX ®

-7에 연결됩니다. 또한 PCIe 스위치는 신호 확장을 지원하여 GPU 모듈에 할당된 것 이상의 PCIe 레인을 효율적으로 공유하여 더 큰 I/O 연결을 제공합니다. GIGABYTE의 설계에는 4개의 추가 PCIe x16 슬롯이 포함되어 있으며, 고성능 클러스터에서 네트워킹, 보안 및 데이터 처리를 위해 NVIDIA BlueField ® -3 DPU와 함께 자주 사용됩니다.
 
 
확장 가능한 네트워크 아키텍처
AI 컴퓨팅은 종종 여러 분산 노드에서 대규모 데이터 세트를 처리하는 것을 포함합니다. 클러스터의 진정한 잠재력을 실현하기 위해 네트워크는 노드 간에 높은 데이터 전송 속도를 가능하게 하고, 동기화를 보장하고, 전체 시스템에서 데이터 일관성을 유지하는 데 중요한 역할을 합니다.

대규모 언어 모델 학습 중에 데이터 집약적 워크로드는 각 서버 내의 8개 GPU에서 처리합니다. 이러한 GPU는 고속 상호 연결 기술을 사용하여 최대 900GB/s의 속도로 데이터를 교환하여 계산 효율성을 극대화할 수 있습니다. 클러스터의 다른 GPU 노드와의 데이터 교환은 일반적으로 400Gb/s NDR InfiniBand가 있는 NVIDIA Quantum-2 QM9700 스위치를 사용하는 여러 스위치의 네트워크 아키텍처를 통해 처리됩니다.

 
 
GIGAPOD의 네트워크 토폴로지: 비차단 팻 트리 토폴로지
비차단: 두 지점은 다른 트래픽의 간섭이나 혼잡 없이 통신할 수 있습니다. 비차단 네트워크에서는 항상 충분한 대역폭을 사용할 수 있으므로 지연이나 병목 현상이 발생하지 않고 모든 데이터를 동시에 전송할 수 있습니다.

팻 트리: 이 토폴로지는 리프-스파인 네트워크 개념을 활용합니다. 리프 스위치는 서버를 연결하는 반면 스파인 스위치는 네트워크의 핵심을 형성합니다. 각 리프 스위치는 네트워크의 각 스파인 스위치에 연결되어 혼잡을 방지하고 고성능과 최소 지연 시간을 보장하기 위해 여러 경로를 제공합니다. 트리 맨 위의 '더 뚱뚱한' 상위 레벨은 대역폭이 더 높아 성능 병목 현상을 피할 수 있으므로 GIGAPOD는 확장 가능하고 트래픽이 많은 환경에 이상적입니다.

이 두 가지 개념을 염두에 두고 GIGAPOD 네트워크 아키텍처를 살펴볼 수 있습니다. GIGAPOD에서 서버의 각 GPU는 NIC 카드와 페어링되어 서버당 8개의 GPU-NIC 쌍을 만듭니다. 서버의 각 GPU-NIC 쌍은 중간 계층의 다른 리프 스위치에 연결됩니다. 예를 들어, GPU 서버 #1의 GPU-NIC 쌍 #1은 Leaf Switch #1에 연결되고, GPU 서버 #2의 GPU-NIC 쌍 #1은 동일한 Leaf Switch #1에 연결됩니다.

그런 다음, leaf와 spine 스위치가 연결되어 fat tree를 형성합니다. 최상위 계층으로의 이러한 확장은 서버를 leaf 스위치에 연결하는 것과 유사한 개념을 따릅니다. 각 leaf 스위치의 포트는 spine 스위치에 고르게 분산되어 최상위 계층 네트워크를 형성합니다.

그림 2: Fat Tree 토폴로지를 사용하는 GIGAPOD의 클러스터
 
요약하자면, GIGAPOD 확장형 유닛은 32개의 GPU 서버와 12개의 스위치로 구성되며, 4개는 스파인 스위치로, 8개는 리프 스위치로 작동하며, 모두 256개의 NIC 카드를 통해 연결 및 관리되어 각 GPU를 조정합니다. 아래는 사양의 예입니다.
  • NVIDIA MMA4Z00-NS 2x400Gb/s 트윈 포트 OSFP 트랜시버 가 있는 4x NVIDIA Quantum-2 QM9700 스파인 스위치(상단 레이어)
  • NVIDIA MMA4Z00-NS 2x400Gb/s 트윈 포트 OSFP 트랜시버가 있는 8x NVIDIA Quantum-2 QM9700 Leaf 스위치(중간 계층)
  • 각 서버에는 NVIDIA MMA4Z00-NS400 400Gb/s 단일 포트 OSFP 트랜시버가 있는 8개의 NVIDIA ConnectX ® -7 NIC(하단 계층)가 있습니다.
  • NVIDIA MPO-12/APC 수동 파이버 케이블
 
 
완벽한 랙 레벨 AI 솔루션
시스템 구성과 네트워크 토폴로지를 소개한 후, 랙 통합은 GIGAPOD를 배포하는 마지막 단계입니다. 랙 수와 노드 구성과 함께 비용 효율성을 극대화하기 위해 최적화된 케이블 설계를 고려하는 것이 필수적입니다. 랙 통합을 고려해야 할 주요 요소는 다음과 같습니다.
  • 꼬임 현상 방지 및 불필요한 길이와 비용 절감을 위해 케이블 길이 최적화
  • 장비 밀도를 높이기 위해 공간 활용 극대화
  • 성능을 향상시키고 효과적인 방열을 보장하기 위해 냉각 개선
  • 간소화되고 효율적인 배포를 위해 설치 및 설정을 간소화합니다.
  • 유지관리 및 확장성을 용이하게 하기 위한 애프터마켓 서비스 제공

이러한 포괄적인 접근 방식을 통해 GIGAPOD는 효율적인 배포 및 관리를 통해 강력하고 확장 가능한 AI 솔루션을 제공합니다.
그림 3: 액체 냉각이 있는 GIGAPOD: 4개의 GPU 컴퓨팅 랙
 
 
그림 4: 공기 냉각이 있는 GIGAPOD: 8개 GPU 컴퓨팅 랙
 
효율적인 공간 활용은 항상 데이터 센터 계획의 최우선 순위였습니다. CPU 및 GPU 기술의 지속적인 발전과 함께 전 세계적으로 친환경 컴퓨팅에 중점을 두면서 열 관리가 데이터 센터의 설계 및 인프라에서 핵심 요소가 되었습니다. 기존 데이터 센터 공간 내에서 컴퓨팅 성능을 극대화하려는 고객을 위해 GIGAPOD는 완벽한 솔루션인 직접 액체 냉각 설계를 제공합니다. GIGABYTE는 4U 섀시에 8개의 GPU 플랫폼을 사용하며, CPU와 GPU 모두 DLC 냉각판이 장착되어 있습니다. 수동 액체 냉각을 통해 칩에서 열이 효과적으로 발산되어 최고의 성능과 에너지 효율이 보장됩니다. 또한 방열판과 일부 팬을 제거하고 최적화된 열 설계를 구현함으로써 더 많은 공간을 확보할 수 있습니다. 이를 통해 GIGAPOD는 공랭식에 비해 절반의 컴퓨팅 랙으로 구성할 수 있습니다. 액체 냉각이 적용된 4개의 랙만 원래 8개 랙 공랭식 구성과 동일한 성능을 얻을 수 있으므로 데이터 센터 공간을 최대한 활용할 수 있습니다.

 
 
포괄적인 배포 프로세스
32개의 GPU 서버가 있는 단일 GIGAPOD 확장 가능 유닛을 완성하려면 20,000개 이상의 구성 요소가 필요하므로 각 단계가 원활하게 진행되도록 매우 체계적인 프로세스가 필요합니다. 컨설팅에서 실제 배포까지 GIGABYTE는 5단계 프로세스를 활용하여 GIGAPOD가 처음부터 끝까지 성공적으로 구축되고 제공되도록 합니다.
그림 4: 배포 프로세스
 
전체 프로세스에는 GIGAPOD의 전원 공급 구성과 같은 셀 수 없이 자세한 논의가 포함됩니다. GIGAPOD의 공랭 버전의 경우 각 랙은 4개의 12kW 서버, 스위치 및 기타 구성 요소를 포함하여 IT 하드웨어에 대한 50kW의 전원을 지원해야 합니다. 이를 해결하기 위해 GIGABYTE는 IEC60309 100A 380V 전원 플러그를 선택하고 랙당 2세트의 PDU(전원 분배 장치)가 있는 중복 설계를 제공합니다. 액체 냉각 솔루션에서는 랙 내부 밀도가 두 배가 되므로 전력 요구 사항이 랙당 100kW로 증가하여 2+2 PDU 구성을 사용합니다. GIGAPOD는 또한 C19/C20 또는 Anderson의 두 가지 유형의 전원 콘센트를 지원하여 고객이 요구 사항에 가장 적합한 솔루션을 선택할 수 있도록 합니다. 또한 AC 전원 입력 유형과 같은 데이터 센터 전원 요구 사항은 지리적 위치 및 기타 요인에 따라 달라질 수 있습니다. 따라서 GIGABYTE 팀은 최대한 유연하게 대응하여 각 지역의 환경 조건을 평가하여 최선의 솔루션을 제공하고자 노력하고 있습니다.
 
 
AI 기반 소프트웨어 및 하드웨어 통합
AI 기반 기업의 복잡한 요구 사항을 지원하기 위해 GIGAPOD는 GIGAPOD Management Platform(GPM)과 페어링되어 서버, 네트워킹, 스토리지, 전원 및 냉각을 포함하여 클러스터 전반의 장치에 대한 통합 유지 관리 인터페이스를 제공합니다. 이를 통해 기업은 클러스터의 모든 IT 하드웨어에 대한 대규모 모니터링, 유지 관리 및 관리를 수행할 수 있습니다. GPM은 NVIDIA AI Enterprise의 Base Command Manager(BCM) 및 Canonical의 Juju 플랫폼과의 통합을 지원하고 NVIDIA BCM SLURM 및 Canonical Charmed Kubernetes와 같은 작업 스케줄링 소프트웨어의 자동 배포 기능을 제공하여 사용자가 다양한 아키텍처의 GPU 서버를 관리할 수 있는 유연성을 제공합니다. GIGABYTE는 NVIDIA 및 Canonical과의 협업을 통해 고급 하드웨어와 강력한 소프트웨어 도구를 결합하여 엔드 투 엔드 확장 가능한 AI 인프라 관리 플랫폼을 제공합니다.

클러스터를 개선하는 또 다른 방법은 MLOps 플랫폼인 Myelintek의 MLSteam을 사용하는 것입니다. MLSteam을 통해 AI R&D 팀은 개발 환경 구축에 추가로 시간과 비용을 들이지 않고도 전문 분야에 더 집중할 수 있습니다. 또한 데이터 주석, 모델 개발, 모델 제공 및 모델 재교육을 포함하여 교육 데이터 및 모델의 효과적인 관리를 가능하게 하여 AI 수명 주기 관리를 실현합니다. MLSteam은 또한 NVIDIA AI Enterprise의 모델 범주와 NIM을 지원하여 다양한 AI 연구 및 개발 요구 사항을 충족합니다. Retrieval-Augmented Generation(RAG)과 같은 고급 기능을 포함하여 고도로 맞춤화된 AI 모델 개발을 허용하는 반면, GPM 및 GIGABYTE의 고성능 GPU 서버는 다양한 가속기를 지원하여 AI R&D 팀의 소프트웨어 및 하드웨어 아키텍처 요구 사항을 충족합니다.

 
 
결론
GIGABYTE의 AI 데이터 센터 슈퍼컴퓨팅 솔루션인 GIGAPOD는 신뢰성, 가용성 및 유지 관리 측면에서 탁월할 뿐만 아니라 비할 데 없는 유연성도 제공합니다. GPU, 랙 크기, 냉각 솔루션 또는 맞춤형 계획의 선택이든, GIGABYTE는 다양한 IT 인프라, 하드웨어 요구 사항 및 데이터 센터 크기에 적응합니다. 전력 및 냉각 인프라 설계에서 하드웨어 배포, 시스템 최적화 및 애프터 서비스까지 모든 것을 포괄하는 L6에서 L12까지의 서비스를 통해 고객이 운영 요구 사항과 성능 목표를 완벽하게 충족하는 엔드투엔드 솔루션을 받을 수 있도록 보장합니다.
이전글 [GIGABYTE] GIGABYTE 심층 분석: 업계를 선도하는 액체 냉각 솔루션을 구축한 방법
다음글 [GIGABYTE] 데이터 센터를 AI에 대비시키는 방법? 2부: 클러스터 컴퓨팅