PR CENTER

PR센터

홈>PR센터>보도자료

보도자료

게시물 상세
AI 공장의 데이터 혁명: 고속 네트워킹을 더욱 발전시키다
작성자 : 관리자(khkim@goak.co.kr)  작성일 : 2025.09.12   조회수 : 232
첨부파일 2025-09-12-g2.JPG
생성적 AI는 기존 데이터 센터를 차세대 AI 팩토리, 즉 지능형 워크로드를 위해 특별히 구축된 대규모 고성능 인프라로의 진화를 가속화하고 있습니다. 첫 번째 기사 《준비되셨나요? AI 팩토리 시대가 도래했습니다! AI 팩토리 시대》에서는 기가바이트가 AI 인프라를 재설계하고 컴퓨팅 성능, 냉각 효율 및 시스템 관리를 향상시키는 총체적인 접근 방식으로 AI 인프라를 어떻게 재정의하고 있는지 소개했습니다. 두 번째 기사 《AI 팩토리의 혁신: CXL 메모리 풀링의 부상》에서는 AI 팩토리가 강력한 컴퓨팅 및 메모리 외에도 안정적이고 초고속 데이터 전송을 요구한다는 점을 강조했습니다. 세 번째 기사에서는 AI 인프라의 핵심인 고속 네트워킹에 중점을 둡니다. 단일 서버 상호 연결부터 본격적인 데이터 센터 토폴로지에 이르기까지, 최첨단 전송 기술이 어떻게 대규모 GPU 클러스터를 지원하고, 원활한 확장성을 실현하며, 미래의 AI 워크로드를 지원하는지 살펴보겠습니다.
 
고속 전송: AI 인프라의 생명선
AI 인프라가 발전함에 따라  데이터 전송의 중요성이 급격히 커졌고, 컴퓨팅 워크로드는 CPU에서 GPU로 이동하고 있습니다. 대규모 AI 모델을 학습하려면 테라바이트에서 페타바이트에 달하는 데이터를 처리하기 위해 수천 개의 GPU가 필요한 경우가 많으며, 이는 단일 서버의 용량을 훨씬 초과합니다. 따라서 대규모 노드 간 협업이 필수적이며, 높은 대역폭과 낮은 지연 시간의 네트워킹을 구축하는 것이 중요한 요구 사항이 됩니다. AI 학습

단계 에서는   여러 GPU가 모델 매개변수의 일관성을 유지하기 위해 데이터를 자주 동기화하고 교환해야 합니다. 단일 노드에서 지연이 발생하면 전반적인 효율성이 저하되거나 GPU 리소스가 유휴 상태가 될 수 있습니다. 따라서 안정적이고 빠른 동서 데이터 전송이 필수적입니다.  추론 단계에서는 데이터 흐름이 데이터 센터 와 외부 사용자  간을 이동하는 남북 트래픽으로 전환됩니다  . 이 단계에서는 실시간 응답성과 서비스 안정성이 최우선이며, 모든 요청이 신속하고 안정적으로 처리되도록 보장합니다. 
 
 
서버 상호 연결에서 네트워크 토폴로지까지: AI 데이터 흐름을 개선하세요
AI 팩토리가 확장됨에 따라 효율적이고 고도로 동기화되며 확장 가능한 인프라를 구축하려면 단순한 컴퓨팅 성능 이상의 것이 필요합니다. 다양한 트래픽 패턴과 애플리케이션 단계에 맞춰 설계된 고급 고속 상호 연결과 최적화된 네트워크 토폴로지가 필요합니다. 이러한 진화를 이해하기 위해 내부 서버 연결, 노드 간 상호 연결, 데이터 센터 전체 네트워크 아키텍처의 세 가지 계층으로 나누어 살펴보겠습니다.

*계층 1. 내부 서버 전송: CPU-GPU 협업 가속화
AI 워크로드는 CPU, GPU, 메모리 간의 대량 데이터 교환을 수반합니다. 내부 전송에 지연 시간이나 대역폭 부족이 발생하면 전체 AI 성능이 크게 저하됩니다. 이를 해결하기 위해 업계는 내부 상호 연결을 강화하는 여러 기술을 도입했습니다.

 - CXL  (Compute Express Link): PCIe Gen5 기반으로 구축된  CXL은 CPU와 GPU, FPGA  와 같은 가속기가  메모리를 공유할 수 있도록 하여 중복 데이터 이동 및 복제를 줄입니다. GIGABYTE 고성능 서버는 PCIe Gen5와 CXL 기술을 활용하여 CPU-GPU 협업을 획기적으로 향상시키고 실시간 추론 및 대규모 분석을 최적화합니다. 
추가 자료:
AI 팩토리 혁신: CXL 메모리 풀링의 등장

-GPU 상호 연결 기술: GPU 간 통신 효율성을 향상시키기 위해 AMD Infinity Fabric 및 NVIDIA NVLink와 같은 솔루션이 등장했습니다. 이러한 솔루션은 CPU를 거치지 않고도 GPU 간 직접적인 지점 간 통신을 가능하게 하여 지연 시간을 크게 줄이고 대역폭을 향상시킵니다. 기가바이트의  GB200 NVL72 솔루션은  최신 NVIDIA 5세대 NVLink(1.8TB/s GPU 간 대역폭 제공)와 NVLink 스위치를 통합하여 단일 랙에 36개의 NVIDIA Grace™ CPU와 72개의 Blackwell GPU를 연결하여 "하나의 랙 = 하나의 거대한 GPU" 성능을 효과적으로 구현합니다.
                                                                                                  기가바이트 GB200 NVL72 솔루션 
 
*레이어 2. 크로스 노드 네트워크 아키텍처: 고속, 저지연 AI 학습 클러스터 구축 AI 모델이 너무 커져서 여러 서버에 분산해야 하는 경우, 노드 간 데이터 교환의 효율성은 전반적인 학습 성능에 중요한 요소가 됩니다. 이를 위해 주류 아키텍처는 이더넷과 InfiniBand, 그리고 핵심 기술인 RDMA(Remote Direct Memory Access) 기술을 활용합니다. RDMA를 사용하면 CPU 개입 없이 한 서버의 메모리에서 다른 서버의 메모리로 직접 데이터를 전송할 수 있습니다. 마치 택배 배달원이 접수대에서 기다리지 않고 바로 수취인에게 배달하는 것과 같습니다. 이를 통해 데이터 전송 속도가 획기적으로 향상되고 지연 시간이 단축됩니다. - 이더넷: 데이터 센터에서 가장 널리 채택된 표준인 이더넷은 성숙도와 상호 운용성으로 유명합니다. AI 워크로드의 고속, 저지연 요구 사항을 충족하기 위해 이더넷은 RoCE(RDMA over Converged Ethernet) 프로토콜을 활용하여 RDMA를 활성화하여 서버 간 데이터 전송 시 CPU를 우회하여 지연 시간을 줄이고 효율성을 향상시킬 수 있습니다. 또한 과부하 시 패킷 손실을 최소화하여 학습 중단 및 리소스 낭비를 방지합니다. 오늘날의 이더넷 표준은 최대 400Gbps를 지원하며, 향후 800Gbps까지 확장될 예정이므로 이더넷은 차세대 AI 인프라의 핵심 구성 요소로 자리매김할 것입니다.  기가바이트의 인텔® 가우디® 3 플랫폼 서버 솔루션은  개방형 이더넷 아키텍처를 채택하여 AI 구축을 위한 비용 효율적이고 확장 가능한 솔루션을 제공합니다. - InfiniBand: 고성능 컴퓨팅( HPC )용으로 특별히 설계된 InfiniBand는 초저지연 시간과 매우 높은 대역폭을 제공하여 대규모 GPU 동기화 및 대규모 AI 모델 학습에 이상적입니다. 내장된 RDMA 기능을 통해 시스템 부하를 줄이면서 데이터 전송 속도를 높입니다. InfiniBand는 현재 최대 400Gbps까지 지원하며, 업계는 800Gbps 이상으로 발전하고 있어 AI 슈퍼컴퓨터 및 하이퍼스케일 클라우드 데이터 센터의 핵심 기술로서 입지를 굳건히 하고 있습니다. 





 
 
 
*3계층. 데이터 센터 네트워크 토폴로지: 기존 3계층을 넘어 팻 트리 설계 도입

네트워크 토폴로지는 데이터 센터의 트래픽 맵과 같이 서버 간 데이터 교환 경로를 정의합니다. 이는 AI 학습의 속도와 확장성에 직접적인 영향을 미칩니다. 과거 데이터 센터는 주로 사용자와 서버 간의 통신인 남북 트래픽을 처리했습니다. 이를 지원하기 위해 기존 네트워크 설계는 3계층 아키텍처에 의존했습니다. 서버를 연결하는 액세스 계층(1계층), 트래픽을 집계하는 분배 계층(2계층), 고속 포워딩을 위한 코어 계층(3계층)이 그것입니다. 이 구조는 대부분의 트래픽이 사용자와 애플리케이션 간에 수직으로 흐르는 기존 애플리케이션에는 적합했습니다. 그러나 AI 학습은 모든 것을 변화시킵니다.

AI 및 고성능 컴퓨팅(HPC) 환경에서는 수천 대의 서버, 특히 GPU 서버 간에 교환되는 방대한 데이터의 동서 트래픽이 지배적인 패턴입니다. 기존의 3계층 설계에서는 이 트래픽이 코어 계층을 거쳐 위로 이동한 후 다시 아래로 이동하여 다른 서버에 도달해야 합니다. 그 결과, 경로가 길어지고, 단일 혼잡 지점이 발생하며, 코어에 병목 현상이 발생합니다. 이는 고속도로의 모든 차량이 같은 요금소를 통과하도록 강요하는 것과 같아 심각한 지연을 초래하고 전체 프로세스 속도를 저하시킵니다.

이러한 한계를 극복하기 위해 최신 AI 및 HPC 데이터 센터는 스파인-리프 아키텍처 기반의 팻트리(Fat-Tree) 토폴로지를 채택하고 있습니다. 팻트리는 단일 고속도로 대신 상호 연결된 경로의 메시를 생성하여 두 서버 간의 동일한 거리 연결을 보장하는 동시에 단일 노드의 혼잡을 방지하기 위해 트래픽을 분산합니다. 이러한 설계는 더 높은 대역폭, 더 낮은 지연 시간, 그리고 더 높은 안정성을 제공하여 AI 학습에 필요한 대규모 데이터 교환에 이상적입니다.
 
 
GIGABYTE GIGAPOD: Fat-Tree 토폴로지 기반 AI 컴퓨팅 클러스터 솔루션
GIGAPOD  는 AI 데이터 센터용으로 특별히 설계된 통합 솔루션입니다. 단일 공랭식 구성으로 8+1 랙에 256개의 GPU를 통합할 수 있습니다. GIGAPOD는 기본적으로 논블로킹 팻트리(Fat-Tree) 토폴로지를 채택하여 스파인 앤 리프(Spine-and-Leaf) 개념을 기반으로 랙을 구성하여 대역폭을 극대화하고 트래픽 균형을 유지합니다.
                                                                         GIGABYTE GIGAPOD 솔루션 - AI 슈퍼컴퓨팅 클러스터
 
작동 방식은 다음과 같습니다. GIGAPOD에서는 서버의 각 GPU가 NIC 카드와 페어링되어 서버당 8개의 GPU-NIC 쌍을 생성합니다. 서버의 각 GPU-NIC 쌍은 중간 계층의 각 리프 스위치에 연결됩니다. 다음으로, 리프 스위치와 스파인 스위치가 연결되어 팻 트리를 형성합니다. 이러한 최상위 계층으로의 확장은 서버를 리프 스위치에 연결하는 것과 유사한 개념을 따릅니다. 각 리프 스위치의 포트는 스파인 스위치에 균등하게 분배되어 최상위 계층 네트워크를 형성합니다. 이러한 설계는 높은 대역폭과 낮은 지연 시간의 연결을 가능하게 하여 AI 워크로드에 대한 대규모 수평 확장성을 지원합니다. 가장 큰 모델을 학습할 때에도 클러스터는 효율성과 안정성을 유지합니다.

팻트리 네트워크는 고속도로로 연결되는 모든 경로를 열어 모든 GPU 노드가 최소한의 지연 시간과 최대 처리량으로 상호 연결될 수 있도록 합니다. GIGAPOD는 또한 NVIDIA® NVLink® 및 AMD Infinity Fabric™ 기술을 지원하여 서로 다른 랙에 있는 GPU가 마치 단일 서버 내부에 있는 것처럼 원활하게 통신할 수 있도록 합니다. 이 아키텍처는 AI 학습, 추론 및 대규모 병렬 컴퓨팅을 최고 성능으로 구동하도록 설계되었습니다. 
추가 자료: 《  GIGAPOD가 원스톱 서비스를 제공하여 포괄적인 AI 혁명을 가속화하는 방법 
                                                                                        Fat Tree 토폴로지를 사용하는 GIGAPOD의 클러스터
GIGABYTE의 통합 솔루션: 엔드투엔드 AI 인프라 서비스 제공
AI 학습 클러스터의 성능은 더 이상 GPU 수와 컴퓨팅 파워에만 의존하지 않고, GPU 간 및 노드 간 데이터 교환의 효율성에 달려 있습니다. 이를 위해서는 상호 연결된 아키텍처, 네트워크 토폴로지, 통신 프로토콜을 고려하는 전체적인 접근 방식이 필요하며, 이를 통해 고속의 안정적이고 확장 가능한 인프라를 구축해야 합니다. 네트워크 설계는 단순히 스위치와 케이블을 스태킹하는 것을 넘어, 케이블 경로 계획, 스위치 랙 배치, 케이블 길이 최적화, 그리고 냉각 및 전력 시스템과의 완벽한 통합까지 포함합니다.

진정한 AI 지원 데이터 센터를 구축하려면 단순한 기술 그 이상이 필요합니다. 계획, 설계, 구축, 구축을 아우르는 엔드 투 엔드 원스톱 서비스가 필요하며, 하드웨어, 소프트웨어, 그리고 기반 인프라 간의 완벽한 조화를 통해 최대 성능을 구현해야 합니다. 기가바이트는 글로벌 고객을 위한 데이터 센터 구축 통합 성공 사례를 바탕으로 전 세계 대규모 AI 데이터 센터를 위한 레벨 12 데이터 센터 서비스를 제공하고 있으며, 포괄적이고 안정적인 AI 인프라 솔루션을 지속적으로 제공하고 있습니다.

기가바이트는 확장 가능한 인프라 설계부터 글로벌 기술 지원까지, 전체 라이프사이클 데이터 센터 서비스를 제공합니다. 여기에는 컨설팅, 현장 및 환경 계획, 엔지니어링 및 시공, 그리고 시스템 구축이 포함됩니다. 당사 솔루션은 독점적인 GPM( GIGABYTE POD Manager ) 지능형 관리 플랫폼을 통합하여 인프라 관리 및 AIOps를 간소화하여 완벽하게 통합된 엔드 투 엔드 경험을 제공합니다. 이러한 원스톱 서비스 모델은 구축을 간소화하고, 가치 실현 시간을 단축하며, 기업이 AI 인프라의 미래를 향해 자신 있게 나아갈 수 있도록 지원합니다. 
추가 자료: 《데이터 센터 인프라》 
                                                                                   GIGABYTE 데이터 센터 라이프사이클 솔루션 및 서비스
성능과 지속 가능성을 통해 AI 인프라의 미래를 형성합니다
에너지 소비와 발열 문제가 점점 더 중요해짐에 따라, 기가바이트는 액체 냉각 및 침지 냉각과 같은 고효율 냉각 기술을 구현하여 친환경적이고 지속 가능한 개발을 추진하고 기업의 탄소 중립 목표 달성을 지원합니다. 동시에, 기가바이트는 점점 더 복잡해지는 AI 워크로드를 해결하기 위해  DCIM (데이터센터 인프라 관리)과 AIOps(IT 운영을 위한 AI) 기능을 통합하여  지능형 관리 플랫폼인 기가바이트 POD 매니저를 지속적으로 개선하고 있습니다  . 이러한 기능은 실시간 모니터링, 자동화된 리소스 할당 및 예측 유지 관리를 지원하여 운영 비용을 절감하는 동시에 컴퓨팅 효율성을 더욱 향상시킵니다.  추가 자료: 《DCIM x AIOps: AI 소프트웨어를 재편하는 차세대 빅 트렌드 기가바이트는 풍부한 실무 경험과 심층적인 기술 전문 지식을 활용하여 고객과 협력하여 장기적인 경쟁력을 갖춘 미래형 AI 인프라를 구축합니다. 에코시스템 파트너와의 협력을 강화하여 혁신적이고 효율적이며 지속 가능한 AI 데이터센터 솔루션을 제공하고, 스마트하고 탄력적인 데이터센터 에코시스템을 구축합니다. 완벽한 하드웨어-소프트웨어 통합을 통해 GIGABYTE는 AI 발전을 가속화하여 더욱 스마트하고 효율적이며 지속 가능한 미래를 위한 길을 열어가고 있습니다. 
이전글 HPC Ignites: 데이터 중심적 사고방식이 기업 AI 인프라를 혁신하는 방식
다음글 [GIGABYTE] AI 공장 혁신: CXL 메모리 풀링의 등장