PR CENTER

PR센터

홈>PR센터>보도자료

보도자료

게시물 상세
[GIGABYTE] 데이터 센터를 AI에 대비시키는 방법? 2부: 클러스터 컴퓨팅
작성자 : 관리자(khkim@goak.co.kr)  작성일 : 2024.09.11   조회수 : 124
첨부파일 o202409031641344098.jpg

 

 

GIGABYTE Technology의 기술 가이드 1부에서는 AI 시대에 데이터 센터를 준비하는 방법에 대해 다루었으며, 탄소 발자국을 줄여 더 빠르게 컴퓨팅하는 데 도움이 되는 고급 냉각 솔루션을 살펴보았습니다. 2부에서는 AI 데이터 센터에서 클러스터 컴퓨팅이 수행하는 핵심 역할을 자세히 살펴봅니다. AI 개발에 사용되는 데이터 세트가 더욱 방대하고 복잡해짐에 따라 데이터 센터에는 중요한 작업을 훌륭하게 수행할 뿐만 아니라 서로 협력하여 구성 요소의 합보다 더 큰 역할을 하는 서버가 필요합니다. 이것이 클러스터 컴퓨팅의 기반입니다. GIGABYTE는 AI 데이터 센터에서 클러스터 컴퓨팅을 활용하는 데 도움을 드릴 수 있습니다.
 
이 기술 가이드의 첫 번째 부분 에서 논의한 고급 냉각 솔루션과 마찬가지로  클러스터  컴퓨팅은  새로운 발명품이 아니지만  인공 지능(AI) 의 출현으로 인해 중요성을 얻었습니다 . 주요 원동력은  대규모 언어 모델(LLM)  과  생성 AI 의 생성으로 이어진 최신 AI 개발이 AI 교육을 통해 수십억 또는 수조 개의 매개변수가 있는 엄청난 데이터 세트를 처리하는 것을 중심으로 이루어진다는  사실입니다 .  AI가 사전 훈련된 모델(또는 모델들)을 사용하여 사용자에게 서비스를 제공할 때 발생하는 AI 추론 도 매우 리소스 집약적일 수 있습니다. 분명히 이는 어떤 컴퓨터도 스스로 처리할 수 있는 유형의 워크로드가 아닙니다.

클러스터 컴퓨팅은 상호 연결된 서버 , 워크스테이션, 심지어 개인용 컴퓨터  에 작업 부하를 분산하여 이 문제를 해결합니다  . 이는 그리드 컴퓨팅  및  병렬 컴퓨팅 과 비교할 수 있는 "병렬 처리"의 한 형태입니다 . 클러스터 컴퓨팅의 주요 이점은  고가용성 ,  부하 분산 이며, 아마도 AI 주제와 가장 관련이 있는  고성능 컴퓨팅(HPC) 입니다. AI가 우리 삶의 지울 수 없는 부분이 되면서 AI 하드웨어 및 소프트웨어 공급업체가 클러스터 컴퓨팅 기술을 제품에 통합하고 있다는 것은 놀라운 일이 아닙니다.

추가 자료:
《클러스터 컴퓨팅: 분산 컴퓨팅의 고급 형태》

2024년 가장 기대되는 클러스터 컴퓨팅 솔루션은 아마도 NVIDIA의 GB200 NVL72일 것입니다.   이는 36개의 NVIDIA Grace  CPU  와 72개의 NVIDIA Blackwell  GPU 에서 실행되는 랙 스케일 엑사스케일 AI 슈퍼컴퓨터 입니다. 프로세서는 900GB/s의 양방향 대역폭을 제공하는 NVIDIA의 독점적인 NVLink-Chip-to-Chip(C2C) 인터페이스를 통해 연결되고, 개별  노드는  NVIDIA의 NVLink 스위치 시스템을 통해 연결됩니다. Grace Blackwell Superchip과 그 이전 제품인 Grace Hopper Superchip, 그리고 AMD Instinct™ MI300A  APU는 AI와 HPC의 까다로운 요구 사항을 해결하기 위한 혁신적인 디자인의 예라는 점에 주목할 가치가 있습니다. 다양한 유형의 칩을 하나의 패키지로 통합하고 그 강점을 단일 작업의 서로 다른 측면에 적용함으로써 이 새로운 종류의 프로세서는 인류 역사상 전례 없는 슈퍼컴퓨팅 워크로드를 처리할 수 있습니다.

AI 서버 솔루션의 선도적 공급업체인 GIGABYTE Technology는 고객이 자체 컴퓨팅 클러스터를 설정하는 데 도움을 줄 수 있습니다. GIGABYTE가 생물의학 연구, 반도체 연구,  클라우드 컴퓨팅 등을 위한 클러스터를 배포하는 데 고객을 지원하는 서버 수준 및 랙 수준 사용 사례부터, GIGABYTE의 데이터 센터 수준 멀티 랙 클러스터 컴퓨팅 솔루션인 GIGAPOD에  이르기 까지, 최대 9개의 서버 랙을 상호 연결하여 통합 컴퓨팅 장치를 형성합니다. GIGABYTE는 고객이 데이터 센터 기술의 최신 발전으로부터 혜택을 누릴 수 있도록 하는 제품과 경험을 보유하고 있습니다. 다음 섹션에서는 구체적인 예를 들어 클러스터 컴퓨팅의 다양한 반복을 설명하여 AI 데이터 센터에 가장 적합한 제품을 결정할 수 있도록 합니다.

자세히 알아보기:
《GIGABYTE의 인공지능 솔루션 페이지 방문》
《GIGABYTE의 AI 교육 및 추론 서버 탐색》
서버 및 랙 수준 클러스터 컴퓨팅: 두 가지 사례 연구
GIGABYTE는 사용자의 예산과 요구 사항에 따라 여러 서버를 클러스터로 결합할 수 있습니다.클러스터는 클라이언트의 자체 소프트웨어 또는 모든 GIGABYTE 서버에서 무료로 제공되는 GIGABYTE Management Console(GMC) 및 GIGABYTE Server Management(GSM)로 관리할 수 있습니다.다음은 GIGABYTE가 클러스터 컴퓨팅을 귀사의  IT  인프라에 주입하는 방법에 대한 유익한 엿보기를 제공할 수 있는 두 가지 성공 사례입니다.

● 사례 #1 스페인의

레이 후안 카를로스 대학교(URJC)는  GIGABYTE와 협력하여 세포 노화 메커니즘을 연구하기 위해 "Talos"라는 컴퓨팅 클러스터를 구축했습니다.연구원들은 AI 알고리즘과  머신 러닝을 사용하여 의료 빅데이터  의 패턴을 감지   하고 새로운 통찰력을 추출합니다.또한 작업에 공간-시간 모델링 및 생성 모델을 활용합니다.요구 사항은 다음과 같습니다.A, "설명 가능한 AI"를 통해 결과를 제공할 수 있는 최첨단 이중 정밀도 프로세서;B, 프로세스를 가속화하기 위한 병렬 컴퓨팅 사용; 그리고 C,   컴퓨팅과 스토리지 측면에서 모두 확장성 . 이러한 요구 사항을 기반으로 GIGABYTE 팀은 고객을 위한 이상적인 AI 클러스터를 조립했습니다.

GIGABYTE가 Rey Juan Carlos 대학을 위해 구축한 Talos 컴퓨팅 클러스터의 일부입니다. GIGABYTE는 클러스터의 다양한 노드에 적합한 제품을 보유하고 있을 뿐만 아니라, GIGABYTE는 클러스터 관리 소프트웨어도 무료로 제공합니다.
그 결과,   컴퓨팅을 위한  두 개의 R182-Z91  랙 서버 ,  가속을 제공하는  네 개의 G492-ZD2  GPU 서버 , 데이터 저장을 위한 하나의 S451-3R1  스토리지 서버  , 그리고 클러스터의 "헤드" 또는 "제어" 노드가 되는 또 다른 R182-Z91로 구성된 클러스터가 탄생했습니다. R182-Z91과 G492-ZD2는 모두 최대 CPU  코어  및  스레드 용량을 제공하는 듀얼 소켓 CPU 설계로 선택되었습니다 . 네 개의 GPU 서버에는 NVIDIA HGX™ A100 8-GPU 모듈이 장착되어 있으며, 여기에는 초고속 상호 연결이 있는 8개의 A100 GPU가 포함되어 있어 연구자들이 이중 정밀도 계산 및 병렬 컴퓨팅을 위해 수십만 개의 코어를 사용할 수 있습니다. S451-3R1은 확장 가능한 스토리지를 위해 36개의 3.5인치 SAS/SATA 드라이브와 6개의 2.5인치 하이브리드  NVMe /SATA/SAS 드라이브 베이를 결합했으며, 헤드 노드는 NVIDIA Quantum InfiniBand® 네트워킹 플랫폼을 통해 서버 간 통신을 관리했습니다.GIGABYTE의 GMC와 GSM은 오픈소스 소프트웨어와 함께 서버에 설치되어 URJC에 완전하고 비용 효율적인 클러스터 컴퓨팅 솔루션을 제공했습니다.

추가 자료:
《AI에 적합한 서버를 선택하는 방법?1부: CPU 및 GPU》

● 사례 #2 대만 양밍자오퉁대학(NCYU)

의 고급 IC 랩의 경우  , 교수진은 집적 회로(IC) 설계를 효율적으로 테스트할 수 있는 최첨단 컴퓨팅 클러스터가 필요합니다.GIGABYTE 팀은 컴퓨팅을 위한 6대의 H282-ZC1 고밀도 서버  와 스토리지를 위한 2대의  R282-Z91  랙 서버를 포함하는 클러스터를 구성했습니다  . 각 고밀도 서버에는 4개의 노드가 있으며, 각 노드는 듀얼 프로세서를 지원하여  PCIe  인터페이스를 통해 상호 연결된 2,000개 이상의 CPU 코어가 128GB/s 대역폭을 제공하여 빠르고 안정적인 연결을 제공합니다. 두 개의 랙 서버는 수백 테라바이트의 스토리지를 제공할 뿐만 아니라 "본딩" 네트워크 스위치를 통해 노드 간에 20GB/s 데이터 전송을 제공합니다. 무엇보다도 랩은 클러스터 관리를 위한 자체 서버 트래픽 제어 시스템을 구현했습니다. 

기가바이트가 양명교통대학을 위해 구축한 컴퓨팅 클러스터는 최대 500명의 사용자가 동시에 컴퓨팅을 수행할 수 있으며, IC 설계를 테스트하는 데 걸리는 시간을 수 시간에서 단 몇 분으로 줄여줍니다.
결론은 이제 500명의 사용자가 클러스터에서 동시에 작업할 수 있다는 것입니다. 이전에는 실행하는 데 몇 시간이 걸렸던 복잡한 IC 설계 테스트를 몇 분 만에 완료할 수 있습니다. 이 연구소는 칩 설계를 돕기 위해 AI를 구현하려고 합니다. 이 모든 것은 GIGABYTE가 구축한 컴퓨팅 클러스터 덕분에 가능했습니다.

클러스터 컴퓨팅 사례 연구 더 보기:
《NCKU, GIGABYTE 클러스터로 슈퍼컴퓨팅 세계 기록 경신》
《일본 와세다 대학, GIGABYTE와 함께 기후 연구 컴퓨팅 클러스터 구축》
데이터 센터 수준 클러스터 컴퓨팅: GIGAPOD 소개
다양한 산업 분야의 고객을 위한 컴퓨팅 클러스터 구축에서 축적된 풍부한 경험과 AI 시대에 데이터 센터의 컴퓨팅 성능을 최적화하려는 의도를 바탕으로 GIGABYTE는 2023년 AI 솔루션 라인에 GIGAPOD를 추가했습니다. 수십 개의 서버와 수백 개의 프로세서를 결합하여 가장 까다로운 AI 워크로드를 처리할 수 있는 거대한 슈퍼컴퓨터를 형성하는 AI 개발 엔진을 찾고 있는 고객에게, 독립적이고 단독한 장치로 또는 방대한 AI 데이터 센터의 여러 노드 중 하나로 배포할 수 있는 GIGAPOD는 GIGABYTE의 클러스터 컴퓨팅 전문 지식을 단일 데이터 센터 수준 솔루션으로 집약한 것입니다.

GIGAPOD는 COMPUTEX 2024에서 주목을 받았습니다. 9개의 랙에는 초고속 상호 연결을 통해 연결된 수백 개의 고급 GPU를 수용하는 32개의 GPU 서버가 있어 단일 응집된 단위로 컴퓨팅하고 가장 까다로운 AI 워크로드를 처리할 수 있습니다.
아키텍처 수준에서 GIGAPOD는 동일한 모델 유형과 내부 구성의 32개의 GIGABYTE GPU 서버로 구성됩니다. 각 서버는 8-GPU 가속 모듈을 지원합니다. 서버는 일반적으로 8개의 랙에 설치되며, 랙당 4개의 서버가 있습니다. 그러나 GIGABYTE의 독점적인 냉각 기술 덕분에  G593-SD1-AAX3 와 같은 공랭식 5U(5개 랙 유닛 ) 서버는   성능 저하 없이 8-GPU 모듈을 지원할 수 있으므로 32개의 서버를 4개의 랙에만 넣어 최소한의 설치 공간과 타의 추종을 불허하는 컴퓨팅 밀도를 달성할 수 있습니다. 추가 랙 하나는 클러스터 관리를 위한 제어 노드와 스토리지 노드를 수용하는 데 사용됩니다. 이 지원 랙은 5개 또는 9개 랙 어레이의 정확한 중앙에 배치되어 "스파인-리프" 아키텍처라고 하는 것을 완성합니다. 이전의 컴퓨팅 클러스터 예를 살펴보면 이 설정이 본질적으로 간소화되고 모듈화된 클러스터임을 알 수 있습니다. 헤드 및 스토리지 노드는 "스파인" 역할을 하는 중앙 랙에 집중되어 있는 반면, 고성능 컴퓨트 노드는 스파인 양쪽의 "리브"에 분산되어 있습니다. 랙 상단의 스위치는 클러스터의 서버 간(동서 트래픽이라고 함) 및 클러스터와 외부 세계(남북 트래픽) 간의 통신을 용이하게 합니다. 컴퓨트 노드에서 동일한 GPU와 서버 모델을 사용하여 최대 시너지를 보장하고 클러스터가 하나의 거대한 서버 또는 가속기인 것처럼 기능할 수 있도록 합니다.



GIGAPOD는 사용자에게 추가적인 부가가치 기능 세 가지를 제공합니다. 고객 요구 사항에 따른 맞춤형 GPU 구성, 더욱 뛰어난 성능과 안정성을 위한 액체 냉각 옵션, 관리 및 AI 개발을 위한 소프트웨어 제품군입니다.
GIGABYTE의 하이테크 솔루션과 사용자 경험에 대한 헌신에 익숙한 업계 베테랑이라면 GIGABYTE가 고객에게 특별한 가치를 제공하기 위해 GIGAPOD에 추가 기능을 포함시켰다는 사실에 놀라지 않을 것입니다. 이 목록이 결코 완전하지는 않지만 GIGAPOD를 시중의 다른 클러스터 컴퓨팅 제품보다 한 단계 더 끌어올리는 세 가지 중요한 이점은 다음과 같습니다.

● 사용자 정의 옵션

GIGABYTE는 GIGAPOD를 조립할 때 선택할 수 있는 포괄적인 컴퓨팅 서버, 스토리지 서버 및 제어 노드용 서버 포트폴리오를 보유하고 있을 뿐만 아니라 노드의 구성 요소도 고객 요구 사항에 따라 선택할 수 있습니다. GPU를 예로 들면, 고객은 타의 추종을 불허하는 AI 소프트웨어 생태계와 NVLink 상호 연결 기술을 위해 NVIDIA HGX™ H100/H200/B100/B200 모듈을 선택하거나,   뛰어난 메모리 용량과 칩 간 트랜잭션 속도를 개선할 수 있는 AMD Instinct ™ MI300X를 선택할 수 있습니다. Intel® Gaudi®는 AI 추론과 관련된 워크로드에 대한 새로운 대안입니다.컴퓨트 노드 외부에서 GIGABYTE는 여러 공급업체와 긴밀히 협력하여 네트워킹, 스토리지, 전력 분배 장치(PDU) 등에 대한 유연한 선택을 제공합니다.이러한 풍부한 옵션과 잠시 후에 다룰 두 번째 기능이 결합되어 GIGAPOD에 여러 구성을 사용할 수 있는 이유이며, 이를 통해 고객은 항상 이상적인 솔루션을 찾을 수 있습니다.

● 고급 냉각

이미 언급했듯이 GIGABYTE의 독점 냉각 기술을 통해 GPU 모듈이 매우 컴팩트한 폼 팩터로 공랭식 서버에 장착될 수 있어 GIGAPOD의 업계 최고 수준의 컴퓨팅 밀도가 실현되었습니다.예: 관리 및 스토리지를 위한 추가 "스파인" 랙을 제외하고 단 4개의 48U 랙에 설치된 32개의 공랭식 서버.GIGABYTE는 또한  직접 액체 냉각(DLC) 과 같은 고급 냉각 기술을 지원하여 서버에 더 나은 성능과 안정성의 잠재력을 불어넣습니다. GIGABYTE는 검증된 파트너와 긴밀히 협력하여 서버의 냉각판과 누출 센서 보드부터 랙 레벨의 매니폴드와  냉각수 분배 장치(CDU)에 이르기까지 모든 것을 포괄하는 완벽한 솔루션을 제공합니다  . CDU는 랙 내부 또는 별도의 외부 장치로 설치할 수 있습니다. 에너지 효율성을 더욱 개선하기 위해 후면 도어 열 교환기(RDHx)를 설치할 수 있습니다.

자세히 알아보기:
《멋진 아이디어를 제안해 드릴까요? GIGABYTE의 고급 냉각 솔루션 페이지 방문》
《GIGABYTE의 직접 액체 냉각 솔루션 경험》

● 소프트웨어 제품군

GIGABYTE는 투자 대상 회사인 MyelinTek Inc.와 협력하여 최적화된 데이터 센터 솔루션을 제공하는 기능이 가득한 GIGAPOD 관리 플랫폼인 GPM을 제공합니다. 이 플랫폼에는 장치 모니터링, 작업 부하 할당, 클러스터 관리 및 원클릭 소프트웨어 또는 펌웨어 업그레이드를 운영자가 손쉽게 사용할 수 있는 대시보드가 포함되어 있습니다. 사용자에게 장치 상태를 보다 효과적으로 관리하고 중요한 이벤트 및 활동에 대응할 수 있도록 서버의 물리적 위치를 시뮬레이션하여 보여주는 GUI도 함께 제공됩니다. MyelinTek은 또한  AI 개발을 간소화하기 위해 개발된 MLOps 플랫폼 인  MLSteam을 제공합니다  . GPU 파티셔닝, 플레이버(하드웨어 구성) 정의 등의 추가 기능을 위해 GIGAPOD와 함께 사용할 수 있습니다. GIGAPOD와 같은 데이터 센터 수준 솔루션을 고려하든 클러스터를 구성할 서버와 워크스테이션을 개별적으로 선택하든 GIGABYTE는 클러스터 컴퓨팅을 IT 인프라에 통합하는 데 도움을 드릴 수 있습니다. AI 추세는 지속될 많은 컴퓨팅 발전을 가져왔습니다. 이를 활용하는 방법을 배우면 생산성이 향상되고 경쟁 우위를 유지할 수 있습니다. GIGABYTE의 기술 가이드 "데이터 센터를 AI에 대비시키는 방법? 2부: 클러스터 컴퓨팅"을 읽어주셔서 감사합니다. 
이전글
다음글 [GIGABYTE] 데이터 센터를 AI에 대비시키는 방법? 1부: 고급 냉각