PR CENTER

PR센터

홈>PR센터>보도자료

보도자료

게시물 상세
[GIGABYTE] Micron & GIGABYTE CXL 워크로드 데모
작성자 : 관리자(khkim@goak.co.kr)  작성일 : 2025.08.01   조회수 : 270
첨부파일 2025-08-01-g1.JPG
CXL 기술과 현대 AI/HPC 애플리케이션에 대한 이점에 대해 자세히 알아보세요.
 
 
소개
기술이 발전함에 따라 고성능 컴퓨팅(HPC)과 인공지능(AI) 기반 서비스가 일상생활에 점점 더 깊이 통합되고 있습니다. 컴퓨팅 성능 향상에 대해 이야기할 때, 뛰어난 처리 능력으로 인해 CPU와 GPU에 대한 관심이 높아지는 경향이 있습니다. 하지만 메모리 또한 전반적인 시스템 성능에 필수적인 요소임에도 불구하고, 그 중요성에 대한 인식은 상대적으로 낮습니다.

메모리는 컴퓨터가 현재 작업 중인 데이터를 일시적으로 저장하는 공간입니다. 메모리 용량이 많고 속도가 빠를수록 시스템은 크고 복잡한 작업을 더 잘 처리할 수 있습니다. 하지만 문제는 대부분의 컴퓨터에 사용되는 DRAM과 같은 기존 메모리 기술이 한계에 도달하고 있다는 것입니다. 마더보드에 장착할 수 있는 메모리 용량이 제한되어 있고, 대용량 모듈은 가격이 비쌉니다.

CXL은 그래픽 카드나 SSD와 같은 장치에도 사용되는 PCIe 연결을 통해 컴퓨터의 메모리 용량을 늘릴 수 있도록 하는 새로운 기술입니다. CXL 메모리는 기본 시스템 메모리의 속도에는 미치지 못하지만, 전반적인 시스템 성능을 지원하는 추가 리소스를 제공할 수 있습니다.

이를 통해 시스템 메모리를 마더보드의 물리적 한계를 넘어 확장하여 더욱 비용 효율적이고 적응력 있는 솔루션을 제공할 수 있습니다. 마이크론과 기가바이트는 협력하여 기가바이트의 R284-A91-AAL3  CXL 서버,  마이크론의 CZ122 CXL 메모리 확장 모듈

, DDR5 RDIMM, 그리고 NVMe SSD 를 사용하여 일련의 실제 테스트를 진행했습니다  . 데모 구성 요소는 다음과 같습니다.

기가바이트 R284-A91-AAL3

  • 2x Intel ® Xeon ®  6 CPU
  • 12채널 DDR5 RDIMM
  • 16x E3.S 2T CXL 확장
  • 4x E3.S Gen5 NVMe SSD

마이크론 CXL CZ122 모듈

  • 128GB/256GB 용량
  • CXL 2.0을 완벽하게 지원합니다
  • 유형 3 메모리 확장
  • E3.S 2T 폼 팩터

마이크론 DDR5 RDIMM

  • 128GB 모듈 용량
  • 6400MT/s 대역폭
  • 혁신적인 1β 기술

마이크론 9550 NVMe SSD

  • 15TB 저장 용량
  • NVMe 2.0/OCP 2.0 지원
  • G8 TLC 낸드
  • E3.S 1T 폼 팩터

우리는 테스트를 세 가지 범주로 나누었으며, 각 범주는 명확성을 위해 CXL의 뚜렷한 이점을 강조했습니다.
- CXL 메모리 대역폭 확장
- CXL 메모리 용량 확장
- CXL 비용 효율성
 
 
CXL을 사용한 소프트웨어 기반 가중 인터리빙
벤치마크를 평가하기 전에 CXL과 관련된 중요한 과제를 고려해야 합니다. 바로 직접 연결 메모리에 비해 상대적으로 낮은 성능입니다. 전용 메모리 채널을 통해 CPU와 직접 인터페이스하는 기존 DRAM과 달리 CXL 메모리는 PCIe 인터페이스를 통해 작동합니다. 이러한 간접 연결은 지연 시간을 증가시켜 CPU가 DRAM에 저장된 데이터에 액세스하는 데 더 많은 시간이 필요합니다.

추가된 CXL 메모리를 활용하기 위해 소프트웨어 기반 가중 인터리빙(Software-Based Weighted Interleaving)이라는 기술을 사용했습니다. 이 기술은 DRAM과 CXL 메모리 간의 데이터 할당 균형을 효율적으로 조절합니다. 연구팀은 이 기술의 효과를 평가하기 위해  다양한 워크로드에서 메모리 대역폭과 지연 시간을 평가하도록 설계된 인텔의 메모리 지연 검사기(MLC)를 활용 하고, DRAM과 CXL 간의 다양한 읽기/쓰기 패턴과 메모리 분배 비율을 사용하여 마이크로벤치마크 테스트를 수행했습니다.

각 테스트는 사용자 정의 가중치에 따라 DRAM과 CXL 간에 메모리 페이지를 분할하는 가중 인터리빙 방식을 사용했습니다. 예를 들면 다음과 같습니다.
  • 가중치가 3:1(DRAM:CXL)이면 메모리 트래픽의 75%가 DRAM으로, 25%가 CXL로 이동한다는 의미입니다.

한 도시에서 다른 도시로 운전한다고 상상해 보세요. 네 개의 빠른 고속도로 차선(DRAM)이 있지만 점점 혼잡해지고 있습니다. 이제 몇 개의 느린 샛길(CXL)을 추가합니다. 인터리빙은 모든 흐름이 원활하도록 각 차선 사이의 교통량을 어떻게 분배할지 결정합니다. "가중치"는 고속도로와 샛길을 얼마나 많이 이용할지 결정합니다. 이는 단순히 속도만이 아니라 스마트한 교통 제어에 관한 것입니다.

Linux 커널 6.9 이상에 도입된 가중 인터리빙 기능은 DRAM과 CXL 메모리 간의 메모리 할당을 세밀하게 제어할 수 있도록 합니다. 이를 통해  워크로드 특성에 따라 메모리 페이지를 할당하여 대역폭 사용을 최적화 할 수 있습니다  .

이 설정을 통해 DRAM과 CXL의 지연 시간과 대역폭이 서로 다르더라도 데이터 흐름을 최적화할 수 있습니다.
무게
DRAM
체중
CXL
BW
표준
1 0 1.00
2 1 1.12
5 2 1.25
3 1 1.28
작업 부하: R(읽기 전용)
무게
DRAM
체중
CXL
BW
표준
1 0 1.00
3 2 1.22
2 1 1.34
7 3 1.38
작업 부하: W2(1R, 2W)
무게
DRAM
체중
CXL
BW
표준
1 0 1.00
3 2 1.25
5 3 1.35
2 1 1.44
작업 부하: W5(1R, 1W)
무게
DRAM
체중
CXL
BW
표준
1 0 1.00
3 2 1.18
2 1 1.33
9 4 1.34
작업 부하: W10(2R, 1W) NT
 
 
CXL 메모리 대역폭 확장 – 더 큰 대역폭으로 성능 향상
다음 섹션에서는 실제 워크로드에 CXL을 도입했을 때의 효과를 살펴봅니다.

고성능 컴퓨팅(HPC) 및 인공지능(AI)과 같이 메모리 사용량이 많은 애플리케이션에서 메모리 대역폭을 늘리면 성능이 크게 향상될 수 있습니다. 이러한 결과는 결과에서 명확하게 확인되었습니다.

테스트된 네 가지 워크로드 모두에서 성능이 22%에서 33%까지 향상되었으며, 모든 HPC 및 AI 워크로드에서 기하 평균은 28% 증가했습니다.
HPCG
무게
DRAM
체중
CXL
성능
(GFLOPS)
증가하다
1 0 94.32 1.00
3 1 120.75 1.28
팟3D
무게
DRAM
체중
CXL
실행
시간(초)
속도 향상
1 0 706 1.00
5 2 539 1.31
클로버잎
무게
DRAM
체중
CXL
실행
시간(초)
속도 향상
1 0 116.74 1.00
9 4 87.53 1.33
파이스
무게
DRAM
체중
CXL
출력 토큰
대기 시간(ms)
속도 향상
1 0 2.28 1.00
2 1 1.87 1.22

우리가 평가한 작업 부하에 대한 개요는 다음과 같습니다.

HPC 워크로드
고성능 공액 그래디언트(HPCG) 다중 격자 사전 조건 공액 경사 알고리즘을 사용하여 크고 희소한 선형 시스템을 해결합니다. 많은 메모리 접근이 필요한 과학 및 공학 작업 부하를 처리합니다.
팟3D 3차원 포아송 방정식을 시뮬레이션합니다. 3차원 정전기 퍼텐셜과 관련된 분자 동역학 및 물리 문제입니다.
클로버잎 격자 구조에서 압축성 오일러 방정식을 풉니다. 천체물리학, 핵 시뮬레이션, 산업 충격파 모델링.
AI 워크로드
파이스 근사 최근접 이웃(ANN) 탐색을 사용합니다. 추천 시스템, 벡터 탐색, NLP 임베딩과 같은 AI 워크로드에 적합합니다.
 
 
CXL 메모리 용량 확장 – 빅데이터 확장
CXL의 한 가지 장점은 마더보드 슬롯의 제한이나 대용량 DIMM의 비용 제약을 넘어 메모리 리소스를 확장할 수 있는 기능입니다.

분석 데이터베이스 엔진인 DuckDB를 사용하여 TPC-H와 TPC-DS의 두 가지 벤치마크 제품군을 테스트했습니다.TPC-H는 단순화된 스키마에서 분석 쿼리를 평가하는 반면, TPC-DS는 혼합된 쿼리 유형을 사용하는 실제 소매 데이터베이스 워크로드를 나타내도록 설계된 보다 복잡한 벤치마크입니다.DRAM

+CXL+인터리빙으로 테스트한 결과는 다음과 같습니다.-
TPC-H에서 2.93배 개선
- TPC-DS에서 2.01배 개선

이러한 결과는 CXL이 의사 결정 지원 시스템 및 빅데이터 애플리케이션의 성능 향상에 기여할 수 있음을 나타냅니다.이는 CXL이 단순히 속도에 관한 것이 아니라 메모리에 맞지 않는 더 크고 복잡한 워크로드를 가능하게 하는 것임을 보여줍니다.
정책 인스턴스
분당 쿼리 수
최대 메모리
(TB)
성능 향상
DRAM만 2 2.52 1.44 1.00
DRAM+CXL 기본값 4 2.83 1.87 1.12
DRAM+CXL TPP 4 3.02 1.93 1.20
DRAM+CXL 인터리브 8 7.38 2.86 2.93
정책 인스턴스
분당 쿼리 수
최대 메모리
(TB)
성능 향상
DRAM만 4 1.84 1.56 1.00
DRAM+CXL 기본값 4 2.21 2.61 1.20
DRAM+CXL TPP 4 2.55 3.64 1.39
DRAM+CXL 인터리브 6 3.70 3.77 2.01
 
 
CXL 비용 효율성 – 속도 저하 없이 비용 절감
마지막으로 비용 효율성을 고려하는 것이 중요합니다.

높은 메모리 요구 사항과 특히 대규모 임베딩 테이블의 대기 시간에 대한 민감성으로 인해 엄격한 벤치마크 역할을 하는 딥 러닝 추천 모델(DLRM)을 실행하여 CXL 메모리의 성능을 평가했습니다.CXL이 이러한 까다로운 조건에서 좋은 성능을 보인다면 광범위한 워크로드에 적합함을 시사합니다.

관찰된 성능 영향은 최소였습니다.-
메모리의 50%가 CXL을 통해 할당되었을 때 약 2
% 저하 - 메모리의 67%가 CXL에서 사용되었을 때 약 9% 감소

실질적으로 이는 조직이 대부분의 시스템 성능을 유지하면서 64GB 모듈보다 최대 3배 더 비쌀 수 있는 대용량 128GB RDIMM을 구매하는 데 드는 비용을 크게 줄일 수 있음을 시사합니다.특히 규모에 따라 큰 비용 절감을 위한 작은 균형입니다.
구성 DLRM
벤치마크
정책 정규화된
성능
1.5TB DRAM만 17899 - 1
768GB DRAM + CXL 17555 SW 인터리빙 0.98
512GB DRAM + CXL 16250 SW 인터리빙 0.91

*언급된 잠재적 비용 절감은 언제든지 시장 변화에 따라 달라질 수 있습니다. 자세한 내용은 당사 영업 담당자에게 문의하세요.

 
 
결론
CXL은 아직 비교적 새로운 기술이지만, 이 데모는 특히 스마트 메모리 인터리빙 방법론과 함께 사용할 경우 실제 환경에 바로 적용 가능한 기술임을 보여줍니다. AI 모델 구축, 대규모 데이터세트 분석, 시뮬레이션 실행 등 어떤 작업을 수행하든 CXL은 다음과 같은 이점을 제공합니다.
- 더 빠른 성능을 위한 더 넓은 메모리 대역폭
- 더 큰 워크로드를 처리할 수 있는 더 큰 용량
- 큰 손실 없이 비용 절감

마이크론과 기가바이트 같은 기업들이 이러한 변화를 선도함에 따라 컴퓨팅의 미래는 훨씬 더 확장 가능하고 효율적이 될 것으로 예상됩니다.
이전글 [GIGABYTE] AI 공장 혁신: CXL 메모리 풀링의 등장
다음글 [GIGABYTE] AI 및 AIoT 준비되셨나요? AI 공장 시대가 도래했습니다!