데이터 센터에서 이용되는 초고성능 서버에서의 메모리 대역폭이란?

메모리 대역폭으로 인해 실행하는 애플리케이션의 성능이 저하된 경우에는, 칩을 현명하게 선택하여 보다 고성능인 PC를 구축할 수 있는데, 해외 미디어인 The Next Platform이, 고가의 고성능 메모리 대역폭이 애플리케이션 성능에 어떤 영향을 미치는지 해설했는데.....

 


2020년 IBM이 발표한 클라우드용 차세대 프로세서 "POWER10"은 큰 메모리 대역폭을 구현하고 있고, .IBM은 2019년 고속 인터페이스로 멀티프로토콜을 지원하는 "Open Memory Interface(OMI)"와 POWER10을 탑재한 머신으로 구축한 서버를 발표. Intel은 IBM의 POWER10 프로세서에 의해 다양한 기술에 대응할 수 있음을 밝히고 있다.

POWER10은 1코어당 약 320GB/s의 대역폭으로 256GB에서 4TB의 메모리 용량을 실현하고 있고, 또한 메모리 모듈 수를 4분의 1로 줄이고, 코어당 128GB에서 512GB의 DDR4 용량을 실현하는 최적화된 프로세서에서는, DDR5 메모리로 변경하여 대역폭을 800GB/s까지 끌어올릴 수 있다. 또, "Cirrus(권운)"라고 불리는 POWER10 프로세서는, 최대 메모리 대역폭이 코어당 256 GB/s, 지속 메모리 대역폭은 코어당 120 GB/s로 되어 있다.

아래 이미지는, POWER9 프로세서와 POWER10 프로세서의 범용 소켓에 있어서의 퍼포먼스 향상을 나타낸 그래프로, "POWER10 Memory Streaming"은 듀얼칩 모듈이기 때문에 여타 싱글칩 소켓과 달리 클럭스피드를 조절함으로써 더욱 고속화가 가능.

 


IBM이 출시한 랙형 서버 IBM Power E1050은 최대 4개의 POWER10 듀얼칩 모듈과 총 96코어를 탑재해, 동작 주파수 3.2GHz로 동작하는 DDR4 메모리에서 최대 64회의 디퍼렌셜 방식의 DIMM을 지원해 최대 1.6TB/s 대역폭을 구현할 수 있다는 것.

또한, 코어 수를 줄임으로써 대역폭을 두 배로 늘릴 수 있을 뿐만 아니라, DDR5 메모리나 Compute Express Link(CXL) 메모리로 전환함으로써, 메모리 대역폭을 더욱 확대할 수 있다고 한다.

고가의 IBM Power E1050을 도입하는 것은 결코 저렴한 쇼핑은 아니지만, AMD의 Instinct MI300이나 NVIDIA의 그레이스 호퍼와 같은 CPU와 GPU를 일체화한 데이터센터용 고성능 칩 출시를 기다리는 것보다 나은 선택으로 알려져 있고, 이들 칩은 코어당 메모리 대역폭은 높지만 메모리 용량에 제한이 있어, POWER10을 탑재한 IBM Power E1050이나 Intel이 발표한 "Sapphire Rapids"보다 작은 프로그램만 할 수 있다는 것.

또, AMD나 NVIDIA의 고성능 칩은 발열하기 쉽고, 그 결과 D램이나 HBM의 속도를 낮출 수밖에 없기 때문에, 예상되는 메모리 대역폭에 미치지 못할 가능성이 지적되고 있다.

The Next Platform은 완벽한 메모리 대역폭을 구축하기 위해 가장 적합한 CPU 프로세서로 Intel의 Sapphire Rapids를 꼽고 있다.

Sapphire Rapids는 대역폭이 넓은 HBM2e 메모리와 DDR5 메모리를 동시에 지원할 수 있는 프로세서로, Sapphire Rapids 일부 제품에서는 HBM2e 메모리를 여러 개 지원하고 다른 제품에서는 8개의 NUMA를 지원.



통상 모델인 Sapphire Rapids Xeon SP는 8개의 DDR5 메모리 채널을 가지며, 채널당 1매의 DIMM을 동작 주파수 4.8GHz로 사용할 경우, 최대 용량은 2TB이고, 또 채널당 2개의 DIMM을 사용할 경우는, 최대 용량은 4TB로 확대되지만, 동작 주파수는 4.4GHz가 된다고 한다.

60코어의 Sapphire Rapids Xeon SP-8490H는 동작 주파수가 1.9GHz로 동작하기 때문에 코어당 대역폭이 5.1GB/s로 좁아지고, 한편으로 16 코어의 Sapphire Rapids Xeon SP-8444H는 2.9 GHz라고 하는 높은 주파수로 동작하기 때문에, 1 코어 당의 대역폭은 19.2 GB/s가 된다.

또한 코어당 메모리 대역폭을 늘리고 싶은 경우에는 Sapphire Rapids Xeon SP-6434로 변경함으로써, 동작 주파수가 3.7GHz로 향상되고, 코어당 대역은 38.4GB/s로 확대된다.

 


Sapphire Rapids의 Max 시리즈 CPU는 56코어로, 4개의 HBM2e 스택이 64GB의 메모리 용량과 1.23TB/s의 대역폭을 가짐으로써, 코어당 22GB/s의 메모리 대역폭을 실현한다는 것. 다른 모델은 대역폭 1.23TB/s의 32코어로 동작하면 코어당 38GB/s의 메모리 대역폭이 된다고 한다.

덧붙여 Sapphire Rapids의 Max 시리즈 CPU에서는, DDR5 메모리나 CXL 메모리를 추가하는 것으로 합계 13.912TB/s, 코어 당 217.4GB/s라고 하는 높은 메모리 대역폭을 실현하는 것이 가능, 또, NUMA를 상호 접속함으로써, 보다 높은 퍼포먼스를 실현할 수도 있다고 되어 있다.

Sapphire Rapids는 높은 메모리 대역폭이 필요한 서버를 구축하는 데 적합할 뿐만 아니라, 고성능 계산 및 AI 머신러닝의 고속화에 적합한 반면 막대한 비용이 소요되기 때문에, Sapphire Rapids를 이용한 어프로치는, AI의 학습에는 적당하지 않다고 생각되고 있다.

또한, AMD의 Instinct MI300이나 NVIDIA의 Grace Hopper와 같은 칩에서도, 적절한 사용에는 GPU의 코어와 HBM 메모리의 대역폭 균형이 중요하다고 알려져 있다.

"계산이나 메모리 대역폭, 메모리 용량의 균형을 맞추는 것은 초고성능 CPU 프로세서의 메모리를 잘게 잘라 다수의 CPU에 분산하는 작업보다 중요할 수 있습니다."라고 The Next Platform은 말한다.