||<tablewidth=100%><tablebordercolor=#000><bgcolor=#fff,#000><color=#000,#fff><nopad>
||<tablealign=center><tablebordercolor=#fff,#000><tablebgcolor=#fff,#000>
||<(>
||AMD Radeon Graphics
둘러보기 ||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px)" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" |
GPU 마이크로아키텍처 | |||||
TeraScale | GCN | RDNA | UDNA | |||
CDNA | ||||||
<rowcolor=white> 그래픽 카드 제품군 | 가속기 제품군 | |||||
RADEON RX | RADEON PRO | INSTINCT | ||||
드라이버 및 소프트웨어 | ||||||
Radeon Software | ROCm | GPUOpen | ||||
기술 | ||||||
Video Core Next · CrossFire · Eyefinity · FreeSync · Fluid Motion · FidelityFX |
}}} }}}}}} |
||<-2><tablewidth=100%><tablebordercolor=black><bgcolor=black><color=white><height=70>
||<-2><tablealign=center><tablebordercolor=black><tablebgcolor=black>
||<(> {{{#!wiki style="letter-spacing:-0.5px"
RDNA 아키텍처 기반 제품군 ||
||{{{#!wiki style="margin: -16px -11px;" | <colbgcolor=#ed1c24><colcolor=white> RDNA 1 (RDNA 1 ISA) | RX 5000 시리즈 | |
RDNA 2 (RDNA 2 ISA) | RX 6000 시리즈 | ||
RDNA 3 (RDNA 3 ISA) | RX 7000 시리즈 | ||
RDNA 3.5 (RDNA 3.5 ISA) |
|
||
RDNA 4 |
|
}}} | |
◀ 이전 GCN 마이크로아키텍처 기반 제품군 |
다음 ▶ UDNA 마이크로아키텍처 기반 제품군 |
AMD RDNA μArchitecture |
[clearfix]
1. 개요
AMD가 개발한 GCN 마이크로아키텍처 시리즈의 후속 GPU 마이크로아키텍처 시리즈로, RDNA ISA를 따른다고성능 게이밍을 목표로 하는 아키텍처라고 한다.
9세대 거치형 콘솔 게임기인 엑스박스 시리즈 X와 플레이스테이션 5에도 채택된 GPU 아키텍처이기도 하며, TeraScale 1 아키텍처 기반의 R600 세대를 마지막으로 제품명에서 사라졌던 XT 및 XTX 접미 문자가 무려 12년만에 다시 돌아온 아키텍처 시리즈이기도 하다.
RDNA의 R은 Radeon의 머리글자. 2019년에 처음 발표될 당시에는 특정 리뷰 사이트에만 언급되었을 뿐 AMD 공식 보 도 자 료 어디에도 명시된 곳이 없었으나, 2020년 3월 5일에 발표된 Financial Analyst Day 2020에서 처음 명시되었다. ( 보도자료) 이와 동시에 CDNA 마이크로아키텍처의 존재가 공식으로 알려졌다.
2. 세대별 RDNA
2.1. RDNA 1 (Navi 1X, gfx1010)
- AMD Next Horizon: GAMING 발표 슬라이드
- INTRODUCING RDNA ARCHITECTURE Whitepaper
- "RDNA 1.0" Instruction Set Architecture Reference Guide
|
Introducing RDNA Architecture |
-
그래픽스 커맨드 프로세서
GCN 계열의 커맨드 프로세서를 계승하는 블록으로, CPU의 명령을 받아 각 하부 구조로 명령을 발행한다.
-
ACE
GCN 계열의 ACE에 해당하는 블록. 그래픽스 커맨드 프로세서가 그래픽 연산 명령을 담당한다면, ACE는 GPGPU 연산 명령을 담당한다.
-
HWS
3세대 GCN부터 탑재된 HWS에 해당하는 블록. ACE를 위한 특화된 스케줄링을 통해 ACE의 효율을 2배 높여준다.
-
지오메트리 프로세서
GCN 계열의 지오메트리 프로세서에 해당하는 블록. 이전 세대와 마찬가지로 버텍스 어셈블러, 지오메트리 어셈블러, 테셀레이터가 모두 포함되어 있지만, 셰이더 엔진마다 1개씩 배치되어 있던 구조에서 중앙의 1개만 독립적으로 재배치됐다. 그렇다고 지오메트리 성능이 크게 떨어진 것이 아니고, 기존의 지오메트리 프로세서가 수행했던 역할 일부가 프리미티브 유닛으로 분담하는 방식으로 조정됐기 때문에 프리미티브 유닛이 없는 복수의 지오메트리 프로세서 구조와 동등한 성능을 발휘할 수 있게 됐다.
-
셰이더 엔진
2세대 GCN부터 도입된 셰이더 엔진을 계승하는 블록으로, 지오메트리 프로세서가 셰이더 엔진에 귀속되지 않고 고정 기능 유닛 형태로 독립되면서 역할이 조금 줄어들긴 했지만 그래도 GPU의 체급을 결정하는 대단위 블록인 점은 여전하다. 각 셰이더 엔진에는 셰이더 어레이(Shader Array)가 2개씩 포함되어 있다.
-
프리미티브 유닛
기존에 있었던 지오메트리 프로세서의 성능 효율을 보조해주기 위한 유닛으로, 본래 5세대 GCN인 Vega에서 처음 발표되어 같은 지오메트리 프로세서 개수라도 추가된 프리미티브 셰이더 개수만큼 성능 효율이 향상됨에 많은 기대를 모았지만, 성능 효율 문제로 비활성화 돼서 4세대 GCN인 Polaris와 다를 바 없는 지오메트리 프로세서 구조가 됐다.
그러다가 RDNA 기반의 Navi 10부터 프리미티브 셰이더가 제대로 구현됐는데, Navi 10 기준으로 지오메트리 프로세서가 4개에서 1개로 대폭 축소됐지만 그 대신 셰이더 엔진에 귀속되지 않은 독립적인 고정 유닛으로 재배치됐고, 셰이더 엔진에 2개씩 포함되어 있는 셰이더 어레이에서 프리미티브 셰이더가 1개씩 배치됐다. Navi 10 기준으로 총 4개가 탑재됐으며, 기존의 지오메트리 프로세서 4개일 때와 동등한 수준의 성능을 보여주었다.[1]
지오메트리 프로세서에서 담당했던 3가지 기능인 지오메트리 어셈블러, 버텍스 어셈블러, 테셀레이션 중에 일부 기능이 프리미티브 셰이더가 가져가 분담하는 구조로 변경됐으며, GCN까지는 프리미티브 생성 속도와 컬링 속도가 같았으나, RDNA부터는 프리미티브 셰이더 덕분에 컬링 속도가 2배 빨라졌다. 유닛 하나에 클럭 사이클당 2개의 프리미티브 컬링 성능을 보여준다.
-
래스터라이저
GCN 계열의 래스터라이저에 해당하는 블록. 이전 세대와 마찬가지로 Scan Converter, Hierarchical-Z도 함께 포함되어 있다.
-
WGP (Work Group Processor)
2개의 CU가 결합된 DCU(Dual Compute Units) 구조가 됐으며, 캐시 메모리와 같은 자원을 공유한다. AMD에서는 이를 'WGP'라고 부르며, 구조적으로는 NVIDIA의 SM(Streaming Multiprocessor)에 가깝다. 그동안 CU가 SM에 대응되는 단위로 취급됐다가 DCU를 보면 SM 2개씩 묶인 TPC(Texture Processing Cluster 또는 Thread Processing Cluster)에 가까운 모습으로 보일지라도, TPC 레벨에 존재하는 블록이 지오메트리 처리와 테셀레이션을 담당하는 폴리모프 엔진(Polymorph Engine) 말고는 아무 것도 없기 때문이다. 다시 말해서 TPC 레벨에서 두 SM을 서로 공유하는 메모리 계층이 아예 없다.
GCN의 컴퓨트 유닛은 4개의 SIMD16에 1개의 공유 벡터/스칼라 유닛이 명령어 디코드와 발행을 하는 구조였지만, RDNA에서는 2개의 SIMD32에 각각 벡터/스칼라 유닛이 붙게 됐다. 따라서 1개의 CU를 완전히 채우는 데 GCN은 4개의 사이클이 필요했던 반면, RDNA에서는 1사이클만에 가능하게 됐다.
또한 기본 실행 단위가 Wave64를 4개로 쪼개 SIMD16에 채우는 구조에서, SIMD의 넓이와 동일한 Wave32로 바뀌어 더욱 효율적인 명령어 처리가 가능해졌다. 참고로 NVIDIA의 CUDA에서도 동일한 크기를 사용한다.
-
렌더 백엔드
GCN 계열의 렌더 백엔드에 해당하는 블록. 이전 세대와 마찬가지로 4개의 ROP이 묶여진 파티션 형태를 지니고 있으며, 기본적인 기능도 이전 세대와 큰 차이 없다.
-
GPU 내부 메모리 계층 구조의 변화
{{{#!wiki style="word-break: keep-all"
GCN 5 RDNA 1
컴퓨트 유닛 레벨 벡터 범용 레지스터 파일 64 KB × 4 벡터 범용 레지스터 파일 128 KB × 2
스칼라 범용 레지스터 파일 3.2 KB
(GCN 4까지는 4 KB)스칼라 범용 레지스터 파일 10 KB
셰이더 명령어 캐시 메모리 32 KB
(컴퓨트 유닛 4개씩 할당된 구조 - 1개씩일 경우 8 KB에 대응)-
L1 벡터 데이터 캐시 메모리 16 KB L0 벡터 데이터 캐시 메모리 16 KB
스칼라 데이터 캐시 메모리 16 KB
(컴퓨트 유닛 4개씩 할당된 구조 - 1개씩일 경우 4 KB에 대응)-
로컬 데이터 셰어 메모리 (LDS) 64 KB -
WGP 레벨 - 셰이더 명령어 캐시 메모리 32 KB
- 스칼라 데이터 캐시 메모리 16 KB
- 로컬 데이터 셰어 메모리 (LDS) 128 KB
- 상수 캐시 메모리 16 KB[2]
셰이더 엔진 레벨 - L1 그래픽스 캐시 메모리 128 KB × 2
GPU 전체 레벨 글로벌 데이터 셰어 메모리 (GDS) 64 KB 글로벌 데이터 셰어 메모리 (GDS) 64 KB
L2 캐시 메모리 1~4 MB L2 캐시 메모리 2~4 MB
GCN 마이크로아키텍처에 속한 L1 캐시 메모리가 L0 캐시 메모리라는 이름으로 변경됐으며, 그 대신 셰이더 엔진(Shader Engine) 내부끼리 공유되는 영역에 L1 캐시 메모리가 추가됐다. 또한 ROP이 포함되어 있는 렌더 벡엔드(Render Backend)가 L1 캐시 메모리에 붙게 되면서 라데온 RX 5600 XT처럼 ROP과 L2 캐시 메모리가 서로 일정한 구성비로 유지할 필요가 없어졌다. GCN에서 보여주지 못 했던 RDNA의 scalable이 드러나는 특징 중에 하나이기도 하다.
LDCC(Lossless Delta Color Compression)라고 부르는 무손실 델타 컬러 압축 알고리즘이 개선됐으며, 내부적으로도 LDCC를 사용하게 변경되어 대역폭 절감이 가능해짐과 동시에 메모리 의존도가 낮아졌다. 경쟁사의 튜링 마이크로아키텍처만큼은 아니지만 파스칼 마이크로아키텍처 수준까지는 따라잡았다는 평. 이러한 캐시 메모리의 구조적 변화로 레이턴시 측면에서 L0 캐시 메모리 21%, L1+L2 캐시 메모리 24%, 그래픽 메모리라고도 부르는 전역 메모리 7%가 단축됐다고 한다.}}}
- VP9 가속이 강화된 Video Core Next 2.0
- CLRX에서는 GCN ISA 1.5 버전
2019년 6월, 컴퓨텍스 타이베이에서 Vega의 후속으로 발표된 최초의 RDNA 마이크로아키텍처. 기존 GCN과 다른 새로운 구조의 마이크로아키텍처를 사용했고 베가 대비 클럭당 1.25배, 전력당 1.5배의 성능을 달성했다고 발표했다. 또한 RDNA는 게이밍에 최적화된 마이크로아키텍처로, ISA는 여전히 GCN ISA를 사용한다고 한다. 출처 GCN ISA를 사용하는 마지막 마이크로아키텍처일 것이라는 루머가 있다. 출처1, 출처2
GCN 마이크로아키텍처는 원래 연산 성능을 위주로 개발됐기에[3] 파이프라인이 굉장히 길어서 레이턴시가 늘어지는 등 게이밍 GPU로서는 확실한 약점이 있었는데, RDNA에서는 그래픽스 파이프라인 스테이지를 짧게 하여 좀 더 게이밍에 적합하게 변경했다.
게이밍 성능 효율을 중시한 만큼, 동급 게이밍 성능 대비 순수 FP32 연산 성능이 크게 너프될 수밖에 없는 구조라고 볼 수 있다. 라데온 RX 5700 XT에 사용된 Navi 10이 하이엔드 타겟의 GPU가 아님을 감안하더라도, 이전 세대 라데온 VII에 사용된 Vega 20보다 37.5%나 적은 체급이기 때문. 체급만 따지면 7년 전 1세대 GCN 시절 HD 7970에 사용된 Tahiti 풀칩(컴퓨트 유닛 32개)과 HD 7870에 사용된 Pitcairn 풀칩(컴퓨트 유닛 20개)의 격차와 맞먹는다. 반대로 생각해보면, 같은 렌더 백엔드 스펙(렌더링 성능)일 때 컴퓨트 유닛의 개수를 늘림으로써 연산 성능이 증가될 때마다 게이밍 성능의 효율 저하가 덜 해진다는 뜻이기도 하다. 즉, 컴퓨트 유닛 개수에 따른 게이밍 성능 스케일링이 뚜렷해졌다는 것.
3DMARK 벤치마크 스타일도 Fire Strike 점수가 낮고 Time Spy 점수가 잘 나오는 식으로 NVIDIA의 맥스웰 이후 마이크로아키텍처와 비슷하게 변했다. GPU 채굴로 두 회사가 홍역을 한 번 치른 후에 NVIDIA에서는 레이 트레이싱으로, AMD에서는 새로운 아키텍처 도입으로 컴퓨팅에는 구세대에 비해 별로 나아진 게 없고 게이밍에 도움이 되는 쪽으로 선회한 듯이다.
게이밍 분야가 아닌 연산 특화 분야에서 존속돼야 할 Instinct 제품군은 2020년부터 CDNA 마이크로아키텍처로 갈아타게 되면서, 게이밍과 완전히 분리된 마이크로아키텍처로 나아가게 됐다.
2.2. RDNA 2 (Navi 2X, gfx1030)
- AMD Financial Analyst Day 2020 Round-Up: Laying A Path For Bigger & Better Things
- AMD's RDNA 2 Gets A Codename: “Navi 2X” Comes This Year With 50% Improved Perf-Per-Watt
- "RDNA 2" Instruction Set Architecture Reference Guide
|
AMD RDNA™ 2 Architecture |
- 【정식 발표 전 정보 펼치기 · 접기】
- 2020년 3월 5일, AMD 파이낸셜 데이에서 공식 발표된 RDNA의 후속 마이크로아키텍처. 하드웨어
레이 트레이싱을 지원하며, 전성비가 기존 RDNA 대비 50% 향상될 것이라고 한다.
2020년 8월 17일, HOT CHIPS 32의 엑스박스 시리즈 X 아키텍처 설명회를 통해 RDNA 2 아키텍처의 구조가 드러났는데, RDNA2의 비효율적인 하드웨어 레이 트레이싱 설계에 대해 의문이 제기되고 있다. RDNA2에는 CU 하나당 레이 트레이싱을 전담하는 기능성 텍스처 프로세서가 하나씩 들어가 레이 트레이싱 작업을 수행하는데, 텍스처 명령과 레이 명령을 동시에 수행할 수가 없다. 클럭당 1 레이 명령을 내리거나, 4 텍스처 명령을 내릴 수 있다. 텍스처 유닛과 레이 가속이 같은 자원을 공유하고 있기에 레이 트레이싱 성능이 결과적으로 최대값보다 낮게 나올 수 밖에 없다. AMD가 엔비디아의 레이 트레이싱 성능을 따라잡았을지에 대한 전망에 의심을 들게 만드는 부분. 또한 상황에 따라 값이 천차만별로 바뀌는 레이-삼각형 값이라는 애매한 지표를 공개해, 텍스처 프로세서의 수량으로 순수한 레이 연산능력인 기가레이를 산출하지 못해, RDNA2 아키텍처의 정확한 레이 연산능력을 특정 지을 수 없게 됐다.
한편 엑스박스 발표회를 통해 드러난 정보에 따르면 CU당 스칼라 및 벡터 처리량은 RDNA1과 동일한 것으로 나타난다. RDNA1과 같이 컴퓨팅용과 그래픽용 각각 하나씩 듀얼레인 명령어 프로세서를 구성했다. 14CU는 하나의 캐시메모리를 공유해 캐시 구조가 RDNA 1과 똑같다. 하지만 듀얼 컴퓨트 유닛이 로컬 데이터 공유를 가능케 해 짝지어진 컴퓨트 유닛들끼리는 마치 하나의 캐시 메모리를 공유하는것과 같은 만듦새를 취하게 한다. 셰이더 어레이 구성이 10CU에서 14CU가 돼 양치기를 통한 성능 향상이 쉬워졌다.
2020년 9월 10일, 10월 28일(현지시간)에 RDNA 2에 대한 소식이 발표될 예정이다. #
2020년 9월 17일, 동 클럭/스펙 당 성능은 불확실하지만 Xbox One X 대비 25%라고 주장하는 것으로 보아 현행 RDNA1과 큰 차이가 없을 가능성이 높다. RDNA2는 GCN4세대 대비 +25%인 셈인데, 문제는 이미 RDNA 1세대부터가 GCN 5세대 대비 +25% 가량을 성사했기 때문. 아이러니하게도 VEGA 아키텍처, 즉 GCN 5세대로 가면서 4세대 폴라리스보다 성능상으로 퇴화(...)를 해버린 희대의 촌극이 일어난 덕분에, 저 내용대로라면 RDNA2는 RDNA1보다는 조금 더 좋아지는 게 맞기는 하다.
-
셰이더 엔진의 확장 및 구성 변경
RDNA 계열 아키텍처 기반 GPU의 체급을 결정하는 대단위 블록인 셰이더 엔진이 2개 → 4개로 2배 확장됐다. 셰이더 엔진 하나에 2개씩 구성되는 셰이더 어레이도 4개 → 8개로 2배 확장됐고, WGP도 최대 총 20개 → 40개로 2배 확장됐으며, 128 KB인 L1 캐시 메모리도 최대 총 4개 → 8개로 2배 확장됐다. 단, 각 셰이더 엔진마다 프리미티브 유닛, 래스터라이저, 렌더 백엔드가 각각 2개, 2개, 8개씩 → 1개, 1개, 4개씩으로 절반 감소됐으며, L2 캐시 메모리는 256 KB 슬라이스 16개에 총 4 MB 그대로 유지됐다.
-
전력 대비 성능이 최대 54% 향상
공정 미세화 없이 전성비가 최대 목표치였던 50%를 넘어 최대 54%로 달성됐다. 54% 안에는 16% 기여도의 클럭 포텐셜, 17% 기여도의 전력 최적화, 21% 기여도의 클럭당 성능 강화가 합산된 값이다. 그런데 다른 슬라이드(PUTTING IT ALL TOGETHER)에서는 클럭당 성능의 그래프가 약 16%에 근접한 길이로 보여져서 어느 쪽이 맞는지는 확실하지 않다.
-
지오메트리 성능 효율성 개선
프리미티브 유닛이 최대 4개로 이전 세대와 동일하다. 다만, 이전 세대에서는 효율이 낮은 편이었는데, 이번에는 효율이 개선되어 지오메트리 성능이 최대 80%까지 향상됐다. 어떻게 효율이 향상됐는지는 확실하지 않으나, 5세대 GCN인 Vega 아키텍처에서 처음 소개됐던 프리미티브 셰이딩 자체가 지오메트리 프로세서의 일부 기능을 프리미티브 유닛이, 프리미티브 유닛의 일부 기능을 컴퓨트 유닛이 분담하여 비효율성을 개선하는 방식이기에, 컴퓨트 유닛의 개수가 이전 세대보다 2배 증가된 것이 프리미티브 셰이딩의 진가를 발휘하게 된 가장 큰 요인인 듯.
-
래스터라이제이션 성능 2배 증가
래스터라이저는 최대 4개로 이전 세대와 동일하지만, 래스터라이제이션 성능이 16 픽셀/클럭 사이클 → 32 픽셀/클럭 사이클로 향상됐다. 정황상 래스터라이저와 함께 있던 Scan Converter가 2배로 증설된 듯.
-
레이 엑셀러레이터 (Ray Accelerator)
경쟁사의 지포스가 RT 코어가 탑재된 것과 같이, 라데온에도 레이 트레이싱 전용 가속 장치가 컴퓨트 유닛마다 1개씩 탑재됐다. 거시적으로 HOT CHIPS 32에 발표된 XBOX SERIES X의 아키텍처 설명회에서 설명했던 '컴퓨트 유닛 안에 클럭당 4텍스처링 또는 4레이 트레이싱으로 동작'이 그대로 반영되어 있는데, 이는 텍스처 유닛에 사용될 자원과 레이 엑셀러레이터에 사용될 자원이 서로 공유하면서 한정된 구조이기 때문. 따라서, 1 클럭 사이클 내에서 텍스처링과 레이 트레이싱의 동시 연산이 불가능할 수도 있다. 동시 연산할 수 있더라도 둘 다 최대 스펙만큼의 성능을 발휘할 수 없다는 것.
세부적으로 살펴보면 RT 코어와 마찬가지로 BVH(Bounding Volume Hierarchy) 기능을 수행하는데, 광선의 교차(intersection) 판별 기능이 있어도 광선이 교차하는 박스 순회(traversal) 기능은 없어서 순회 기능을 범용 연산부인 스트림 프로세서로 대신해야 하기 때문에 순회 기능이 많이 요구되는 게임에 불리할 것이라고 예상됐지만, 후술할 라데온과 엔비디아의 특성 차이 대문에 오히려 박스 판별이 많을 수록 더 좋은 성능을 보여준다. 광선 교차 판별 기능 중에서도 박스 판별 성능과 박스 순회 후 삼각형 판별 성능이 경쟁사의 Ampere 아키텍처에 도입된 2세대 RT 코어와 다른데, 클럭당 박스 판별 성능이 2세대 RT 코어보다 2배 빠른 4개인 반면, 클럭당 삼각형 판별 성능은 2세대 RT 코어의 절반으로 튜링 아키텍처에 도입된 1세대 RT 코어와 같은 1개이다.
물론, 텍스처 유닛과 공유하는 자원의 구조가 나쁘기만 한 것은 아니다. 2010년대 이후로 게임이 텍스처링보다는 셰이딩 비중이 커지는 추세인 점도 있지만, 순회 기능을 전용 하드웨어가 아닌 스트림 프로세서가 수행해주기 때문에 스트림 프로세서에 큰 영향을 주지 않기 위한 목적이 더 크다고 볼 수 있다. CUDA 코어, 텍스처 유닛, RT 코어 모두 L1 데이터 캐시 및 셰어드 메모리 하나에 공유해서 RT 코어가 동작하면 CUDA 코어에 큰 영향을 줄 수 있는 경쟁사와는 확연하게 다른 점.
그 뿐만 아니라, 전용 하드웨어의 역할이 커지면 트랜지스터도 그만큼 많이 차지할 수밖에 없는데, RDNA 2의 레이 엑셀러레이터는 경쟁사 Turing, Ampere의 RT 코어보다 적은 기능이므로 필요한 트랜지스터가 절약되고, GPU 실리콘 다이의 면적을 줄여서 물량을 더 확보할 수 있는 장점이 있다. 면적 대비 성능으로 효율성을 꾀한 셈. 순회 기능을 스트림 프로세서가 수행해주기 때문에, 전용 하드웨어보다 성능이 떨어질지라도 개발자(프로그래머)가 게임의 특성에 맞도록 유연하게 프로그래밍 할 수 있는 것은 덤.
하지만, 게임 개발사들이 먼저 나온 경쟁사의 RT 코어 구조에 맞게 개발됐기 때문에, 자원 공유 및 프로그래밍 가능하다는 장점이 무색해지고 결과적인 레이 트레이싱 성능이 경쟁사보다 크게 뒤쳐진 요인으로 꼽히고 있다. 그래서 지포스 20에게도 밀려 없는것보다는 나은정도에 머무르는 수준이다.
-
렌더 백엔드 플러스 (RB+)
지금까지의 렌더 백엔드 블록은 4개의 ROP이 포함되어 있었고 스루풋도 4 픽셀/클럭 사이클과 16 Depth Samples/클럭 사이클을 유지했으나, 이번에는 8개의 ROP이 포함되는 구조가 되면서 8 픽셀/클럭 사이클로 2배 향상됐다. 그래서 블록 개수가 16개로 똑같아도 ROP이 128개가 된다. WGP가 최대 2배 확장된만큼 ROP도 2배 확장됐기 때문에 이전 세대 RDNA에서 지녔던 같은 렌더링 성능 대비 연산 성능에 따른 뚜렷한 게이밍 성능 스케일링 특성이 고스란히 적용됐다고 볼 수 있다. 하지만, 블록 1개에 여전히 16 Depth Samples/클럭 사이클이라서 완전한 ROP 8개라고 보기엔 애매하다.
-
컴퓨트 유닛 내부 스레드 스케줄러와 L0 → L1
캐시 메모리 방향의 대역폭 조정
컴퓨트 유닛 내부에 스레드 스케줄러인 웨이브 프론트 컨트롤러가 20개 → 16개로 감소됨에 따라, 최대 스레드 개수도 1280스레드 → 1024스레드로 감소됐다. 또한, L0 → L1 캐시 메모리 방향의 대역폭이 64 바이트/클럭 사이클 → 32 바이트/클럭 사이클로 절반이나 축소됐다. 이렇게 조정된 원인은 정확히 알 수 없으나, 캐시 메모리에 사용되는 SRAM의 슬라이스 개수와 SRAM 슬라이스의 비트 채널 개수에 따른 면적 문제이거나, IPC, 성능 효율, 고클럭을 모두 달성하기 위해 어쩔 수 없이 축소했을 것이라는 추측성 의견이 있다. 다행히, 반대 방향인 L0 ← L1 캐시 메모리 대역폭은 128 바이트/클럭 사이클로 유지됐으며, 셰이더 어레이 내부 기준 L1 ↔ L2 캐시 메모리 대역폭도 256 바이트/클럭 사이클 그대로 유지됐다.
-
인피니티
캐시 메모리 (Infinity Cache Memory)
Introducing AMD Infinity Cache |
L2 ↔ 인피니티 캐시 메모리 대역폭은 64 바이트/클럭 사이클인 슬라이스가 16개로 구성되므로 클럭 사이클당 총 1024 바이트가 되며, 인피니티 패브릭 인터커넥트가 별도의 클럭 도메인으로 동작하는데 기본 클럭은 1400 MHz, 최대 클럭은 1940 MHz이다. 따라서, 유효 메모리 대역폭은 캐시 적중률이 겨우 35%만 돼도 (1.940 GHz × 1024 바이트 × 0.35) + (16 Gbps × 256-bit ÷ 8 × 0.65) = 1028.096 GB/s가 되어 사실상 1 TB/s급 이상을 구현할 수 있다. 참고로 1 TB/s는 16 Gbps인 GDDR6 SGRAM을 512-bit 버스 폭으로 구성했을 때의 메모리 대역폭이다. 나중에 일부 하위 라인들의 인피니티 패브릭 클럭 도메인이 밝혀지고, 공식 홈페이지에 RX 6500 XT의 '유효 메모리 대역폭' (Effective Memory Bandwidth) 항목이 추가되면서 적중률까지 가늠할 수 있게 됐다.
* RADEON RX 6900 XT, 6800 XT의 유효 메모리 대역폭
Navi 21에 탑재된 128 MB의 인피니티 캐시 메모리는 GPU 전체에서 약 20%의 면적 비중을 차지하고 있는데, 이렇게까지 설계된 것은 GPU에 차지하는 면적 비중을 감안하더라도 유효 대역폭과 소비 전력 두 가지를 모두 잡기 위해 설계됐다고 한다. GPU 공정 미세화를 거쳐도 GPU 내부 GDDR6 SGRAM 컨트롤러와 물리 계층(PHY)이 좀처럼 줄어들지 않아 면적이
HBM 계열의 컨트롤러와 물리 계층보다 더 크고, 소비 전력도 HBM 계열보다 딱히 우위에 있지 않기 때문에, 전통적인 방식대로 GDDR6 SGRAM을 512-bit 버스 폭으로 무식하게 확장됐다면 전성비 우위를 가지기 어려웠을 것이고, 설령 그렇게 구성해도 GPU 전체의 면적에 대한 이득도 별로 없었을 것이다. 그 반면에 SRAM인 인피니티 캐시 메모리는 아예 없었을 때보다는 GPU 면적이 더 크지만 공정 미세화되면 면적이 감소되므로, 장기적인 관점에서는 같은 GPU 전체 면적 대비 뛰어난 유효 메모리 대역폭을 기대할 수 있다.
* 인피니티 캐시 메모리 클럭 : 1.94 GHz
* 인피니티 캐시 메모리 버스 폭 : 8192-bit
* 인피니티 캐시 메모리 대역폭 : 1986.56 GB/s
* GDDR6 SGRAM 대역폭 : 512 GB/s
* HD 기준 (1986.56 × 적중률 0.8) + (512 × 부적중률 0.2) = 1691.648 [GB/s]
* FHD 기준 (1986.56 × 적중률 0.76) + (512 × 부적중률 0.24) = 1632.6656 [GB/s]
* QHD 기준 (1986.56 × 적중률 0.74) + (512 × 부적중률 0.26) = 1603.1744 [GB/s]
* 4K UHD 기준 (1986.56 × 적중률 0.62) + (512 × 부적중률 0.38) = 1426.2272 [GB/s]
* RADEON RX 6800의 유효 메모리 대역폭* 인피니티 캐시 메모리 버스 폭 : 8192-bit
* 인피니티 캐시 메모리 대역폭 : 1986.56 GB/s
* GDDR6 SGRAM 대역폭 : 512 GB/s
* HD 기준 (1986.56 × 적중률 0.8) + (512 × 부적중률 0.2) = 1691.648 [GB/s]
* FHD 기준 (1986.56 × 적중률 0.76) + (512 × 부적중률 0.24) = 1632.6656 [GB/s]
* QHD 기준 (1986.56 × 적중률 0.74) + (512 × 부적중률 0.26) = 1603.1744 [GB/s]
* 4K UHD 기준 (1986.56 × 적중률 0.62) + (512 × 부적중률 0.38) = 1426.2272 [GB/s]
* 인피니티 캐시 메모리 클럭 : 1.55 GHz
* 인피니티 캐시 메모리 버스 폭 : 8192-bit
* 인피니티 캐시 메모리 대역폭 : 1587.2 GB/s
* GDDR6 SGRAM 대역폭 : 512 GB/s
* HD 기준 (1587.2 × 적중률 0.8) + (512 × 부적중률 0.2) = 1372.16 [GB/s]
* FHD 기준 (1587.2 × 적중률 0.76) + (512 × 부적중률 0.24) = 1329.152 [GB/s]
* QHD 기준 (1587.2 × 적중률 0.74) + (512 × 부적중률 0.26) = 1307.648 [GB/s]
* 4K UHD 기준 (1587.2 × 적중률 0.62) + (512 × 부적중률 0.38) = 1178.624 [GB/s]
* RADEON RX 6700 XT의 유효 메모리 대역폭* 인피니티 캐시 메모리 버스 폭 : 8192-bit
* 인피니티 캐시 메모리 대역폭 : 1587.2 GB/s
* GDDR6 SGRAM 대역폭 : 512 GB/s
* HD 기준 (1587.2 × 적중률 0.8) + (512 × 부적중률 0.2) = 1372.16 [GB/s]
* FHD 기준 (1587.2 × 적중률 0.76) + (512 × 부적중률 0.24) = 1329.152 [GB/s]
* QHD 기준 (1587.2 × 적중률 0.74) + (512 × 부적중률 0.26) = 1307.648 [GB/s]
* 4K UHD 기준 (1587.2 × 적중률 0.62) + (512 × 부적중률 0.38) = 1178.624 [GB/s]
* 인피니티 캐시 메모리 클럭 : 1.94 GHz
* 인피니티 캐시 메모리 버스 폭 : 6144-bit
* 인피니티 캐시 메모리 대역폭 : 1489.92 GB/s
* GDDR6 SGRAM 대역폭 : 384 GB/s
* HD 기준 (1489.92 × 적중률 0.78) + (384 × 부적중률 0.22) = 1246.6176 [GB/s]
* FHD 기준 (1489.92 × 적중률 0.72) + (384 × 부적중률 0.28) = 1180.2624 [GB/s]
* QHD 기준 (1489.92 × 적중률 0.69) + (384 × 부적중률 0.31) = 1147.0848 [GB/s]
* 4K UHD 기준 (1489.92 × 적중률 0.53) + (384 × 부적중률 0.47) = 970.1376 [GB/s]
* RADEON RX 6600 XT의 유효 메모리 대역폭* 인피니티 캐시 메모리 버스 폭 : 6144-bit
* 인피니티 캐시 메모리 대역폭 : 1489.92 GB/s
* GDDR6 SGRAM 대역폭 : 384 GB/s
* HD 기준 (1489.92 × 적중률 0.78) + (384 × 부적중률 0.22) = 1246.6176 [GB/s]
* FHD 기준 (1489.92 × 적중률 0.72) + (384 × 부적중률 0.28) = 1180.2624 [GB/s]
* QHD 기준 (1489.92 × 적중률 0.69) + (384 × 부적중률 0.31) = 1147.0848 [GB/s]
* 4K UHD 기준 (1489.92 × 적중률 0.53) + (384 × 부적중률 0.47) = 970.1376 [GB/s]
* 인피니티 캐시 메모리 클럭 : 1.8 GHz
* 인피니티 캐시 메모리 버스 폭 : 4096-bit
* 인피니티 캐시 메모리 대역폭 : 921.6 GB/s
* GDDR6 SGRAM 대역폭 : 256 GB/s
* HD 기준 (921.6 × 적중률 0.55) + (256 × 부적중률 0.45) = 622.08 [GB/s]
* FHD 기준 (921.6 × 적중률 0.44) + (256 × 부적중률 0.56) = 548.864 [GB/s]
* QHD 기준 (921.6 × 적중률 0.38) + (256 × 부적중률 0.62) = 508.928 [GB/s]
* 4K UHD 기준 (921.6 × 적중률 0.27) + (256 × 부적중률 0.73) = 435.712 [GB/s]
* RADEON RX 6600의 유효 메모리 대역폭* 인피니티 캐시 메모리 버스 폭 : 4096-bit
* 인피니티 캐시 메모리 대역폭 : 921.6 GB/s
* GDDR6 SGRAM 대역폭 : 256 GB/s
* HD 기준 (921.6 × 적중률 0.55) + (256 × 부적중률 0.45) = 622.08 [GB/s]
* FHD 기준 (921.6 × 적중률 0.44) + (256 × 부적중률 0.56) = 548.864 [GB/s]
* QHD 기준 (921.6 × 적중률 0.38) + (256 × 부적중률 0.62) = 508.928 [GB/s]
* 4K UHD 기준 (921.6 × 적중률 0.27) + (256 × 부적중률 0.73) = 435.712 [GB/s]
* 인피니티 캐시 메모리 클럭 : 1.8 GHz
* 인피니티 캐시 메모리 버스 폭 : 4096-bit
* 인피니티 캐시 메모리 대역폭 : 921.6 GB/s
* GDDR6 SGRAM 대역폭 : 224 GB/s
* HD 기준 (921.6 × 적중률 0.55) + (224 × 부적중률 0.45) = 607.68 [GB/s]
* FHD 기준 (921.6 × 적중률 0.44) + (224 × 부적중률 0.56) = 530.944 [GB/s]
* QHD 기준 (921.6 × 적중률 0.38) + (224 × 부적중률 0.62) = 489.088 [GB/s]
* 4K UHD 기준 (921.6 × 적중률 0.27) + (224 × 부적중률 0.73) = 412.352 [GB/s]
* RADEON RX 6500 XT의 유효 메모리 대역폭 : 232 GB/s* 인피니티 캐시 메모리 버스 폭 : 4096-bit
* 인피니티 캐시 메모리 대역폭 : 921.6 GB/s
* GDDR6 SGRAM 대역폭 : 224 GB/s
* HD 기준 (921.6 × 적중률 0.55) + (224 × 부적중률 0.45) = 607.68 [GB/s]
* FHD 기준 (921.6 × 적중률 0.44) + (224 × 부적중률 0.56) = 530.944 [GB/s]
* QHD 기준 (921.6 × 적중률 0.38) + (224 × 부적중률 0.62) = 489.088 [GB/s]
* 4K UHD 기준 (921.6 × 적중률 0.27) + (224 × 부적중률 0.73) = 412.352 [GB/s]
* 인피니티 캐시 메모리 클럭 : 1.8 GHz
* 인피니티 캐시 메모리 버스 폭 : 2048-bit
* 인피니티 캐시 메모리 대역폭 : 460.8 GB/s
* GDDR6 SGRAM 대역폭 : 144 GB/s
* HD 기준 (460.8 × 적중률 0.37) + (144 × 부적중률 0.63) = 261.216 [GB/s]
* FHD 기준 (460.8 × 적중률 0.28) + (144 × 부적중률 0.72) = 232.704 [GB/s]
* QHD 기준 (460.8 × 적중률 0.23) + (144 × 부적중률 0.77) = 216.864 [GB/s]
* 4K UHD 기준 (460.8 × 적중률 0.19) + (144 × 부적중률 0.81) = 204.192 [GB/s]
* RADEON RX 6400의 유효 메모리 대역폭 : 221 GB/s* 인피니티 캐시 메모리 버스 폭 : 2048-bit
* 인피니티 캐시 메모리 대역폭 : 460.8 GB/s
* GDDR6 SGRAM 대역폭 : 144 GB/s
* HD 기준 (460.8 × 적중률 0.37) + (144 × 부적중률 0.63) = 261.216 [GB/s]
* FHD 기준 (460.8 × 적중률 0.28) + (144 × 부적중률 0.72) = 232.704 [GB/s]
* QHD 기준 (460.8 × 적중률 0.23) + (144 × 부적중률 0.77) = 216.864 [GB/s]
* 4K UHD 기준 (460.8 × 적중률 0.19) + (144 × 부적중률 0.81) = 204.192 [GB/s]
* 인피니티 캐시 메모리 클럭 : 1.8 GHz
* 인피니티 캐시 메모리 버스 폭 : 2048-bit
* 인피니티 캐시 메모리 대역폭 : 460.8 GB/s
* GDDR6 SGRAM 대역폭 : 128 GB/s
* HD 기준 (460.8 × 적중률 0.37) + (128 × 부적중률 0.63) = 251.136 [GB/s]
* FHD 기준 (460.8 × 적중률 0.28) + (128 × 부적중률 0.72) = 221.184 [GB/s]
* QHD 기준 (460.8 × 적중률 0.23) + (128 × 부적중률 0.77) = 204.544 [GB/s]
* 4K UHD 기준 (460.8 × 적중률 0.19) + (128 × 부적중률 0.81) = 191.232 [GB/s]
* 인피니티 캐시 메모리 버스 폭 : 2048-bit
* 인피니티 캐시 메모리 대역폭 : 460.8 GB/s
* GDDR6 SGRAM 대역폭 : 128 GB/s
* HD 기준 (460.8 × 적중률 0.37) + (128 × 부적중률 0.63) = 251.136 [GB/s]
* FHD 기준 (460.8 × 적중률 0.28) + (128 × 부적중률 0.72) = 221.184 [GB/s]
* QHD 기준 (460.8 × 적중률 0.23) + (128 × 부적중률 0.77) = 204.544 [GB/s]
* 4K UHD 기준 (460.8 × 적중률 0.19) + (128 × 부적중률 0.81) = 191.232 [GB/s]
-
Direct3D Feature Level 12_2 (DirectX 12 Ultimate 포함)
DirectX 레이 트레이싱 이외에도 메시 셰이더, 샘플러 피드백, 가변 셰이딩(VRS) 기능도 지원한다. 이를 적극적으로 활용하면 FP32 연산 성능을 이용하여 성능 효율을 높일 수 있으나, 현재까지는 2020년에 공개된 언리얼 엔진 5의 '나나이트 세계의 루멘' 데모 영상이 이를 활용한 것으로 보이지만 이런 식으로 활용한 게임이 아직 없다.
-
스마트 엑세스 메모리 (Smart Access Memory)
Introducing AMD Smart Access Memory |
메모리 레지스터 사이즈를 변경해서 CPU가 VRAM에 더 빠르게 접근하게 해주는 기능으로 과거 바이오스가 그 한계로 그래픽 메모리의 4Gbit(=256MB) 까지만 접근이 가능했으나 해당 기능으로 CPU가 그래픽 카드 메모리를 모두 접근가능해진다. Resizable Base Address Register의 브랜드 네임이기도 하며, 경쟁사도 2021년 2월 하순에 출시된 지포스 RTX 3060부터
Resizable BAR 기능이 도입되는 계기가 됐다.
NVIDIA의 Resizable BAR는 평균 3%의 성능 향상을 보이며 AMD의 Smart Access Memory 또한 크지않은 평균 5%의 성능 향상을 보이는데 이는 지원 게임 한정 이라는 함정 카드가 존재한다. 지원되지 않는 게임이라면 오히려 성능 감소가 되기도 하는 양날의 검인 옵션, 그러나 2020년부터 16비트 CSM 즉 바이오스 지원이 중단되고 64비트 UEFI로 넘어가기 때문에 미래에는 기본지원이 될 예정이기 때문에 최신 게임을 할수록 해당 기능을 활성화 해야한다.
Adrenalin 21.9.1 드라이버 이후 RDNA 1의 지원이 추가됐다.
NVIDIA의 Resizable BAR는 평균 3%의 성능 향상을 보이며 AMD의 Smart Access Memory 또한 크지않은 평균 5%의 성능 향상을 보이는데 이는 지원 게임 한정 이라는 함정 카드가 존재한다. 지원되지 않는 게임이라면 오히려 성능 감소가 되기도 하는 양날의 검인 옵션, 그러나 2020년부터 16비트 CSM 즉 바이오스 지원이 중단되고 64비트 UEFI로 넘어가기 때문에 미래에는 기본지원이 될 예정이기 때문에 최신 게임을 할수록 해당 기능을 활성화 해야한다.
Adrenalin 21.9.1 드라이버 이후 RDNA 1의 지원이 추가됐다.
-
레이지 모드 (Rage Mode)
그래픽 카드의 전력 제한을 완전히 해제하는 것은 아니고 어느 정도 완화하여 오버클럭 포텐셜, 온도, 전력이 허용되는 범위 한해서 더 높은 부스트 클럭으로 끌어 올리는 기능이다. 라이젠 CPU의 PBO에 대응되는 기능이라고 볼 수 있다. 하지만, PBO처럼 제약 조건들이 걸려서 클럭 향상률이 크지 않은데다 GDDR6 SGRAM 대역폭의 한계로 인한 병목 현상이 심화되어 게이밍 성능에 큰 효과가 없다는 단점이 있다. 결국 실제 벤치마크에서는 평균 1% 내외로 밝혀지면서 실효성이 떨어지는 기능으로 전락된 상태.
- AV1 가속이 추가된 Video Core Next 3.0
2020년 10월 28일에 정식 발표되고 11월 18일에 출시된 2번째 RDNA 마이크로아키텍처. 이전 RDNA와 비교해서 확장된 구조, 전성비 50% 향상, 클럭 증가가 주된 특징으로, 가장 눈에 띄는 추가 기능은 레이 트레이싱 가속을 지원하는 RA(Ray Accelerator)와 인피니티 캐시 메모리라는 새로운 캐시 메모리 계층이다. 그 외에 기타 추가 기능도 있지만 기본적인 특징은 이전 세대와 동일.
인피니티 캐시 메모리는 ZEN 계열 마이크로아키텍처의 L3 캐시 메모리를 기반으로 설계됐다. AMD의 설명에 따르면 인피니티 캐시는 DRAM 레이턴시를 감소시키며 매우 높은 메모리 대역폭을 제공하고 전력 소모량 감소 효과도 있다. (256-bit GDDR6 SGRAM 단독 사용과 비교했을 때 인피니티 캐시가 결합된 GDDR6 SGRAM 사용은 0.9배의 전력 소모로 2.17배의 대역폭을 제공받는 효과) 하이엔드 라인업 RDNA 2 기반 GPU인 Navi 21에는 128 MB 용량의 인피니티 캐시가 탑재된다.
실리콘 최적화를 통해 동일한 7nm 공정임에도 전성비를 RDNA 1 대비 최소 50% 향상시켰으며, 클럭을 30% 향상시켰다. IPC 향상에 관해선 별다른 언급이 없었으나, 54% 전성비 기여도에서 클럭당 성능이 16~21%로 보여진 점, 앞선 개선점들을 전부 종합하면 지난 세대 Navi 10이 탑재된 RX 5700 XT 대비 RDNA 2 기반의 Navi 21이 탑재된 그래픽카드 성능이 평균 약 2배에 이른다.
또한, 기능적으로는 DirectX 레이 트레이싱, 메쉬 셰이더, DirectStorage API, Variable Rate Shading, 샘플러 피드백을 지원한다. AMD 스마트 액세스 메모리 기술이 공개되면서 라이젠 5000 시리즈 CPU는 RX 6000 시리즈 그래픽 카드의 GPU 메모리에 완전 접근이 가능해졌다. 즉 CPU가 좋은 자원을 끌어다 쓸 수 있도록 해준다는 것. 레이지 모드가 추가되면서 전력 제한을 어느 정도 완화하면서 부스트 클럭을 보증 가능한 범위 내에서 더 높일 수 있게 됐다.
2.3. RDNA 3 (Navi 3X, gfx1100)
- AMD 공식 보도 자료 AMD Unveils World’s Most Advanced Gaming Graphics Cards, Built on Groundbreaking AMD RDNA 3 Architecture with Chiplet Design
- ANANDTECH AMD Reveals Radeon RX 7900 XTX and 7900 XT: First RDNA 3 Parts To Hit Shelves in December
- tom's HARDWARE AMD RDNA 3 GPU Architecture Deep Dive: The Ryzen Moment for GPUs
- "RDNA3" Instruction Set Architecture Reference Guide
|
Introducing AMD Radeon™ RX 7900 XTX |
- 【정식 발표 전 정보 펼치기 · 접기】
- 2020년 3월 5일 AMD Financial Analyst day 2020의 GPU 로드맵에서 처음 언급됐으며, ZEN 2에서 처음 사용된 칩렛 방식을 그래픽 칩 최초로 적용할 예정이라고 밝혔다.
유출된 정보에 의하면 머신러닝용 코어가 따로 탑재될 수도 있다. 먼저 발표된 CDNA 마이크로아키텍처부터 컴퓨트 유닛마다 매트릭스 코어가 탑재된 전례가 있기 때문.
2022년 6월 10일, Financial Analyst Day 2022의 GPU 로드맵에서 RDNA 3의 관한 정보가 일부 공개됐는데, 2022년 후반에 출시될 예정임을 재확인됐고, RDNA 2 대비 ' >50% 증가'된 전성비를 목표로 하는 마이크로아키텍처라고 한다. 이를 실현하기 위한 주요 특징들은 다음과 같다.
- 5 nm 공정 노드 : 2021년까지만 해도 'Advanced Node'라고 막연하게 표현돼서 CDNA 2에 채택된 6 nm인 TSMC N6일 것이라는 여론이 강세였다. 물론, 5 nm일 것이라는 소문은 지속적으로 나왔지만, Apple이 TSMC N5의 최대 발주처로 거듭나면서 우선 순위에 밀린 AMD의 N5 커패시티 확보 전망이 좋지 않았기 때문. 다행히, 공식 로드맵에서 5 nm로 명시되어 경쟁사와 전성비 경쟁에 크게 불리하지 않을 것으로 보인다.
- 진보된 칩렛 패키징 : 2019년에 출원된 GPU CHIPLETS USING HIGH BANDWIDTH CROSSLINKS와 ACTIVE BRIDGE CHIPLET WITH INTEGRATED CACHE 특허를 통해 ZEN과 같은 MCM 구조로 유력했었다. 2021년 11월에 발표된 CDNA 2가 칩렛 구조로 밝혀지면서 더욱 확실시됐고, 이윽고 사실로 밝혀진 것. 단, 같이 공개된 CDNA 3가 '3D 칩렛 패키징' 구조라고 강조돼서 진보된 칩렛 패키징과 같은 구조를 가리키는 것인지, 그리고 ZEN 2와 같은 칩렛 구조인지, ZEN 및 CDNA 2와 같은 칩렛 구조인지 구체적인 정보가 아직 없다.
- 재설계된 컴퓨트 유닛 : 워크 그룹 프로세서 내부의 컴퓨트 유닛 구조가 변경될 것이라는 소문은 지속적으로 등장했으나, 아직까지는 구체적으로 어떤 구조인지는 불명.
- 최적화된 그래픽스 파이프라인 : 최적화가 구체적으로 어떤 방식을 가리키는 것인지 자세한 정보가 아직 없다.
- 차세대 인피니티 캐시 메모리 : 같이 공개된 CDNA 3도 차세대 인피니티 캐시 메모리가 도입될 것이라고 발표됐기 때문에, RDNA 3도 이와 같은 기술일 가능성이 있다. 이미 라이젠 7 5800X3D가 면적을 키우지 않고도 캐시 메모리 용량을 크게 늘릴 수 있으면서, 캐시 메모리 용량과 게이밍 성능의 상관관계가 전세계 리뷰어들의 테스트를 통해 증명됐기 때문에, RDNA 3의 인피니티 캐시 메모리도 3D V-Cache 형태로 용량을 늘리려는 것이 아니냐는 추측이 나오고 있다.
-
칩렛 디자인 (Chiplet Design)
게이밍용 GPU로써 세계 최초로 도입된 마이크로아키텍처로, 기존의 그래픽스 및 컴퓨팅 영역은 GCD (Graphics Compute Die)로, 인피니티 캐시 메모리 및 외부 메모리 컨트롤러는 MCD (Memory Cache Die)로 분리됐다. 이런 식으로 나누어 생산하기 때문에 수율을 높일 수 있고, 반도체 공정에서의 크기 제약 문제를 해결할 수 있다.[5][6] (출처) 언뜻 보면, 과거 HBM이 탑재된 GCN 3 기반의 Fiji 및 GCN 5 기반의 Vega 10, 20이 연상되는 모양새지만, HBM 자리에 HBM 대신 인피니티 캐시 메모리 및 외부 메모리 컨트롤러로 치환된 모습이라고 봐도 무방하다.
물론 CPU 시장에서 라이젠이나 에픽 제품군들의 CCD 처럼, 그래픽 처리 유닛인 GCD도 여러개로 쪼개서 연결하는 방식으로 성능과 수율 스케일링을 하지 않는 것에 의문을 가질수도 있지만, 사실상 현재 기술로는 GCD까지 쪼개버리는건 난점이 많기에 아직은 힘들다고 한다. 메모리 유닛인 MCD의 경우, 공정 향상에 의한 면적 축소가 매우 적은 반면, 다이에서 차지하는 비중이 상당히 높은 편이라, 최신공정의 다이 면적당 생산비가 상당히 높아진 현 상황에서 MCD만 전세대 공정으로 생산해서 연결하는 방식으로 조립하는 것 만으로도 높은 수율과 낮은 단가를 달성할 수 있다.
단, RX 7600 시리즈에 사용된 Navi 33만 기존의 모놀리식 칩으로 디자인 되었다.
-
최대 54% 향상된 전성비
Windows 10 Pro, 자사의 라이젠 9 5900X, DDR4-7200 SDRAM 32 GB, ASUS ROG CROSSHAIR VIII HERO (WI-FI) 보드 환경에서 RX 6900 XT와 TBP 300 W로 제한된 RX 7900 XTX로 비교했을 때 전성비 50% 향상 목표가 달성됐는데, GCD가 TSMC N5로 공정 미세화됨과 동시에 마이크로아키텍처 자체의 업그레이드 덕이라고 볼 수 있다. 단, MCD는 RX 6500 XT, 6400에 쓰였던 Navi 24와 같은 TSMC N6 공정으로 제조됐지만, GPU 전체 소비전력에 큰 비중을 차지하지 않는다고 한다.
-
디커플링된 클럭 도메인
GPU 전체 기준 클럭 도메인의 디커플링은 이미 RDNA 2에도 있었지만, RDNA 3에는 전성비 극대화를 위해 GCD 내부조차도 셰이더 클럭 도메인과 프론트엔드 클럭 도메인으로 비동기화 됐다. 경쟁사의 G80, GT200, 페르미 마이크로아키텍처와 유사한 방식.
-
약 20% 향상된 실리콘 활용도
최대 부하 상태에서도 칩의 일부가 잦은 유휴 상태였던 이전 세대의 문제점을 개선하여 성능 효율을 높였다고 한다.
-
65% 높아진 트랜지스터 밀도
Compute Unit Pair (Work Group Processor) 기준으로, RDNA 2의 4.33 mm² 면적, 2억 1500만 개의 트랜지스터에서 RDNA 3의 2.5 mm² 면적, 3억 3100만 개의 트랜지스터로 구성됨에 따라, 트랜지스터 밀도가 1.65배 높아졌다.
-
울트라-패스트 칩렛 인터커넥트 (Ultra-Fast Chiplet Interconnect)
25개의 와이어로 구성된 Organic Substrate Interconnect 방식의 RYZEN & EPYC IFOP Links보다 거의 10배 빠른 대역폭 밀도인 50개 와이어로 구성된 High-performance Fanout Packaging 기술을 활용하여, 9.2 Gbps의 Infinity Links를 구축하게 됐고, GCD ↔ MCD 간 최대 5.3 TB/s의 대역폭을 제공할 수 있게 됐다. 해당 대역폭은 곧 인피니티 캐시 메모리의 대역폭이기도 하다.
에너지 효율은 0.4 pj/bit로, 인텔이 개발 중인 Foveros의 0.2 pj/bit, EMIB의 0.3 pj/bit보다는 높지만, HBM 탑재 GPU에 쓰이는 TSMC CoWoS의 0.56 pj/bit, NVIDIA NVLink-C2C 혹은 자사 RDNA 2 Infinity Fabric의 1.3 pj/bit보다는 낮은 비트당 소비 에너지에 해당한다고 한다. 그 덕분에 해당 소비전력이 GPU 전체 소비전력의 5% 미만이라고 한다.
참고로, GDDR6 SGRAM의 에너지 효율은 7.5 pj/bit, GDDR6X SGRAM은 7.25 pj/bit로 GPU 내부와의 전력 효율 격차가 비교가 안 될 정도라서, RDNA 2부터 외부 메모리 의존도 낮추기 전략이 본격화된 이유이기도 하다.
-
2세대 인피니티 캐시 메모리 (2nd-Generation Infinity Cache Memory)
출시 6개월 전에 소개된 '차세대 인피니티 캐시 메모리'의 정체는 이전 세대와는 다르게 별도의 MCD에 있었으며, MCD 내부마다 8개의 2 MB 캐시 슬라이스가 구성되어 16 MB씩 탑재되어 있다. MCD 6개일 경우 96 MB, 5개일 경우 80 MB가 되는 셈. 최대 총 대역폭이 5.3 TB/s인데, Infinity Links가 9.2 Gbps로 밝혀졌으므로 클럭 도메인은 1.94 → 2.3 GHz로 약 18% 빨라졌다. 울트라-패스트 칩렛 인터커넥트와 높아진 캐시 메모리 클럭 덕분에 인피니티 캐시 메모리 레이턴시가 10% 정도 단축됐지만, 같은 클럭으로 맞춰서 비교하면 레이턴시가 지연됐음을 짐작할 수 있다.
그리고 클럭 사이클당 2304 바이트이므로 정확히 5299.2 GB/s가 되지만, MCD 6개 기준의 총 대역폭이므로 MCD 1개당 클럭 사이클당 384 바이트, 883.2 GB/s의 대역폭이 된다. 캐시 적중률은 AMD 공식 홈페이지에 기재된 유효 메모리 대역폭 (Effective Memory Bandwidth)을 통해 가늠해볼 수 있다. 단, 어느 해상도 환경을 기준으로 계산된 것인지는 불명. - RADEON RX 7900 XTX의 유효 메모리 대역폭 : 3500 GB/s
- 인피니티 캐시 메모리 클럭 : 2.3 GHz
- 인피니티 캐시 메모리 버스 폭 : 18432-bit
- 인피니티 캐시 메모리 대역폭 : 5299.2 GB/s
- GDDR6 SGRAM 대역폭 : 960 GB/s
- (5299.2 × 적중률 0.59) + (960 × 부적중률 0.41) = 3520.128 [GB/s]
- RADEON RX 7900 XT의 유효 메모리 대역폭 : 2900 GB/s
- 인피니티 캐시 메모리 클럭 : ? GHz
- 인피니티 캐시 메모리 버스 폭 : 15360-bit
- 인피니티 캐시 메모리 대역폭 : ? GB/s
- GDDR6 SGRAM 대역폭 : 800 GB/s
- (? × 적중률 ?) + (800 × 부적중률 ?) = ? [GB/s]
- RADEON RX 7800 XT의 유효 메모리 대역폭 : 2708 GB/s
- 인피니티 캐시 메모리 클럭 : ? GHz
- 인피니티 캐시 메모리 버스 폭 : 12288-bit
- 인피니티 캐시 메모리 대역폭 : ? GB/s
- GDDR6 SGRAM 대역폭 : 624 GB/s
- (? × 적중률 ?) + (624 × 부적중률 ?) = ? [GB/s]
- RADEON RX 7700 XT의 유효 메모리 대역폭 : 1995 GB/s
- 인피니티 캐시 메모리 클럭 : ? GHz
- 인피니티 캐시 메모리 버스 폭 : 9216-bit
- 인피니티 캐시 메모리 대역폭 : ? GB/s
- GDDR6 SGRAM 대역폭 : 432 GB/s
- (? × 적중률 ?) + (432 × 부적중률 ?) = ? [GB/s]
- RADEON RX 7600, RX 7600 XT의 유효 메모리 대역폭 : 477 GB/s
- 인피니티 캐시 메모리 클럭 : ? GHz
- 인피니티 캐시 메모리 버스 폭 : 6144-bit
- 인피니티 캐시 메모리 대역폭 : ? GB/s
- GDDR6 SGRAM 대역폭 : 288 GB/s
- (? × 적중률 ?) + (288 × 부적중률 ?) = ? [GB/s]
참고로, MCD로 분리됐기 때문에 2종류의 PHY가 탑재됐는데, 하나는 GCD ↔ MCD용 PHY, 다른 하나는 MCD ↔ GDDR6 SGRAM용 32-bit 폭의 PHY 2개가 탑재되어 있다.
-
개편된 컴퓨트 유닛
출시 6개월 전에 소개된 '재설계된 컴퓨트 유닛'이라는 특징답게 컴퓨트 유닛이 크게 변경됐다. 정식 발표된 이후에는 '듀얼 이슈 (Dual Issue)'로 소개되었다. -
컴퓨트 유닛마다 FP32 전용 SIMD32 ALU가 추가
기존 FP32 & INT32 겸용 SIMD32 ALU에서 FP32 전용이 더 추가된 덕분에 FP32 한정 쓰루풋이 컴퓨트 유닛 1개당 최대 2배까지 빨라질 수 있게 됐다. 결과적으로 경쟁사의 게이밍용 Ampere 마이크로아키텍처와 유사한 양상이지만, 스트림 프로세서 카운트는 경쟁사와 다르게 최대 FP32 스루풋에 맞추지 않고 FP32 & INT32 겸용 ALU와 FP32 전용 ALU를 하나로 묶어서 카운트 하는 방식으로 취급하고 있다. -
1번의 Wave64 명령 발행을 1 클럭 사이클 단위로 처리 가능
AMD가 정의한 스레드 그룹 개념인 웨이브프론트(Wavefront)가 종래에는 1 명령 발행 1 클럭 사이클을 32스레드(Wave32)까지 지원한 탓에 64스레드(Wave64)를 처리하려면 2 클럭 사이클이 요구됐는데, 이번엔 Wave64도 1 클럭 사이클 처리가 가능해졌다.
그러나, 듀얼 이슈 기능을 제대로 활용하려면 게임 개발사들에게 최적화 작업을 추가로 요구해야 한다는 점인데, 대다수 게임 개발사들이 개편된 컴퓨트 유닛 구조에 맞게 최적화 작업했을 리 만무했고 결국, 개편된 컴퓨트 유닛을 제대로 활용하지 못 한 채 AMD가 의도한 성능이 잘 나오지 못 하는 치명적인 문제로 낙인찍혔다. 세간에는 이를 '하드웨어 버그', 일각에서는 '하드웨어 결함'이라는 극단적인 의견까지 나오고 있다.
-
GPU의 CPU 오버헤드 낮추기
MDIA (Multi-Draw Indirect Accelerator)를 통해, 드로잉 명령을 복수로 인스턴스화하여 CPU 오버헤드를 낮출 수 있다.
-
AI 매트릭스 엑셀러레이터 (AI Matrix Accelerator)
경쟁사의 Tensor Core, XMX와 비슷한 포지션으로 새로 추가된 인공지능 딥 러닝에 적합한 합성곱(Convolution) 특화 가속기. WMMA (Wave Matrix Multiply Accumulate) 기능을 통해 FP16, BF16(brain-float 16-bit), INT8 데이터 타입은 동시에 2 Dot Product( 내적)을 지원함에 따라 컴퓨트 유닛당 일반 FP32 연산(128 FLOP)의 2배가(256 FLOP) 되고, INT4 데이터 타입만 동시에 4 Dot Product까지 지원하여 컴퓨트 유닛당 일반 FP32 연산의 4배가(512 FLOP) 된다. GPU 부스트 보장 클럭 기준으로 RX 7900 XTX가 RX 6900 XT보다 2.7배 이상 향상됐다. 이에 따라 FSR, XeSS, DLSS와 같은 이미지 품질 및 성능 업스케일링 기능에만 국한되지 않고, 월드 생성, NPC, 봇 등의 전반적인 게임 플레이 개선에도 활용할 수 있다.
하지만, Tensor Core는 Sparsity나 누산하는(Accumulate) 기능을 동원하지 않고도 SM당 일반 FP32 CUDA 연산 대비 FP16, BF16은 8배, INT8은 16배, INT4는 32배까지 가능하고, XMX도 Xe Vector Engine & Matrix Engine당 FP16, BF16은 8배, INT8은 16배, INT4는 32배까지 가능해서 AMD의 것이 성능면에서 불리한 구조라는 점이다.
-
2세대 레이 트레이싱 엑셀러레이터 (2nd-Generation Ray tracing Accelerator)
이전 세대와 마찬가지로 BVH (Bounding Volume Hierarchies)의 광선 박스 순회 (ray box traversal) 기능이 없어서 여전히 컴퓨트 유닛에 의존하는 하이브리드 방식이지만, 컴퓨트 유닛의 부하를 낮춰서 성능 효율을 높이는 방향으로 개선됐다. -
하드웨어적으로 관리되는 DirectX Raytracing의 광선 플래그
반복 처리시 요구 명령어 횟수가 15% 정도 절감됐다. -
삼각형/서브트리 컬링 방식의 변경
기존의 삼각형/서브트리 컬링이 Late Culling 방식에서 Early Subtree Culling 방식으로 변경되면서, 컬링 완료에 필요한 테스트 횟수가 9 → 1번으로 크게 줄어들었다. -
투 스텝 스케줄링 알고리즘 도입
광선 처리 사이클 횟수가 7 → 3 사이클로 개선됐다. -
하드웨어 스택 관리 최적화 (HSMO)
요구 탐색 명령어 횟수가 50% 정도 절감됐다. -
유연성 있는 광선 교차 계산
기존에는 무조건 시점 우선 (Closest First)으로만 계산했으나, 시점 우선은 물론이고 중앙점 우선 (Closest Midpoint), 크기 우선 (Largest First)까지 총 3가지 방식으로 확장되어, 상황에 따라 가장 적합한 방식을 유연하게 채택할 수 있게 됐다. 이에 따라 광선 교차 계산 과정이 최적화 됐다.
종합적인 레이 트레이싱 성능이 Windows 11 Pro 4K UHD 환경에서 3DMark SpeedWay, 사이버펑크 2077, Dying Light 2 Stay Human, 포트나이트를 기준으로, RX 7900 XTX, 라이젠 9 7900X, DDR5 SDRAM 32 GB, MSI X670E Ace 보드인 시스템이 RX 6950 XT, 라이젠 9 5900X, DDR4 SDRAM 32 GB, ASRock X570 Taichi 보드인 시스템보다 최대 1.8배 향상됐다. 단, 전용 유닛 수가 20% 증가됐고, 부스트 보장 클럭이 약 8% 증가됐으므로, 나머지 약 39% 향상 기여도가 CPU 성능, 메인 메모리 성능, 그리고 5가지의 개선 사항들이 어우러진 것이라 볼 수 있다.
이전 세대보다 개선된 점은 분명하나, 이전 세대부터 지녔던 경쟁사의 동세대 지포스 그래픽 카드 대비 현저히 낮은 레이 트레이싱 성능 약점을 극복하지 못 한 것으로 평가 받고 있다. 이젠 지포스 20 시리즈 정도는 RT 연산 능력으로도 이기지만 그걸 이겼다고 자랑이 되는건 당연히 아니다.(...)
-
GPU 내부 메모리 계층 구조의 변화
{{{#!wiki style="word-break: keep-all"
RDNA 2 RDNA 3
컴퓨트 유닛 레벨 벡터 범용 레지스터 파일 128 KB × 2 벡터 범용 레지스터 파일 192 KB × 2
(단, Navi 33과 Phoenix APU는 128 KB × 2 그대로 유지)
스칼라 범용 레지스터 파일 10 KB
L0 벡터 데이터 캐시 메모리 16 KB L0 벡터 데이터 캐시 메모리 32 KB
WGP 레벨 L0 (셰이더) 명령어 캐시 메모리 32 KB
스칼라 데이터 캐시 메모리 16 KB
로컬 데이터 셰어 메모리 (LDS) 128 KB
상수 캐시 메모리 16 KB
셰이더 엔진 레벨 L1 그래픽스 캐시 메모리 128 KB × 2 L1 그래픽스 캐시 메모리 256 KB × 2
GPU 전체 레벨 글로벌 데이터 셰어 메모리 (GDS) 64 KB 글로벌 데이터 셰어 메모리 (GDS) 4 KB
L2 캐시 메모리 1~4 MB L2 캐시 메모리 2~6 MB
인피니티 캐시 메모리 16~128 MB 인피니티 캐시 메모리 32~96 MB
-
듀얼 미디어 엔진 (Dual Media Engine)
VCN 4.0으로 업그레이드 되면서 최다 2개의 동영상을 동시에 디코딩 또는 인코딩을 지원하고, 클럭이 1.8배 증가되어 성능이 향상됐다.
-
레이디언스 디스플레이 엔진 (Radiance Display™ Engine)
ITU-R Recommendation BT.2020 색 영역을 충족하여, 최대 680억 컬러와 채널당 12비트 색 심도를 지원한다.
- HDMI 2.1a
-
DisplayPort 2.1
DisplayPort 2.0에 이미 등장했던 UHBR 10, 13.5, 20 중에 UHBR 13.5 규격까지만 충족하며, 4레인으로 구성할 경우 최대 54 Gbps의 디스플레이 링크 대역폭을 통해 4K 480Hz, 8K 165Hz 주사율 출력이 가능하다. 단순히 해상도, 주사율, 데이터 대역폭만 따지면 DisplayPort 2.0 버전과 다를 바 없지만 케이블 인증 규격은 DP8K에 머문 단점이 있었기 때문에, UHBR에 대응하는 DP40, DP80 케이블 인증 규격이 추가된 2.1 버전으로 건너뛴 것으로 보인다. 2024년 1월에 DisplayPort 2.1a 버전이 발표되면서 UHBR 13.5에 딱 맞는 DP54 인증 규격이 추가됨에 따라 DP54 인증 케이블도 호환할 수 있게 되었다.
- DirectStorage 1.1
-
AMD Fluid Motion Frame
DLSS 3.0 같이 리얼타임 랜더링의 프레임 보간 기술이다. 2023년 말에 RDNA 2도 공식 지원이 추가 되었다.
2022년 12월 13일에 출시된 3번째 RDNA GPU 마이크로아키텍처. 2020년 3월 공식 로드맵을 통해 처음 알려졌고, 2022년 6월 Financial Analyst Day, 11월 3일 together we advance_gaming 프리젠테이션, 11월 14일[11] 공식 세부 발표 자료를 통해 자세한 정보가 연달아 추가 공개됐다.
2.3.1. RDNA 3.5 (Strix, gfx1150)
- AMD 공식 보도자료
- AMD Extends AI and High-Performance Leadership in Data Center and PCs with New AMD Instinct, Ryzen and EPYC Processors at Computex 2024
- AMD Unveils Next-Gen “Zen 5” Ryzen Processors to Power Advanced AI Experiences
- "RDNA3.5" Instruction Set Architecture Reference Guide
- 【정식 발표 전 정보 펼치기 · 접기】
- * 퀘이사존:
AMD RDNA 3.5 "GFX 11.5" GPU 드라이버 준비 중, Ryzen 8000 CPU 및 APU 지원 예정
- 쿨앤조이: [루머] AMD Ryzen 8000 "스트릭스 포인트" 차세대 RDNA 3.5 코어수 확인
- (24년 3월) AMD RDNA3+, 올해 안에 발표
- (24년 4월) [루머]AMD APU는 최소 2027년까지 RDNA3+ GPU 아키텍처 사용
APU Strix Point에 탑재될것으로 추측되는 아키텍처. 호크포인트의 내장 그래픽이 피닉스의 내장 그래픽보다 개선된 성능을 보여주며 # 진짜로 라이젠 8000 시리즈에 탑재된 것으로 추측되기도 했으나 24년 전반기까지 출시된 ZEN 4 제품군에는 해당하지 않는 것으로 보인다.
2024년 3월 21일에 중국 베이징에서 개최된 AI PC 서밋의 로드맵 발표 자료를 통해 존재가 공식으로 확인되었고,[12] 6월 2일에 RDNA 3.5라는 이름으로 공식 발표되었으며, 7월 15일에 자세한 정보가 공개되었다. ( ANANDTECH 출처) 해당 GPU 마이크로아키텍처가 적용된 제품은 7월 28일에 출시되었다. ( ANANDTECH 출처)
- 텍스처 샘플링 성능이 2배 증가
- 벡터 명령어 처리를 위한 셰이딩 관련 보간 및 비교 성능이 2배 증가
- LPDDR5X SDRAM 접근 빈도가 감소
- LPDDR5X SDRAM 접근 레이턴시가 감소
공식 발표 이전에는 LLVM 컴파일러 소스코드를 통해 RDNA 3.5의 ISA에서 변경된 점을 암시했었다. ( Chips and Cheese 출처)
- 싱글 벡터 범용 레지스터(vGPR)의 사용 힌트를 제공하는 s_singleuse_vdst 명령어 기능이 추가
- WGP마다 내장된 4개의 스칼라 ALU에서 부동 소수점 연산 기능이 추가 지원
- 데이터 병렬 처리(DPP)에 대한 스칼라 연산 입력 개수가 1 → 2개로 확장
하지만, 듀얼 이슈 기능의 효용성 문제는 해결되지 못 한 듯 하다. ( Chips and Cheese 출처) 이는 RDNA 4 마이크로아키텍처로 나아가야 해결될 것으로 보인다.
외장 그래픽 출시 여부는 불명이며, 출시한다면 이전보다 더 안정적인 드라이버, 더 많은 스트림 프로세서, FSR 3.0로 게이밍 그래픽 카드 시장에서 좋은 인상을 남길 것으로 예상된다. 그러나 외장 그래픽은 바로 RDNA 4로 넘어간다고 한다. Strix halo에 탑재될 것으로 예상되는 GPU의 경우 콘솔과 동등한 수준인 40 CU라 예상되고 이는 노트북용 RTX 4070과 비슷할 것으로 예측되고 있다. #[13]
2027년까지 RDNA 3.5 아키텍처를 사용할 것이라는 루머가 있다. 만약 2027년까지 사용된다면 Zen 6 아키텍처를 사용할 것으로 예상되는 Sound Wave까지 RDNA 3.5 아키텍처가 사용될 것으로 보인다.
2.4. RDNA 4 (Navi 4X, gfx????)
2022년 6월 10일, Financial Analyst day 2022의 GPU 로드맵에서 처음 언급된 마이크로아키텍처. 2024년 즈음에 출시될 예정인 것 말고는 더 이상의 정보가 아직 알려져 있지 않았으나, 2023년 2월 14일에 실시된 Radeon Technologies Group의 책임자인 David Wang과 유명 리뷰 사이트인 4Gamer 측의 인터뷰를 통해 RDNA 4의 개발 방향성에 대한 힌트가 제공됐다.- 이미 RDNA 3에 도입된 AI 추론 가속기를 다용도화 하고, GPU의 CPU 오버헤드를 낮추는 MDIA를 더욱 강화할 것 이라고 한다.
- PlayStation 5 Pro에서 보여줬던 것처럼, 레이 트레이싱 엑셀러레이터가 개선될 것이라고 한다. BVH8 셰이더를 통해 RDNA 3 대비 한 사이클 당 2배의 광선 추적 성능을 보일 것이라고 한다.
- RDNA 4는 사실상 레이트레이싱 성능 개선과 RDNA 3의 하드웨어 버그,[14] 원래 RDNA 3에서 계획되었으나 반토막난 (192 → 96 MB) 인피니티 캐시 메모리 용량을 복구하는 등 RDNA 3의 완전체 혹은 단순 개량형이 될 것이라고 한다.
하지만, 레이 트레이싱 성능 문제보다 더 시급한 문제는 듀얼 이슈 기능의 효용성 문제라서 이게 해결되지 못 한다면, 경쟁사의 게이밍용 Ampere 마이크로아키텍처부터 도입되었던 FP32 연산 데이터 경로 설계의 변경을 통한 더블 스피드 프로세싱 기능보다 좋지 않은 채로 혹평 받을 수 있다.
하이엔드 라인이 나온다면 경쟁사의 지포스 RTX 4090을 이길 것으로 예상되나 하이엔드 제품 미출시 루머가 떴다. 또한 그래픽 메모리 역시 18 Gbps급 GDDR6 SGRAM을 유지해 메인스트림~엔트리급 제품만 출시하는 대신 가격은 기존 RDNA 3의 반값이며, 클럭이 3.5GHz를 넘어 약간의 성능 향상이 있을 것이라고 한다.
2.5. RDNA 5 (가칭)
RDNA 3의 단순 개량형인 RDNA 4와 달리 처음부터 다시 만든 아키텍처라고 한다. # 메인스트림 라인에만 나오는 RDNA 4와 달리 고급형도 출시할 것이라고 한다.2024년 9월에 CDNA와 통합된 UDNA가 발표되면서, RDNA 계열 명칭을 그대로 사용할지는 미지수.
3. 사건 사고
3.1. Verilog 코드 유출 사고
2020년 3월 24일 Navi 10의 Verilog 코드가 GitHub에 유출되는 사건이 일어났다. # 다행인 것은 유출된 코드가 핵심 로직에 대한 RTL(쉽게 말해 하드웨어 설계도)이 아닌 시뮬레이션, 검증에 관련된 코드로 보인다는 점이다. 지금은 AMD에서 DMCA takedown을 걸어 저장소가 삭제된 상태이다. # #코드의 길이는 약 160만줄이고 958개의 소스 코드 파일로 이루어져 있다.
유출자가 자신의 암호화폐 주소를 README.md에 올리고 유출할 것들이 더 많이 있다고 적어두었기 때문에 실수가 아닌 고의적으로 코드를 유출시킨 악질적인 행위임을 알 수 있다.
3월 25일 AMD에서 이번 사건에 대한 입장을 표명했다. #
자신을 러시아인 여성 해커라고 주장한 유출자는 구매자가 나타나지 않는다면 공개하지 않은 나머지 Navi 10 코드와 ARDEN과 Navi 21의 소스코드도 무료로 배포해버리겠다고 협박했다. # 처음 Navi 10의 코드가 유출됐을 때 소스 코드 파일 목록이 같이 포함됐는데 목록에는 RTL이 포함된 것으로 추정되는[15] 약 25000개의 verilog와 system verilog 파일이 있었다. 해커는 이걸 배포해버리겠다고 협박하면서 구매자를 모으는 중이라 볼 수 있다.
그 후 아무런 소식이 없었기 때문에 사건의 결말은 다음 3가지 중 하나로 추측된다.
- 익명의 구매자가 나타나서 소스 코드를 팔았다
- 유출할 소스 코드가 더 많이 남았다는 해커의 주장이 거짓말이었다.
- 해커가 검거됐다.
3.2. 9세대 콘솔 게임기 관련
9세대 게임기인 Xbox Series X와 플레이스테이션 5에 탑재된 RDNA 2가 논란이 되고 있다. AMD의 CEO 리사 수가 직접 나서 해당 콘솔들이 RDNA 2라고 확인시켜줬으나 곳곳에서 그렇지 않다는 폭로와 경향적 증거가 나오고 있다.
엑스박스 시리즈 X는 위에 설명되어 있듯 RDNA 1과 동클럭당 성능이 거의 비슷하며, RDNA 2의 특징인 AV1 하드웨어 디코딩도 빠져있다. 프론트 엔드와 컴퓨트 유닛이 RDNA 1 기반이고 RT코어와 랜더링 백엔드만 RDNA 2라는 소문이 돌고 있었는데 이쪽은 빠른 해명으로 해당사실에 대해서 부정한뒤 아키텍처에 대해서 상세히 밝히면서 논란을 어느정도 해소했다[16]
[17]
플레이스테이션 5는 상황이 더 심각하다. RDNA 2의 주요 하드웨어 피처인 메쉬 셰이더나 샘플링 피드백 스트리밍, 가변 속도 셰이딩 등 온갖 기능들이 대부분 사용이 불가능하고, RDNA 1에 RT 코어만 붙인거라는 폭로가 나오고 있으며 AMD의 R&D 수석 부사장 데이비드 왕은 PS5가 NAVI 1.X라고 인터뷰하기도 했다. # 이후에는 RDNA 1.1이라고 언급하면서 소개한 Hardwaretimes발 기사가 있으나, RDNA 1.1이라고 명시된 표가 AMD 공식 자료가 아니므로 유의할 것.
자세한 상황은 각 콘솔 항목 참조
4. 관련 문서
- AMD/GPU
- AMD/APU
- RDNA(ISA)
- CDNA
- UDNA
- TeraScale
- Graphics Core Next
- Video Core Next
- 라데온 소프트웨어
- 삼성전자/마이크로아키텍처 목록: RDNA를 경량화한 GPU가 같이 들어갔다.
- 삼성 엑시노스/1000 시리즈: 엑시노스 1480, 엑시노스 1580 (이상 mRDNA 3)
- 삼성 엑시노스/2000 시리즈: 엑시노스 2200 (mRDNA 2), 엑시노스 2400 (mRDNA 3)
[1]
만약 VEGA에서 프리미티브 셰이더가 활성화 돼있었다면 지오메트리 처리 성능은 VEGA56이 RX5700XT를 누루게된다.
[2]
이전 GCN 계열 마이크로아키텍처에서는 스칼라 데이터 캐시 메모리가 상수 캐시 메모리 역할도 겸했다.
[3]
GCN 마이크로아키텍처 발표시 "그래픽은 곧 연산, 연산은 곧 그래픽(Graphic is Compute, Compute is Graphic)"이라고 표현했을 정도이다.
#
[4]
최저 적중률 30%
[5]
관건은 이렇게 분리되어 생산된 칩의 연결을 얼마나 잘 하느냐는 것인데, '울트라-패스트 칩렛 인터커넥트'를 통해 대역폭 밀도가 10배 가까이 높아지고 에너지 효율도 3배 넘게 향상됐으므로, 칩의 연결 문제도 어느 정도 해결됐다고 볼 수 있다.
[6]
칩렛 구조 자체는 자사의 RYZEN CPU에서 이미 채택해왔기에, 11월 14일에 추가 공개된 AMD 공식 발표 자료에도 RYZEN CPU의 칩렛 구조와 비교하는 슬라이드가 나왔다.
[7]
셰이더 엔진 개수가 최다 4 → 6개로 많아진 것만큼 증가되었을 뿐, 동급으로 계산해서 비교하면 사실상 변화가 없다.
[8]
인피니티 캐시 메모리와 GPU 외부 DRAM의 메모리 버스 구성이 정비례 관계를 보여주고 있다.
[9]
이 덕분에 같은 인피니티 캐시 메모리 클럭이라도 더 빠른 대역폭을 보여준다.
[10]
다만
Video Core Next 문서에 서술되듯 1080P에서 수정 불가능한 하드웨어 레벨의 버그가 있다.
[11]
경쟁사의 지포스 RTX 4080 출시 전날.
[12]
발표 당시 로드맵에서는 'RDNA 3+'로 표기되어 있었다.
[13]
이 경우 CPU가 라이젠 쓰레드리퍼 수준으로 거대해질 수 있다. CCD 2개와 2배가 넘는 GPU를 탑재해야 하기 때문.
[14]
VCN 문서에서 서술되듯 소프트웨어로 어쩔수 없는 버그들이 RDNA 3에 많다.
[15]
파일 이름으로 추정함
[16]
또한 이 과정에서 RDNA 2의 레이트레이싱 성능의 부족함등의 RDNA 2의 예상성능을 어느정도 스포해 버렸으며. 이는 RX6000 시리즈의 성능을 예측할때 도움이 됐다.
[17]
이 사진은 RDNA 2에서 발표한 DX12U 주요 사항에 대해서 설명해 놓았기 때문에 DXR을 미지원한다고 표기해놨는데 실제로는 PS5도 별도의 API로 레이 트레이싱을 구성하기 때문에 실기에서는 레이 트레이싱을 볼 수 있다.