NVIDIA 發佈全新主流級 GeForce RTX 4060 Ti 顯示卡,採用 AD106-350 繪圖核心、具備 4,352 個 CUDA Core、34 個 RT Core 及 128 個 Tensor Core,8GB GDDR6 記憶體但只有 128bit 介面真的夠嗎 !? NVIDIA 表示在 DLSS 3 下性能較 RTX 3060 Ti 快 70%,那沒有 DLSS 呢 ? HKEPC 找來 RTX 3060 Ti / 3070 Ti 與 RTX 4060 Ti 進行比對測試。
經改良的 Ada Lovelace 架構
GPC 是 NVIDIA GPU 中最頂層的硬體塊,所有關鍵圖形處理單元都位於 GPC 中。 Ada Lovelace 每個 GPC 包括 1 個專用的光柵引擎、 2 個光柵操作 (ROP) 分區,每個分區包含 8 個單獨的 ROP 單元和 6 個 TPC,每個 TPC 包括 1 個 PolyMorph 引擎和 2 個 SM。
AD102 GPU 中的每個 SM 包含 128 個 CUDA Core、 1 個 Ada Lovelace 第三代 RT 核心、4 個 Ada Lovelace 第四代張量核心、4 個 Texture 紋理單元、 1 個 256 KB 寄存器文件和 128 KB 的 L1/共享內存,可配置為根據圖形或計算工作負載的需要不同的內存大小。
▲ Ada Lovelace GPU 的 GPC 框架設計
與 Ampere GPU 一樣,AD102 的 SM 單元分為 4 個分區,每個分區包含 1 個 64 KB 寄存器文件、一個 L0 指令緩存、一個 warp 調度程序、一個調度單元、16 個專用於處理 FP32 的 CUDA 內核操作,每個週期最多可處理 16 個 FP32 操作,16 個可以處理 FP32 或 INT32 操作的 CUDA 內核,每個週期 16 個 FP32 操作或每個時鐘 16 個 INT32 操作, 4 個加載 / 存儲單元,以及執行超越和圖形插值指令的特殊功能的 SFU 單元,除了換上第 4 代的 Tensor Core 設計,FP 單元在微架構上並沒有太大變動。
與上代 Ampere GPU 相比,Ada Lovelace GPU 的 L2 Cache 進行了徹底改造,完整的 AD106 GPU 擁有高達 32768 KB 的二級緩存,相比 GA106 中的 3072 KB 提高了 10 倍,所有應用程序都將受益於擁有如此龐大、更高速的 L2 Cache 緩存,例如 Ray Tracing 光線追踪當中的路徑追踪之類的複雜操作將產生最大的好處,相較 AMD 的 Infinity Cache 作為 L3 Cache 擁有更高效率,能大幅升遊戲 Workload 資料命中率,降低讀取延遲並減少 GDDR6 記憶體頻寬使用。
此外,AD106 GPU 受惠於 TSMC 4N 制程,在 NVIDIA 工程師與 TSMC 密切合作下令 AD106 包含的 CUDA 內核比上一代 GA106 更多 20%,但 Die Size 卻縮減少約 31%,擁有高達 220 億個電晶體較上代多 83%,並且關鍵路徑中使用高速晶體管設計,令 AD106 GPU 時脈可運作於 2.5GHz 甚至更高,並提供了更出色的能耗比,RTX 4060 Ti 性能是 RTX 3060 Ti 提升約 15%,最高功耗卻相約下降了 40W,如果啟用RT + DLSS 3 技術後,性能提升甚至能提升 70%。