NVIDIA 發佈全新主流級 GeForce RTX 4060 Ti 顯示卡,採用 AD106-350 繪圖核心、具備 4,352 個 CUDA Core、34 個 RT Core 及 128 個 Tensor Core,8GB GDDR6 記憶體但只有 128bit 介面真的夠嗎 !? NVIDIA 表示在 DLSS 3 下性能較 RTX 3060 Ti 快 70%,那沒有 DLSS 呢 ? HKEPC 找來 RTX 3060 Ti / 3070 Ti 與 RTX 4060 Ti 進行比對測試。
升級第 3 代 Ray Tracing 引擎 !!
Ray Tracing 光線追踪技術是一種密集型渲染技術,可以逼真地模擬場景及物件的光線,實時以物理方式渲染正確的反射、折射、陰影及間接照明效果。過去的 GPU 架構並無法對遊戲及圖形進行複雜的實時光線追踪處理,NVIDIA 經過過 10 年的研究及開發,終於在上代 GeForce RTX 20 的「Turing」GPU 微架構中加入硬體光線追踪加速引擎 —「RT Cores」,結合 NVIDIA RTX 軟件引擎,實現逼真的實時光線場景效果。
到了 GeForce RTX 30 系列的 Ampere GPU 升級了第 2 代的 RT Cores,BVH 遍歷與射線三角交測運算能力提升了 2 倍,第 1 代 Turning SM 在 Ray Tracing 運算時不能同時執行 Graphics 或 Compute 運算,到了 Ampere SM 強化了異步運算能力,當執行 Ray Tracing 運算時可同步進行 Graphics 或 Compute 運算,令 Ray Tracing 的遊戲執行效率大大提升。
來到 GeForce RTX 40 的 Ada Lovelace GPU 升級至第 3 代 RT Cores,它的 Triangle Intersection Engine 相較上代快 2 倍的 Ray-Triangle 相交吞吐量,能為遊戲場境中添加更多細節,同時有快 2 倍的 Alpha Traversal 處理能力,新增 Opacity Micromap Engine 直接對幾何物件進行 alpha 測試,並顯著減少基於著色器的 alpha 運算量。
在 Ada Lovelace GPU 之前,當光線扭曲投射到不同程度透明級別的物件時,例如葉子或火焰等雜形狀通常使用紋素的 alpha 通道來表示,單個光線運算也可能需要多次著色器調用才能完成,即使光線只是簡單地表徵為命中或未命中都需要大量的運算成本。
為了更有效處理此類內容,NVIDIA 工程師在第 3 代 RT Core 中添加了 Opacity Micromap Engine,為非不透明物件產生微三角形的虛擬網格,每個微三角形都具有不透明狀態,RT Core 使用該狀態直接解析與非透明三角形的光線交叉點,令 Alpha 場景遍歷性能大幅提升,性能升幅很大程度取決於使用情況,如果場景出現大量投射在 alpha 測試幾何體上的陰影光線時會看到最大的收益。
第 3 代 RT Core 另一個重要提升是添加 Displaced Micro-Mesh Engine,透過將幾何結構換置成微網格,利用 LOD 細節層進行光柵化,相較使用傳統三角幾何光線追蹤處理,不僅擁有更多細節,相較上代 BVH 數據構建速提升了 10 倍, BVH 所需資料容量減少了 20 倍,而且對複雜環境進行光線追踪時,追踪成本緩慢增加,幾何增加 100 倍可能只會增加 1 倍追踪時間。
上代 Ampere GPU 可能需要 1024 個三角幾何與複雜的 BVH 結構進行的光線追踪,同樣的效果透過 Displaced Micro-Mesh Engine,只需要 1 個基礎三角形和 1個置換貼圖定義及簡單的 BVH 結構就能完成,可以在不相應增加處理時間或內存消耗的情況下實現豐富度的數量級增加。
Shader Execution Reording 技術
為實現遊戲實時光線追踪的逼真渲染,運算時增加了大量的環境中模擬光線運動,同時亦意味著 GPU 原始處理工作量變得越來越不連貫。例如,用於反射、間接照明和半透明效果的二次光線往往會射入,不同的方向並擊中不同的材質,導致二次擊中著色器的有序性和效率較低,不規律性的運算會導致 GPU 的處理單元 SM 的低效使用,因此 NVIDIA 在 Ada Lovelace GPU 架構中加入 Shader Execution Reording 著色器執行重新排序技術,它可以動態地重新排序著色工作以實現更好的執行效率。
透過 Shader Execution Reording 技術,著色器執行重排序時在光線追踪管道中添加了一個新階段,該階段對二次命中著色進行重新排序和分組,以具有更好地執行局部性,在 Cyperpunk 2077 RT: Overdrive 模式下,啟動 ShaderExecution Reording 技術後性能提升高達 44%,相當驚人。