3DMark獲得全面的射線追蹤功能測試

2022-08-09 23:57:20 編輯：鳳葦芝來源：

導(dǎo)讀在最好的顯卡需要不只是在性能和價格上進行競爭，而且對功能。既然RX 6900 XT，RX 6800 XT和RX 6800正在加入Nvidia，以通過硬件支持光...

在最好的顯卡需要不只是在性能和價格上進行競爭，而且對功能。既然RX 6900 XT，RX 6800 XT和RX 6800正在加入Nvidia，以通過硬件支持光線追蹤，我們真的很想知道它們在性能方面的比較。誰將在我們的GPU基準測試體系中獲得最高榮譽，如果在啟用光線跟蹤的情況下進行測試，情況將如何改變?

多年來，游戲中的射線追蹤一直備受關(guān)注。我記得在2008年《雷神之錘4敵人領(lǐng)土》(Quake 4 Enemy Territory)擁有原型射線追蹤模塊時。它看上去很酷，但是性能卻很差。在16核CPU上以16 fps 720p播放?但是至少這是什么!

快閃十年了，英偉達的RTX硬件承諾了出色的質(zhì)量和性能。除了RTX卡以外，游戲仍然使用混合渲染方法，其中大多數(shù)渲染是使用傳統(tǒng)方法完成的，光線跟蹤僅在事實發(fā)生之后才應(yīng)用，以實現(xiàn)一些特定的效果，例如反射或陰影。

使用當今支持光線跟蹤計算的現(xiàn)代GPU，在游戲上進行全路徑跟蹤需要做什么?Quake II RTX和Minecraft RTX已經(jīng)做到了這一點，但是它們是較老的且不太復(fù)雜的游戲，具有路徑跟蹤功能?，F(xiàn)在，UL為3DMark添加了一項功能測試，該測試對皇家港口基準進行了資產(chǎn)的全光線跟蹤渲染。(請注意，您將需要Advanced或Pro版本來訪問DirectX光線跟蹤功能測試，如其所稱。)

我們喜歡能夠在各種GPU上比較“純”光線跟蹤性能的想法。3DMark DXR功能測試現(xiàn)在為我們提供了另一種方法，盡管它沒有報告每秒射線/三角形相交的數(shù)量(這是我們真正想要看到的)，但它確實提供了與光線跟蹤硬件直接相關(guān)。我們將當前的RTX GPU進行了匯總，以供參考。更重要的是要看到AMD即將面世的Big Navi，RX 6900 XT，RX 6800 XT和RX 6800都將在下個月左右推出。

我們通過DXR功能測試運行了所有RTX卡，但RTX 2070和2080除外(它們應(yīng)該落在新的Super變體之間的中間位置)。的的GeForce 3090 RTX是在4X的性能RTX 2060時，RTX 2080鈦的兩倍以上的速度是2060位，和的GeForce 3070 RTX是略快于2080鈦。RTX 3090也比GeForce RTX 3080快19%，這比我們測試過的大多數(shù)游戲都要大?；旧?，這里的事情更多地受到GPU的限制，因此理論性能最終接近現(xiàn)實。

多近?我們使用RT內(nèi)核的數(shù)量，GPU時鐘和RT內(nèi)核的生成來計算一些數(shù)字。Nvidia表示，第二代30系列RT內(nèi)核比第一代20系列RT內(nèi)核快約70%。例如，這意味著3070應(yīng)該比2080 Ti FE快約7%，而2080 Ti應(yīng)該比RTX 2060快150%。

30系列GPU的擴展幾乎完全符合預(yù)期。3070確實比2080 Ti快了7%，3080比3070快了48%(預(yù)期為47%)，而3090比3080快了19%(相比預(yù)期為19.5%)。

但是，在20系列零件上的結(jié)果最終變化更大。2060超級版比2060快14%(預(yù)期為11%)。但是，2070 Super僅比2060(理論上的41%)快35%，2080 Super快65%(理論上73%)，而2080 Ti快127%(上理論上150%)。盡管如此，這幾乎足夠接近受人尊敬的行為和良好的起點。

我們也想在某些非RTX GPU上運行DXR功能測試，但它基本上是在嘲笑我們并嘲笑我們的硬件。“您微不足道的GTX 1660 Super和GTX 1080 Ti無法處理光線追蹤的真相!” 實際上，它告訴我們我們的硬件不支持運行測試所需的DXR Tier 1.1功能集。對于GTX上的DXR，通過驅(qū)動程序和著色器hack來說是如此：光線跟蹤硬件加速是必需的。

更大的問題：AMD的RX 6800，RX 6800 XT和RX 6900 XT相對于RTX 3070，RTX 3080和RTX 3090的價格如何?根據(jù)理論估算，6900 XT可能會降落在3070和3080之間的中間位置，而6800 XT會比3070快一點，而RX 6800則位于2080 Ti和2080 Super之間。但是理論上的性能估算可能與實際情況不符，我們絕對有興趣在本月晚些時候看到情況如何。

關(guān)于3DMark DXR功能測試，還有很多要討論的內(nèi)容。例如，它的運行方式與我們預(yù)期的不太一樣。默認設(shè)置以1440p的像素每像素12個隨機樣本進行渲染，并且像大多數(shù)路徑跟蹤算法一樣，這些樣本的輸入被組合起來以給出最終的像素顏色結(jié)果。然后再次采樣，結(jié)果質(zhì)量得到提高。通常，將重復(fù)此過程，直到達到所需的質(zhì)量水平。

問題在于3DMark DXR Feature Test實時進行所有采樣和累加。樣本計數(shù)指定累積速率，并在物體運動時直接影響圖像質(zhì)量。但是，一旦相機停止移動，您最終將獲得每個場景相似的最大質(zhì)量結(jié)果(經(jīng)過相同的總時間)。

使用2采樣設(shè)置時，相機開始移動時，與默認的12采樣設(shè)置相比，物體看起來有點顆粒感，而默認設(shè)置為12采樣設(shè)置。但是，一旦相機暫停幾秒鐘，屏幕上的結(jié)果就會開始迅速收斂。查看這些圖像質(zhì)量比較。

同一場景的上述畫廊展覽圖片右后攝像機暫停，直到只是之前它再次開始轉(zhuǎn)動。因此，前三個“開始”圖像是“最差”質(zhì)量，而三個“結(jié)束”圖像是“最佳”質(zhì)量。請注意，屏幕抓圖來自使用ShadowPlay進行的視頻捕獲，因此您應(yīng)該忽略一些壓縮偽像。這是為了使每種設(shè)置的捕獲相同幀變得更加容易。(這些結(jié)果來自RTX 2080 Ti。)

視頻壓縮偽影會掩蓋您在場景運動時會看到的許多其他噪聲，尤其是在2采樣設(shè)置上。但是，即使在穩(wěn)定圖像的時間很短的情況下，也要檢查圖像看起來有多相似。三個“最終”結(jié)果基本相同，唯一的區(qū)別是隨機采樣的播放方式。但是，到目前為止，最大的因素是性能。

使用RTX 2080 Ti，默認12個樣本的平均性能為30.2 fps。每個像素下降到兩個樣本，性能將躍升至165 fps，而將采樣數(shù)增加到每個像素20個樣本，則性能將僅下降至18.1 fps。換句話說，每幀每像素的采樣數(shù)幾乎直接影響性能。

我想看到的是一種在各種樣本計數(shù)之上運行的深度學(xué)習(xí)衍生降噪算法。當然，默認情況下2樣本圖像質(zhì)量非常嘈雜，但是Quake II RTX也是如此。請看以下示例：

“嘈雜”圖像的運行速度提高了15%至25%，但是如果您實際上是想制作一款可玩的游戲，它的作用會更大。然后的目標是做足夠的樣本以獲得可以轉(zhuǎn)換為更好看效果的圖像。想想DLSS，但除了上調(diào)幅度外，它還可以消除噪聲并以一致的方式在各個像素之間進行插值。

獲得接近完美的路徑跟蹤結(jié)果所需的每個像素的隨機樣本數(shù)通常為數(shù)百。對于實時游戲應(yīng)用而言，這不會很快發(fā)生。但是，Quake II RTX允許您調(diào)整用于照片模式的樣本數(shù)量，范圍從100到8000。

最多需要一分鐘的時間來渲染1080p的單個幀，而100個樣本可以很快完成。同時，圖像質(zhì)量在基線100個樣本以上不會有太大變化，但是如果您要渲染比Quake II更復(fù)雜的游戲可能會更重要。

選擇更多的樣本，更低的性能和更高的圖像質(zhì)量;或更少的樣本，更好的性能和更低的圖像質(zhì)量。在游戲中，要想在質(zhì)量和性能之間找到一個良好的平衡，就需要利用更高質(zhì)量的光線跟蹤渲染技術(shù)。在照片模式之外，Quake II RTX每個像素僅使用幾個樣本，并且可以輕松達到RTX顯卡上的可玩性能。

當然，還有幾個問題。首先，為了進行去噪，它是否需要Nvidia的Tensor內(nèi)核，還是可以通過FP16在常規(guī)GPU著色器上完成(使其與AMD GPU兼容)?它將對性能產(chǎn)生多大影響?

更重要的是，完全光線追蹤的游戲或圖形是否重要的??問題。當前的光線追蹤游戲通常使用混合渲染方法，光柵化處理大多數(shù)底層圖形，并且光線追蹤效果僅用于反射，陰影或全局照明之類的事物。但是，如果混合渲染可以在以更快的速度運行時獲得相同的視覺效果，那不是最佳的整體效果嗎?

一個問題是，混合渲染需要用于傳統(tǒng)柵格化的所有代碼以及用于光線跟蹤的代碼，這意味著游戲開發(fā)人員可能需要做更多的工作。再說一次，由于虛幻引擎和Unity中內(nèi)置了對光線跟蹤的支持，這比您可能遇到的問題要少。無論如何，我們不太可能在不久的將來放棄柵格化。

標簽：

免責聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！