性能暴增價更香，RTX 30開啟光追新紀(jì)元！

2020-10-14 22:26:47

電腦報 2020年37期

關(guān)鍵詞：游戲

GPU發(fā)展史上又一次巨大飛躍！安培架構(gòu)升級亮點看這里

安培架構(gòu)的SM單元、RT Core和TENSOR Core都進行了巨大升級，算力大幅提升

由于采用了更先進的三星8nm制造工藝，RTX 30系列采用的安培架構(gòu)得以大幅提升了晶體管數(shù)量并優(yōu)化了效率，同時RT Core升級到了第二代，TENSOR Core也升級到了第三代。從官方數(shù)據(jù)來看，相對于圖靈架構(gòu)來講，安培架構(gòu)的SM單元FP32最高算力提升了大約173%，RT Core最高算力提升了71%左右，TENSOR Core最高算力也提升了約167%，可見其升級幅度是非常巨大的。

RTX 3080相對于RTX 2080 SUPER規(guī)格大幅提升

安培架構(gòu)的SM單元的升級細(xì)節(jié)包括：翻倍的FP32單元，每個時鐘周期可以做到128bit FMA浮點運算;全新的 L1緩存/材質(zhì)系統(tǒng)，提供雙倍的L1緩存帶寬和緩存分區(qū)尺寸，總?cè)萘刻嵘?3%;全新的加速核心，包括具備兩倍三角形相交速率的第二代RT Core和具備兩倍稀疏矩陣計算能力的第三代TENSOR Core。

那么大家最關(guān)心的RTX 30系列顯卡第二代RT Core除了數(shù)量增加之外，性能方面有什么進步呢？其實第二代RT Core在計算光線追蹤時，計算三角形相交和時間插值三位置可以同時進行，從而可以實現(xiàn)帶光追特效的動態(tài)模糊效果。在這個計算過程中，相當(dāng)于提供了最快8倍的射線穿越計算性能。第三代TENSOR Core方面，雖說RTX 30系列顯卡每個SM單元的TENSOR Core數(shù)量減少，但它的架構(gòu)得到了進一步強化，最終的效率反而巨幅提升。例如RTX 2080 SUPER每個SM單元一個時鐘周期可以完成512次FP16浮點運算操作，而RTX 3080僅用一半數(shù)量的第三代TENSOR Core就能單時鐘周期完成512次（密集矩陣）/1024次（稀疏矩陣）FP16浮點運算操作，如此來看，第三代TENSOR Core的性能相對上代大約提升了一倍。也正是因為如此，RTX 30系列顯卡的DLSS性能也得到了大幅提升，從而讓RTX 3090這樣的旗艦顯卡可以在8K分辨率下達(dá)到非常流暢的幀率。

第二代RT Core能從硬件層面對帶光追特效的動態(tài)模糊效果進行加速

第三代TENSOR Core提供了更強大的算力且為稀疏深度學(xué)習(xí)進行了專門的優(yōu)化

從圖中可以看到，安培架構(gòu)的核心布局采用了新的設(shè)計，中間區(qū)域是圖形芯軌，周圍區(qū)域則是存儲系統(tǒng)芯軌，兩塊區(qū)域分離之后可以獲得更優(yōu)化的芯片利用率與執(zhí)行效率。在每瓦性能方面，安培架構(gòu)相對圖靈架構(gòu)更是有了近乎翻倍的提升，這也得益于8nm工藝的使用。溫度和噪聲方面，從圖上也可以看到，安培架構(gòu)的RTX 30顯卡在30db（A）工作噪聲下的溫度為78℃，圖靈架構(gòu)的RTX 20顯卡在32db（A）的噪聲下溫度為81℃，而前者的游戲幀率幾乎比后者高出一倍。

安培架構(gòu)的每瓦性能約為圖靈架構(gòu)的1.9倍，能效比幾乎翻倍

這一次安培架構(gòu)的RTX 3090/3080顯卡還有一個巨大的升級，那就是采用了與美光合作開發(fā)的GDDR6X顯存，由于GDDR6X顯存采用了PAM4信號編碼，也就是每個周期利用4個電平信號進行數(shù)據(jù)傳輸，相比GDDR6的兩個電平信號自然效率大增。

RTX 30系列顯卡采用全球最快的GDDR6X顯存，速率為GDDR6的兩倍

視頻方面，RTX 30系列顯卡這次率先提供了對HDMI 2.1接口的支持，可以實現(xiàn)單數(shù)據(jù)線8K/60Hz或者4K/120Hz的HDR畫面輸出。當(dāng)然，這一方面也是因為RTX 3090這樣的旗艦顯卡已經(jīng)可以在多數(shù)3A游戲大作中達(dá)到8K/60fps流暢標(biāo)準(zhǔn)，既然性能方面有這個實力，那么輸出接口配套升級也順利成章了，這也意味著8K真的離我們越來越近了。此外，RTX 30系列也是全球首批支持AV1硬件解碼的顯卡，可以流暢解碼8K/60fps視頻，這不但為發(fā)燒友提供了頂級的視頻體驗，同時也能大大提升創(chuàng)意工作者們剪輯視頻的效率。

RTX 30系列顯卡支持HDMI 2.1接口，可實現(xiàn)單數(shù)據(jù)線輸出8K/60Hz HDR視頻信號，同時還提供了對AV1的硬件解碼加速，支持8K/60fps視頻實時解碼

其實除了制造工藝、架構(gòu)和硬件規(guī)格上的升級，安培架構(gòu)的RTX 30顯卡還有大量的黑科技可以提升玩家的使用體驗，下面請看詳細(xì)介紹。

不光是硬件規(guī)格提升，RTX 30顯卡黑科技一樣爆棚

1.NVIDIA REFLEX低延遲技術(shù)

NVIDIA REFLEX低延遲技術(shù)旨在為電競玩家提供更低的畫面與操作延遲，提供更加快速而順滑的電競對戰(zhàn)體驗

啟用REFLEX技術(shù)的情況下，主流電競游戲的系統(tǒng)延遲時間都得到了明顯降低

RTX 3080在開啟硬件光追+DLSS+Async的情況下，響應(yīng)速度是RTX 2080的1.9倍

新版GFE中集成了性能工具，可自動優(yōu)化系統(tǒng)降低延遲，也可以實時監(jiān)測系統(tǒng)狀態(tài)

相信大家對于NVIDIA“幀能贏”的概念非常熟悉，而這一次的REFLEX技術(shù)更加強大。我們知道，從電競玩家按下鍵鼠到最終反應(yīng)在顯示器畫面上這個過程要經(jīng)歷輸入設(shè)備、處理器、游戲引擎渲染隊列、GPU、顯示器幾個步驟，這中間每一個步驟之間都會產(chǎn)生延遲，如果延遲時間太長，就會導(dǎo)致玩家的操作嚴(yán)重滯后甚至是畫面卡頓，對戰(zhàn)中自然就處于劣勢。因此，NVIDIA推出了REFLEX低延遲技術(shù)，通過將渲染隊列的延遲時間降低為0、大幅降低處理器負(fù)擔(dān)、提升GPU頻率來降低整個系統(tǒng)的延遲，讓玩家的操作更加快捷、順滑。之所以能做到這一點，與RTX 30顯卡的Shader單元、RT Core、TENSOR Core同時加速可以提供極高的運算能力不無關(guān)系，從統(tǒng)計數(shù)據(jù)來看，RTX 3080在開啟硬件光追+DLSS+Async的情況下，響應(yīng)速度是RTX 2080的1.9倍之多！當(dāng)然，REFLEX低延遲技術(shù)絕非只包括RTX 30顯卡，這次NVIDIA還宣布了支持360Hz刷新率的G-Sync電競顯示器（首發(fā)品牌有華碩、宏碁、外星人和微星），而且這些顯示器中還首次集成了可監(jiān)測延遲的REFLEX硬件模塊（外設(shè)通過顯示器上的USB接口與REFLEX模塊通信）。除此外，也宣布了數(shù)款來自華碩、羅技、雷蛇和賽睿支持REFLEX技術(shù)的電競鼠標(biāo)。新版GFE中也提供了性能工具，可自動優(yōu)化系統(tǒng)降低延遲，也可以實時監(jiān)測系統(tǒng)狀態(tài)，甚至還能錄制8K/30fps HDR視頻！總而言之，NVIDIA REFLEX低延遲技術(shù)其實是一套完整的解決方案，可以有效提升玩家的電競對戰(zhàn)操作體驗，提升勝率。

2.RTX IO快速載入技術(shù)

RTX IO技術(shù)可直接將壓縮數(shù)據(jù)讀取到顯存，CPU占用率降低20倍、載入速度相較HDD提升百倍

現(xiàn)在的3A游戲大作體積越來越大，未來超過200GB也是很正常的事，那么在玩游戲的時候，需要載入的游戲數(shù)據(jù)也變得越來越多，游戲加載時間也變得更長。為了解決這個問題，游戲開發(fā)團隊采用了壓縮數(shù)據(jù)的方法，不過，雖說使用壓縮數(shù)據(jù)可以有效加快游戲載入的速度，但是需要占用大量CPU資源來進行解壓縮，同時增加了數(shù)據(jù)通過CPU與系統(tǒng)內(nèi)存的步驟，從而增加了延遲。特別是當(dāng)升級到讀取速度高達(dá)7000MB/s的PCIe 4.0固態(tài)硬盤后，這個數(shù)據(jù)解壓的操作就需要占用更多的CPU核心數(shù)了。因此，NVIDIA推出了RTX IO技術(shù)，通過這項技術(shù)，就能讓GPU來處理數(shù)據(jù)解壓，從而大幅度降低CPU的占用率。從圖上可以看到，在PCIe 4.0固態(tài)硬盤上達(dá)到同樣讀取速度的時候，如果采用傳統(tǒng)的方式，會占用24個CPU核心（如果CPU核心數(shù)量不夠，就會造成瓶頸，達(dá)不到PCIe 4.0固態(tài)硬盤的速度上限），而采用RTX IO技術(shù)后，只需要占用0.5個CPU核心。當(dāng)然，除了游戲外，在需要載入大量素材文件的3D渲染工作中也可以通過RTX IO來提升效率、降低CPU占用率，從而獲得更流暢的體驗。要享受這項技術(shù)，需要游戲支持微軟的DirectStorage API，當(dāng)然也需要RTX 30系列顯卡。

3.基于RTX 30系列顯卡的NVIDIA STUDIO

RTX 30系列顯卡的高超算力為內(nèi)容創(chuàng)作提供了強大的動力

部分測試項目中，RTX 3080的3D渲染加速性能超過了RTX 2080 SUPER的兩倍

在渲染動態(tài)模糊畫面方面，RTX 3080的性能約為RTX 2080 SUPER的5倍

對于內(nèi)容創(chuàng)意設(shè)計用戶，NVIDIA推出了NVIDIA STUDIO解決方案，新一代的RTX 30系列顯卡更是將NVIDIA STUDIO的效能提升到了新的高度。從官方提供的數(shù)據(jù)來看，RTX 3080在各種主流渲染器中的加速性能都遠(yuǎn)超RTX 2080 SUPER，在LUXMARK和V-Ray中甚至超過了RTX 2080 SUPER的兩倍。視頻剪輯部分，RTX 3080也表現(xiàn)出了驚人的性能，達(dá)文西測試中的成績遠(yuǎn)遠(yuǎn)領(lǐng)先RTX 2080 SUPER，甚至有些項目非常接近RTX 2080 SUPER的2.5倍性能。此外，我們知道很多復(fù)雜3D建模與高碼率8K視頻剪輯是非常吃顯存的，而RTX 3090具備的24GB超大顯存無疑是針對這些應(yīng)用而來，為設(shè)計師用戶提供更高效的解決方案。總而言之，基于RTX 30系列顯卡的NVIDIA STUDIO套裝無疑能為內(nèi)容創(chuàng)意設(shè)計用戶提供效率遠(yuǎn)超上代產(chǎn)品的解決方案。

4.NVIDIA OMNIVERSE MACHINIMA

RTX 3090高達(dá)24GB的顯存可以輕松應(yīng)對高細(xì)節(jié)幾何建模、多應(yīng)用3D渲染動畫、8K RED EAW的AI剪輯等高運算量專業(yè)應(yīng)用

在達(dá)芬奇視頻剪輯中，RTX 3080的效率甚至超過了RTX 2080 SUPER的兩倍

由于圖形技術(shù)的飛速發(fā)展，現(xiàn)在游戲技術(shù)已經(jīng)被廣泛應(yīng)用在電影制作過程之中，而NVIDIA OMNIVERSE MACHINIMA就是基于RTX 30系列GPU強大計算能力打造的游戲敘事APP，也就是能夠讓玩家利用現(xiàn)有的游戲素材，通過RTX 30顯卡AI技術(shù)制作出電影級的視頻！NVIDIA OMNIVERSE MACHINIMA可以從支持該技術(shù)的游戲中獲取素材、工具，然后通過賦予材質(zhì)、Audio2Face（聲音轉(zhuǎn)表情）、增加物理效果、AI采集動作，最后使用RTX光線追蹤渲染從而制造出堪比電影畫質(zhì)的視頻。

通過NVIDIA OMNIVERSE MACHINIMA可以讓用戶使用游戲素材打造電影級視頻

得益于RTX 30系列顯卡強大的視頻加速和AI計算能力，玩家可以輕松打造家庭工作室

5.NVIDIA BROADCAST

NVIDIA BROADCAST工具旨在為玩家提供強大的直播應(yīng)用解決方案，它主要包括了音頻降噪（降低錄音的環(huán)境噪聲）、虛擬背景（通過AI摳出人像，并提供各種直播時需要的虛擬背景）、攝像頭自動構(gòu)圖（可以保證改變動態(tài)視頻圖像比例時，自動將目標(biāo)位于視覺中央）等實用功能。從圖上可以看到，麥克風(fēng)、音箱（或耳機）、攝像頭等設(shè)備連接到電腦后，通過NVIDIA BROADCAST工具可以被AI技術(shù)強化形成虛擬設(shè)備，從而獲得各種強大的功能。

好了，有關(guān)安培架構(gòu)RTX 30系列顯卡的主要技術(shù)亮點講解就到這里，接下來就讓我們來看看來自NVIDIA官方的Founders Edition版RTX 3080顯卡實物吧！