


安培架構(gòu)的SM單元、RT Core和TENSOR Core都進行了巨大升級,算力大幅提升
由于采用了更先進的三星8nm制造工藝,RTX 30系列采用的安培架構(gòu)得以大幅提升了晶體管數(shù)量并優(yōu)化了效率,同時RT Core升級到了第二代,TENSOR Core也升級到了第三代。從官方數(shù)據(jù)來看,相對于圖靈架構(gòu)來講,安培架構(gòu)的SM單元FP32最高算力提升了大約173%,RT Core最高算力提升了71%左右,TENSOR Core最高算力也提升了約167%,可見其升級幅度是非常巨大的。

RTX 3080相對于RTX 2080 SUPER規(guī)格大幅提升
安培架構(gòu)的SM單元的升級細(xì)節(jié)包括:翻倍的FP32單元,每個時鐘周期可以做到128bit FMA浮點運算;全新的 L1緩存/材質(zhì)系統(tǒng),提供雙倍的L1緩存帶寬和緩存分區(qū)尺寸,總?cè)萘刻嵘?3%;全新的加速核心,包括具備兩倍三角形相交速率的第二代RT Core和具備兩倍稀疏矩陣計算能力的第三代TENSOR Core。

那么大家最關(guān)心的RTX 30系列顯卡第二代RT Core除了數(shù)量增加之外,性能方面有什么進步呢?其實第二代RT Core在計算光線追蹤時,計算三角形相交和時間插值三位置可以同時進行,從而可以實現(xiàn)帶光追特效的動態(tài)模糊效果。在這個計算過程中,相當(dāng)于提供了最快8倍的射線穿越計算性能。第三代TENSOR Core方面,雖說RTX 30系列顯卡每個SM單元的TENSOR Core數(shù)量減少,但它的架構(gòu)得到了進一步強化,最終的效率反而巨幅提升。例如RTX 2080 SUPER每個SM單元一個時鐘周期可以完成512次FP16浮點運算操作,而RTX 3080僅用一半數(shù)量的第三代TENSOR Core就能單時鐘周期完成512次(密集矩陣)/1024次(稀疏矩陣)FP16浮點運算操作,如此來看,第三代TENSOR Core的性能相對上代大約提升了一倍。也正是因為如此,RTX 30系列顯卡的DLSS性能也得到了大幅提升,從而讓RTX 3090這樣的旗艦顯卡可以在8K分辨率下達(dá)到非常流暢的幀率。

第二代RT Core能從硬件層面對帶光追特效的動態(tài)模糊效果進行加速

第三代TENSOR Core提供了更強大的算力且為稀疏深度學(xué)習(xí)進行了專門的優(yōu)化
從圖中可以看到,安培架構(gòu)的核心布局采用了新的設(shè)計,中間區(qū)域是圖形芯軌,周圍區(qū)域則是存儲系統(tǒng)芯軌,兩塊區(qū)域分離之后可以獲得更優(yōu)化的芯片利用率與執(zhí)行效率。在每瓦性能方面,安培架構(gòu)相對圖靈架構(gòu)更是有了近乎翻倍的提升,這也得益于8nm工藝的使用。溫度和噪聲方面,從圖上也可以看到,安培架構(gòu)的RTX 30顯卡在30db(A)工作噪聲下的溫度為78℃,圖靈架構(gòu)的RTX 20顯卡在32db(A)的噪聲下溫度為81℃,而前者的游戲幀率幾乎比后者高出一倍。

安培架構(gòu)的每瓦性能約為圖靈架構(gòu)的1.9倍,能效比幾乎翻倍
這一次安培架構(gòu)的RTX 3090/3080顯卡還有一個巨大的升級,那就是采用了與美光合作開發(fā)的GDDR6X顯存,由于GDDR6X顯存采用了PAM4信號編碼,也就是每個周期利用4個電平信號進行數(shù)據(jù)傳輸,相比GDDR6的兩個電平信號自然效率大增。

RTX 30系列顯卡采用全球最快的GDDR6X顯存,速率為GDDR6的兩倍
視頻方面,RTX 30系列顯卡這次率先提供了對HDMI 2.1接口的支持,可以實現(xiàn)單數(shù)據(jù)線8K/60Hz或者4K/120Hz的HDR畫面輸出。當(dāng)然,這一方面也是因為RTX 3090這樣的旗艦顯卡已經(jīng)可以在多數(shù)3A游戲大作中達(dá)到8K/60fps流暢標(biāo)準(zhǔn),既然性能方面有這個實力,那么輸出接口配套升級也順利成章了,這也意味著8K真的離我們越來越近了。此外,RTX 30系列也是全球首批支持AV1硬件解碼的顯卡,可以流暢解碼8K/60fps視頻,這不但為發(fā)燒友提供了頂級的視頻體驗,同時也能大大提升創(chuàng)意工作者們剪輯視頻的效率。

RTX 30系列顯卡支持HDMI 2.1接口,可實現(xiàn)單數(shù)據(jù)線輸出8K/60Hz HDR視頻信號,同時還提供了對AV1的硬件解碼加速,支持8K/60fps視頻實時解碼
其實除了制造工藝、架構(gòu)和硬件規(guī)格上的升級,安培架構(gòu)的RTX 30顯卡還有大量的黑科技可以提升玩家的使用體驗,下面請看詳細(xì)介紹。

NVIDIA REFLEX低延遲技術(shù)旨在為電競玩家提供更低的畫面與操作延遲,提供更加快速而順滑的電競對戰(zhàn)體驗

啟用REFLEX技術(shù)的情況下,主流電競游戲的系統(tǒng)延遲時間都得到了明顯降低

RTX 3080在開啟硬件光追+DLSS+Async的情況下,響應(yīng)速度是RTX 2080的1.9倍

新版GFE中集成了性能工具,可自動優(yōu)化系統(tǒng)降低延遲,也可以實時監(jiān)測系統(tǒng)狀態(tài)
相信大家對于NVIDIA“幀能贏”的概念非常熟悉,而這一次的REFLEX技術(shù)更加強大。我們知道,從電競玩家按下鍵鼠到最終反應(yīng)在顯示器畫面上這個過程要經(jīng)歷輸入設(shè)備、處理器、游戲引擎渲染隊列、GPU、顯示器幾個步驟,這中間每一個步驟之間都會產(chǎn)生延遲,如果延遲時間太長,就會導(dǎo)致玩家的操作嚴(yán)重滯后甚至是畫面卡頓,對戰(zhàn)中自然就處于劣勢。因此,NVIDIA推出了REFLEX低延遲技術(shù),通過將渲染隊列的延遲時間降低為0、大幅降低處理器負(fù)擔(dān)、提升GPU頻率來降低整個系統(tǒng)的延遲,讓玩家的操作更加快捷、順滑。之所以能做到這一點,與RTX 30顯卡的Shader單元、RT Core、TENSOR Core同時加速可以提供極高的運算能力不無關(guān)系,從統(tǒng)計數(shù)據(jù)來看,RTX 3080在開啟硬件光追+DLSS+Async的情況下,響應(yīng)速度是RTX 2080的1.9倍之多!當(dāng)然,REFLEX低延遲技術(shù)絕非只包括RTX 30顯卡,這次NVIDIA還宣布了支持360Hz刷新率的G-Sync電競顯示器(首發(fā)品牌有華碩、宏碁、外星人和微星),而且這些顯示器中還首次集成了可監(jiān)測延遲的REFLEX硬件模塊(外設(shè)通過顯示器上的USB接口與REFLEX模塊通信)。除此外,也宣布了數(shù)款來自華碩、羅技、雷蛇和賽睿支持REFLEX技術(shù)的電競鼠標(biāo)。新版GFE中也提供了性能工具,可自動優(yōu)化系統(tǒng)降低延遲,也可以實時監(jiān)測系統(tǒng)狀態(tài),甚至還能錄制8K/30fps HDR視頻!總而言之,NVIDIA REFLEX低延遲技術(shù)其實是一套完整的解決方案,可以有效提升玩家的電競對戰(zhàn)操作體驗,提升勝率。

RTX IO技術(shù)可直接將壓縮數(shù)據(jù)讀取到顯存,CPU占用率降低20倍、載入速度相較HDD提升百倍
現(xiàn)在的3A游戲大作體積越來越大,未來超過200GB也是很正常的事,那么在玩游戲的時候,需要載入的游戲數(shù)據(jù)也變得越來越多,游戲加載時間也變得更長。為了解決這個問題,游戲開發(fā)團隊采用了壓縮數(shù)據(jù)的方法,不過,雖說使用壓縮數(shù)據(jù)可以有效加快游戲載入的速度,但是需要占用大量CPU資源來進行解壓縮,同時增加了數(shù)據(jù)通過CPU與系統(tǒng)內(nèi)存的步驟,從而增加了延遲。特別是當(dāng)升級到讀取速度高達(dá)7000MB/s的PCIe 4.0固態(tài)硬盤后,這個數(shù)據(jù)解壓的操作就需要占用更多的CPU核心數(shù)了。因此,NVIDIA推出了RTX IO技術(shù),通過這項技術(shù),就能讓GPU來處理數(shù)據(jù)解壓,從而大幅度降低CPU的占用率。從圖上可以看到,在PCIe 4.0固態(tài)硬盤上達(dá)到同樣讀取速度的時候,如果采用傳統(tǒng)的方式,會占用24個CPU核心(如果CPU核心數(shù)量不夠,就會造成瓶頸,達(dá)不到PCIe 4.0固態(tài)硬盤的速度上限),而采用RTX IO技術(shù)后,只需要占用0.5個CPU核心。當(dāng)然,除了游戲外,在需要載入大量素材文件的3D渲染工作中也可以通過RTX IO來提升效率、降低CPU占用率,從而獲得更流暢的體驗。要享受這項技術(shù),需要游戲支持微軟的DirectStorage API,當(dāng)然也需要RTX 30系列顯卡。

RTX 30系列顯卡的高超算力為內(nèi)容創(chuàng)作提供了強大的動力

部分測試項目中,RTX 3080的3D渲染加速性能超過了RTX 2080 SUPER的兩倍

在渲染動態(tài)模糊畫面方面,RTX 3080的性能約為RTX 2080 SUPER的5倍
對于內(nèi)容創(chuàng)意設(shè)計用戶,NVIDIA推出了NVIDIA STUDIO解決方案,新一代的RTX 30系列顯卡更是將NVIDIA STUDIO的效能提升到了新的高度。從官方提供的數(shù)據(jù)來看,RTX 3080在各種主流渲染器中的加速性能都遠(yuǎn)超RTX 2080 SUPER,在LUXMARK和V-Ray中甚至超過了RTX 2080 SUPER的兩倍。視頻剪輯部分,RTX 3080也表現(xiàn)出了驚人的性能,達(dá)文西測試中的成績遠(yuǎn)遠(yuǎn)領(lǐng)先RTX 2080 SUPER,甚至有些項目非常接近RTX 2080 SUPER的2.5倍性能。此外,我們知道很多復(fù)雜3D建模與高碼率8K視頻剪輯是非常吃顯存的,而RTX 3090具備的24GB超大顯存無疑是針對這些應(yīng)用而來,為設(shè)計師用戶提供更高效的解決方案。總而言之,基于RTX 30系列顯卡的NVIDIA STUDIO套裝無疑能為內(nèi)容創(chuàng)意設(shè)計用戶提供效率遠(yuǎn)超上代產(chǎn)品的解決方案。

RTX 3090高達(dá)24GB的顯存可以輕松應(yīng)對高細(xì)節(jié)幾何建模、多應(yīng)用3D渲染動畫、8K RED EAW的AI剪輯等高運算量專業(yè)應(yīng)用

在達(dá)芬奇視頻剪輯中,RTX 3080的效率甚至超過了RTX 2080 SUPER的兩倍
由于圖形技術(shù)的飛速發(fā)展,現(xiàn)在游戲技術(shù)已經(jīng)被廣泛應(yīng)用在電影制作過程之中,而NVIDIA OMNIVERSE MACHINIMA就是基于RTX 30系列GPU強大計算能力打造的游戲敘事APP,也就是能夠讓玩家利用現(xiàn)有的游戲素材,通過RTX 30顯卡AI技術(shù)制作出電影級的視頻!NVIDIA OMNIVERSE MACHINIMA可以從支持該技術(shù)的游戲中獲取素材、工具,然后通過賦予材質(zhì)、Audio2Face(聲音轉(zhuǎn)表情)、增加物理效果、AI采集動作,最后使用RTX光線追蹤渲染從而制造出堪比電影畫質(zhì)的視頻。

通過NVIDIA OMNIVERSE MACHINIMA可以讓用戶使用游戲素材打造電影級視頻

得益于RTX 30系列顯卡強大的視頻加速和AI計算能力,玩家可以輕松打造家庭工作室
NVIDIA BROADCAST工具旨在為玩家提供強大的直播應(yīng)用解決方案,它主要包括了音頻降噪(降低錄音的環(huán)境噪聲)、虛擬背景(通過AI摳出人像,并提供各種直播時需要的虛擬背景)、攝像頭自動構(gòu)圖(可以保證改變動態(tài)視頻圖像比例時,自動將目標(biāo)位于視覺中央)等實用功能。從圖上可以看到,麥克風(fēng)、音箱(或耳機)、攝像頭等設(shè)備連接到電腦后,通過NVIDIA BROADCAST工具可以被AI技術(shù)強化形成虛擬設(shè)備,從而獲得各種強大的功能。
好了,有關(guān)安培架構(gòu)RTX 30系列顯卡的主要技術(shù)亮點講解就到這里,接下來就讓我們來看看來自NVIDIA官方的Founders Edition版RTX 3080顯卡實物吧!