徐昌宇
在上一期文章中,我們介紹了有關英特爾2021年架構日發布的產品中兩款全新的處理器微架構、Alder Lake以及有關線程調度器的內容。除此之外,英特爾還帶來了新的GPU產品、AMX以及Sapphire Rapids等產品和技術。接下來,我們就針對這部分內容繼續進行深度解讀。
搶占圖形市場至高地位英特爾Xe-HPG架構預覽
在英特爾Xe架構中,面向中高端GPU市場的產品一直猶抱琵琶半遮面。本次架構日發布會上,英特爾終于給出面向消費者市場的Xe-HPG架構的部分信息。
從第9代核芯顯卡到第11代核芯顯卡,再到新的Xe-LP核芯顯卡,在保持功耗不變的情況下,英特爾使得這三代產品的性能逐代翻倍。接下來,英特爾將進一步把Xe架構使用在更高端的產品上,比如今天的主角:Xe-HPG。
英特爾在2021年8月17日就已經宣布其GPU產品的英文名、中文名以及架構代號。英特爾的GPU產品正式名稱是英特爾銳炫,英文名稱是Intel ARC。第一代GPU的架構代號為Alchemist也就是“煉金術師”,后三代產品的架構代號分別是“Battlemage”(戰斗法師)“Celestial”(天人)和“Druid”(德魯伊),全部采用魔幻故事中存在的人物或者職業名稱。
英特爾認為目前GPU的研發工作需要“軟件優先”,要面對幾十億、上百億晶體管的協同工作并能夠適應各種場合、應用的需求,軟件成為整個開發的核心,軟件對應的就是需求,這是硬件需要滿足的內容。在這種情況下,英特爾進行了重大的代碼重構,全面優化了獨立顯卡產品的本地內存使用率,針對圖形編譯器、內存管理、DDI線程、命令解碼、提交以及GPU配置文件等都進行了優化和更新。其變化包括將游戲加載時間縮短最多25%,將CPU密集型游戲的吞吐量提高多達18%等,這些改善意味著英特爾在編譯器操作上更為聰明,比如消除冗余編譯以及線程調度方面進行優化等。在API方面,新GPU支持包括DirectX 12、Vulkan這類最先進的API(沒有提到OpenGL),另外還支持包括UE系列、Unity系列在內的主流游戲引擎。用戶體驗方面,英特爾希望帶給用戶的體驗包括平滑流暢的游戲、實時的游戲串流、更為現代化的用戶界面以及可調節的|生能(超頻體驗)等。
XeSS:英特GPU產品的性能倍增器
在GPU產品發布之前,英特爾首先宣布了一個重大創新,那就是全新的XeSS,全稱是Xe Super Sampling,也就是Xe超級采樣。英特爾將其看作一種在較少的性能損耗下就能實現4K級別乃至更高分辨率高質量畫質輸出的重要技術。英特爾在發布會上演示了多個DEMO,并且宣布在8月底就可以提交初版的XeSS給游戲開發商進行游戲植入和優化。
英特爾用了一張圖來描述XeSS的工作過程。一般來說,類似的技術比如英偉達的DLSS或者AMD FSR都是根據較低分辨率渲染的畫面(比如1080p)的信息,進行放大、優化后,將其擴大為較高的分辨率然后進行輸出。這個過程中,各廠商在具體如何放大和優化畫面的技術上存在一些差異。比如英偉達的第一代DLSS在放大畫面后可以主動尋找邊緣并進行一定程度的銳化,而第二代DLSS采用像素對比或者前后幀對比進行更精細、準確的優化。
XeSS和第二代DLSS接近,也是利用空間數據和時間數據來進行組合并形成神經網絡從而提升游戲分辨率。空間數據就是相鄰像素之間的差異,時間數據則是指前一幀畫面和后一幀畫面之間的差異。通過這些差異,神經網絡可以確定放大后的畫面哪些地方需要進一步加強,最終合成一個比較合理的放大畫面。英特爾展示了XeSS的部分運行畫面,實際效果還是不錯的。當然,這只是一些演示DEMO,在真正的游戲環境中,面對干差萬別的游戲場景,XeSS可能會出現一些問題,比如模糊、閃爍、重疊或者錯誤的加強等,這還需要英特爾花費更多的精力進行優化。
由于XeSS的計算涉及到神經網絡,所以會調用XMX矩陣數學單元進行處理。這個單元也是本次發布會中首次出現的Xe-HPG中存在的重要模塊。顯然,英特爾正在將更多矩陣數學的相關硬件單元加入CPU或者GPU中,尤其是后者能夠使得XeSS這類技術迅速完成處理,從而帶來極小的幀時間開銷。不僅如此,英特爾還在進一步努力,希望開發一種不需要矩陣數學硬件的XeSS版本,也就是XeSS DP4a。XeSS DP4a使用4元素矢量點積進行處理,其計算規模和難度都小了很多,幾乎所有的GPU都支持DP4a類型的計算,包括英偉達和AMD的產品,但計算精度或者計算速度相比專門的矩陣數學存在一定差距。
英特爾在XeSS上的策略類似AMD和英偉達的結合,比如AMD的開放策略可能類似XeSS DP4a的部分,也就是所有產品包括競爭對手的產品都可以使用。而更好效果(或者更少性能損失)的部分則屬于XMX專屬(類似于英偉達的DLSS),也就是英特爾Xe-HPG GPU專屬的。在理想的狀態下,英特爾在XeSS上的“DP4a+XMX”策略具備更好的兼容性,大幅節約了游戲人員的開發工作,可以更廣泛地吸引游戲人員選擇。英特爾還宣布,未來將對XeSS徹底開源,如果英特爾最終提供了一個效果和性能兼具的XeSS完成版本并將其開源的話,這對英偉達和AMD來說是一個非常不好的消息。
從現場展示的DEMO來看,XeSS具備了將畫面從1080p分辨率升級至4K的能力,4K畫面和真4K畫面非常接近,1080p分辨率下模糊的一些紋理細節都得以呈現。一種可能是,英特爾XeSS并非只是簡單放大畫面,而是采用了類似LOD技術之類的手段來處理一些敏感的紋理部位以獲取更好的圖像質量,這顯示XeSS已經相當成熟了。然而,英特爾在這里沒有給出任何幀數方面的對比以及更多復雜場景的對比,比如樹林、斜面紋理、運動場景、復雜陰影等。
實際上英特爾這么著急開發XeSS這樣的技術有2個重要的原因:一方面是類似DLSS、FSR、XeSS這樣的技術的確是性能倍增器,可以在畫質損失很小(或者沒有損失)的前提下提供大幅度的性能提升,尤其是在4K顯示器顯著增長的今天,這項技術能夠帶給用戶最實際也是真正可用的4K游戲體驗,這將極大提高對應GPU產品的市場號召力。另一方面則是目前GPU的性能嚴重不足,尤其是在光線追蹤時代來臨后,幾乎無限的計算需求面臨有限的計算資源,使得人們不得不采用這種手段來繞開性能瓶頸。所以,之前一段時間有部分玩家甚至媒體人員宣稱的所謂GPU性能過剩論是完全錯誤的,包括所謂CPU性能過剩論,其實在現代計算尤其是人們需要的更高精度、更智能的計算面前都非常荒謬。所謂過剩,只是當前設備無法達到下一個階段的計算需求從而表現出來的無力感。