在上文中,筆者簡單介紹了Sandy Bridge處理器帶來的AVX指令集及其微架構(gòu)的革新之處,現(xiàn)在來談談Sandy Bridge架構(gòu)的一個大變動——融合GPU。
CPU與GPU的融合
除了CPU之外,英特爾其實也一直在移動/桌面級平臺上提供著GPU產(chǎn)品,如英特爾在MCH北橋集成的顯卡也屬于GPU范疇。這種芯片組集成的顯卡其性能并不怎么強勁,然而勝在便宜,在日常應用中也足夠使用了,因此其市場占有率非常高。到了Clarkdale這一代,英特爾開始將GPU部分從芯片組上移出來并放進了整個處理器包裝之內(nèi),然而由于工藝上的限制,CPU屬于32nm而GPU屬于45nm,它們實際上分成了兩個不同的晶片,只是封裝到了同一個基板上,兩個晶圓通過QPI通信,由于內(nèi)存控制器也移到了45nm的GPU封裝上,內(nèi)存延遲和帶寬反而受到了影響,這種方式最終得到的性能不佳。
Sandy Bridge整合的CPU和GPU才是真正的融合,它們不再分成兩個不同工藝制程的單獨核心,而是完全在設(shè)計時就融合在了同一個核心上,并由統(tǒng)一的32nm工藝制造。融合它們的架構(gòu)正是前面說過的環(huán)形總線,GPU直接掛在環(huán)形總線上,并和CPU核心一起共享整個處理器的L3緩存乃至內(nèi)存控制器。
革新的GPU架構(gòu)
Sandy Bridge新的GPU架構(gòu)同時瞄準了功耗和性能兩個要素,在圖形性能上,主要的核心變動就在于EU單元上。
EU(Execution Units)執(zhí)行單元和其他GPU的流處理器相對應,運行各種不同的Shader,在Sandy Bridge上被稱為Unified Execution Units。
新一代的EU執(zhí)行單元增強了面向向量/矩陣的操作性能,提供了zero overhead的線程切換能力。新一代EU還使用了更大的寄存器文件(每線程4KB),可以保存更多的數(shù)據(jù),以支持更復雜的Shader程序。此外,新的EU還使用了第二代并行分支算法,即使面對更復雜的狀況也能提供高效并行執(zhí)行能力。Sandy Bridge的新EU還使用了新的超越數(shù)學運算引擎,吞吐量提升了4倍到20倍不同,英特爾表示,正弦、余弦操作的速度比現(xiàn)在的HD Graphics提升了幾個數(shù)量級。
除了這些之外,Sandy Bridge的新EU還使用了新的、能和圖形API ISA達到1:1的指令集,在時鐘頻率不變的情況下增強了吞吐量。英特爾將采用新一代EU設(shè)計的融合顯卡命名為HD Graphics 2000和3000系列,這兩個系列的不同就在于EU的數(shù)量,其中2000擁有6個EU,3000擁有12個EU。標準版本的Sandy Bridge處理器提供的是HD Graphics 2000,只有帶K后綴的倍頻解鎖版本才會提供HD Graphics 3000。
增強的多媒體處理能力
Sandy Bridge的GPU除了圖形性能明顯提升之外,還有一個重點關(guān)注的領(lǐng)域就是多媒體處理上,并且和一般的GPU僅關(guān)注解碼能力不同,Sandy Bridge同時提供了強大的解碼能力和編碼能力。其中,編碼通過類似Fixed Function的專用單元來完成,這個單元叫多格式解碼器(Multi-Format Codec),是一款專用的并行引擎,支持MPEG-2/VC-1/AVC格式。和通常的GPU解碼方案不同,Sandy Bridge的解碼并不需要使用到GPU EU執(zhí)行單元,包括VLD/CAVLC/CABAC/IDCT/IT/MC/LF等階段全部在MFC內(nèi)完成,功耗表現(xiàn)上更加出色。
Sandy Bridge的視頻編碼則使用EU執(zhí)行單元陣列配合專用的高吞吐量VME(Video Motion Estimator)來完成,并在需要時重用MFC部分(如AVC編碼)。此外還有一個專用的色彩處理加速后端來進行STE(增強皮膚色調(diào))、ACE(自適應對比度增強)、TCC(全局色彩控制)等處理,總的來說,Sandy Bridge的GPU提供了一整套硬件的編解碼方案,由于效果如此之明顯,英特爾還特地使用了一個Quick Sync(高速轉(zhuǎn)碼)的術(shù)語來形容Sandy Bridge的純硬件轉(zhuǎn)碼能力。
融合之路
面對著獨立GPU的強大壓力,Sandy Bridge使用了很多種方式去應對,一個是通過AVX指令集和強化的微架構(gòu)來快速提升CPU的運算能力;另一個就是提升英特爾自己GPU的能力,如果你打不過一個對手,那就加入它。為了提升集成GPU的能力,將CPU和GPU融合在一起就是一個必然的選擇。
融合可以讓GPU也使用到英特爾強大的制程工藝。Sandy Bridge的GPU部分使用的是和CPU一樣的32nm工藝,而業(yè)界獨立GPU的制程還停在40nm上,即便是同一個工藝,英特爾也能達到更高的性能。可以注意到,通常獨立GPU的核心部分只能運行在數(shù)百MHz,而英特爾的GPU則可以達到1.35GHz,更先進的工藝還可以使用更多的晶體管,以及使用更好架構(gòu)設(shè)計。實際上,Sandy Bridge的GPU當中使用到了NVIDIA的專利技術(shù),為此專利以及未來會使用到的其他專利英特爾付出了15億美元。使用他人的技術(shù)也是增強自己GPU能力的方法之一。
通過融合策略,英特爾將CPU和GPU放在了同一個起跑線上,并使用英特爾強大的制程工藝驅(qū)動,這讓其立在了不敗之地上。下一期筆者將會帶來Sandy Bridge的性能測試數(shù)據(jù),請看下回分解。