當今顯卡不僅具備強大的運算能力,在可編程性方面也有了長足的進步。面對顯卡市場的高額利潤。Intel在2006年成立了可視化計算工作組(visual Computing Group,簡稱VCG),并且希望在2007年底重返獨立顯卡市場,近期Intel VSG公布的最新研究成果震動了整個業(yè)界—Intel準備讓GPU和CPU合二為一,憑借自己在CPU領域的霸主地位讓GPU在未來徹底消失!Intel憑什么能讓GPU在未來走人歷史?就讓我們一起探個究竟。
一“芯”多用,從根基撼動顯卡世界
作為一個后來者,Intel如果在顯卡市場和NVIDIA、ATi展開正面交鋒顯然不是明智之舉。為此Intel希望在未來借助CPU市場的成功來統(tǒng)治顯卡市場,CPU、GPU混合芯片的大膽嘗試應運而生。Intel的研究表明,和GPU相比CPU具有不可超越的靈活性,但卻在浮點運算能力和并行性方面遠不及前者。而這兩個特性對于圖形操作來恰恰是至關重要的。一旦CPU具有強大并行性和浮點運算能力,再加上天生的完全可編程能力,GPU就徹底失去了存在的必要。為了實現(xiàn)這一目標,Intel提出了順序執(zhí)行多內核處理器的概念。
所謂順序執(zhí)行就是CPU按照每個線程的指令順序依次運行的指令執(zhí)行模式。而當今所有桌面CPU使用的亂序執(zhí)行,則會由CPU自動將線程上指令分拆執(zhí)行,最后再合成。對于單線程任務來說,亂序執(zhí)行由于減少了指令之間的等待,因此具有極高的效率,但由于多出了指令分析和結果合成邏輯,所以要耗費大量的晶體管。順序執(zhí)行盡管效率只有亂序執(zhí)行的1/3,但消耗的晶體管也少得驚人。在圖形操作領域,指令具有很強的并行性,這也是順序執(zhí)行大顯神威的地方。
當今Core2 Duo雙內核處理器在65納米制程下的芯片面積為140平方毫米。如果改用順序執(zhí)行單元,同樣芯片面積能夠容納多達10個內核,每個內核都具有同步多線程(SMT)功能,這樣Intel順序執(zhí)行處理器就能在一個時鐘周期執(zhí)行40條線程,從而達到1200GFlops浮點運算能力,遠遠高于GeForce8800GTX的346GFlops。如果這款芯片配合VLIW超長指令集,就能輕松完成各種Shader運算,從而支持DirectX 10標準。
除了集成度驚人之外,Intel順序執(zhí)行處理器還將和CPU一樣具有4MB緩存。每個內核都具有獨立的緩存區(qū)域,并且可以相互隨時訪問。這種實際共享但卻又相互獨立的緩存架構,使得每個內核都能獲得充足的帶寬——新架構使得芯片內部互聯(lián)帶寬達到了1TB/s,CPU與周邊設備連接帶寬也達到150GB/0s。
針對順序執(zhí)行處理器難以高效完成的抗鋸齒和各向異性過濾操作,Intel考慮在芯片內部集成專門負責這些工作的固定單元,從而獲得最高效率。另外,采用順序執(zhí)行之后的處理器的單線程執(zhí)行效率極為落后。為了解決這個問題,Intel希望通過大量并行線程來彌補單線程的低效率——在實現(xiàn)40線程并行之后,順序執(zhí)行處理器的單線程性能已經(jīng)達到了亂序執(zhí)行的50%。
必須指出的是,采用了全新順序執(zhí)行架構和超長指令集之后,新的處理器無法兼容X86指令集,這意味無法在這款處理器上運行Windows等軟件。由此看來Intel很可能在初期將這款芯片作為協(xié)處理器與普通X86 CPU配合,然后逐步接替更多的圖形、聲音等浮點密集操作,最后將GPU徹底趕出機箱。
結語
盡管我們無法在短期內看到Intel這款處理器和昱卡展開殊死搏斗,但是Intel順序處理器使我們看到了圖形芯片發(fā)展的全新道路,在SSE4指令集中Intel也增加了CPU-GPU交互的指令,也許這款順序執(zhí)行架構處理器僅僅是我們徹底擺脫顯卡功耗和成本狂飆的發(fā)展怪圖的開端……