Ｉｎｔｅｌ的融合術

2007-12-31 00:00:00Ｒａｍｐａｇｅ

電腦迷 2007年12期

當今顯卡不僅具備強大的運算能力，在可編程性方面也有了長足的進步。面對顯卡市場的高額利潤。Intel在2006年成立了可視化計算工作組(visual Computing Group，簡稱VCG)，并且希望在2007年底重返獨立顯卡市場，近期Intel VSG公布的最新研究成果震動了整個業(yè)界—Intel準備讓GPU和CPU合二為一，憑借自己在CPU領域的霸主地位讓GPU在未來徹底消失!Intel憑什么能讓GPU在未來走人歷史?就讓我們一起探個究竟。

一“芯”多用，從根基撼動顯卡世界

作為一個后來者，Intel如果在顯卡市場和NVIDIA、ATi展開正面交鋒顯然不是明智之舉。為此Intel希望在未來借助CPU市場的成功來統(tǒng)治顯卡市場，CPU、GPU混合芯片的大膽嘗試應運而生。Intel的研究表明，和GPU相比CPU具有不可超越的靈活性，但卻在浮點運算能力和并行性方面遠不及前者。而這兩個特性對于圖形操作來恰恰是至關重要的。一旦CPU具有強大并行性和浮點運算能力，再加上天生的完全可編程能力，GPU就徹底失去了存在的必要。為了實現(xiàn)這一目標，Intel提出了順序執(zhí)行多內核處理器的概念。

所謂順序執(zhí)行就是CPU按照每個線程的指令順序依次運行的指令執(zhí)行模式。而當今所有桌面CPU使用的亂序執(zhí)行，則會由CPU自動將線程上指令分拆執(zhí)行，最后再合成。對于單線程任務來說，亂序執(zhí)行由于減少了指令之間的等待，因此具有極高的效率，但由于多出了指令分析和結果合成邏輯，所以要耗費大量的晶體管。順序執(zhí)行盡管效率只有亂序執(zhí)行的1/3，但消耗的晶體管也少得驚人。在圖形操作領域，指令具有很強的并行性，這也是順序執(zhí)行大顯神威的地方。

當今Core2 Duo雙內核處理器在65納米制程下的芯片面積為140平方毫米。如果改用順序執(zhí)行單元，同樣芯片面積能夠容納多達10個內核，每個內核都具有同步多線程(SMT)功能，這樣Intel順序執(zhí)行處理器就能在一個時鐘周期執(zhí)行40條線程，從而達到1200GFlops浮點運算能力，遠遠高于GeForce8800GTX的346GFlops。如果這款芯片配合VLIW超長指令集，就能輕松完成各種Shader運算，從而支持DirectX 10標準。

除了集成度驚人之外，Intel順序執(zhí)行處理器還將和CPU一樣具有4MB緩存。每個內核都具有獨立的緩存區(qū)域，并且可以相互隨時訪問。這種實際共享但卻又相互獨立的緩存架構，使得每個內核都能獲得充足的帶寬——新架構使得芯片內部互聯(lián)帶寬達到了1TB/s，CPU與周邊設備連接帶寬也達到150GB/0s。

針對順序執(zhí)行處理器難以高效完成的抗鋸齒和各向異性過濾操作，Intel考慮在芯片內部集成專門負責這些工作的固定單元，從而獲得最高效率。另外，采用順序執(zhí)行之后的處理器的單線程執(zhí)行效率極為落后。為了解決這個問題，Intel希望通過大量并行線程來彌補單線程的低效率——在實現(xiàn)40線程并行之后，順序執(zhí)行處理器的單線程性能已經(jīng)達到了亂序執(zhí)行的50％。

必須指出的是，采用了全新順序執(zhí)行架構和超長指令集之后，新的處理器無法兼容X86指令集，這意味無法在這款處理器上運行Windows等軟件。由此看來Intel很可能在初期將這款芯片作為協(xié)處理器與普通X86 CPU配合，然后逐步接替更多的圖形、聲音等浮點密集操作，最后將GPU徹底趕出機箱。

結語

盡管我們無法在短期內看到Intel這款處理器和昱卡展開殊死搏斗，但是Intel順序處理器使我們看到了圖形芯片發(fā)展的全新道路，在SSE4指令集中Intel也增加了CPU-GPU交互的指令，也許這款順序執(zhí)行架構處理器僅僅是我們徹底擺脫顯卡功耗和成本狂飆的發(fā)展怪圖的開端……

電腦迷2007年12期

電腦迷的其它文章: 不再談ＡＲＰ色變ＡＲＰ攻擊原理與防御; 巧設置讓Ｗｉｎｄｏｗｓ不再丟面子; 巧取百度空間ＣＳＳ代碼; 斷線不怕我有脫機文件; 網(wǎng)絡問答; 魅力粉色，浪漫典藏