施羽暇 中國信息通信研究院政策與經濟研究所工程師,博士
人工智能芯片技術研究
施羽暇 中國信息通信研究院政策與經濟研究所工程師,博士
人工智能將推動新一輪計算革命。深度學習需要海量數據并行運算,傳統計算架構無法支撐深度學習的大規模并行計算需求。核心芯片是人工智能時代的戰略制高點,決定了一個新的計算平臺的基礎架構和發展生態。本文分析了人工智能產業全球及我國主要態勢、人工智能技術體系、全球及我國人工智能芯片的發展路線,并對不同技術路線的主要特點進行了比較和分析。
人工智能;核心芯片;技術體系;技術趨勢
隨著2016年AlphaGo在人機圍棋大戰獲勝后,人工智能在全球范圍引發關注,成為投資風口,全球人工智能領域的投資金額已成爆發增長態勢。從企業方面看,全球企業加快布局,2016年9月底谷歌、臉書、IBM等五大科技巨頭聯合成立了AI合作組織,以促進人工智能技術的發展。從國家層面看,各國政府也紛紛出臺相關戰略,美國政府在2016年10月12日發布了《為人工智能的未來做好準備》和《國家人工智能研究與發展戰略計劃》兩份重要報告,英國政府隨后發布了《機器人和人工智能》報告。科技巨頭投資并購持續活躍。投資在過去5年間強勁增長,創新高科技大型公司是人工智能投資的主力軍。人工智能創業企業總體處于發展初期,投資主要集中在早期階段,最近3年B輪和C輪投資顯著增長。
人工智能在歷史上經歷過三起三落的浪潮,在今天之所以再次興起,有兩方面的原因:
一是技術的推動、軟硬件的發展。包括海量數據的形成、深度學習算法的革新、硬件技術的變革和網絡基礎設施的發展。
二是互聯網興起奠定生態基礎。移動互聯網、物聯網的快速發展為人工智能的產業奠定了生態基礎。谷歌、臉書、百度等國內外行業巨頭加快了智能化轉型的步伐,新的商業模式正在蓄勢形成。人工智能產品背后的數據、軟件及算法等是人工智能的核心要素,而包括機器人、語音助手等在內的軟硬件產品僅是人工智能的載體。
人工智能技術體系可分為3層,即底層基礎層、中間技術層與上層應用層(見圖1)。基礎層包含硬件存儲、計算平臺和數據資源等,GPU芯片、傳感器、云計算平臺、大數據等均包含在此層中。中間技術層包含算法、模型平臺,感知智能算法、認知智能算法等均在此層中。應用層包含硬件產品和應用服務,硬件中包含智能硬件、無人機、智能機器等,應用服務包含語音輸入法、虛擬助手、自動駕駛及智能安防等。
大數據、底層算法和核心處理器芯片是支撐人工智能技術不斷發展的關鍵要素。數據量的豐富程度是提升算法有效性的決定因素之一。隨著移動設備滲透,全球數據量加速爆發,不僅數據流增長,數據種類也在不斷增多。從算法層面看,深度學習與傳統機器學習相比,能讓計算機自動學習特征并建立模型,減少了人類在總結特征時的不完備性。從硬件來看,根據摩爾定律,計算成本指數下降,大規模并行計算加速發展為深度學習奠定計算基礎。
基于深度學習模型的算法對大規模并行計算能力的需求不斷增加,CPU和傳統計算架構無法滿足對于并行計算能力的需求。核心芯片成為競爭的戰略制高點。在PC時代和移動互聯網時代分別處于霸主地位的X86架構和ARM架構的發展歷程表明,核心芯片決定了一個新的計算平臺的基礎架構和發展生態,人工智能將引領下一代計算機架構革命。

圖1 人工智能技術體系結構
處理器芯片面向人工智能硬件優化升級,目前有兩種發展路徑:一種是延續傳統計算架構,加速硬件計算能力,主要以4種類型的芯片為代表,即GPU、DSP、FPGA、ASIC,但CPU依舊發揮著不可替代的作用;另一種是顛覆經典的馮諾依曼計算架構,采用人腦神經元的結構來提升計算能力,以IBMTrueNorth芯片為代表。
3.1 CPU及其局限性
超速處理硬件發展起來后,CPU在機器學習上進行的計算量大大減少,但是CPU并不會完全被取代,因為CPU較為靈活,且擅長于單一而有深度的運算,還可以做其他事情。Intel推出至強處理器Phi系列產品。但是即便Intel的芯片在集成度和制造工藝上具有優勢,由于CPU并非針對深度學習的專業芯片,相對于專業芯片,其運行效率必然受到一定影響。
3.2 GPU
基于GPU的技術陣營,代表企業有英偉達和高通。GPU作為最早從事并行加速計算的處理器,相比CPU速度快,比其他處理器芯片價格低,但是GPU也有一定的局限性。深度學習算法分為訓練和執行兩部分,GPU平臺在算法訓練上非常高效。但在在執行部分,由于GPU只能單任務進行處理,效率較低。
3.3 DSP
基于DSP的技術陣營,以Cadence和Synopsys為代表。用傳統DSP架構來適配神經網絡的技術思想在國際上目前已有成熟的產品,例如Synopsys公司的EV處理器、Cadence公司的TensilicaVisionP5處理器和CEVA公司的XM4處理器等。其中,EV處理器可在典型的28nm工藝技術中實現高達1GHz的運行速率。但3者都是針對圖像和計算機視覺處理器IP核,應用領域有一定的局限性。
3.4 FPGA
基于FPGA的技術陣營,代表企業有Xilinx和Altera。相比GPU,FPGA硬件配置靈活、單位能耗比低、價格便宜。但是,FPGA對使用者要求需具備硬件知識,要求較高。目前的FPGA市場由Xilinx和Altera主導,兩者共同占有85%的市場份額。此外,FPGA正迅速取代ASIC和應用專用標準產品(ASSP)來實現固定功能邏輯。Intel宣布要用10nmCMOS節點制造FPGA芯片,依然采用ARM作植入CPU。
3.5 ASIC
基于ASIC的技術陣營,以谷歌為代表。TPU是谷歌推出的ASIC類芯片,專門為機器學習設計,目前為開源平臺Tensorflow專用的集成電路。而TPU為專用的邏輯電路,單一工作,速度快,但成本高。目前存在的缺點是為Google專用,還不是消費類產品。
3.6 神經形態芯片
另一條路徑是顛覆經典的馮諾依曼架構。基于神經形態芯片架構,以IBMTruenorth為代表。IBM研究人員將存儲單元作為突觸、計算單元作為神經元、傳輸單元作為軸突搭建了神經芯片的原型。目前,Truenorth用三星28nm低功耗工藝技術,由54億個晶體管組成的芯片構成有4096個神經突觸核心的片上網絡,實時作業功耗僅為70MW。由于神經觸突要求可變與有記憶功能,IBM采用CMOS工藝兼容的相變非揮發存儲器(PCM)的技術實現,加快了商業化進程。
CPU通用性最強,但延遲嚴重,散熱高,效率最低。
GPU相對其他通用性稍強、速度快、效率高,但是在神經網絡的執行階段效率低。
DSP速度快、能耗低,但是任務單一,目前成熟商品僅作為視覺處理器IP核使用。
FPGA具有低能耗、高性能以及可編程等特性,相對于CPU與GPU有明顯的性能與能耗優勢。
ASIC可以更有針對性地進行硬件層次的優化,從而獲得更好的性能。但是ASIC芯片的設計和制造需要大量的資金、較長的時間周期和工程周期,而且深度學習算法還未完全穩定,若深度學習算法發生大的變化,FPGA能很快改變架構,適應最新的變化,ASIC類芯片一旦定制無法再次進行寫操作。另外,FPGA結構非常規整,相比于ASIC芯片可以享受最新的集成電路制造工藝帶來的性能和功耗優勢。
當前階段,GPU配合CPU將是人工智能芯片的主流,而后隨著視覺、語音、深度學習的算法在FPGA上的不斷優化,FPGA將逐漸取代GPU與CPU成為主要芯片。從長遠看,人工智能類腦神經芯片是發展的路徑和方向。
人工智能發展歷經波折,在今天再度興起,得益于海量數據的形成、深度學習算法的革新、硬件技術的變革。算法和芯片是制約人工智能產業爆發的關鍵核心要素。深度學習需要海量數據并行運算,傳統計算架構無法支撐深度學習的大規模并行計算需求,全球科技巨頭紛紛搶占人工智能芯片的戰略制高點。人工智能芯片行業作為產業最上游,是人工智能產業發展的基礎和先鋒。人工智能芯片更注重超速運算能力,呈現與通用處理器芯片差異化發展態勢。我國在移動芯片發展浪潮中積累了一定的產業優勢,在腦神經芯片技術研發上布局早,為了能夠在人工智能時代占據國際領先地位,我國應加快戰略步伐,加大研發力度,合理選擇技術發展路徑,把握我國在處理器技術方面變道超車的機會,促進人工智能產業爆發。
華為攜手LRTC發布全球首個4G網絡IPTV商用業務
歐洲立陶宛領先的電信運營商LRTC攜手華為近日發布了全球第一個基于4GfixedLTE(WTTx,WirelessToTheX)網絡IPTV商用業務,讓更多家庭快速接入寬帶服務,享受高質量的視頻業務體驗。
LRTC的無線寬帶接入和VoIP語音服務早已投入商用。此次作為業界首秀,其與華為聯合創新推出了基于4G網絡CPE+機頂盒的IPTV及視頻點播業務(VOD)。據悉,LRTC此次推出了34個電視頻道,另外還包括運動、科技探索、商業財經等付費點播內容。除了LRTC,歐洲、亞太和中東其它移動運營商也在積極測試基于WTTx的TV及OTT視頻點播業務。
LRTCCEORemigijusSeris指出:“通過此次與華為的全面合作,我們成功地推出了無線網絡IPTV服務以滿足現代電視業務的巨大需求,特別是那些居住在郊區和鄉村的客戶。我們也希望,IPTV項目將縮小立陶宛技術發達城市和欠發達區域之間的數字鴻溝。”
Researchonartificial intelligence process chip technology
SHIYuxia
Artificial intelligence will drive a new round of computing revolution. Deep learning requires massive data parallelcomputing, but the traditional computing architecture cannot support the large- scale parallel computing needs of deeplearning. The core process chip is the strategic high ground of the artificial intelligence era, deciding the infrastructure anddeveloping ecology of a new computing platform. This paper analyzes the main trend of artificial intelligence industry and thesituation of China, the artificial intelligence technology system, the global and Chinese artificial intelligence chipdevelopment route, and compares and analyzes themaincharacteristics of different technical routes.
artificial intelligence;core chip;technology system;technology trend(
2016-11-27)