999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

智能駕駛-AI芯片的算力研究

2019-01-10 07:05:32于繼成王強趙目龍焦育成
汽車文摘 2019年1期

于繼成 王強 趙目龍 焦育成

(中國第一汽車集團有限公司智能網聯研發院,長春 130011)

主題詞:智能駕駛 算力單位 算力計算方法 算力對比分析

1 前言

在對駕駛汽車更便捷、更安全、更舒適的追求下,人類已經拉開了無人駕駛的幕布。縱觀世界,奧迪A8搭載了L3級自動駕駛控制器,可在時速為60 km/h內的城市道路自動駕駛,是世界上首輛量產的L3級別自動駕駛車輛,這也開啟了傳統汽車廠商在智能汽車方面的開端,使得豪華車向智能豪華車轉變。

智能駕駛汽車現已可配置激光雷達、毫米波雷達、超聲波雷達、前視攝像頭、環視攝像頭、夜視紅外攝像頭等大量的傳感器用以采集道路數據、感知駕駛環境,但是只有傳感還不夠,還要有一個足夠強大的大腦對數據進行分析,并做出正確的規劃和決策。這大腦部分就是由多個車規級的智能駕駛AI芯片搭建而成,包括GPU、FPGA、MCU及ASIC芯片等[1]。

2007年,一汽集團與國防科技大學合作,在紅旗HQ3車型基礎上完成高速公路自動駕駛樣車,開啟了中國一汽對自動駕駛探索之路。2011年7月,紅旗HQ3無人車完成了從長沙到武漢286 km的高速全程無人駕駛實驗,歷時3小時22分鐘,展示了一汽集團在自動駕駛上的探索成果;2015年4月,一汽集團正式發布了其“摯途”技術戰略,標志著一汽集團的互聯智能汽車技術戰略規劃正式形成。2015年4月19日,一汽在同濟大學舉行了“摯途”技術實車體驗會,包含有“手機叫車、自主泊車、擁堵跟車、自主駕駛”等4項智能化技術[2]。2018年一汽集團徐留平董事長在北京鳥巢發布了紅旗品牌戰略,新紅旗將突出“新高尚”、“新精致”、“新情懷”的理念,打造卓越產品和服務,發布了一汽紅旗品牌自動駕駛發展規劃。

中國第一汽車集團有限公司放眼世界造車趨勢,集全集團之力誓將自主紅旗品牌打造為中國第一、世界著名的汽車品牌。中國一汽將智能化、網聯化作為新紅旗汽車的核心魅點,匹配當前用戶追求極致體驗的需求。在2018年上市的紅旗H5身上,消費者已經切身體驗到行業領先的新紅旗卓越智能駕駛系統。隨后,中國一汽將不斷推出更加智能化、高度自動化、完全自動化駕駛的新紅旗產品。其中,2019年推出實現L3(SAE)級自動駕駛的量產車型,2020年推出實現L4(SAE)級自動駕駛的量產車型,2025年將實現L5(SAE)級自動駕駛量產車型,部分內容摘自一汽徐留平董事長紅旗品牌戰略發布會講話。

作為從事硬件設計的工程師,為了提升對自動駕駛硬件方案的設計水平,緩解對供應商硬件方案的評估壓力,建立對自動駕駛硬件方案的技術管控能力,需要對各個芯片廠家的AI芯片的功能和計算處理能力清楚掌握。

本文將從AI芯片最基礎的算力資源及算力大小、計算的角度,揭開自動駕駛AI芯片的面紗。

2 自動駕駛AI芯片算力

2.1 算力研究的意義

自動駕駛域控制器的開發,OEM通常有兩種方式,自主開發或者向供應商采購。如果自主開發,AI芯片廠家包括Xilinx、NXP、Renesas、Intel、NVIDIA、TI等所生產的不同AI芯片、不同硬件資源架構、不同計算能力,該如何取舍?如果向供應商采購,供應商如恒潤、偉世通、地平線、東軟、TTTech等所提供的硬件方案是否能夠滿足應用需求、實現應有的功能、規避項目失敗的風險?這些問題使得我們不得不從硬件設計之初,芯片方案選型階段就要充分論證AI芯片的算力資源。

以往,關于自動駕駛芯片算力的信息來自于AI芯片廠家提供及Tire1方案中的AI芯片對比數據,這種模式導致以下幾點問題:

1)不能有效審核Tire1算力評估的準確性;2)無法對應AI芯片本身算力支持的硬件資源;3)不能根據需求進行算力匹配與AI芯片選型。所以,了解各廠家AI芯片的內部算力資源、了解算力的計算方法、統一算力單位成為自動駕駛硬件設計的重要工作內容。

2.2 算力基礎概念

2.2.1 算力單位

OPS(Operations Per Second):每秒完成操作的數量,乘操作算一個OP,加操作算一個OP;

MACS:表示每秒可執行的定點乘累加操作次數,可借用于衡量自動駕駛計算平臺定點數據運算處理能力,這個量之前用在那些大量定點乘法累加運算的科學運算中,記為MACS。1G MACS等同每秒10億(=109)次的定點乘累加運算;

FLOPS(Floating-Point Operations Per Second):每秒可執行的浮點運算次數的字母縮寫,它用于衡量計算機浮點運算處理能力。這個量經常用于需要大量浮點運算的科學運算中。在自動駕駛領域,由于NVIDIA SOC支持浮點運算,且是目前最強處理IC之一。浮點運算,實際上包括了所有涉及小數的運算。浮點運算比整數運算更復雜、更精確、更耗費時間。

DMIPIS(Dhrystone Million Instructions executed Per Second):Dhrystone:是測量處理器運算能力的最常見基準程序之一,常用于處理器的整型運算性能的測量。MIPS:每秒執行百萬條指令,用來計算同一秒內系統的處理能力,即每秒執行了多少百萬條指令。

2.2.2 基于INT8的深度學習架構

隨著更精確的深度學習模型被開發出來,它們的復雜性也帶來了高計算強度和高內存帶寬方面的難題。能效正在推動著深度學習推斷新模式開發方面的創新,這些模式需要的計算強度和內存帶寬較低,但絕不能以犧牲準確性和吞吐量為代價。降低這一開銷將最終提升能效,降低所需的總功耗。

INT8除了降低神經網絡計算中數據傳輸帶來的功耗,較低位寬的計算方式同時可以降低內存帶寬帶來的功耗費用,可理解為在相同內存事務的情況下傳輸的位數減少了,進而降低了總功耗[3]。

研究顯示要保持同樣的準確性,深度學習推斷中無需浮點計算,而且圖像分類等許多應用只需要INT8或更低定點計算精度來保持可接受的推斷準確性。表1列出了精調網絡以及卷積層和完全相連層的動態定點參數及輸出。括號內的數字代表未精調的準確性。

表1 帶定點精度的CNN模型精度對比分析[4]

通過上表可以看出,在自動駕駛圖像處理應用中,在不同的參數神經網絡下,INT8與32位浮點的定點精度高度相近,所以在降低功耗,減少數據傳輸帶寬的優勢下,INT8成為目前被廣為看好的精度格式。

3 算力計算公式

3.1 單位換算

3.1.1 MACS與OPS單位轉換

深度學習和神經網絡使用相對數量較少的計算原語(Computational Primitives),而這些數量很少的計算原語卻占用了大部分計算時間。矩陣乘法和轉置是基本操作。矩陣乘法由乘法累加(MAC)操作組成。Ops/s(每秒完成的操作數量)指的是通過每秒可以完成多少個MAC(每次乘法和累加各被認為是1個operation,因此MAC實際上是2個OP)得到[5]。所以,可以得到MACS與OPS之間的換算關系如下:1MACS=2?OPS。

3.1.2 ARM核算力DMIPS查詢方法及算力計算

智能駕駛AI芯片內部均集成有多個內核,而目前各個AI芯片廠商尤其以集成ARM內核居多。ARM核多用于多圖像處理(轉化及提取)、目標識別和融合、具有功能安全定義的決策制定等功能。

這里先介紹一下ARM核的算力查詢方法,ARM公司將其ARM核的算力信息更新在在維基百科上,可通過以下網址查詢[6],如表2所示。

表2 ARM核工作主頻及算力數據表[6]

例如某片SOC內部集成4個A53核,工作主頻為1.2 GHZ,則該SOC內部ARM核部分的計算處理能力為4×(2.3 DMIPS/MHz)×1.2 GHz=11.04 K DMIPS。

當然有些AI公司會自己開發內核,如Infineon的Tricore MCU TC297內部集成的是其自己的內核,類似于這些非集成ARM內核的AI芯片的算力,在選型時需要與廠家進行仔細確認。

3.2 恩智浦S32V算力資源分析

3.2.1 芯片S32V234算力分析

恩智浦(NXP)下一代S32家族計算平臺是一個完全可擴展的計算平臺,基于公用架構,可以根據不同的應用,像雷達應用、網關應用、視覺的應用添加特有的功能IP,派生出針對功能安全和動力總成應用的S32S/P、雷達應用的S32R、下一代網關應用的S32G、視覺應用的S32V、自動駕駛應用的S32A和通用的S32K[7]。S32V234有2個專用的圖形處理加速器APEX[8],如下圖1所示。APEX由2個APEX-642 ICP核組成,每個ICP核由2組APU組成,每個APU包含32個CU(矢量計算單元-Computational Units)和1個ACP(標量計算及調度)。所以每個APEX有128個CU,4個ACP。其總計算能力為80 GMACs,即在400 MHz時鐘內,每個時鐘周期可以完成200次MAC運算,這得益于CU的SIMD處理特性。

圖1 S32V234 Block Diagram[8]

3.2.2 下一代產品S32V3xx計算能力資源簡介[8]

恩智浦下一代高算力產品S32V3xx的算力資源采用三個全新架構設計的APEX-D硬核圖像處理加速器,總算力將比S32V2xx有大幅度提高。

S32V3xx性能的提高主要來源于以下因素:

(1)S32V3xx采用了全新設計的APEX-D加速處理器,架構上作了優化提升;

(2)時鐘頻率提升超過1倍;

(3)每個CU的處理能力大幅提升,每個時鐘周期可以完成更多的MAC運算;

(4)整體功耗將控制在更低水平。

具體算力信息待NXP官方宣稱,但可以肯定的是,這款芯片未來的應用場景非常可觀,將會為自動駕駛技術的發展注入強勁力量。

3.3 瑞薩R-CAR算力資源分析

R-Car H3基于ARM? Cortex?-A57/A53核構建,采用ARM的最新64位CPU核架構,實現了40 000 DMIPS(Dhrystone百萬指令/每秒)的處理性能。

IMP是瑞薩(Renesas)的AI芯片中的一個圖像處理加速核,把許多圖像處理相關的算子進行了硬件化。支持的一些預處理操作包括density-conversion、bit-inversion、normalization等,后處理包括Absolutevalue processing、normalization、density conversion等,像素轉換、數學運算、邏輯運算、Convolution、Labeling、Histogram processing和Sobel-filter等。

R-CAR芯片核心是MAC計算,主要基于5X5卷積運算,每個5X5卷積運算是25 MACs/cc,5X5卷積運算在一個Clock cycle可以處理2個Pixel,每個Pixel是指一個8 bit的像素數據。

以R-CAR H3為例,H3有4個5X5卷積運算單元,工作頻率533 MHz,算力也就是25 MACs/cc X 2 pixels/cc X 533 MHz X 4 IMP Cores=106 G MACS。

R-CAR H3[9]系統框圖如圖2所示:

圖2 R-CAR H3系統框圖[9]

3.4 德州儀器TDA2S算力分析

德州儀器(TI)的AI芯片內部包括ARM核、DSP和專為視覺處理設計的完全可編程的視覺加速器。

TDA2x SoC內部包含2個TI知識產權定浮點DSP內核C66x和4個專為視覺處理設計的視覺加速器EVE,完全可編程,工作主頻可達到650 MHz。

TDA2S的DSP內核是TI自己開發的產品[10],可在其官網上對DSP算力進行查詢,網址為:http://www.ti.com/processors/dsp/c6000-dsp/c66x/overview.html,查詢結果如表3所示。

TI的EVE@650MHz視覺圖像處理硬件加速器的算力為11.5 G OPS,DSP C66@750MHz的算力為4.6 G OPS,以TDA2s為例,其算力大小為2×DSP+4×EVE=55.2 G OPS=27.6 G MACS。

表3 TI官網DSP算力表[10]

3.5 賽靈思Ultra Scale ZU系列SOC算力分析

3.5.1 賽靈思(Xilinx)的FPGA在自動駕駛應用中的優勢

作為GPU在算法加速上的強有力競爭者,FPGA在自動駕駛方案中越來越被看好,首先由于FPGA自身低能耗的特點,十分適合于傳感器數據的(預)處理工作;同時FPGA具有硬件可升級、可迭代的優勢,能夠滿足感知算法的不斷更新;另外FPGA具有高性能及可編程特性,十分適合感知計算;最后,FPGA相比GPU價格便宜,相比于CPU與GPU有明顯的性能與能耗優勢。

3.5.2 FPGA算力計算分析

FPGA內部包括ARM內核、DSP Slices等算力資源。其中DSP Slices資源可以在Xilinx官網的選型指導手冊查到[11],如下表4所示。

表4 賽靈思車規級FPGA硬件資源表[11]

DSP Slice的算例計算公式為:可以按這個公式來算GOPS:DSP數量×最高時鐘×1.75×2,其中需要說明的是1個DSP平均可以做1.75次INT8運算、1個DSP是算2個運算。

以Xilinx的ZU5EV為例,其DSP Slice數量為1 248個,最高時鐘為645 MHz,根據以上計算公式可得ZU5EV的算力大小為:DSP數量×最高時鐘×2×1.75=1.248 K×645 MHz×2×1.75×G/1000=2817.36 G OPS=1408.68 G MACS=1.4 T MACS。

3.6 英偉達Tegra Parker SOC算例分析

3.6.1 基于GPU的計算解決方案

GPU在浮點運算、并行計算等部分的計算方面,能夠提供數十倍甚至上百倍的CPU性能。利用GPU運行機器學習模型,在云端進行分類和檢測,相對比CPU耗費的時間將大幅度縮短。憑借強大的計算能力,在機器學習快速發展的推進下,GPU目前在深度學習芯片市場非常受歡迎。

憑借具備識別、標記功能的圖像處理器,英偉達(NVIDIA)在人工智能領域搶占先機。NVIDIA的PX2平臺是目前領先的基于GPU的無人駕駛解決方案,分別為Tesla、百度和算法公司等提供全套的硬件解決方案。在Drive PX2中,Auto Chauffeur是一個定義面向L3的版本,其運算部分的配置是雙Parker SoC(提供256個CUDA運算資源),外加雙MXM3.1接口的Pascal架構獨立運算圖形處理單元GP106(GPU,提供1 280個CUDA運算單元)組成,片圖形處理單元都有自己的專屬內存以及專用的指令以完成深度神經網絡的硬件加速。借助優化的I/O架構與深度神經網絡的硬件加速,單臺PX2 Auto Chauffeur能夠執行每秒24兆次深度學習計算。

3.6.2 GPU的算力計算

GPU的浮點計算理論峰值能力測試跟CPU的計算方式基本一樣:

理論峰值=GPU芯片數量×GPU Boost主頻×核心數量×單個時鐘周期內能處理的浮點計算次數,

只不過在GPU里單精度和雙精度的浮點計算能力需要分開計算[12]。

雙精度理論峰值=FP64 Cores×GPU Boost Clock×2=xxx T flops

單精度理論峰值=FP32 cores×GPU Boost Clock×2=xxx T flops

以Tegra Parker SOC為例,其內部有256個CUDA Cores,工作主頻是1 275 MHz:其雙精度理論算力峰值為FP64 Cores×GPU Boost Clock×2 = 0.65 T flops。

4 算力概括

通過以上對各個芯片廠家的AI芯片的算力分析,得到的是理論峰值,在方案階段的對比選型數據,可以作為重要的參考要素,但是不能忽略有效算力這個概念,在硬件設計中如何協同合作發揮出AI芯片的有效算力是各位自動駕駛工程師需要共同面對和解決的重要問題。

本文最后根據上面所羅列的計算方法對各廠家AI芯片的算力進行總結比較,在這里需要聲明的是各廠家對自動駕駛AI芯片的布局均有各自的策略和側重點,對AI芯片的算力計算用以方案算力初始冗余量評估,本文的對比數據并無對不同AI芯片的優劣好壞的評比,而是在此建議設計師們根據需求、根據應用進行選型,選擇最合適的而不是最貴的、性能最強大的。統計數據如表5所示。

表5 各芯片廠家部分AI芯片算力統計表

5 結束語

為促進一汽紅旗智能駕駛汽車的發展,本文從最基礎的AI芯片進行了論述,對AI芯片的計算處理能力進行了闡釋說明。希望能夠對未來的產品開發和芯片選型等提供參考依據。

高計算能力的AI芯片往往帶來更多的功耗需求,汽車用AI芯片將在高計算能力和低功耗的平衡中不斷發展突破,為實現L5級的完全自動駕駛需求,除算法上面的不斷改進外,對AI芯片算力的需求也將朝著百TOPS級別發展。目前,在電動車及混動車型上更容易滿足自動駕駛大功耗的計算平臺需求,在提供大功率供電的同時,也可借助電池冷卻液解決高功耗帶來的散熱難題。

致謝

感謝王強、趙目龍、焦育成等人對本文的形成給與的巨大支持與細致的校對,對本文的形成起了重要作用。他們是一汽從事智能駕駛硬件設計人員的先行者與開拓者,在面對并解決重重困難中,為一汽的自動駕駛事業保駕護航。

主站蜘蛛池模板: 亚洲高清无在码在线无弹窗| 亚洲成人手机在线| 亚洲精品人成网线在线| 丁香亚洲综合五月天婷婷| 亚洲国产综合精品一区| 国产精品主播| 91国内在线观看| 国产免费福利网站| 日本亚洲欧美在线| 成人日韩精品| www成人国产在线观看网站| 亚洲天堂啪啪| 国产在线日本| 欧美国产日韩另类| 国产一线在线| 亚洲精品国产精品乱码不卞| 国产成人综合欧美精品久久| 国产精品无码一二三视频| 2021国产精品自产拍在线| 亚洲侵犯无码网址在线观看| 一级毛片免费观看久| 天天综合网亚洲网站| 久久一日本道色综合久久| 午夜精品国产自在| 国产尹人香蕉综合在线电影| 国产精品尹人在线观看| 亚洲日韩久久综合中文字幕| 88av在线看| 亚洲一级毛片在线播放| 91国内在线观看| 无码丝袜人妻| 欧美综合在线观看| 好吊妞欧美视频免费| 久久精品无码中文字幕| 女人天堂av免费| 亚洲手机在线| 91成人在线免费视频| 国产99在线| 欧美性猛交一区二区三区| 国产极品粉嫩小泬免费看| 国产91无码福利在线| 在线网站18禁| 欧美日韩成人在线观看| 538国产视频| 亚洲视频免费在线看| 99视频在线观看免费| 热re99久久精品国99热| 真实国产乱子伦高清| 国产国产人免费视频成18| 国产迷奸在线看| 久久国语对白| 亚洲日本中文字幕乱码中文| 国产精品国产主播在线观看| 88av在线| 亚洲福利网址| 国产视频 第一页| 国产成人h在线观看网站站| 欧美亚洲网| 日韩乱码免费一区二区三区| 精品成人一区二区三区电影| 男女性午夜福利网站| 亚洲中文字幕无码爆乳| 色婷婷电影网| 久久精品女人天堂aaa| 国产鲁鲁视频在线观看| 国产日韩欧美精品区性色| 久热中文字幕在线| 成·人免费午夜无码视频在线观看| 99久久国产综合精品女同| 精品国产网站| 中文字幕色站| 国产一级无码不卡视频| 亚洲精选无码久久久| 九色综合伊人久久富二代| 伊人久久久久久久| 国产一区二区三区在线观看视频| 亚洲天堂精品视频| 成年人久久黄色网站| 真实国产精品vr专区| 亚洲精品高清视频| 永久成人无码激情视频免费| 国产又色又刺激高潮免费看|