999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

對使用TensorRT加速AI深度學習推斷效率的探索

2018-01-24 14:48:26施一飛
科技視界 2017年31期
關鍵詞:人工智能

施一飛

【摘 要】本文對使用TensorRT對目前流行的人工智能框架訓練的神經網絡模型的優化做了初步探索。目前基于人工智能的應用呈現爆炸式增長,圖像識別、語音識別,自然語言處理、圖像檢索等功能已經成了人們日常必須的工具,隨之而來對人工智能的推理效率和響應速度則提出更高要求。本文結合英偉達(nVidia)的TensorRT 3引擎和面向無人智能化的Jetson TX2平臺,對以上問題的解決做了初步嘗試。

【關鍵詞】人工智能;TensorRT;TensorFlow;神經網絡

作為人工智能浪潮中數字產品和服務的消費者,我們每天都會與多種人工智能相關的服務進行交互,包括語音識別,語言翻譯,圖像識別或視頻字幕生成等。在這些產品和服務的背后,神經網絡計算每個功能請求的結果。這個步驟在人工智能領域通常被稱為“推理”,即新的數據通過傳遞給受過訓練的神經網絡計算以產生結果。在過往的機器學習專業中,有時稱這個過程為“預測”或“計分”。

目前流行的做法是將神經網絡部署在云端Web服務中,接收來自數千或數百萬用戶的并發請求,計算每個請求的推理結果并響應給用戶。為了提供良好的用戶體驗,在考慮包括網絡延遲,神經網絡執行消耗和基于生產環境的其他延遲的情形下,努力促成最少響應時間。業界主要通過GPU的多核心并發計算能力和浮點運算的優勢,利用諸如Caffe、TensorFLow等深度學習框架加速深度神經網絡的訓練,解決特定應用程序的效率要求。這些框架可以進行網絡設計,執行模型評估和診斷以及用新數據重新訓練模型,為快速構建問題解決原型提供了很大的靈活性。

1 深度學習訓練和部署

用深度神經網絡解決機器學習的監督問題涉及兩個步驟:第一步,是使用GPU對海量標記數據進行深度神經網絡訓練。這一步中,神經網絡將學習數以百萬計的權重或參數,使其能夠在示例數據與正確的響應之間建立映射。因為目標函數相對于網絡權重已經被最小化,訓練過程通常需要通過網絡實現前推回代。通常,模型訓練和精確度需要根據非訓練期間的數據進行驗證,以預估在實景的表現。第二步,是使用訓練好的模型根據新采集的數據來進行預測。該步驟中,訓練效果最好的模型被用于運行在生產環境中的應用程序,如數據中心,汽車或嵌入式平臺。對于某些應用,如自動(輔助)駕駛,推理預測是需要實時完成的,那么計算中對高吞吐量、響應時間的駕馭至關重要。

如果目標是使用訓練后的神經網絡來感知其周圍的嵌入式設備,那么通過模型的前向推斷直接影響整體響應時間和設備消耗的功率。其中,要優化的關鍵指標是功率效率,即每瓦推斷性能。每瓦性能也是數據中心運營效率最大化的關鍵指標。在這種情況下,需要盡量減少地理上和時間上大量不相關的請求所引起的延遲和消耗的能量,這往往也成了限制大批量計算能力的關鍵因素。

2 用TensorRT優化訓練后神經網絡

TensorRT通過優化訓練后的神經網絡來生成出于待部署狀態的推理引擎,能最大限度地提高GPU推理性能和功效,尤其可以為諸如圖像分類、分割和對象檢測之類的深度學習應用提供最大的推理吞吐量和效率。TensorRT運行時,對從P4和V100等數據中心GPU到自動駕駛和嵌入式平臺(如Drive PX2和Jetson TX2)的每個GPU平臺的依賴性最小。

使用TensorRT先后需要完成編編譯和部署兩個階段任務。在編譯階段,TensorRT對網絡配置進行優化,生成優化計劃,用于計算通過深度神經網絡的正向推理。部署時采用駐守服務或用戶應用程序的形式接收輸入的批量數據,推理時根據輸入數據執行優化計劃,最后返回輸出數據(分類,對象檢測等)。

這里以TensorRT部署TensorFlow模型為例,說明如何在TensorRT中導入和優化經過訓練的TensorFlow神經網絡并將其部署為TensorRT運行時引擎。需要完成兩個步驟:(1)導入并優化訓練過的模型(這里需要使用TensorFlow框架的freeze_graph工具導出為凍結模型再導入),設置部署目標使用的GPU并發量、進度和內存等優化選項,生成推理引擎。以文件的形式存儲在磁盤上。(2)加載和反序列號把存好的推理引擎計劃文件,創建TensorRT引擎對象,使用它來進行目標部署平臺上的新數據推理。注意,這里我們可以不用安裝深度學習框架就可完成。下面是示例代碼:

代碼中UFF代表通用框架格式(Universal Framework format),它是運行優化引擎前用于表示網絡模型的TensorRT內部格式。函數from_tensorflow_frozen_model()負責進行模型轉換,第一個參數是待導入的TensorFlow訓練模型。第二個參數是輸出圖層名稱。目前在TensorRT中支持一般的標準圖層類型,包括卷積層、縮放層、完全連接層等。上述代碼的輸出是TensorFlow模型的UFF圖形表示,它可以通過TensorRT進行分析。我們通過提供輸入層的名稱和維度(CHW格式)和輸出層的名稱來配置UFF解析器。接下來的編譯過程,需要在目標平臺進行編譯,這里我們使用的是nVidia Jetson TX2,在需要使用Jetson TX2完成編譯。在設置TensorRT的優化參數時,設定推理并發量、內存占用和目標進度:

參數指定并發量為1,使用1MB的暫存空間進行進度為FP32的推斷。函數的輸出就是TensorRT優化的運行時引擎,可以用來進行推理。優化的內容包括圖層和張量垂直融合,內核的自動調優,張量動態記憶等。最后通過trt.utils.write_engine_to_file函數將引擎序列化為文件存儲。當需要執行TensorRT的推斷時,加載序列化的模型,進行推理。

而經過測試,在Jetson TX2平臺上,用GPU運行TensorRT引擎優化后的TensorFlow模型,推理速度提高了近4倍。可見,合理有效的利用TensorRT,可以極大的優化目前嵌入式或汽車GPU平臺的AI推理速度和響應時間。

【參考文獻】

[1]NVIDIA CUDA Programming Guide. http://docs.nvidia.com/cuda/pdf/CUDA_C_Programming_Guide.pdf.2013.

[2]面向GPU計算平臺的若干并行優化關鍵技術研究[D]. 賈海鵬.中國海洋大學,2012.endprint

猜你喜歡
人工智能
我校新增“人工智能”本科專業
用“小AI”解決人工智能的“大”煩惱
汽車零部件(2020年3期)2020-03-27 05:30:20
當人工智能遇見再制造
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
AI人工智能解疑答問
人工智能與就業
IT經理世界(2018年20期)2018-10-24 02:38:24
基于人工智能的電力系統自動化控制
人工智能,來了
數讀人工智能
小康(2017年16期)2017-06-07 09:00:59
人工智能來了
學與玩(2017年12期)2017-02-16 06:51:12
主站蜘蛛池模板: 成人福利在线免费观看| 日韩中文字幕亚洲无线码| 婷婷色中文网| 亚洲天堂网2014| 国产亚洲精品97在线观看| 制服丝袜亚洲| 精品国产一区91在线| 日韩精品无码免费专网站| 一本大道无码高清| 国产第一页免费浮力影院| 国产区精品高清在线观看| 2018日日摸夜夜添狠狠躁| 精品人妻一区二区三区蜜桃AⅤ| 亚洲色图欧美激情| h网址在线观看| 亚洲精品无码高潮喷水A| 动漫精品啪啪一区二区三区| 永久在线精品免费视频观看| 日韩在线2020专区| 成年人国产视频| av天堂最新版在线| 国产第一页屁屁影院| 亚洲 欧美 中文 AⅤ在线视频| 久久婷婷五月综合色一区二区| 亚洲视频色图| jizz国产在线| 国产精品对白刺激| 亚洲精品无码久久毛片波多野吉| 国产色图在线观看| 青青青视频91在线 | 久久久久久久久18禁秘| 欧美成人免费| 国产在线啪| 内射人妻无套中出无码| 在线观看免费黄色网址| 国产精品所毛片视频| 久久精品国产999大香线焦| 日本高清在线看免费观看| 日本久久网站| 99精品国产自在现线观看| 呦女亚洲一区精品| 视频在线观看一区二区| 欧美h在线观看| 九色综合视频网| 中文字幕人成乱码熟女免费| 国产一级二级在线观看| 亚洲欧美在线精品一区二区| 国产91久久久久久| 久久亚洲高清国产| 欧美精品一二三区| 精品综合久久久久久97超人该| 激情爆乳一区二区| 色网站在线免费观看| 国产高清免费午夜在线视频| 亚洲欧美日韩成人在线| 日本人妻一区二区三区不卡影院| 国产欧美日韩视频怡春院| 波多野结衣AV无码久久一区| 精品人妻一区二区三区蜜桃AⅤ| 亚洲男女天堂| Jizz国产色系免费| 九九热免费在线视频| 性喷潮久久久久久久久| 国产新AV天堂| 欧美va亚洲va香蕉在线| 国产亚洲男人的天堂在线观看| 天天综合网色| 人妻丰满熟妇av五码区| 91www在线观看| 国产特级毛片| 超薄丝袜足j国产在线视频| 欧美成人一区午夜福利在线| 亚洲欧美日韩综合二区三区| 久久精品人妻中文系列| 99在线免费播放| 久久人体视频| 香蕉久人久人青草青草| www.国产福利| 国产精品免费p区| 99在线观看视频免费| 婷婷99视频精品全部在线观看| 色久综合在线|