崔方明,時宏偉
(四川大學計算機學院,成都610065)
隨著各行業生產的數據量越來越多,對數據分析處理能力的標準不斷升高,怎樣面對海量數據的挑戰,并在其中發現新的機遇,已經得到了各行業的廣泛重視。由于大數據分析建立新型智能信息交通服務系統是當務之急,國內外有關交通大數據的研究正在進行中,與此同時,交通大數據一定會成為該領域數據積累的重要方向,應引起重視。
SimGAN是一種深度學習中的對抗生成模型[1]。SimGAN模型是生成交通數據最有效的方法之一。
目前,國內大數據研究已經比較成熟,有些互聯網公司例如:滴滴、美團、天貓等線上運營大型公司,都是通過大量用戶興趣愛好的數據獲得更為準確的估算和價值。例如商湯、依圖、曠世科技等人工智能獨角獸公司則是依靠于AI產品獲取用戶的線上和線下信息進行分析。當用戶利用這些軟件和產品進行操作的時候,就會留下自己的信息,當公司獲得足夠的信息的時候,各種信息匯集起來,就是一個大數據體系。大數據具有:大量、高速、多樣、價值、真實性,五個特性。所以,大數據的獲取是很關鍵的,在某些稀缺領域,數據很難準確獲得,例如,自動駕駛、手指跟蹤、無人機、等高新科技領域。
當下,對大數據的直接和間接獲取,在國內外都比較普遍,但是利用深度學習制造仿真數據,卻還不是家喻戶曉。仿真數據有很多優勢,例如在一些不可控因素、危險因素、估計因素下,仿真數據可以暫時性替代,將實驗不間斷的進行。所以,將大數據本身和獲取大數據的方式方法有機結合,更能夠有效地解決一些高新科技缺乏數據實驗的難題。
DenseNet有一個突出優點是網絡比較窄,并且參數比較少,這是由于dense塊的設計導致的,每個卷積層的輸出feature map的數量很少,并不是像其他網絡那樣很厚很寬很復雜。而且,這種連接方式的特征和梯度的傳遞更加有效,這就導致網絡訓練收斂速度加快[2]。
DenseNet網絡提高了信息和梯度在的傳輸效率,每層都能直接從損失函數中得到梯度值,并且直接獲得輸入信息,這樣就能訓練更厚更深的網絡。然而有一些網絡是從深度和寬度來提升網絡效率,但是DenseNet是從特征重用的來提升網絡效率的。DenseNet包含以下幾個優點:
①減輕了梯度消失
②加強了網絡層map的傳遞
③更加有效利用map
④較少參數數量
DenseNet和ResNet有一個明顯區別是,ResNet是殘差網絡求和,而DenseNet是做拼接,每一層網絡的輸入值包括了前面所有層的輸出。Dense結構如圖1[3]。

圖1 DenseNet結構
ShuffleNet和MobileNet以及SqueezeNet等網絡一樣主要是想應用在移動端設備上,得到速度快精度高的結果。ShuffleNet的核心思想是在有限的計算資源下獲得最好的模型精度[4]。ShuffleNet的核心是采用了兩種操作:逐點群卷積和通道混洗,這既能保證精度又能減低計算復雜度。模型結構設計和模型壓縮是在App端很典型的兩個優化點。ShuffleNet是通過設計更高效的網絡結構來實現模型精度高并且計算快,不是壓縮。這里的兩個操作,逐點群卷積和通道混洗,逐點群卷積會導致通道變得約束,這大大地影響了精度。從而,應該通道稀疏連接。組卷積可以大大地降低計算損失。這會有副作用,通道的信息流通變弱,表達能力變弱,這時就需要了通道混洗的操作。shuffle unit單元結構如圖2。

圖2 shuffleunit單元
借助shuffle的功效來輔助DenseNet在加大深度的同時混洗通道,將圖三分別替代圖一中的H1,H2,H3,H4。并且用固定的方式一部分與ResNet相加模型相同,一部分與shuffle過程一樣。此規定設置一個參數k,可以調整順序,需要是等比數列。可以設ResNet殘差部分是R,shuffle部分為S,中間部分的S的數量是等比數列,用系數k控制,因為到后來需要混洗,但是又不能失去S直接相加的作用。借助此模型改造方法,可以有效的使建模的模型更加輕量級,同時增加了數據識別處理的精確度,但是也存在一定的弊端,需要手動調整更多的參數,并且控制變量不是非常明確。
(1)開源數據介紹PASCAL VOC-2007
PASCAL VOC-2007為數據識別和分類提供了一整套標準化的優秀的數據集。VOC數據集共包含:訓練集(5011),測試集(4952),共計9963,共包含20個種類。Annotations為目標真值區域,ImageSets為類別標簽,JPEGImages為真實數據。
JPEGImages文件夾中包含了PASCAL VOC所提供的所有的數據信息,包括了各種訓練數據和各種測試數據。Annotations文件夾中存放的是xml格式的標簽文件,每一個xml文件都對應于JPEGImages文件夾中的一份數據,ImageSets存放的是每一種類型的chal?lenge對應的數據。在ImageSets下有幾個文件夾,Seg?mentationClass和SegmentationObject這兩個文件夾下保存了物體分割后的數據。
(2)SimGAN造帶標注的仿真數據
SimGAN是一種深度學習網絡,但是它繼承于GAN網絡,也是一種對抗性生成網絡。SimGAN比GAN更加穩定,更加便于增加自己想要的內容。在調用SimGAN的時候,可以寫豐富的Python腳本搭配。
本文利用了深度學習“對抗訓練”方法,可以使用合成的和未標記的數據訓練先進的神經網絡。通過自正則化損失項使精確和合成數據之間的差異最小化來保留標注。使合成數據看起來是真實的(GAN的標準概念)。精煉網絡(refiner)將合成數據樣本作為輸入,輸出相同維度的改進數據樣本。判別網絡(discrimina?tor)將數據樣本作為輸入,并將其分類為改進的或真實的。
改善器RR:輸入合成數據,輸出改善結果。鑒別器DD:判斷輸入是真實數據還是經過改善的合成數據。相關的代價有三種:代價1:鑒別器識別改善圖像的錯誤率。代價2:鑒別器識別真實圖像的錯誤率。代價3:改善圖像和原始圖像的逐像素差。其中,代價3保證改善圖像和原始圖像的類標相同。例如,保證手勢姿態不變保證視線方向不變。除了直接比較像素,還可以提取圖像特征之后在做差。在每一輪迭代中:最大化代價1,最小化代價3,優化改善器RR的參數。共執行KrKr次SGD。最小化代價1,最小化代價2,優化鑒別器DD的參數。共執KdKd次SGD。經過若干次迭代得到的改善器RR,可以將合成樣本加工成具有以下兩個性質的樣本:品質和真實圖像難以分辨,保持合成樣本原有類標不變。
隨著迭代不斷進行中,鑒別器DD會過分利用一些錯誤的全局特征信號進行分類從而使得改善圖像出現不自然。舉例:真實圖像中可能只包含一些固定視線方向的樣本,但合成圖像的視線方向則均勻而連續。于是鑒別器“以偏概全”地以視線方向作為真假樣本的判別標準。解決辦法是:在訓練鑒別器DD時,將圖像分割成小塊分別輸入;在利用DD進行分類時,以各個小塊的分類結果只和作為該圖像的結果。除了避免全局信息引artift之外,這種方法還能夠增加訓練樣本的數量。SimGAN結構如圖3。

圖3 SIMGAN精煉結構
實驗是利用DenseNet和ShuffleNet的結合模型,來將文章核心模型SimGAN生成的仿真數據以及VOC2007開源數據進行多階段的混合實驗。通過此實驗,可以提高交通路徑規劃準確率和降低建模的重量級,利用識別出來路徑MAP,來進行對比實驗,并且規劃出更佳的路線。實驗采用的是Python編程語言、深度學習框架TensorFlow和基于并行編程模型和指令集架構的通用計算架構CUDA8.0,通過torch.cuda調用GPU來提升計算速度[8]。本文使用在線質量度量工具moba通過路徑規劃輕量級別和路徑規劃MAP得分來評價實驗結果。實驗中測試了幾種模型DenseNet和ShuffleNet以及MobileNet對路徑規劃的預測,迭代次數為50000次[9]。

表1 DenseNet的完整實驗

表2 ShuffleNet的完整實驗

表3 兩種模型對比實驗與MobileNet和其他模型相比

表4 DenseNet不同比例下實驗結果展示
本文提出了一種生成仿真數據的方法,此方法利用SimGAN深度學習模型生成大量帶有標注交通方面的數據,交通數據具有多樣性和仿真性,所以在真實數據不足的情況下,可以利用SimGAN模型達到目的,以此來豐富訓練內容,多個角度訓練模型,使路徑規劃效果精確和普適性。同時,本文利用了DenseNet和Shuf?fleNet來建模分析數據,由于這兩類模型本身具有的特點,所以將其結合達到了輕量化和精確率高的目的。實驗證明SimGAN很適合應用于道路交通路徑規劃的數據獲取方面研究,與傳統數據建模相比,SimGAN應用數據種類更多,能夠提升針對大量交通大數據信息挖掘和分析的效率。
在將來的工作中,可以將此模型應用于離線端口,這就需要將模型結構壓縮和量化,量化后的模型可以更加方便地嵌入到終端App中,使交通數據分析更加實時性,路徑規劃更加便捷。