999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度學習模型中間層特征壓縮技術綜述

2023-01-01 00:00:00汪維徐龍陳卓
計算機應用研究 2023年5期

摘 要:深度學習模型中間層特征壓縮作為深度學習領域中一個新興的研究熱點被廣泛關注并應用于邊端—云端智能協同任務中。針對深度學習模型中間層特征壓縮的研究現狀,對當前壓縮方式中存在的問題進行分析總結。首先,系統地分類闡述了基于圖像/視頻編解碼框架、基于特征通道比特分配和基于深度學習網絡結構的三種深度學習模型中間層特征壓縮方式;隨后,對比了三種深度學習模型中間層特征壓縮方式在數據集上的表現;最后,探討了當前深度學習模型中間層特征壓縮研究面臨的挑戰,展望了中間層特征壓縮技術未來的發展趨勢。

關鍵詞:深度學習;邊云端智能協作;特征壓縮;編碼框架;比特分配

中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2023)05-001-1281-11doi: 10.19734/j.issn.1001-3695.2022.09.0493

0 引言

深度學習方法的興起極大地提高了計算機視覺分析任務的效率。相較于傳統的通過人工進行一步步設計的方法,深度學習模型能夠直接從海量的數據中進行學習,并且提取所需要的特征信息。深度學習方法因此在各種基礎的計算機視覺分析任務中取得了很好的應用,如圖像分類任務、圖像對象檢測任務和圖像檢索任務等。隨著網絡基礎服務設施的不斷更新換代,越來越多基于深度學習的計算機視覺任務以邊端—云端智能協同的方式進行快速部署,深度學習過程中需要的各種原始信號數據,如圖像、視頻等,在邊端設備上進行采集和處理,并發送給云端服務器;云端服務器在接受到比特流后,對其進行進一步的計算處理與分析。這種邊端—云端智能協同的方式廣泛應用于如自動駕駛過程中的車牌檢測、車輛識別,手機等智能設備的人臉識別、物體檢測等一系列計算機視覺任務中。然而邊端設備采集到的圖像或視頻等信號級數據由于體積龐大,數據在邊端設備和云端服務器之間的傳輸給帶寬帶來了很大的壓力,也給云端服務器帶來了很大的計算負擔和能源消耗。為了將計算負擔從云端服務器轉移到邊端設備上,邊緣計算[1,2]試圖將深度學習網絡模型部署在邊端設備中而不是云端服務器上。在這種深度學習網絡模型的部署方式下,邊端設備采集到的原始信號級數據將在邊端設備上進行全部的深度學習網絡前向推理過程,并將推理得到的結果傳遞給云端服務器進行輕量級的計算處理與分析。然而深度學習網絡模型往往是針對特定任務進行設計,因此經過推理得到的最終特征信息也是針對特定的任務,導致特征的泛化能力較差。通過邊緣計算的方式進行網絡模型的部署雖然可以將計算負擔從云端轉移到邊端,在邊端設備上推理得到體積足夠小的特征進行壓縮與傳遞,但是在越來越普遍的多任務聯合分析場景下,往往只能采取在邊端設備上部署多個深度學習網絡模型對不同的視覺任務進行計算與分析,極大地增加了邊端設備的計算負擔以及功耗,不符合邊端設備低功耗低計算復雜度的自身特性以及設計需求,導致邊緣計算方式難以被廣泛應用。

基于上述傳統云計算和邊緣計算的利弊,一種新的深度學習網絡模型特征傳輸方式被提出,如圖1所示。

在這種特征傳輸方式下,深度學習網絡模型將會拆分成部署在邊端設備和云端服務器上兩個部分,網絡模型的推理過程將以邊端—云端智能協同的方式進行。圖像或視頻等信號級視覺數據在邊端設備上進行采集與獲取,經過部署在邊端設備上前半部分網絡模型的推理后提取得到中間層特征;推理得到的中間層特征在經過量化編碼或其他形式的變換后進行壓縮處理,并發送給云端服務器;云端服務器從接收到的比特流中提取數據,并且經過解壓解碼去量化等逆變換后得到重建的中間層特征,再將重建的中間層特征放入部署在云端的剩余部分網絡模型中進行后半段推理過程,并對推理得到的結果進行計算處理與分析。這種新的特征傳輸方式可以在不限制云端服務器計算分析能力的前提下,在邊端設備和云端服務器之間實現計算負擔和功率消耗的平衡。

通過傳遞深度學習網絡模型的中間層特征,邊端設備與云端服務器之間的數據傳輸成本將得到極大的降低,如Lou等人[3]在一個實際監控系統中對100 000臺攝像頭采集得到的緊湊特征和視覺信號之間的傳輸成本進行了比較。相比于視覺信號級數據動輒2 MB左右的一張圖像,單個特征的數據大小在512 Byte~16 KB,傳輸全部特征數據所需的帶寬從400 Gbps降至3.2 Gbps,云端服務器一天所接受的數據量也從4 218 TB減少到43 TB,使用特征進行傳輸后,存儲數據量僅是原先存儲視覺信號級數據的10%,極大地節省了帶寬以及云端服務器的存儲空間。但是Chen等人[4]提出在深度學習網絡模型中,隨著網絡結構層次的前移,中間層特征的數據量也會出現大于原始輸入視覺信號的可能。因此,為了部署這種新的特征數據傳輸方式,并且滿足邊端—云端智能協同中對傳輸帶寬的要求,需要對在邊端設備和云端服務器之間傳遞的中間層特征進行壓縮編碼或其他形式的變換。考慮到中間層特征可以表示為二維灰度圖像或視頻序列,因此中間層特征的壓縮過程可以視為是二維圖像或視頻序列的去冗余過程,這與JPEG/HEVC等圖像視頻編碼標準[5, 6]處理二維圖像或視頻序列的過程極為相似。所以,深度學習網絡模型中間層特征的編碼壓縮過程開始引入JPEG/HEVC等圖像/視頻編碼器進行計算處理。Choi等人[7]首次引入HEVC視頻編解碼器對中間層特征進行近似無損壓縮,比較了中間層特征數據和自然圖像數據之間的差異。另Choi等人[8]使用圖像/視頻編解碼器對物體檢測的深度學習網絡模型的中間層特征進行近似無損的壓縮。Chen等人[4,9]將深度學習網絡模型中間層特征的無損壓縮結果與有損壓縮結果進行對比,認為相比于中間層特征的無損壓縮,采用有損的壓縮方式進行壓縮傳輸是一個更加合適的選擇,為中間層特征壓縮研究提供了一個更好的思路。由于特征編碼是針對機器視覺服務而非人類的視覺,所以對特征編碼后的結果應用任務性能指標(如mAP)和人類感知指標(如SSIM)并不合適。Chen等人[10]針對應用中間層特征有損壓縮的三種主要的計算機視覺任務類型(即圖像分類、圖像檢索和圖像對象檢測)分別提出了新的評價指標。在上述幾項開創性工作之后,關于中間層特征的有損壓縮技術,大多數研究采用基于圖像/視頻編解碼的編碼框架,該框架整合了傳統的圖像/視頻編解碼來進行中間層特征的壓縮。Chen等人[11]開始著手中間層特征壓縮的標準化工作,提出了基于視頻編解碼的中間層特征壓縮技術的標準化流程,即quantization(量化)、repack(打包)和VideoEncoder(視頻編碼器編碼)三個模塊,并且在三個計算機視覺任務上對深度學習模型中間層特征進行壓縮編碼的實驗。Suzuki等人[12]則在文獻[11]提出的repack模塊基礎上,精心設計了一個新的通道排序搜索算法,在中間層特征被送入視頻編解碼器進行壓縮編碼前,根據中間層特征不同通道間的時間空間冗余程度對特征通道進行重新排列,以降低視頻編解碼器編解碼過程造成的量化誤差。

除了基于圖像/視頻編解碼框架的深度學習網絡模型中間層特征壓縮,近些年專家學者們也提出一些新的深度學習中間層特征編碼壓縮方式,如基于特征通道比特分配的中間層特征壓縮,該方法試圖通過建立速率—失真模型等方式來探索特征通道最佳比特分配方式,在這一研究方向有著眾多方法陸續提出:Alvar等人[13]通過引入新的損失函數,優化中間層特征的可壓縮性,并且提高深度學習網絡模型在多個任務上的性能;文獻[14,15]提出類似于速率—失真的理論的概念,將任務失真建模為速率的函數,使用這樣的模型為單任務系統和標量化多任務系統提供封閉式的比特分配解決方案。基于設計新的網絡架構實現中間層的特征編碼壓縮:Li等人[16]提出一種聯合準確度和延遲感知的網絡框架,該框架將深度學習網絡模型解耦并分析最佳的分層位置以及最小化整體執行延遲;Eshratifar等人[17]通過設計新的深度學習網絡結構用于減少需要發送到云端服務器的特征大小,同時該項工作還提出了一種新的訓練方式,用來補償在將特征傳送到云端之前,由于特征的有損壓縮而造成的潛在準確性損失;Eshratifar等人[18]則是設計了一個新的深度學習模型單元,通過該單元,可以更大程度上減少需要載入云端服務器的特征數據的大小;另Eshratifar等人[19]提出了一種高效且自適應的架構,可以為深度神經網絡在邊端設備和云服務器之間的推理和訓練進行協作計算;Matsubara等人[20]則是采用知識蒸餾和圖像壓縮的思想來有效地壓縮中間特征表示。相關研究工作如文獻[21~28]也針對各種不同的問題在網絡架構的設計上對中間層特征壓縮進行探索。

目前,二維信號級數據壓縮領域主要的研究對象還是圖像/視頻壓縮[29~31]以及頂層特征壓縮[32~34],而對深度學習中間層特征壓縮的研究正處于起步階段。本文綜述了最近幾年深度學習網絡模型中間層特征壓縮各個研究方向上的經典方法和最新進展,重點關注中間層特征壓縮編碼的思路以及具體的實現過程;此外,對各類典型方法在公開數據集上的性能進行了綜合比較以及簡要總結;最后,本文對當前研究中尚未解決的問題進行展望,并且對如何務實地解決這些問題進行了思考。

1 深度學習模型的中間層特征壓縮

1.1 基于圖像/視頻編解碼框架的中間層特征壓縮

目前大多數深度學習網絡模型的中間層特征壓縮工作都是基于傳統圖像/視頻編解碼器。中間層特征在經過量化打包等變換后,送入圖像/視頻編解碼器進行編碼壓縮。在這種方式中,圖像/視頻編解碼器中成熟的編解碼技術可以直接用于中間層特征的編碼壓縮中。盡管為壓縮真實圖像或視頻序列而設計的圖像/視頻編解碼器可能無法完美地適應中間層特征自身特性而進行壓縮,但基于圖像/視頻編解碼的編解碼框架仍然是現階段進行中間層特征編碼壓縮研究和標準化的最佳選擇之一。

1.1.1 基于圖像/視頻編解碼框架的中間層特征壓縮

Choi等人[8]提出了在邊端設備和云端服務器之間應用邊端—云端智能協同的方式部署深度學習網絡模型,并在中間層特征上應用視頻編解碼器進行特征的量化編碼壓縮,用來減少邊端—云端設備間傳輸數據的體積。該工作在用于物體檢測任務的YOLO9000網絡上進行了實驗,并分析了YOLO9000網絡不同層特征在應用視頻編解碼器進行量化編碼壓縮后對最終物體檢測任務準確性的影響。首先對不同網絡層特征的近似無損壓縮進行了分析,近似無損即誤差來源僅為特征量化過程中產生的量化誤差,在高比特位量化過程中,該量化誤差可以忽略不計。在邊端設備上采集和獲取信號級原始數據后,使用部署在邊端設備上前半段深度學習網絡模型對數據進行計算推理后,對得到的中間層特征進行量化,量化方式如下:

其中:ceil(·)和floor(·)是向上取整和向下取整函數;cw和ch表示重新排列后圖像幀的高和寬。最后將重組的圖像幀送入HEVC高效視頻編碼器進行編碼壓縮。在分析了YOLO9000不同層特征的近似無損壓縮后,得到了如下結論:當深度學習網絡模型的分割點越接近原始輸入時(即深度學習網絡的淺層),提取得到的中間層特征的數據量越大,并且難以在壓縮率和模型性能之間取得一個好的平衡(trade-off)。隨著分割點的后移(即更深的網絡層),將會在特征的壓縮率與模型性能之間取得較好的平衡。同時,該工作還通過調整HEVC高效視頻編碼器的量化參數對有損壓縮編碼的實驗結果進行了統計分析。在有損壓縮方式中,該工作進行了壓縮增強訓練,即針對不同的HEVC量化參數重新訓練了網絡模型分割點處的權重信息。實驗結果表明,有損壓縮可以節省大量的比特,而經過壓縮增強訓練后的權重信息也保持了可以接受的任務性能損失,實驗結果如表1所示。

Chen等人[4]的工作不同于Choi等人[8]僅專注于應用YOLO9000網絡進行物體檢測這個特定的計算機視覺分析任務,其提出以一種通用性更強的方式在深度學習網絡模型中間層特征的計算負荷和泛化能力之間進行平衡。由于通用深度學習網絡模型(如VGG-16、ResNet-50等)可以為特定任務的深度學習網絡提供強大的視覺級信號表征,大量的視覺任務可以在通用深度學習網絡模型中提取得到的中間層特征的基礎上,應用針對特定計算機視覺任務的深度神經網絡來解決。因此,該工作在VGG和ResNet兩種通用的深度學習網絡模型的中間層特征上進行量化編碼壓縮與傳輸的實驗,并對實驗結果進行分析總結;同時,不同于文獻[8]僅對中間層特征有損壓縮進行了分析,該工作對中間層特征的無損壓縮和有損壓縮都進行了實驗和對比分析。在無損壓縮的實驗中,該工作在壓縮率和計算時間成本這兩個評價指標上評估了GZIP、ZLIB、BZIP2和LZMA這四種傳統無損數據壓縮方法在壓縮中間層特征上的性能表現。實驗的結果如表2所示。

從表2中數據可以看出,無損壓縮方法的壓縮率很大程度上受到待壓縮中間層特征非零率的限制,特征的統計冗余主要取決于特征中零值的數量,采用無損方式對中間層特征進行壓縮并不能保證有很大的壓縮空間。在實際應用中采用無損壓縮方式的結果可能不會理想。因此該工作接下來探討了有損壓縮在中間層特征上的應用,其認為與針對網絡模型的輕量化研究相似,對中間層特征進行有損壓縮造成的特征值微小變化并不會嚴重影響網絡最終輸出的總體性能。同時經過卷積計算的特征是以特征向量的形式出現的,而特征向量則是由元素之間具有空間相關性的二維向量的排列組合,中間層特征的一個通道可以被視做為一個視頻幀,而一個完整的特征向量可以視做為一個視頻序列。已經趨于成熟的視頻編解碼技術可以無縫地借用到深度學習網絡模型中間層特征的編碼壓縮當中。在中間層特征的編碼階段,由于視頻編解碼器的輸入要求,需要先對特征進行量化處理,具體的量化和去量化過程為

在信息損失這一方面,對原始特征和解碼后的重建特征進行比較可以得知,重建特征的信息損失并沒有明顯受到有損壓縮的影響,整體任務性能仍在可以接受的范圍之內。因此該工作認為,相比較于對中間層特征向量應用傳統無損壓縮方法,應用視頻編解碼器的有損壓縮方法在深度學習網絡模型的中間層特征編碼壓縮上更有應用前景。

1.1.2 中間層特征壓縮的評價指標和損失函數

因為深度學習網絡模型的中間層特征編碼是針對機器視覺服務而非人類的視覺,同時深度學習網絡模型的中間層特征往往具有高層次的語義信息,所以對中間層特征編解碼后的推理結果應用任務性能指標(如mAP)或人類感知指標(如SSIM)可能并不合適。為了評估中間層特征有損壓縮而造成的信息損失,應該考慮傳輸到云端服務器的中間層特征所需執行的對應計算機視覺任務的輸出結果進行比較。Chen等人[10]說明了尋找新的針對中間層特征編碼壓縮的評價指標的原因。首先,任務性能指標的變化可能無法反映編碼壓縮前后中間層特征的信息損失水平,具體來說,就變化方向而言,壓縮前后中間層特征的信息損失可能導致計算機視覺任務表現指標的正向或負向變化;而就變化量來說,任務性能指標的相同變化量可能是不同的信息損失水平造成的;任務性能指標可能不與信息的損失成線性相關。其次,用任務性能指標來評估信息損失并不是很規范;一方面,任務性能指標的取值范圍并不相同;另一方面,原始特征上的任務性能的結果可能會因測試數據集的不同而產生不同,這使得很難用任務性能指標來比較信息損失。接著該工作針對不同的計算機視覺任務分別提出了新的性能評價指標來評估中間層特征由于編碼壓縮造成的信息損失。

同樣在這項工作中,他們還提出了基于視頻編解碼框架中間層特征編碼壓縮的標準化流程,具體如圖2所示。該標準化流程的提出為之后基于圖像/視頻編解碼框架的中間層特征壓縮的研究奠定了基礎。

1.1.3 中間層特征壓縮模塊化處理

由于在基于圖像/視頻編解碼框架的中間層特征編碼壓縮中,圖像/視頻編解碼器是針對自然圖像或自然視頻而開發的,所以編解碼性能將在很大程度上取決于中間層特征數據的表示如何更好地適應圖像/視頻編解碼器的輸入要求,即如何更加貼近自然圖像或自然視頻序列。Chen等人[11]據此提出了三種Repack方式,即naive channel concatenation(NCC)、channel concatenation by distance(CCD)和channel tiling(CT)三種方式,來探索特征圖中的通道間冗余并重新表示中間層特征,使中間層特征數據更好地適應圖像/視頻編解碼器的輸入要求以提高編碼器的編碼性能。在NCC方式中,如圖3所示,通過簡單地連接所有通道來重新打包中間層特征向量。在這種方式下,中間層特征的每個通道被認為是一個灰度幀,而整個中間層特征向量可以看做是一個視頻序列。由于每個通道的空間相關性比較密切,特征通道內的冗余可以通過傳統視頻編解碼器中的內部預測工具進行識別并最大程度消除。CCD方式則通過重新組織中間層特征通道的排列順序來減少相鄰特征通道之間的殘差,從而更好地消除特征通道之間的空間和時間冗余,達到提高壓縮率的目的。在該方式中,通過使用l2準則來計算特征通道之間的距離:

該方式將第一個特征Danchor設置為錨點,從剩下的特征通道Drest中迭代找出一個與錨點通道l2距離最近的特征通道,將該搜索找到的特征通道放置在錨點特征通道后并將其更新為新的錨點通道,重復上述過程直到計算完全部特征通道。在CT方式中,如圖4所示,是將每個中間層特征通道視做一個大圖像幀的補丁,整個特征通道被重新組織成為一個大的灰度幀,然后送進圖像/視頻編解碼器進行編解碼操作,特征通道間的時間冗余和空間冗余將由圖像/視頻編解碼器的內部編碼工具進行探索。

Suzuki等人[12]在Chen等人[11]提出的Repack模塊基礎上,精心設計了一個新的通道排序搜索算法,在中間層特征被送入視頻編解碼器進行壓縮編碼前,根據中間層特征不同通道間的時間空間冗余程度對特征通道進行重新排列來降低視頻編解碼器編解碼過程中產生的誤差。該repack方法首先將中間層特征的通道個數f從原有的特征通道數C設置為2的冪數個,例如2、4、8。再根據f的數值確定重新排列后每個特征通道的尺寸大小,新特征的通道寬和高的計算公式如下:

ch=2ceil(12logCf)(16)

cw=2floor(12logCf)(17)

在經過如上變換后,重新排列組成的新的幀數量減少,而每一幀上特征數量變多,在增加了中間層特征的空間相關性的同時,又保持有一定長度的視頻幀序列,從而保留了中間層特征通道之間的時間相關性,使中間層特征的整體更符合自然視頻序列的特性和狀態。同時,在該工作中還提出了一個針對中間層特征通道的排序搜索算法。Suzuki等人認為在一個自然的視頻幀序列中,相鄰的兩個幀之間的差異越小,時間上的相關性就越高。因此該算法希望通過減少相鄰幀之間的差異來增加時間上的關聯性。算法具體流程如算法1所示。

該算法采用局部搜索算法,在該算法中,首先將不同的特征通道進行隨機排列,再重新組合成f個大小為ch×cw的幀。然后在不同幀之間對相同大小的區域進行交換來判斷能否降低整體MSE。其中Of表示不同的幀,x表示幀中待交換的小區域,cumse表示未進行交換時的MSE,exmse表示交換后的MSE。通過執行該特征通道排序搜索算法,相鄰幀之間的差異被降至最低,從而提高中間層特征序列的時間相關性,更好地提高視頻編解碼器對中間層特征的壓縮性能。

1.2 基于比特分配的中間層特征壓縮

通過圖像/視頻編解碼進行深度學習網絡模型中間層特征編碼壓縮雖然高效便捷,但是由于中間層特征向量不是自然圖像/視頻序列,圖像/視頻編解碼器并不是最適合壓縮中間層特征的方式,針對自然視頻序列的內部預測工具無法完美并且高效地去除特征通道間和通道內的各種時間空間冗余。所以,除了基于圖像/視頻編解碼框架的中間層特征的編碼壓縮方式之外,研究者開始探索根據中間層特征自身的特性來進行編碼壓縮和傳輸,提出了基于比特分配的中間層特征編碼壓縮方式。在該研究領域,算法的核心聚焦在如何為中間層特征的不同通道分配合適的量化比特位數。

文獻[35]試圖通過分析量化對神經網絡的影響來探索不同網絡層權重和不同層特征之間的關系,并以這個關系建立編碼壓縮框架來最小化輸出誤差。在這項工作中首先定義了不同層權重的量化誤差:

Hu等人[36]提出了一種基于通道敏感度的深度學習網絡模型中間特征編碼壓縮比特分配算法。考慮到中間層特征不同的通道對網絡模型最終推理結果的貢獻不同。該工作通過定義和評估特征的每個通道對編碼壓縮噪聲的敏感性,并根據通道不同的敏感性,設計了一種以中間層特征通道為基礎的比特分配機制,以保持任務精度,同時試圖降低編碼壓縮的比特率。該比特分配機制包含了兩個步驟,在第一步中,只有中間層特征一個被選定的通道進行編碼壓縮,而其他特征通道則保持不變,通過后續的計算推理過程來測試這個特征通道對編碼壓縮的敏感性。重復這個過程直到獲得所有特征通道的敏感性。由于通過上述計算得到的原始中間層特征不同通道靈敏度的分布不一定具有相同規則,不同通道之間的靈敏度差距可能會很大,這使得中間層特征的所有通道之間的比特分配很難得到統一,所以需要對得到的中間層特征原始靈敏度進行歸一化處理,即

S=S-min(S)max(S)-min(S)(31)

在該機制的第二步中,根據第一部分中獲得的通道靈敏度自動決定分配給每個通道的量化比特位數,以確保具有較高靈敏度的通道可以被分配更多的比特。具體的比特分配方法是先確定一個目標速率等級QPbase,以及用于控制比特分配的幅度QPround,在編碼中,越小的QP值將被分配更多的比特,因此,中間層特征通道比特分配的量化參數為

QP=QPbase-round(QPround·Sl)(32)

之后,中間層特征的不同通道將按照式(32)計算出來的量化參數送進HEVC高效視頻編碼器進行編碼壓縮。

Alvar等人[15]在之前的工作基礎上進行了擴展。在該項工作中研究了多流智能協作系統中中間層特征編碼壓縮的比特分配問題,使用類似于速率—失真理論中的凸面將任務失真轉換為速率的函數。使用這樣的模型,為單任務系統和標量化多任務系統提供封閉式的中間層特征比特分配解決方案。此外在該項工作中,作者對2流K任務系統Pareto集的特征進行了分析,同時對3流2任務系統的Pareto集的分界線進行了研究。

文獻[37,38]提出了一種輕量級的中間層特征編碼壓縮方法,該方法使用簡單的標量量化,經過剪切、二值化以及熵編碼來壓縮深度學習網絡模型的中間層特征,并且無須對網絡的權重進行重新訓練,同時可以在廣泛的比特率范圍內進行編碼壓縮。該輕量化方法流程如圖5所示。

1.3 基于深度學習網絡架構的中間層特征壓縮

通過設計一個新的網絡結構減少待壓縮中間層特征的元素數量進行特征的編碼壓縮也是一個值得研究的方向,不少研究團隊在該方向上不斷地提出新的方法。

Eshratifar等人[17]提出一種新的名為BottleNet的深度學習網絡架構,用于減少發送到云端服務器的中間層特征體積。BottleNet結構中包含有通道縮減和空間縮減兩個單元,分別如圖6、7所示。其中通道縮減是指縮小中間層特征的通道數量,將一個大小為(w,h,c)的張量經過1×1卷積,壓縮為一個大小為(w,h,c)的張量,其中clt;lt;c;空間縮減是指縮小中間層特征的空間尺寸,將一個大小為(w,h,c)的張量經過卷積濾波器,輸出一個大小為(w,h,c)的張量,其中wlt;w,hlt;h。BottleNet在邊端移動設備上使用深度學習網絡壓縮單元來創建特征向量的壓縮表示,然后將該張量傳輸到云端服務器。在云端服務器,BottleNet通過對接收到的比特流應用解壓器、應用通道恢復單元以及空間恢復單元,以恢復原始中間層特征向量的維度。BottleNet的詳細結構如圖8所示,同時該項工作還提出了一種新的訓練方法。該方法通過在反向傳播過程中將壓縮單元和解壓單元定義為梯度,使模型能夠端到端可分,用于補償在將中間層特征傳送到云端之前因有損壓縮而造成的潛在任務性能準確性的損失。

1.4 中間層特征壓縮三類方法的比較與分析

為了對近年來提出的深度學習網絡模型中間層特征壓縮技術進行直觀討論,根據不同的中間層特征壓縮方法用表格展示了中間層特征壓縮的實驗結果。同時考慮到評價各種方法的優劣,需要在相同數據集條件以及相同深度學習網絡模型下進行比較才有意義,因此在本文根據數據集的不同和網絡模型的不同按時間順序展示各種方法的比較結果,如表4所示。

從表4中可以看出,在三類中間層特征壓縮方式中均有方法取得了出色的結果。由于圖像/視頻編解碼器的量化參數QP有著較大的動態范圍,基于圖像/視頻編解碼器的中間層特征壓縮方法在壓縮率上也會隨著QP的變化而發生改變并保持在一個較低的范圍,同時有著不錯的任務性能,如文獻[4,8]在mAP、PSNR以及Fidelity等任務性能評價指標上均有著較為優秀的綜合表現。基于比特分配的中間層特征壓縮方法根據中間層特征自身的統計性質以及特征通道對網絡輸出誤差的貢獻程度計算不同通道的量化參數,理論上在無損壓縮傳輸的場景中可以達到任務性能的理想值,即各項任務性能評價指標的最優。為了滿足邊端—云端智能協作對傳輸帶寬的嚴格要求,該特征壓縮方式均采用有損壓縮方法進行數據的傳輸,并且仍然保持了優秀的任務性能,如文獻[38]在mAP、top1和accuracy等評價指標上都達到相同數據集上的最優。基于深度學習網絡架構的中間層特征壓縮方法則通過減少待壓縮中間層特征的通道數量以及通道的尺寸大小,極大地降低了待壓縮特征的元素數量,并且通過重新訓練的方式保證云端服務器恢復的重建特征與邊端設備的原始中間層特征盡可能保持一致,因此在保證任務性能的前提下,特征被壓縮到一個很小的體積中,從表中可以看出文獻[17,40,41]都在壓縮率這項指標上有著優秀的表現。

同時本文總結歸納了三類中間層特征壓縮方式中的優缺點,如表5所示。

基于圖像/視頻編解碼器的中間層特征壓縮方式的最大優勢在于可以直接利用已經趨于成熟的圖像/視頻編解碼器,如HEVC、JEPG等,進行特征的編碼壓縮并且在生產環境中快速部署,只需將輸入的待壓縮特征以通道為單位重新排列成二維圖像幀或者視頻序列的形式,這對本身就以通道排列的特征來說是容易實現的;基于圖像/視頻編解碼器的特征壓縮方式的另一個優勢在于可以對編碼壓縮過程進行模塊化操作。在文獻[11]中,中間層特征的壓縮過程被拆分成量化、打包、編碼三個模塊,后續的不少研究工作基于模塊化的概念優化中間層特征編碼壓縮過程,推動著中間層特征壓縮的標準化工作。基于圖像/視頻編解碼器的特征壓縮方式的缺點也十分明顯,即中間層特征實際上與圖像幀或者視頻序列存在本質上的差別,中間層特征針對機器視覺、圖像或者視頻則是針對人類視覺,兩者在空間冗余、時間冗余以及語義信息的分布等特性上有著明顯的區別,HEVC等編解碼工具中用于消除圖像/視頻冗余的方法,如運動估計[42, 43]、幀內預測[44~48]、幀間預測[49~53]等技術手段并不能完美去除中間層特征通道間的時間、空間冗余,導致特征的壓縮效果并不具有很大的優勢。不少的研究工作試圖在應用圖像/視頻編碼器進行特征壓縮前消除特征中的冗余信息來解決這個問題。基于比特分配的中間層特征壓縮方式則是將待壓縮特征適應編碼方式的思路轉變成編碼方式適應帶壓縮特征,根據待壓縮特征自身的統計性質以及特征通道對網絡輸出誤差的敏感程度,通過建立速率—失真模型進行量化參數的分配,量化參數包括量化比特位數、量化區間個數、量化步長等。對特征不同的通道分配不同的量化參數,試圖降低待壓縮特征的編碼誤差。速率—失真模型一旦確定,量化參數分配的計算是十分迅速的。基于比特分配的壓縮方式的另一個優勢在于,速率—失真模型的建立并不局限在一個任務的特征上,而是可以在多個任務的特征上進行建模,達到多任務聯合優化的目的。基于比特分配的壓縮方式面臨的問題在于,速率模型和失真模型的建立并不容易,特別是在多任務聯合優化的場景下,需要綜合考慮多個任務的不同影響因素,給速率模型和失真模型的建立增加了難度。基于深度學習網絡架構的中間層特征壓縮方式,優點是通過改變待壓縮中間層特征的維度以及尺寸大小,在保證任務性能損失在可接受范圍的前提下,極大地減少了待壓縮特征的元素數量;而缺點在于,為了保持云端服務器從接收比特流中恢復的重建特征與未壓縮中間層特征盡可能一致,需要對網絡架構中的權重等參數進行大量的訓練更新,同時網絡中部分推理的計算過程并不透明,很難在數學上進行分析。

2 思考與展望

從2018年文獻[7]首次將視頻編解碼器應用在深度學習網絡模型中間層特征編碼壓縮開始,在之后的短短幾年時間,該領域的研究工作已經取得了巨大的進展,并且在數字視網膜以及智慧城市[54]等生活實際場景中開始應用。但是在很多方面,中間層特征編碼壓縮仍然面臨著各種各樣的挑戰[55~58]。下面將從深度學習網絡模型中間層特征編碼壓縮的可擴展性、互操作性、實用性和可行性這四個方面對當前研究所取得的成果、面臨的問題、可能的解決方案以及學科發展方向進行分析和討論。

2.1 中間層特征壓縮技術的可擴展性

深度學習網絡模型中間層特征的可擴展性應當支持根據動態的網絡條件、任務部署的環境情況以及邊端—云端的編解碼能力進行相適應的調整。在自然圖像和自然視頻序列的編解碼器的應用中,可擴展性[59~64]已經得到了廣泛的研究與應用,由于不同網絡層提取的中間層特征能夠概括不同程度與維度的視覺特征,通過分析適當維度的特征或合適位置的網絡層的參數信息,可擴展性在中間層特征和深度學習網絡模型中也自然可以展現。然而,由于深度學習網絡模型的權重信息往往是通過端到端的學習得到,為了實現中間層特征表示的可擴展性,有必要確定選定的網絡層提取得到的中間層特征中每個通道的重要性以及該網絡層權重所包含的信息。只有這樣才可以在確定的約束條件下,最大限度地提高編碼壓縮后特征的信息表示能力,即在降低編碼壓縮帶來的信息損失的同時提高任務性能。綜上所述,對中間層特征編碼壓縮的可擴展性探索是一個重要并且有挑戰的一項工作。

2.2 中間層特征壓縮技術的互操作性

深度學習網絡模型中間層特征編碼壓縮的互操作性通過完善中間層特征編碼壓縮流程的標準化工作來實現。完成標準化工作后,特征的編碼壓縮過程都將按照規定好的統一形式進行,任何符合標準化編碼壓縮流程的比特流都能夠在云端服務器被正確地解壓縮和解碼,并參與后續深度學習網絡模型的推理分析過程。在自然圖像和自然視頻序列的研究領域,有著一系列的編碼標準化框架,如H.264/AVC[65]、H.265/HEVC[66]和AVS[67, 68]。同理,隨著深度學習相關領域技術的逐漸完善,中間層特征編碼壓縮的互操作性也可通過一個統一的標準化流程來實現。然而,一方面,相比于已經趨于成熟的圖像或視頻序列的表達方式,深度學習領域的快速發展導致網絡模型結構和中間層特征形式也在隨之快速改變;另一方面,與圖像/視頻編碼僅需將視覺像素值作為輸入不同,特征編碼同時涉及特征提取以及特征壓縮。這給深度學習網絡模型中間層特征編碼壓縮的標準化工作帶來了一定的困難。為了保證互操作性,通常會對特征提取和特征壓縮過程規范標準化流程。這樣的標準化方案需要明確提取中間層特征的網絡層深度和權重等參數信息,然而并沒有一個通用的深度學習網絡模型可以滿足各種計算機視覺任務的需求。因此目前可行的方式是,在現階段通過部署靈活并且實用的半標準化工作方案來進行過渡,例如只在提取原始中間層特征后到編碼壓縮比特流前的階段進行模塊化處理,規定模塊間的輸入輸出形式[4]。至于原始中間層特征是如何生成以及怎樣提取則是開放的。綜上所述,對深度學習網絡模型中間層特征編碼壓縮標準化工作的探索是該領域發展的重中之重,是一個意義重大并且艱巨的任務。

2.3 中間層特征壓縮技術的實用性

深度學習網絡模型中間層特征壓縮編碼的實用性體現在壓縮后的比特率和任務性能之間的良好權衡。因此,越來越多的研究團隊將關注點瞄準圖像/視頻編解碼器中的率失真優化過程[69~73],將率失真優化過程移植到中間層特征壓縮中,使用基于速率—失真函數作為優化函數的方法來探索新的編碼壓縮方式。然而,由于速率—失真關系在理論以及實際的應用中很難被清晰地定義,特別是在多任務聯合優化問題的場景中,如何在這些任務之間建立速率—失真模型,實現比特率和任務性能之間的良好平衡,是阻礙中間層特征編碼壓縮發展的一個關鍵因素。所以需要一個能夠很好地描述中間層特征編碼壓縮中速率—失真關系的統一函數,促進中間層特征編碼壓縮在實際應用部署中的發展。

2.4 中間層特征壓縮技術的可行性

由于深度學習網絡模型中間層特征是視覺信號的緊湊表示,要想從編碼壓縮后的比特流中恢復原始中間層特征,并通過從重建的中間層特征中恢復原始信號級的視覺數據是十分困難的。而對信號級視覺數據的回溯困難進一步造成了人類視覺對信息追溯的困難,這就導致在計算機視覺分析任務中,基于中間層特征的生成模型是有一定缺陷的。同時,對原始信號級的視覺數據的回溯在一些問題中又是必須的,例如當機器在計算與處理一些無法理解的特征表示,或者計算推理的結果與事實有很大偏差時,通過人類視覺去分析圖像或視頻的紋理信息輔助進行最終判斷是一個必要的方式。在圖像或視頻編碼壓縮領域,對紋理信息的重建與復原[74~79]有著廣泛的研究。然而在中間層特征編碼壓縮中加入圖像或視頻的紋理信息,必然導致比特率大幅增加,在邊端—云端智能協同應用中的中間層特征編碼壓縮的優勢將不復存在。另一種思路是將視覺信息與特征信息同時進行編碼壓縮[80~87]。但是增加人類視覺信息也會在一定程度上增加從邊端設備發送到云端服務器比特流的體積。因此,如何在滿足一定的速率的約束條件下將圖像或視頻的紋理信息加入編碼壓縮的范圍內,并且保持壓縮率不會發生較大范圍浮動,是完善中間層特征編碼壓縮技術可行性的一個亟不可待的問題。

3 結束語

本文主要闡述了深度學習模型中間層特征壓縮技術的研究背景和意義,對當前的研究現狀進行了歸納和總結。本文將深度學習模型中間層特征壓縮技術發展歸納為三個方向:a)對基于圖像/視頻編解碼框架的中間層特征壓縮進行了綜述,詳細介紹了圖像/視頻編解碼器在中間層特征壓縮中的提出、應用和標準化流程中的貢獻;b)對基于比特分配的中間層特征壓縮進行了綜述,詳細介紹了不同比特分配方式的推導過程;c)對基于深度學習網絡單元的中間層特征壓縮進行了綜述,詳細介紹了針對特征壓縮的網絡結構的設計。

基于綜述中的方法分析,展望了未來具有前景的深度學習模型中間層特征壓縮技術的研究方向,如深度學習模型中間層特征壓縮的標準化流程、多流多任務模型中的中間層特征壓縮的比特分配、多模型中間層特征間聯合比特分配以及針對中間層特征自身特性的編碼設計。隨著網絡基礎設施的不斷更新換代,以及越來越多的深度學習計算機視覺任務將以邊端—云端智能協作的方式快速部署,迫切需要加快深度學習模型中間層特征壓縮技術的研究步伐。

參考文獻:

[1]Varghese B,Wang Nan,Barbhuiya S,et al. Challenges and opportunities in edge computing[C]// Proc of IEEE International Conference on Smart Cloud. Piscataway,NJ: IEEE Press,2016: 20-26.

[2]施巍松,張星洲,王一帆,等. 邊緣計算: 現狀與展望[J]. 計算機研究與發展,2019,56(1): 69-89. (Shi Weisong,Zhang Xingzhou,Wang Yifan,et al. Edge computing: state-of-the-art and future directions[J]. Journal of Computer Research and Development,2019,56(1): 69-89.)

[3]Lou Yihang,Duan Lingyu,Wang Shiqi,et al. Front-end smart visual sensing and back-end intelligent analysis: a unified infrastructure for economizing the visual system of city brain[J]. IEEE Journal on Selected Areas in Communications,2019,37(7): 1489-1503.

[4]Chen Zhuo,Fan Kui,Wang Shiqi,et al. Toward intelligent sensing: intermediate deep feature compression[J]. IEEE Trans on Image Processing,2019,29: 2230-2243.

[5]Modrzyk D,Staworko M. A high-performance architecture of JPEG2000 encoder[C]// Proc of the 19th European Signal Processing Confe-rence. Piscataway,NJ: IEEE Press,2011: 569-573.

[6]Flynn D,Marpe D,Naccari M,et al. Overview of the range extensions for the HEVC standard: tools,profiles,and performance[J]. IEEE Trans on Circuits and Systems for Video Technology,2015,26(1): 4-19.

[7]Choi H,Bajic' I V. Near-lossless deep feature compression for collaborative intelligence[C]// Proc of the 20th International Workshop on Multimedia Signal Processing. Piscataway,NJ: IEEE Press,2018: 1-6.

[8]Choi H,Bajic' I V. Deep feature compression for collaborative object detection[C]// Proc of the 25th IEEE International Conference on Image Processing. Piscataway,NJ: IEEE Press,2018: 3743-3747.

[9]Chen Zhuo,Lin Weisi,Wang Shiqi,et al. Intermediate deep feature compression: the next battlefield of intelligent sensing[EB/OL]. (2018-09-17). https://arxiv.org/abs/1809.06196.

[10]Chen Zhuo,Fan Kui,Wang Shiqi,et al. Lossy intermediate deep learning feature compression and evaluation[C]// Proc of the 27th ACM International Conference on Multimedia. New York: ACM Press,2019: 2414-2422.

[11]Chen Zhuo,Duan L Y,Wang Shiqi,et al. Data representation in hybrid coding framework for feature maps compression[C]// Proc of IEEE International Conference on Image Processing. Piscataway,NJ: IEEE Press,2020: 3094-3098.

[12]Suzuki S,Takeda S,Takagi M,et al. Deep feature compression using spatio-temporal arrangement toward collaborative intelligent world[J]. IEEE Trans on Circuits and Systems for Video Technology,2021,32(6): 3934-3946.

[13]Alvar S R,Bajic' I V. Multi-task learning with compressible features for collaborative intelligence[C]// Proc of IEEE International Confe-rence on Image Processing.Piscataway,NJ:IEEE Press,2019:1705-1709.

[14]Alvar S R,Bajic' I V. Bit allocation for multi-task collaborative intelligence[C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2020: 4342-4346.

[15]Alvar S R,Bajic' I V. Pareto-optimal bit allocation for collaborative intelligence[J].IEEE Trans on Image Processing,2021,30:3348-3361.

[16]Li Hongshan,Hu Chenghao,Jiang Jingyan,et al. Jalad: joint accuracy-and latency-aware deep structure decoupling for edge-cloud execution[C]// Proc of the 24th International Conference on Parallel and Distributed Systems. Piscataway,NJ: IEEE Press,2018: 671-678.

[17]Eshratifar A E,Esmaili A,Pedram M. BottleNet: a deep learning architecture for intelligent mobile cloud computing services[C]// Proc of IEEE/ACM International Symposium on Low Power Electronics and Design. Piscataway,NJ: IEEE Press,2019: 1-6.

[18]Eshratifar A E,Esmaili A,Pedram M. Towards collaborative intelligence friendly architectures for deep learning[C]// Proc of the 20th International Symposium on Quality Electronic Design. 2019:14-19.

[19]Eshratifar A E,Abrishami M S,Pedram M. JointDNN: an efficient trai-ning and inference engine for intelligent mobile cloud computing services[J]. IEEE Trans on Mobile Computing,2019,20(2): 565-576.

[20]Matsubara Y,Yang Ruihan,Levorato M,et al. Supervised compression for resource-constrained edge computing systems[C]// Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Pisca-taway,NJ: IEEE Press,2022: 2685-2695.

[21]Shao Jiawei,Zhang Jun. Communication-computation trade-off in resource-constrained edge inference[J]. IEEE Communications Magazine,2020,58(12): 20-26.

[22]Ulhaq M,Bajic' I V. Shared mobile-cloud inference for collaborative intelligence [EB/OL]. (2020-02-01). https://arxiv.org/abs/2002.00157.

[23]Chamain L D,Racapé F,Bégaint J,et al. End-to-end optimized image compression for machines,a study[C]// Proc of Data Compression Conference. Piscataway,NJ: IEEE Press,2021: 163-172.

[24]Dhondea A,Cohen R A,Bajic' I V. DFTS2: simulating deep feature transmission over packet loss channels [EB/OL]. (2021-12-01). https://arxiv.org/abs/2112.00794.

[25]Wang Shurun,Wang Zhao,Wang Shiqi,et al. End-to-end compression towards machine vision: network architecture design and optimization[J]. IEEE Open Journal of Circuits and Systems,2021,2: 675-685.

[26]Chamain L D,Racapé F,Bégaint J,et al. End-to-end optimized image compression for multiple machine tasks[EB/OL]. (2021-03-06). https://arxiv.org/abs/2103.04178.

[27]Zhang Zhicong,Wang Mengyang,Ma Mengyao,et al. MSFC: deep feature compression in multi-task network[C]// Proc of IEEE International Conference on Multimedia and Expo. Piscataway,NJ: IEEE Press,2021: 1-6.

[28]Yuan Zhongzheng,Rawlekar S,Garg S,et al. Feature compression for rate constrained object detection on the edge[C]// Proc of the 5th International Conference on Multimedia Information Processing and Retrieval. Piscataway,NJ: IEEE Press,2022: 1-6.

[29]鄧世洋,王安紅. 殘差分布式視頻壓縮感知[J]. 計算機應用研究,2012,29(4): 1553-1556. (Deng Shiyang,Wang Anhong. Residual distributed compressive video sensing[J]. Application Research of Computers,2012,29(4): 1553-1556.)

[30]計文平,郭寶龍. 數字視頻壓縮編碼的國際標準[J]. 計算機應用研究,2003,20(4): 1-5. (Ji Wenping,Guo Baolong. Overview of the international digital video coding standards [J]. Application Research of Computers,2003,20(4): 1-5.)

[31]張宗平,劉貴忠. 基于小波的視頻圖像壓縮研究進展[J]. 電子學報,2002,30(6): 883-889. (Zhang Zongping,Liu Guizhong. Advances in wavelet-based video compression[J]. Acta Electronica Sinica,2002,30(6): 883-889.)

[32]游文杰,吉國力,袁明順. 高維少樣本數據的特征壓縮[J]. 計算機工程與應用,2009,45(36): 165-169. (You Wenjie,Ji Guoli,Yuan Mingshun. Feature reduction on high-dimensional small-sample data[J]. Computer Engineering and Applications,2009,45(36): 165-169.)

[33]Sculley D,Brodley C E. Compression and machine learning: a new perspective on feature space vectors[C]// Proc of Data Compression Conference. Piscataway,NJ: IEEE Press,2006: 332-341.

[34]Misra K,Ji Tianying,Segall A,et al. Video feature compression for machine tasks[C]// Proc of IEEE International Conference on Multimedia and Expo. Piscataway,NJ: IEEE Press,2022: 1-6.

[35]Wang Zhe,Lin Jie,Chandrasekhar V,et al. Optimizing the bit allocation for compression of weights and activations of deep neural networks[C]// Proc of IEEE International Conference on Image Processing. Piscataway,NJ: IEEE Press,2019: 3826-3830.

[36]Hu Yuzhang,Xia Sifeng,Yang Wenhan,et al. Sensitivity-aware bit allocation for intermediate deep feature compression [C]// Proc of IEEE International Conference on Visual Communications and Image Processing. Piscataway,NJ: IEEE Press,2020: 475-478.

[37]Cohen R A,Choi H,Bajic' I V. Lightweight compression of neural network feature tensors for collaborative intelligence [C]// Proc of IEEE International Conference on Multimedia and Expo. Piscataway,NJ: IEEE Press,2020: 1-6.

[38]Cohen R A,Choi H,Bajic' I V. Lightweight compression of intermediate neural network features for collaborative intelligence[J]. IEEE Open Journal of Circuits and Systems,2021,2: 350-362.

[39]Ikusan A,Dai Rui. Rate-distortion optimized hierarchical deep feature compression [C]// Proc of IEEE International Conference on Multimedia and Expo. Piscataway,NJ: IEEE Press,2021: 1-6.

[40]Shao Jiawei,Zhang Jun. BottleNet++: an end-to-end approach for feature compression in device-edge co-inference systems[C]// Proc of IEEE International Conference on Communications Workshops. Piscataway,NJ: IEEE Press,2020: 1-6.

[41]Choi H,Cohen R A,Bajic' I V. Back-and-forth prediction for deep tensor compression[C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2020: 4467-4471.

[42]Srinivasan R,Rao K. Predictive coding based on efficient motion estimation[J]. IEEE Trans on Communications,1985,33(8): 888-896.

[43]吳曉軍,白世軍,盧文濤. 基于H.264視頻編碼的運動估計算法優化 [J]. 電子學報,2009,37(11): 2541-2545. (Wu Xiaojun,Bai Shijun,Lu Wentao. Optimization on motion estimation algorithm based on H.264 [J]. Acta Electronica Sinica,2009,37(11): 2541-2545.)

[44]裴世保,李厚強,俞能海. H.264/AVC幀內預測模式選擇算法研究[J]. 計算機應用,2005,25(8): 1808-1810. (Pei Shibao,Li Houqiang,Yu Nenghai. Research of H.264/AVC intra prediction mode selection algorithm[J]. Journal of Computer Applications,2005,25(8): 1808-1810.)

[45]趙文強,沈禮權,張兆楊. HEVC幀內預測算法的優化[J]. 電視技術,2012,36(8): 31-33,63. (Zhao Wenqiang,Shen Liquan,Zhang Zhaoyang. Optimization for HEVC intra prediction[J]. Video Engineering,2012,36(8): 31-33,63.)

[46]Tan T K,Boon C S,Suzuki Y. Intra prediction by template matching [C]// Proc of International Conference on Image Processing. Pisca-taway,NJ: IEEE Press,2006: 1693-1696.

[47]Meng Bojun,Au O C,Wong C W,et al. Efficient intra-prediction algorithm in H.264[C]// Proc of International Conference on Image Processing. Piscataway,NJ: IEEE Press,2003: 837-840.

[48]張敏,耿國華. H.264/AVC快速幀內預測模式選擇算法[J]. 計算機應用研究,2011,28(2): 782-784. (Zhang Min,Geng Guohua. Fast intra-prediction mode selection algorithm for H.264/AVC[J]. Application Research of Computers,2011,28(2): 782-784.)

[49]周巍,史浩山,周欣. H.264幀間預測快速算法[J]. 計算機輔助設計與圖形學學報,2008,6: 770-774. (Zhou Wei,Shi Haoshan,Zhou Xin. A novel fast inter prediction algorithm in H.264/AVC[J]. Journal of Computer-Aided Design amp; Computer Graphics,2008,6: 770-774.)

[50]宋彬,常義林,周寧兆. 基于H.264幀間預測的快速算法[J]. 電子學報,2006,34(1): 31-34. (Song Bin,Chang Yilin,Zhou Ningzhao. Fast inter prediction method based H.264[J]. Acta Electro-nica Sinica,2006,34(1): 31-34.)

[51]Vanne J,Viitanen M,Hmlinen T D. Efficient mode decision schemes for HEVC inter prediction[J]. IEEE Trans on Circuits and Systems for Video Technology,2014,24(9): 1579-1593.

[52]Liu Weizhong,Luo Runbing,Feng Zhuoming. A fast mode decision algorithm for H.264/AVC inter prediction[C]// Proc of IEEE International Conference on Intelligent Control,Automatic Detection and High-End Equipment. Piscataway,NJ: IEEE Press,2012: 5-8.

[53]劉鵬宇,賈克斌. 一種利用宏塊直方圖的快速幀間預測方法[J]. 計算機應用研究,2011,28(7): 2774-2777. (Liu Pengyu,Jia Kebin. Fast inter-frame prediction method using histogram of macro-block[J]. Application Research of Computers,2011,28(7): 2274-2777.)

[54]高文,田永鴻,王堅. 數字視網膜: 智慧城市系統演進的關鍵環節[J]. 中國科學: 信息科學,2018,48(8): 1076-1082. (Gao Wen,Tian Yonghong,Wang Jian. Digital retina: a key link in the evolution of smart city systems[J]. Scientia Sinica Informationis,2018,48(8): 1076-1082.)

[55]Bajic' I V,Lin Weisi,Tian Yonghong. Collaborative intelligence: challenges and opportunities[C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2021: 8493-8497.

[56]Lou Yihang,Duan L Y,Luo Yong,et al. Towards digital retina in smart cities: a model generation,utilization and communication paradigm[C]// Proc of IEEE International Conference on Multimedia and Expo. Piscataway,NJ: IEEE Press,2019: 19-24.

[57]高文. 城市大腦的痛點與對策[J]. 智能系統學報,2020,15(4): 818-824. (Gao Wen. City brain: challenges and solution[J]. CAAI Trans on Intelligent Systems,2020,15(4): 818-824.)

[58]朱文武,王鑫,田永鴻,等. 多媒體智能: 當多媒體遇到人工智能[J]. 中國圖像圖形學報,2022,27(9): 2551-2573. (Zhu Wenwu,Wang Xin,Tian Yonghong,et al. Multimedia intelligence: the convergence of multimedia and artificial intelligence[J]. Journal of Image and Graphics,2022,27(9): 2551-2573.)

[59]Duan Lingyu,Chandrasekhar V,Chen Jie,et al. Overview of the MPEG-CDVS standard[J]. IEEE Trans on Image Processing,2015,25(1): 179-194.

[60]Choi H,Bajic I V. HEVC intra features for human detection[C]// Proc of IEEE Global Conference on Signal and Information Proces-sing. Piscataway,NJ: IEEE Press,2017: 393-397.

[61]Duan Lingyu,Lou Yihang,Bai Yan,et al. Compact descriptors for video analysis: the emerging MPEG standard[J]. IEEE MultiMedia,2018,26(2): 44-54.

[62]Chandrasekhar V,Lin Jie,Morère O,et al. Compact global descriptors for visual search[C]// Proc of Data Compression Conference. Pisca-taway,NJ: IEEE Press,2015: 333-342.

[63]朱秀昌,李欣,陳杰. 新一代視頻編碼標準—HEVC[J]. 南京郵電大學學報: 自然科學版,2013,33(3): 1-11. (Zhu Xiuchang,Li Xin,Chen Jie. Next generation video coding standard—HEVC[J]. Journal of Nanjing University of Posts and Telecommunications: Natural Science,2013,33(3): 1-11.)

[64]周波,王力波,劉東華,等. 用于AVS視頻編碼的快速子像素運動搜索算法[J]. 計算機應用研究,2008,25(7): 2238-2240. (Zhou Bo,Wang Libo,Liu Donghua,et al. Rapid sub-pixels movement search algorithm for AVS video coding[J]. Application Research of Computers,2008,25(7): 2238-2240.)

[65]Wiegand T,Sullivan G J,Bjontegaard G,et al. Overview of the H.264/AVC video coding standard[J]. IEEE Trans on Circuits and Systems for Video Technology,2003,13(7): 560-576.

[66]Sullivan G J,Ohm J R,Han W J,et al. Overview of the high efficiency video coding(HEVC) standard[J]. IEEE Trans on Circuits and Systems for Video Technology,2012,22(12): 1649-1668.

[67]侯金亭,馬思偉,高文. AVS標準綜述[J]. 計算機工程,2009,35(8): 247-249,252. (Hou Jingting,Ma Siwei,Gao Wen. Overview of AVS standard[J]. Computer Engineering,2009,35(8): 247-249,252.)

[68]Gao Wen,Ma Siwei,Zhang Li,et al. AVS video coding standard[M]// Chen C W,Li Z,Lian S. Intelligent Multimedia Communication: Techniques and Application. Berlin: Springer,2010: 125-166.

[69]馬思偉. 基于率失真優化的視頻編碼研究[D]. 北京: 中國科學院大學,2005. (Ma Siwei. Research on video coding based on rate distortion optimization[D]. Beijing: University of Chinese Academy of Sciences,2005.)

[70]崔子冠,朱秀昌,干宗良,等. H.264視頻編碼率失真優化和碼率控制技術研究進展[J]. 電子學報,2013,41(12): 2443-2450. (Cui Ziguan,Zhu Xiuchang,Gan Zongliang,et al. Advances in rate distortion optimization and rate control techniques for H.264 video coding[J]. Acta Electronica Sinica,2013,41(12): 2443-2450.)

[71]Sullivan G J,Wiegand T. Rate-distortion optimization for video compression[J]. IEEE Signal Processing Magazine,1998,15(6): 74-90.

[72]Yang Enhui,Yu Xiang. Rate distortion optimization for H.264 interframe coding: a general framework and algorithms[J]. IEEE Trans on Image Processing,2007,16(7): 1774-1784.

[73]唐浩漾,史浩山,趙洪鋼. 基于可伸縮視頻編碼的率失真優化編碼算法[J]. 計算機應用研究,2009,26(9): 3584-3586. (Tang Haoyang,Shi Haoshan,Zhao Honggang. Adaptive RD-optimal coding algorithm for scalable video coding[J]. Application Research of Computers,2009,26(9): 3584-3586.)

[74]Chen Di,Chen Qingshuang,Zhu Fengqing. Pixel-level texture segmentation based AV1 video compression [C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Pisca-taway,NJ: IEEE Press,2019: 1622-1626.

[75]Wang Shurun,Wang Shiqi,Zhang Xinfeng,et al. Scalable facial image compression with deep feature reconstruction [C]// Proc of IEEE International Conference on Image Processing. Piscataway,NJ: IEEE Press,2019: 2691-2695.

[76]Wang Shurun,Wang Shiqi,Yang Wenhan,et al. Towards analysis-friendly face representation with scalable feature and texture compression[J]. IEEE Trans on Multimedia,2021,24: 3169-3181.

[77]Suzuki S,Takagi M,Hayase K,et al.Image pre-transformation for recog-nition-aware image compression [C]// Proc of IEEE International Conference on Image Processing. Piscataway,NJ: IEEE Press,2019: 2686-2690.

[78]Bragilevsky L,Bajic' I V. Tensor completion methods for collaborative intelligence[J]. IEEE Access,2020,8: 41162-41174.

[79]Dhondea A,Cohen R A,Bajic' I V. CALTeC: content-adaptive linear tensor completion for collaborative intelligence[C]// Proc of IEEE International Conference on Image Processing. Piscataway,NJ: IEEE Press,2021: 2179-2183.

[80]Duan Lingyu,Liu Jiaying,Yang Wenhan,et al. Video coding for machines: a paradigm of collaborative compression and intelligent analy-tics[J].IEEE Trans on Image Processing,2020,29:8680-8695.

[81]Xia Sifeng,Liang K,Yang Wenhan,et al. An emerging coding paradigm VCM: a scalable coding approach beyond feature and signal [C]//Proc of IEEE International Conference on Multimedia and Expo. Piscataway,NJ: IEEE Press,2020: 1-6.

[82]Hu Yueyu,Yang Shuai,Yang Wenhan,et al. Towards coding for human and machine vision: a scalable image coding approach[C]// Proc of IEEE International Conference on Multimedia and Expo. Piscataway,NJ: IEEE Press,2020: 1-6.

[83]Chen Sien,Jin Jian,Meng Lili,et al. A new image codec paradigm for human and machine uses [EB/OL]. (2021-12-19). https://arxiv.org/abs/2112.10071.

[84]Yan Ning,Gao Changsheng,Liu Dong,et al. SSSIC: semantics-to-signal scalable image coding with learned structural representations[J]. IEEE Trans on Image Processing,2021,30: 8939-8954.

[85]Gao Wen,Liu Shan,Xu Xiaozhong,et al. Recent standard development activities on video coding for machines [EB/OL]. (2021-05-26). https://arxiv.org/abs/2105.12653.

[86]Liu Kang,Liu Dong,Li Li,et al. Semantics-to-signal scalable image compression with learned revertible representations[J]. International Journal of Computer Vision,2021,129(9): 2605-2621.

[87]Choi H,Bajic' I V. Scalable image coding for humans and machines [J]. IEEE Trans on Image Processing,2022,31: 2739-2754.

主站蜘蛛池模板: 在线看片中文字幕| 九九热在线视频| 日韩精品毛片| 2021国产v亚洲v天堂无码| 亚洲无码日韩一区| 色视频久久| 久久精品女人天堂aaa| 国产传媒一区二区三区四区五区| 2021国产精品自产拍在线| 日韩免费毛片| 欧美19综合中文字幕| 老司国产精品视频91| 亚洲国产亚洲综合在线尤物| 尤物在线观看乱码| 色婷婷视频在线| 日本福利视频网站| 亚洲视频欧美不卡| 日韩毛片在线视频| 精品一區二區久久久久久久網站| 91色爱欧美精品www| 露脸一二三区国语对白| 免费国产好深啊好涨好硬视频| 国产综合网站| 99免费视频观看| 色综合天天视频在线观看| 91精品国产麻豆国产自产在线| 91成人试看福利体验区| 色哟哟色院91精品网站| 四虎国产精品永久一区| 99在线观看精品视频| 综合网天天| 91午夜福利在线观看| 蝴蝶伊人久久中文娱乐网| 五月丁香伊人啪啪手机免费观看| 国产中文一区a级毛片视频| 国产精品浪潮Av| 中文字幕不卡免费高清视频| 黄色网址免费在线| 在线欧美a| 91外围女在线观看| 国产亚洲视频中文字幕视频| 国产区免费| 日韩精品无码免费一区二区三区| 亚洲欧美日韩另类在线一| 亚洲av色吊丝无码| 亚洲a级毛片| 99热亚洲精品6码| 美女高潮全身流白浆福利区| 亚洲日本中文综合在线| 刘亦菲一区二区在线观看| 99在线观看免费视频| 亚洲国模精品一区| 色婷婷亚洲综合五月| 91精品国产情侣高潮露脸| 四虎永久在线精品国产免费| 久久亚洲综合伊人| 91午夜福利在线观看| 亚洲精品国产精品乱码不卞| 色噜噜综合网| 中国黄色一级视频| 国产精品不卡片视频免费观看| 亚洲欧洲自拍拍偷午夜色| 中文字幕调教一区二区视频| 中文字幕在线播放不卡| 人人91人人澡人人妻人人爽| 欧美一级高清视频在线播放| a级毛片在线免费| 亚洲精品欧美重口| 高清码无在线看| 喷潮白浆直流在线播放| 国产视频入口| 日韩精品少妇无码受不了| 美女内射视频WWW网站午夜| 中文字幕亚洲综久久2021| 亚洲av成人无码网站在线观看| 国产精品露脸视频| 成人一区专区在线观看| 久久中文无码精品| 日韩av无码精品专区| 91在线视频福利| 色欲色欲久久综合网| 国产尤物jk自慰制服喷水|