基于Q-learning的屏幕內容視頻編碼

2020-01-16 07:39:24徐媛媛朱艷麗

電子技術與軟件工程 2019年22期

文/徐媛媛朱艷麗

1 引言

虛擬桌面、無線顯示器、云游戲和大規模在線課程等興起的新應用對終端設備之間的屏幕共享提出了越來越高的要求。與傳統相機拍攝的視頻相比，屏幕內容視頻具有大量計算機生成的圖形和文本,有著顏色種類有限、無傳感器噪聲、存在重復出現的圖案等特性。這些特性促進了高效視頻編碼（HEVC）標準[1]中的屏幕內容編碼（SCC）的擴展標準的制定[2,3]。與之前的H.264 等視頻編碼標準相比，HEVC 的計算復雜度已大幅增加。由于在HEVC-SCC 中使用了新的編碼工具，例如塊內復制（IBC）和調色板（PLT）模式，這使得屏幕內容的幀內編碼比起HEVC 顯得更加復雜。這對于計算能力有限的設備進行屏幕內容編碼提出了巨大的挑戰。

為了解決屏幕內容幀內編碼的復雜性問題，有人提出了一種基于哈希值的塊匹配方法，從具有相同哈希值的多個圖像塊中選擇當前塊的預測塊。此方法具有低時延，且進一步增強了屏幕內容編碼的壓縮性能。還有人提出了一個根據熵和編碼比特快速決定編碼樹單位的劃分方法，大大節約了編碼時間。然而，上述屏幕內容編碼方法并未考綜合考慮編碼效率和編碼復雜度。為此，本文提出了利用Q-learning強化學習方法，對低復雜度的屏幕內容編碼算法進行設計。本文設計了強化學習的回報函數、動作、特征設計，使用Q-learning 對測試數據進行離線編碼策略學習，然后在設備的屏幕內容編碼中使用該決策來減少需要搜索的編碼模式。

2 基于強化學習的屏幕內容編碼框架

本文提出的基于強化學習的屏幕內容編碼框架如圖1所示。在此框架中，終端設備將編碼偏好即率失真性能和計算復雜度之間的權衡系數μ 傳遞給強化學習模塊。對于給定的μ，使用屏幕內容視頻訓練集通過強化學習離線學習編碼策略。終端設備可以將學習到的編碼策略用作編碼的靜態部分，以加快其幀內編碼模式決策過程。根據終端設備的編碼偏好，可使用不同的權衡系數。計算資源較少的終端設備傳遞較大的μ 值，而較小的μ 值與充足的計算資源相關聯。對于相同類型的終端設備，編碼策略只需要學習一次、便可將學習到的編碼策略用于其他設備上。

表1：編碼策略學習算法

表2：與HM-16.18 SCM 8.7 的編碼性能比較

在強化學習模塊中，學習代理反復與學習環境互動（使用屏幕內容視頻訓練集進行編碼）。幀內編碼過程可以看作是一系列編碼決策情節，可以重復評估所選的幀內編碼模式。在時間點t，學習代理基于環境狀態信息（樣本特征）st從可用動作集合中選擇一個動作a（評估選擇的編碼模式）以對學習環境進行動作。執行動作后，解釋器會反饋有關環境的新狀態的信息st+1，并反饋與執行動作相關的回報（目標優化函數的值）信息rt+1。通過這個反復學習的過程，強化學習模塊能習得編碼策略。

3 強化學習模塊設計

下面對強化學習模塊的動作、特征、回報函數設計進行詳細介紹。

HEVC-SCC 的編碼模式大致分為三類：HEVC 編碼模式，IBC 模式和PLT 模式，相應地可定義三個動作，分別對應于評估HEVC幀內模式、IBC 模式和PLT 模式。

特征設計主要依據動作所對應的編碼單元統計信息。在屏幕內容編碼中，對顏色數量有限的CB 和邊界清晰的編碼單元通常使用PLT 模式進行編碼。對色調不連續的屏幕內容區域通常使用IBC 或調色板模式進行編碼。均勻區域通常使用幀內編碼模式。因此，本文使用了如下特征：像素方差、顏色數量、具有相同值的最大像素數量，水平像素值的最大游程長度和垂直像素值的最大游程長度。

在本方案中，強化學習的回報函數設計綜合地考慮了編碼效率和編碼復雜度，設計如下：

4 基于Q-learning編碼策略學習算法

Q-learning 是強化學習中基礎的算法，它是一種無模型學習并且能收斂到最優Q 函數。在上述特征、動作和回報函數的設計后，本文提出了一種基于Q-learning 的編碼策略學習算法。該算法（算法1）如表1所示，可以學習到編碼模式分類的網絡參數。在編碼策略學習后，即得到分類器的網絡參數θ 后，將其發送到終端設備上。在終端設備上，網絡參數θ 以編碼器的靜態部分這種方式實現。在終端設備上的幀內編碼過程中，每個CU 僅評估對應最大回報的編碼模式。

5 實驗結果

筆者將本文提出的編碼方案基于HEVCSCC 參考軟件HM-16.18 SCM 8.7 進行了實現。在編碼中，使用全幀內（AI）配置文件，編碼偏好的權重設置為0.5。通過對六個不同分辨率、不同特點的視頻序列進行屏幕內容編碼，獲得了Q-learning 所需要的訓練數據。在訓練數據上使用算法1 學習了編碼策略。

為了驗證本文方案有效性，選取了另外五個不同的屏幕內容序列作為測試序列，然后將本文提出的編碼方案與HM-16.18 SCM 8.7 的參考測試軟件中實現的編碼方案進行了比較。由于大小為64×64 的編碼單元編碼模式選擇較少，筆者只對大小為32×32，16×16 的編碼塊應用了習得的編碼策略。表2中列出了不同視頻序列的比較結果。編碼方案率失真性能的下降用 Bj?ntegaard 增量速率（BD-rate）來衡量，其中負值表示節省比特率，正值表示增加比特率。編碼復雜度通過節省編碼時間的百分比來衡量。從表2中可以看出，本文的編碼算法在BD-rate 平均上升3.54%的情況下，平均上節約了10.52%的編碼時間。換句話說，在編碼效率損失較小的情況下，有效得節約了編碼時間。

圖1：基于強化學習的屏幕內容編碼框架

6 結論

為了能在計算資源受限的設備上進行需要搜索較多編碼模式的屏幕內容視頻編碼，本文提出了一種基于Q-learning 的屏幕內容編碼算法。該算法將幀內編碼模式的選擇作為一個決策問題，利用Q-learning 強化學習對測試數據進行離線訓練，獲得的模型參數作為決策的依據，然后在編碼器中使用該決策來減少需要搜索的屏幕內容幀內編碼模式數目。實驗結果驗證了本文方案的有效性。