黃浩銘 鄭瀅 王博 王興辰
北方工業大學 北京 100144
隨著越來越多的人習慣于通過移動視頻獲取和共享信息,移動視頻流量已經占據了移動網絡流量的一大部分。然而,通過無線網絡傳輸高質量的流媒體視頻仍極具挑戰性。在5G時代,數據風暴正在加劇,相比4G的價格,5G移動視頻的數據成本不可忽略。提升移動視頻QoE的一個流行技術是碼率自適應(ABR)[1]技術。ABR的基本思想是,在播放過程中用戶應該主動調整視頻碼率,使之與實時網絡條件相適應,從而減少因為視頻碼率與網絡條件之間的不匹配造成的播放卡頓。因此,更智能的ABR算法需要考慮比特率調整中的流量約束,在用戶指定的可承受流量范圍內提高移動視頻QoE。為解決上述問題,本文考慮了一種基于數據流量的碼率自適應算法。為此,我們首先分析不同碼率切換和流量消耗對移動視頻QoE的影響,給出流量感知的QoE預測模型;其次,提出一種基于數據流量的碼率自適應策略;該策略以可承受交通為約束;最后,通過仿真實驗將本文算法與經典ABR算法進行比較,驗證了本文算法的有效性。
根據用戶指定的流量限制與剩余視頻長度,可以計算出下載剩余視頻的平均碼率R。 我們計算第j個視頻片段在t時刻的QoE得分如下:

其中,α,β,μ是控制不同QoE因素重要性的權重值。S(j)反映了碼率切換的影響,為平均視頻碼率,I(t)是一個0-1變量,表示下一個視頻塊的下載是否會使流量超出指定值,超出則取0。我們將以最大化QoEMem(j, t)為選擇下一個視頻碼率的目標。
現有的ABR算法忽視了移動數據流量的成本,本文提出一種混合自適應碼率選擇算法,可以根據當前的網絡和流量使用情況來優化QoEMem(j, t)。
為了使ABR算法盡可能地貼合移動視頻用戶的需求,自適應的目標函數如下:

其中,T為用戶指定的流量限制,traffic截至目前下載視頻所用的總流量。
本文通過增強學習模型來進行碼率的選擇,并利用“Actor-Critic”技術[2]來訓練模型。在基于數據流量的ABR系統中,當前網絡狀態、視頻源、視頻播放器、數據流量限制將作為增強學習模型的環境;由深度學習網絡組成碼率自適應選擇的代理,其能夠隨時間積累慢慢優化,從而做出最優的行為;環境信息將作為狀態st(t)傳遞給代理,使代理做出碼率選擇決策。我們以QoEMem(j, t)作為增強學習模型的激勵函數。當前碼率選擇作用在當前環境后(即改變碼率),將會產生新的狀態st(t+1),在新狀態下獲得的QoE指標被輸入到激勵函數,作為模型參數更新的依據。
仿真結果表明,在600秒的視頻播放過程中,本文方法的碼率切換次數最小。由于本文方法可以根據網絡條件和流量約束更快速地調整視頻碼率,對環境變化更敏感。此外,我們將碼率分為五個等級,并計算了各ABR方法下載視頻塊時不同碼率的占比。本文方法主要有三個碼率等級其中占比較高,具有良好的穩定性。而其他ABR方法則涵蓋了五個等級。
為了在給定的數據流量范圍內,提供更優的觀看體驗,本文首先定義了QoE模型,特別考慮了流量消耗對QoE的影響。其次,提出了一種基于數據流量的碼率自適應算法,并采用增強學習求解。最后,通過仿真實驗驗證了本文算法的敏銳性和穩定性。