李聞斌 黃晟 龐璐寧
【摘要】? ? 近些年來,以視頻流媒體為首的新興技術已經逐步占據網絡總流量的重要部分。其中,視頻流媒體中的網絡視頻服務互聯網產業的推動作用下,已經逐步成為當代視頻流媒體不可或缺的服務內容。在這樣的發展態勢下,傳統流媒體服務系統已經難以適用于當前互聯網發展規模當中。為及時解決這一問題,本文主要對基于深度強化學習的流媒體邊緣云會話調度問題進行研究分析,以期可以拓寬我國流媒體領域發展、滿足用戶高質量服務需求。
【關鍵詞】? ? 深度強化學習? ? 流媒體邊緣云? ? 會話調度策略
前言:
傳統以CDN與P2P技術為主流的流媒體系統,在應用性能方面多存在較多亟待解決的問題,難以為流媒體系統的應用可靠性與價值性提供良好保障。近年來,隨著我國新興網絡技術的成熟化發展,流媒體服務模式逐漸與云形態相接軌。結合應用發展情況來看,技術人員通過將流媒體云放置在網絡邊緣,不僅可以達到減輕核心網絡流量負載的目的,同時也可以達到提高用戶請求響應速度的目的。最重要的是,流媒體邊緣云系統在資源方面屬于按需分配進行合理應用。與傳統流媒體服務系統相較而言,流媒體邊緣云在資源調度方面更具彈性特征。但是從客觀角度上來看,當前所應用的流媒體邊緣云在資源調度以及求解方面,仍舊按照傳統模式進行規劃解決,存在自適應程度不高的問題。為緩解這一現象問題,研究人員可以利用強化學習以試錯的機制與環境之間進行交互的方法,以期消除以往自適應程度不高的問題。
一、流媒體邊緣云架構體系分析
1.1 總體架構形式
流媒體云系統的構建主要是由多個放置在網絡邊緣的流媒體邊緣云組成,在流媒體邊緣云網絡位置上對用戶發出的視頻請求進行針對性處理。與以往系統架構形式不同,流媒體邊緣云在響應用戶請求速度方面大幅度增強,同時主干網絡負載方面幅度減少,利于滿足用戶高質量服務需求。
最重要的是,流媒體子云內部的各服務節點借助云計算方式實現對系統構建過程的動態分析。根據實際應用反饋情況來看,流媒體云系統在一定程度上可以有效消除傳統流媒體服務系統存在的弊端問題。并且在內部資源的應用方面可按照科學合理的應用配置原則進行調度應用,可以減少以往資源浪費問題。
1.2 功能特點
流媒體邊緣云系統按照云計算方式進行組合構建可直接向附近互聯網用戶提供相應的服務內容,如視頻服務。在提供相應服務的過程中,流媒體邊緣云系統集成計算能力與存儲能力于一體,利用虛擬化功能的方式將各類視頻資源進行統籌規劃與合理配置,組成多個邊緣服務器。圖1為流媒體邊緣云系統結構圖。
從流媒體邊緣云系統結構圖不難看出,流媒體邊緣云系統即可直接向附近互聯網用戶提供相對應的視頻服務,也能根據用戶實際情況制定與執行調度策略。
近些年來,為進一步加強流媒體邊緣云系統的應用效果,研究人員主張利用Open Flow技術構建全新的流媒體邊緣云系統框架形式,如圖2所示。基于Open Flow技術的流媒體邊緣云系統框架在處理用戶訪問請求以及響應速度方面可以達到好的應用效果。
1.3 功能模塊
結合圖2所示的流媒體邊緣云系統結構圖來看,流媒體邊緣云系統在運行功能方面需要借助Open Flow設備與媒體服務器進行實現。其中,網絡層的Open Flow設備在結構組成方面,主要以交換機與控制器設施為主。具體應用過程中,控制器與應用層的媒體服務器各自發揮自身的功能作用,利用相對應的調度策略生成流表項,將流表項中的內容及時反饋給交換機設備當中。同時,研究人員需要立足于互聯網用戶實際需求,對應用層中的媒體服務器的應用性能問題進行重點關注。為確保媒體服務器應用性能良好,研究人員可以放置Open Flow交換機實現對流表項的合理接收。并在網絡上實現數據包轉發過程,確保了互聯網用戶與應用層的媒體服務器間的信息指令接收效果。
除此之外,流媒體服務器應該與互聯網用戶之間進行互動交流。目的在于及時掌握互聯網用戶的實際需求情況,并根據需求反饋數據對當前用戶視頻服務工作存在的不足問題進行及時定位與深化處理。有一點需要注意的是,為確保業務管理服務器功能應用效果得以滿足預期要求,研究人員可主動利用會話調度算法生成相關策略,完成對用戶視頻請求的針對性處理。綜合來看,流媒體邊緣云會話調度主要通過高效合理分配系統內部資源,實現對用戶請求的針對性處理,主要通過請求接入、會話遷移等方式予以實現。
二、 強化學習概念內容、基本原理及應用優勢分析
2.1 概念內容
強化學習屬于機器學習方法的領域范疇,主要可以理解為智能體從外界環境到行為決策的映射學習過程。在應用強化學習的過程中,系統可以與外界環境之間進行交互作用,通過不斷進行試錯,以最大累積回報之方式確定科學合理的策略方法。在這一點上,強化學習與動態規劃存在相類似的理念思想。舉例而言,強化學習方法主要利用價值函數對相關解決策略進行生成處理。并根據生成處理方案,選擇最優的解決策略。除此之外,強化學習在方法策略方面,主動集成人工智能技術以及神經網絡技術等學科領域優勢,進一步加強了系統運行功能。
2.2 基本原理
強化學習在基本原理方面主要表現于以下幾點:
當系統在執行某個行為動作之后受到外界因素的影響而出現改變問題時,系統可以及時從外界環境中獲取相關信息,并根據相關信息反饋情況制定相對應的獎懲措施;當系統執行某一動作之后,外界環境因素對執行動作產生正面影響,則可以認為智能體今后的行為動作在概念方面將會得到不斷增加;當系統執行某一動作之后,外界環境因素對執行動作產生負面影響,則與上述內容相反。
2.3 應用優勢
結合以往的應用經驗來看,強化學習系統通常具備以下幾點優勢:
一是自適應性程度較高。強化學習系統可以主動與外部環境之間進行互動聯系,并從外界環境中獲取信息。二是反應性程度較高。強化學習系統主要根據既定的經驗以及動作情況,對現有動作策略進行合理選擇;三是很少依賴外部指導信號。系統可以根據外部環境對系統實際作用影響情況,采取針對性措施進行決策判斷。
三、基于深度強化學習的流媒體邊緣云會話調度策略分析
3.1 會話調度模型
流媒體邊緣云會話調度策略再結合深度強化學習內容時,需要堅持按照會話調度模型構建要求進行統籌規劃與合理部署。結合實踐應用情況來看,研究人員所設定的強化學習目標需要圍繞大量學習訓練反饋情況進行合理確立。其中,在決策器設施的確立方面,研究人員可以根據MEC系統的運行情況以及用戶視頻實際需求,選擇合適的服務器進行協助處理。這樣一來,系統可以及時獲取新用戶的請求信息。并根據用戶請求信息情況,確定合適的調度策略。在會話調度模型的構建方面,可以參照圖3。
3.2 會話調度的強化學習模型及會話調度算法
合理應用強化學習算法始終是構建強化學習模型的重要步驟。在具體應用過程中,研究人員應該根據流媒體邊緣云會話調度系統的應用需求,將會話調度問題轉為強化學習問題。并在此基礎上,從MEC系統中得到的狀態信息視為環境狀態反饋內容,將用戶視頻請求接入到服務器當中。在強化學習會話調度算法的應用方面,建議研究人員可以從確定行為動作策略、存儲價值函數等方面進行統籌規劃與合理計算。在具體計算過程中,建議研究人員可利用行為選擇策略與深度神經網絡進行合理完成。必要時為確保系統環境運行安全,研究人員也可以利用行為搜索策略進行針對性處理。
結術語:總而言之,隨著我國互聯網用戶規模及數量的不斷增加,用戶對于視頻流媒體服務的需求也不斷增加。在這樣的發展態勢下,如何滿足用戶請求接入與用戶高質量服務要求,儼然成為我國流媒體服務系統亟待解決的問題。結合以往的經驗來看,傳統基于CDN與P2P技術的流媒體系統在應用方面存在較多弊端問題,難以有效應用于當前視頻流媒體服務工作當中。為及時解決這一問題,建議研究人員可以主動結合深度強化學習策略方法,并利用流媒體邊緣云會話調度策略,促使流媒體服務不斷朝向云形態轉變,對我國流媒體服務系統的進一步發展提供良好的技術支持。
參? 考? 文? 獻
[1]徐西建. 基于深度強化學習的流媒體邊緣云會話調度策略[D].中國科學技術大學,2018.
[2]徐西建,王子磊,奚宏生. 基于深度強化學習的流媒體邊緣云會話調度策略[J]. 計算機工程,2019,45(05):237-242+248.
[3]姜同全. 流媒體邊緣云的聯合優化資源調度策略研究[D].中國科學技術大學,2016.
[4]江坤. 跨域流媒體邊緣云聯合優化策略研究[D].中國科學技術大學,2017.
[5]姜同全,王子磊,奚宏生. 基于動態閾值分配的流媒體邊緣云會話遷移策略[J]. 計算機工程,2017,43(01):55-60.