楊華



摘 要:本文分析了目前互動電視系統監控管理現狀,指出了應用性能管理的必要性,最后給出了應用性能管理設備在互動系統中的實際部署應用。
關鍵詞:互動電視系統;應用性能管理
1 互動電視系統監控管理現狀
隨著互動業務飛速發展,互動用戶日益增長,系統穩定安全運行的重要性越顯凸出,目前已有的監控管理管理手段主要提供是從網絡層面進行監控,監控的主要指標包括:網絡鏈路連通性、網絡帶寬利用率、網絡重傳率、設備內存使用情況等。但尚無較好的手段來從應用層面了解系統運行狀況的好壞,比如用戶訪問點播系統的感知如何,頁面加載情況等。
2 應用性能管理的必要性和技術趨勢
目前互動電視業務多樣,包括了游戲、商城、互聯網、等多種增值業務,已經傳統的點播類業務。用戶在訪問這些業務系統時所體會到的頁面響應情況直接影響用戶感知和體驗。然而就目前的監控手段,系統運行管理人員針對用戶反映的應用慢、系統中斷的問題無從定位問題根源。
應用性能管理是一種新的網絡以及應用管理的概念,從應用層面上,側重對系統的關鍵業務應用進行監控、優化。提高關鍵應用的可靠性和服務質量,保障用戶良好的用戶體驗。
簡單的說,應用性能管理可以實現網絡鏈路質量、硬件設備、流量分布、軟件應用系統性能的自動關聯分析。例如,一個用戶通過機頂盒訪問游戲系統,應用性能管理技術可以將該用戶從發起請求到數據交互涉及的所有元素進行關聯分析,包括用戶終端到系統的游戲系統服務器性能,終端性能、線路帶寬質量、數據經過的路由交換設備性能、有無異常流量干擾等,將各個元素用戶用戶訪問體驗的影響告知系統運行管理人員,直接定位應用訪問性能低下的問題根源,實現復雜問題分析簡單化。
相對于傳統的網元分析技術,例如NMS(network management system),應用性能管理技術強調的是一整套關聯元素的自動關聯分析和智能定位,而非針對單一某網元進行分析(如關注于交換機管理),因為整套系統的應用性能問題和故障不僅僅是某一網元(如硬件設備)造成的,應用性能管理技術這一管理理念可以大大減輕系統運行管理人員的工作量。
3 應用性能管理設備在互動電視系統中的應用
有線互動電視系統用戶已接近200萬,信號覆蓋全省13個地市50多個區縣,互動業務種類多樣,包含點播、回看、游戲、商城、電子營業廳等。隨著互動業務飛速發展,互動用戶日益增長,系統穩定安全運行的重要性越顯凸出,之前已有的監控管理設備主要提供對網絡設備,互動傳輸設備進行監控,但對于互動電視各業務系統,尚無較好的手段從應用層面來了解系統運行狀況的好壞,對于用戶反映頁面響應慢等問題也無法定位問題根源,同時系統側發現每日互動點播都會存在部分節目流無法釋放的現象,這些未釋放的節目流在系統中形成廢流,對系統帶寬資源、安全照成隱患,但之前的監控檢測設備尚不能定位產生該問題的原因。
為根本解決上述問題,有線將應用性能管理設備采用鏡像旁路部署模式,通過鏡像用戶對互動系統的訪問進行分析,從而實現了實時監視指定的互動應用系統的性能、頁面加載時間、所有頁面元素的加載序、服務器時間、受影響用戶數、錯誤等信息。實時了解用戶感知,對于用戶反映頁面響應慢的問題 ,也可詳細分析和定位原因;能夠基于系統、主機、來源、多個角度進行分析,支持基于IP、端口等對數據包進行分析和網絡監控,同時對于原先系統中存在廢流的問題也找到了問題根源,使問題得到了解決。
以下是一用戶反映訪問高清電視劇頁面時感到系統響應慢問題的排查過程。
通過應用性能管理設備可以將該用戶訪問的所有頁面及其加載時間情況羅列,從圖中可以方便的看到該用戶訪問所有頁面時所有環節的耗時(服務器,網絡,終端解析),該用戶訪問頁面時消耗的服務器時間都比較少,同時當頁面元素較多時,頁面加載時間會更長,如圖1紅框標示。圖2顯示了該用戶訪問高清電視劇頁面時頁面加載時間的分布,由圖可見終端耗時較大,引起這終端耗時較大的主要原因為頁面元素較多,同時機頂盒解析能力不夠導致。后續將用戶機頂盒升級配置后,問題解決。
由此可以看出,通過應用性能的監控,可以方便定位用戶對業務系統體驗不好時問題產生的根本原因,分析是由于系統服務器,還是網絡鏈路,或是終端性能造成。
以下是對于互動系統中存在節目流沒有正常釋放現象的問題排查過程。
應用性能管理設備通過用戶對系統的訪問分析,可以實時了解各區域系統網絡的具體性能,圖3顯示了江蘇有線各個地市系統網絡情況總體性能,可以看到無錫區域網絡傳輸的總流量和總數據包數明顯高于其他各個地市,連接失敗比例達78.21%。
圖4為無錫網絡異常事件詳情,從數量上看,造成網絡質量下降的主要原因是TCP連接失敗(占網絡異常事件比例99.89%),方便問題的進一步排查。
應用性能管理設備給出了用戶訪問的目標服務器及其連接情況,如圖5所示,通過這一分析,系統管理人員很清楚的看到出現連接失敗的服務器是推流服務器,而其他門戶服務器和后臺服務器未出現連接失敗。然而通過檢查推流服務器狀態,推流服務器工作狀態正常。
為進一步排查問題,系統管理人員通過應用性能管理設備將所有訪問推流服務器出現大量連接失敗的用戶進行了統計,同時對這些用戶對系統訪問的細節進行了跟蹤。下圖為某一用戶對推流服務器訪問出現大量連接失敗的具體細節。從圖中看出該用戶于13:00左右不斷發起大量(2000次/秒)TCP連接,然后被推流服務器拒絕,系統管理人員通過用戶點播記錄的查詢發現用戶與13:00前就結束了點播行為,然后終端不斷向系統發起大量無效連接,同時在系統側排查后發現用戶點的節目流沒有隨著用戶點播行為的結束而釋放,通過系統管理人員的歸類統計,發現出現該問題的終端系同款機頂盒,聯合終端廠商排查,發現正是由于該款機頂盒軟件缺陷原因,導致用戶節目點播結束后,不能正常釋放節目流,將該款機頂盒升級處理后,原先系統中存在廢流的問題得到解決。
4 總結
互動用戶日益增長,系統穩定安全運行的重要性越顯凸出,應用性能管理設備能夠提供端到端的web應用系統的全流程監控和分析,實時了解用戶體驗,定位故障根源。
[參考文獻]
[1]互動電視業務與網絡性能研究.《 南京郵電大學學報》.
[2]互動電視系統與網絡性能測試方案.廣播科學研究院.
[3]應用性能管理方案.深信服科技公司.
[4]廣電網絡互動電視業務規劃.深圳同洲電子有限公司.