999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

運營商網絡監控系統高可用性設計及應用①

2020-11-24 05:46:18袁守正
計算機系統應用 2020年11期
關鍵詞:數據處理故障系統

吳 舸,袁守正,孫 鼎

(中國電信上海理想信息產業(集團)有限公司,上海 201315)

中國電信NetCare 服務,是利用中國電信統一建立的基于通用網絡監控技術和專用探針技術的監控平臺,對包括客戶端網絡設備、云端應用及虛擬資源、專線及互聯網線路提供端到端監控和管理的業務,其界面如圖1、圖2所示.該業務面向中國電信政企客戶提供服務,監控了大量的客戶設備以及相關的線路資源,對于系統的可用性要求為99.99%.基于安全方面的考慮,企業的網絡監控系統基本采用自建的方式,其架構設計是以有限的監控對象為基礎設計的,所以其系統的監控容量是有限的[1];中國電信NetCare 服務基于電信級的安全服務構建,以SaaS 的方式提供服務,在監控的設備數量、動態的監控數據體量、系統性能、系統可用性方面有著更高的要求,整個系統采用分布式分層架構模式,底層使用成熟的分布式數據庫系統、消息隊列系統,相對于傳統封閉式的監控系統,NetCare 系統能夠通過底層分布式系統的資源的動態擴展更好地滿足業務的發展需要[2].一個系統的可用性是由多方面的因素共同決定的,通常會涉及硬件、網絡、操作系統、數據庫、中間件、應用本身等[3],NetCare 系統的高可用性方案中一方面在硬件、網絡、操作系統、數據庫、中間件方面引進了相應廠商的高可用性解決方案,另一方面通過設計與實踐提升了應用系統自身的高可用性.

圖1 NetCare 系統首頁界面

圖2 NetCare 系統監控板界面

1 影響系統高可用性的因素分析

1.1 NetCare 系統邏輯架構

如圖3,NetCare 系統架構主要由數據采集子系統、數據處理子系統、業務管理子系統、消息隊列、數據緩存、數據存儲6 大部分組成.為了分散系統的采集壓力數據采集子系統部署多臺采集機,系統實測數據:每臺采集機在采集頻率為10 s 的情況下可以承擔2000 臺設備的數據采集工作.數據處理子系統采用多臺數據處理機+數據緩存的方式提高數據歸并、計算的性能,系統實測數據:每臺數據處理機在采集頻率為10 s 的情況下可以同時支持20 000 臺設備的采集數據的計算、歸并,并將數據寫入分布式數據庫中[4].

圖3 NetCare 系統邏輯架構

1.2 應用層高可用性影響分析

故障綜合影響級別的定義見表1.

表1 故障綜合影響級別

嚴重:嚴重故障對系統有著較高影響且有較高發生可能性,嚴重故障會導致系統長時間(一般以天為時間單位)的故障停機,對客戶和運營單位造成巨大損失.

高危:高優先級別故障對系統有著較高影響和中等發生可能性,或中等影響和較高發生可能性.高優先級別故障會導致系統較長時間(一般以小時為時間單位)的故障停機,對客戶和運營單位造成較大損失.

中危:中優先級別故障對系統有著較高影響和較低發生可能性,或中等影響和中等發生可能性,或較低影響和較高可能性.中優先級別故障會導致系統短時間(一般以分鐘為時間單位)的故障停機,對客戶和運營單位造成中度損失.

低危:低優先級別故障對系統有著中等影響和較低發生可能性,或較低影響和中等發生可能性.低優先級別故障會導致系統較短時間(一般以秒為時間單位)的故障停機,對客戶和運營單位造成輕微損失.

根據NetCare 系統架構分析可以得到影響系統可用性的應用層分析表2.表2中羅列了影響NetCare 系統可用性的應用層方面的主要因素[5],細分的因素數量會更多,為了后續高可用性的設計描述更加清晰,本文對于各子系統架構的風險進行了概括的總結;對于消息隊列、數據存儲、數據緩存由于采用了成熟的開源軟件且其架構中都具有高可用性的設計及實現,所以故障發生的可能性定為低.

表2 影響系統可用性的應用層分析表格

2 系統高可用性設計與實踐

2.1 網絡層面的高可用實踐

NetCare 系統使用SD-WAN 服務為客戶提供多通道高可用性技術,可以在小于1 s 的時間內切換通道,保障網絡的高可用性.

2.2 硬件層面的高可用實踐

NetCare 系統部署在采用VMWare 構建的私有云上,通過vSphere 建立包括DRS、HA 功能的集群,HA 技術最高靈敏度可以在30 s 內檢測到虛擬機故障,并重置虛擬機;DRS 可以將虛擬機從負載較重的主機遷移到負載較輕的主機上.

2.3 中間件、數據存儲、數據緩存的高可用實踐

NetCare 系統在實踐中選取了開源的ActiveMQ、MySQL、HBase、Redis 分別作為消息隊列、數據存儲、數據緩存的組件,對應的高可用性設計也采用了開源軟件自身的高可用性方案.ActiveMQ 采用了Zookeeper+LevelDB 的部署方式.MySQL 采用了Master-Slave 的部署方式.HBase 本身為高可用的分布式數據庫.Rdeis 采用了Redis-Cluster 的部署方式.數據存儲選用了MySQL 和HBase 兩種類型的數據庫,主要是基于如下考慮:關系型數據庫用來存儲設備、客戶、服務包等基本信息,這類信息數據量較小,相對變動不大;分布式數據庫主要用來存儲采集的動態數據,這類信息的數據量巨大,不適合采用關系型數據庫存儲[6].

2.4 數據采集子系統的高可用實踐

NetCare 系統的數據采集子系統主要用于從設備或其他API 接口采集動態的性能數據(主要包括:線路通斷、端口流量、CPU、內存等),采集機支持的最短采集頻率為10 s/次.為了減少對采集對象的影響,每個采集對象的數據僅由一臺采集機進行采集.

為了確保采集的高可用性,首先在線路上需要設置兩條互相備份的采集鏈路(Active-Standby 模式),當一條鏈路不可用時,采集機通過備份的鏈路進行數據采集.

由于單臺采集機可以采集的對象的數量是有限的,所以數據采集子系統中部署有多臺采集機,分散采集壓力,增強系統的可用性[7]:當一臺采集機出現故障時,影響范圍僅限于在該采集機上進行數據采集的設備.表3是NetCare 系統需要部署的采集機的數量實踐數據,其中數據是在單臺采集機CPU、內存均小于等于60%前提下的測試結果.

整個系統需要的采集機數量計算如下:

其中,Ceil為進位取整函數,MAX 為取最大數函數;M是系統總的監控設備數量;M1 為單臺采集機測試的監控設備數量上限;F為單臺被監控設備實際每秒上報的Netflow 的flow 數量;F1 為單臺采集機測試的每秒上報的Netflow 的flow 數量;S為單臺被監控設備實際每秒上報的SNMP Trap 包數量;S1 為單臺采集機實際每秒上報的SNMP Trap 包數量.

表3 單臺采集機上限測試數據

系統對采集機的狀態進行持續監控,當采集機發生故障時,可以從業務管理子系統將該采集機負責的設備轉移到其他采集機上;另外采集機上部署有關系型數據庫,當消息隊列發生故障時,可以臨時存儲采集上來的數據,增強了數據采集子系統的可用性.數據采集子系統的應用層故障時間主要取決于采集機監控頻率且重新分配設備的所屬采集機的時間.

2.5 數據處理子系統的高可用實踐

NetCare 系統的數據處理子系統主要從消息隊列中獲取最新的采集數據,從緩存中獲取最近持久化的采集數據,將兩種數據進行歸并、計算,并持久化到數據存儲中,替換緩存中的數據.多臺數據處理機采用競爭消費的方式從消息隊列中獲取數據,當一臺數據處理機故障時,其他數據處理機會分擔數據處理任務.單臺數據處理機的實測的處理速率為近600 條/s,部署3 臺數據處理機,因而數據處理子系統的應用層故障時間主要取決于消息隊列競爭的多消費者之間切換的時間.

2.6 業務管理子系統的高可用實踐

NetCare 系統的業務管理子系統主要面向客戶、運營人員提供可視化的監控相關功能,主要是Web 服務,采用兩臺Web 服務器負載均衡的方式對外提供服務.

Web 應用程序框架為自研的邊緣計算引擎[8],采用前后端分離的方式,該框架支持自動熱遷移,兩臺Web 服務器的前后端可以分別互作備份,當一臺服務器的后端服務升級時,兩個前端服務可以共享依然活躍的后端服務,可以有效減少系統維護的停機時間.

業務管理子系統應用層故障時間主要取決于Web應用容器的后端服務健康檢測時間.

2.7 IDC 層面的高可用實踐(異地災備)

以上均為同地的可用性設計及實踐,為了防患于未然,需要設置異地的災備系統,由于資源限制,NetCare系統主要采用同市區不同機房的異地災備方式,并未采用跨地域、跨電網、跨地震帶的方式.在發生機房故障時,故障時間主要取決于域名的切換時間[9].

3 NetCare 系統的可用性計算

基于以上分析,NetCare 系統的各層故障停機時間分析如表4.

表4 NetCare 系統應用層停機時間分析表

NetCare 系統總的全年預估最長停機時間:

NetCare 系統的可用性為[10]:

以上為本地系統的可用性估算,異地災備系統的切換取決于域名的生效時間(最長為48 小時),則考慮本地系統無法提供服務,啟動異地系統的情況下,NetCare系統的可用性為:

4 結論與展望

影響系統的可用性主要由平均無故障時間和平均維修時間決定,NetCare 系統采用了本文描述的相關高可用性設計后,提升了系統的平均無故障工作時間,整個系統的分布式架構減少了相關模塊的耦合度,單個模塊故障對整個系統的影響范圍得到了有效控制,縮短了故障的處理時間,整個系統可用性達到了99.9978%.影響系統可用性的因素比較多,系統建設時需要盡可能多的識別,提高系統的可用性同時也意味著成本的增加,所以對于所有影響因素要進行綜合考慮,需要在系統可用性的實際需求、建設方的資金投入、系統建設周期之間找到一個切實的平衡點.

猜你喜歡
數據處理故障系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
心理學報(2022年4期)2022-04-12 07:38:02
ILWT-EEMD數據處理的ELM滾動軸承故障診斷
水泵技術(2021年3期)2021-08-14 02:09:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
故障一點通
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
奔馳R320車ABS、ESP故障燈異常點亮
基于希爾伯特- 黃變換的去噪法在外測數據處理中的應用
故障一點通
主站蜘蛛池模板: 亚洲人成电影在线播放| 在线观看无码a∨| 国产精品视频观看裸模| 亚洲an第二区国产精品| 精品国产免费第一区二区三区日韩| 9999在线视频| 国产69精品久久久久妇女| 国产尤物在线播放| 成年人福利视频| 国产一区二区三区在线精品专区| 久久久无码人妻精品无码| 国产一级妓女av网站| 亚洲日韩第九十九页| 欧美无遮挡国产欧美另类| 无码丝袜人妻| 国产草草影院18成年视频| 九九精品在线观看| 国产情侣一区| 国产一区二区福利| 456亚洲人成高清在线| 91成人在线免费视频| 91国内外精品自在线播放| а∨天堂一区中文字幕| 国产精品成人一区二区不卡| 久久久久无码精品| 日本欧美中文字幕精品亚洲| 成人午夜网址| 无码精油按摩潮喷在线播放| 国产97视频在线观看| 免费jizz在线播放| 欧美日韩动态图| 69视频国产| 四虎精品国产AV二区| jizz在线免费播放| 精品一区二区三区水蜜桃| 日韩成人在线一区二区| 伊人久久大线影院首页| 亚洲系列无码专区偷窥无码| 欧美日韩亚洲综合在线观看| 99精品这里只有精品高清视频| 91精品国产91久无码网站| 99久久精品久久久久久婷婷| 性69交片免费看| 亚洲av成人无码网站在线观看| 亚洲国产成人久久精品软件| 无码粉嫩虎白一线天在线观看| 国产熟女一级毛片| 少妇精品在线| 国产剧情一区二区| 高清不卡一区二区三区香蕉| 动漫精品啪啪一区二区三区| 亚洲精品卡2卡3卡4卡5卡区| 亚洲天堂视频在线播放| 国产女人在线观看| 久久频这里精品99香蕉久网址| 美女国产在线| 漂亮人妻被中出中文字幕久久| 国产精品网曝门免费视频| 97综合久久| 国产精品不卡永久免费| 国产在线日本| 久久动漫精品| h视频在线观看网站| 欧美啪啪一区| 亚洲成人黄色在线观看| 亚洲精品国产精品乱码不卞| 日本国产一区在线观看| 扒开粉嫩的小缝隙喷白浆视频| 澳门av无码| 性激烈欧美三级在线播放| 日本日韩欧美| 国产精品手机视频一区二区| 国产真实乱了在线播放| 亚洲香蕉久久| 福利在线不卡一区| 无码aaa视频| 亚洲熟妇AV日韩熟妇在线| 精品国产一区二区三区在线观看| 91系列在线观看| 99热免费在线| 亚洲av日韩av制服丝袜| 日本伊人色综合网|