徐孟江 田 良
(中國聯通貴州省分公司,貴州 貴陽 550001)
如今互聯網以驚人的速度飛速發展,對于早期一些基于短信、彩信、語音的預警方式逐漸形成了一些效率上的瓶頸,同時,部分統計數據無法通過短信、語音形式進行實時發布,無法滿足日常工作中高效維護的需要。
我分公司集中監控調度工作完成后,經過不斷優化調整,至2018 年,雖然一定程度上集約了人力,但大部分工作仍需通過手工方式進行操作,其中之一為人工每小時將專業網管或專業綜合網管數據查詢、導出后,按照相應的模板統計、填報數據,再由人工發布至相應的釘釘群,工作效率較低,且容易造成數據統計錯誤,及時性不高,U 盤拷貝數據也存在一定的網絡隱患。在公司互聯網化轉型,提質增效等工作指引下,開展了釘釘群機器人運維監控調度自動化創新。
在機器人管理頁面選擇“自定義”機器人,輸入機器人名字并選擇要發送消息的群。如果需要的話,可以為機器人設置一個頭像。點擊“完成添加”,完成后會生成webhook 地址。
點擊“復制”按鈕,即可獲得這個機器人對應的Webhook 地址 , 其 格 式 如 下 :https://oapi.dingtalk.com/robot/send?access_token=xxxxxxxx
獲取到Webhook 地址后,指定系統可以向這個地址發起HTTP POST 請求,即可實現給該釘釘群發送消息。發起POST請求時,必須將字符集編碼設置成UTF-8。
當前自定義機器人支持文本(text)、連接(link)、markdown markdown)、ActionCard、FeedCard 消息類型,可以根據使用場景選擇合適的消息類型,達到最好的展示樣式。
自定義機器人發送消息時,可以通過手機號碼指定“被@人列表”。在“被@人列表”里面的人員收到該消息時,會有@消息提醒(免打擾會話仍然通知提醒,首屏出現“有人@你”)。
每個釘釘群機器人每分鐘最多可發送20 條消息。若消息發送太頻繁會嚴重影響群成員的使用體驗,因此可將大量發消息的場景(譬如單設備告警消息)進行整合,通過markdown 消息以摘要的形式發送到釘釘群中。
系統每小時0 分,定時對全省的基站斷站信息進行統計,并生成通報數據,調用釘釘自定義機器人接口,將數據發送至省公司運維釘釘群中。
系統根據基站類型和基站等級兩種維度進行數據統計。
系統在生成通報數據時,按照預設的閾值進行數據封裝(閾值隨時可以進行增刪改),預設的閾值為:
(1)單一區縣斷站數小于20 個,不單獨進行提示,顯示為:零星分布。
(2)單一區縣斷站數大于等于20 個,單獨進行提示,顯示為:區縣名稱。
2.4.1 消息類型及數據格式text 類型
代碼如下:

參數說明如表1。

表1
消息內容(content)只支持md 語法的子集,具體支持的元素如表2。

表2
2.4.2 全省告警信息通報實現效果
截止11 月2 日13:00 全省基站斷站XXX 個,其中2G-XX,3G-XX,4G-XX;
(1)貴陽市XX 個(A-X,B-X,C-X),零星分布;
(2)遵義市XX 個(A-X,B-X,C-X),零星分布;
(3)...................................
斷站詳情——-->(此為url,點開可查看詳情)
釘釘群機器人每小時0 分,定時對全省各地市的基站斷站信息,根據設備類型和設備等級兩種維度進行數據統計,并按照相應模板生成通報信息,調用釘釘自定義機器人接口,將信息發送至地市分公司運維釘釘群中。同時加入發送失敗檢測機制,確保信息正常發送。
2.5.1 消息類型及數據格式


表3
2.5.2 地市告警信息通報實現效果
截止11 月2 日13:00 貴陽市基站斷站XXX 個,其中2G-XX,3G-XX,4G-XX;
(1)貴安新區XX 個(A-X,B-X,C-X)。
(2)......................
斷站詳情——-->(此為url,點開可查看詳情)
監控調度中心利用互聯網手段,通過釘釘軟件開放的webhook 能力進行二次開發,結合集中監控調度工作內容,在進行網絡安全處理后,與運行維護部相應的專業綜合網管系統對接,進行相應的軟件開發、規則設置后,將故障通報工作由人工轉變為自動,提升集中監控調度效率,釋放部分人力。
通過釘釘開放的webhook 能力,自主研發,在全省及各市州運維群設置釘釘機器人。在后端進行相應的軟件開發,定時同步并統計各專業綜合網管告警,按照監控調度通報規則,對數據進行封裝后,根據釘釘機器人的webhook 地址,發起http post請求,將數據通報至相應的釘釘群(如全省數據通報到省群,貴陽數據通報到貴陽群,還可通過url 鏈接可查看詳情)。
釘釘機器人啟用前,每小時1 次由監控人員統計通報的數據,需要從各系統中導出進行加工,再進行通報,全省10 個本地網,每個歷時10-15 分鐘左右才能完成,耗時耗力。啟用釘釘機器人后,每小時1 次的通報僅1 分鐘即可實現,工作效率大幅提升,部分人力得到釋放。
主要成效如下:
(1)效率提升:自主開發,利舊原有1 臺x86 服務器(約3 萬元)實現功能。按照全省及10 個本地網計算,每個小時工作耗時由原來的10-15 分鐘縮減為1 分鐘以內,每人每日(12 小時制)節省2-3 小時。工作效率大幅提升,監控人員將更多精力投入到核心網、核心局房等重要網元的監控調度上。
(2)差錯性:人工統計數據、存在一定的延遲性、數據不準確性和人為差錯。改為系統實現后,數據及時性大幅提升、準確性更高。
(3)功能迭代:后期還可在該基礎上進行功能的迭代開發,將其他的運維日常工作自動化,對運維密集型、重復性勞動工作的效率提升潛力巨大。
(4)安全管控:傳統方式從多個專業網管或綜合網管(內網)統計數據后,通過U 盤進行拷貝,再發送到公網,存在一定的病毒傳播、網絡安全等風險,現統一進行安全管控,降低了風險。
越來越多的企業選擇使用移動端進行日常工作處理、業務交互、消息發布,以加強企業內部協作,提高生產、服務效率,員工也更能夠接受和適應移動端的相關應用。貴州聯通基于釘釘群機器人的消息發布方式,有效的解決了日常工作中告警消息、統計數據的實時發布,極大的提高了消息發布的及時性、準確性,大幅提升了一線工作人員和領導層的相關工作。通過分權分域,將更多的系統信息通過釘釘群機器人發布到不同專業、不同地市或不同維度的釘釘群中,提升了自動化運維能力和工作效率。