胡圣青






摘 要:在傳統的電網調度自動化主站系統運行中,通常需要人工操作系統以完成指令,進而增加了人工操作的時間,并且存在系統宕機的風險。一旦出現這種情況,由于人工操作導致失誤會對電網調度造成巨大影響。對此,通過研究一種電網調度自動化主站系統急救箱,則可以很好地解決這一問題。文章主要分析了此系統的構成與應用,以期實現對電網調度自動化主站的良好控制和及時反饋,進一步提高電網調度自動化水平。
關鍵詞:電網調度自動化;主站系統;急救箱
中圖分類號:TM7 文獻標識碼:A 文章編號:1674-1064(2022)03--03
DOI:10.12310/j.issn.1674-1064.2022.03.038
通過自主編程研發一種基于D5000主站系統平臺的“急救箱”概念的桌面應用軟件,具備人機交互界面,在人機交互界面上用戶可以通過故障表現選取對應的一鍵排查、恢復選項自動診斷及恢復故障。
可恢復的故障包括但不限于系統人機卡死、遙控監護無法發起、AVC進程異常、網絡異常、輔助最小黑啟動等。通過應用此系統軟件,不需要在終端上敲出復雜的命令,便可以快速、便捷地排查常見的系統使用故障并一鍵恢復,當系統宕機后,能夠快速進行輔助和啟動,提高了系統運行效率,實現為基層班組減負,保證系統穩定運行[1]。
1 項目背景
運維人員的傳統運維方式主要是通過操作大量系統運維指令實現。操作系統、數據庫、應用系統的運維指令數量龐大且其參數組合多變,造成了難于全面記憶所需運維指令、難于保證操作標準及操作質量、難于提高運維效率等客觀存在的問題。系統節點數增加,遍歷所有硬件、軟件節點,導致重復工作量大,容易出現工作對象遺漏或同類工作對象上工作內容差異等問題[2]。
大量重復工作下,通過指令獲得的正常與異常信息交叉出現,容易導致運維人員對結果信息辨識不到位而忽略關鍵信息問題。云計算、大數據、物聯網、移動互聯網技術迅猛發展,設備監控專業可借助新技術提升運行能力,實現新的突破,增加監控智能化水平[3]。這樣勢必影響電網調度的自動化水平,進而制約電網調度效率,影響用戶的用電需求。
針對此問題,要想保證電網調度自動化運行,就必須采取有效的改善措施,研究一種先進的自動化技術,并且與信息技術、大數據技術相結合,從而解決此問題。本研究研發了一種急救箱功能,通過應用此功能,可以針對出現的問題采取自動化處理措施,避免了煩瑣的人工操作步驟,既不會出現操作失誤,又能夠大大提高操作效率,從而保障電網調度工作的順利開展,并實現電網調度自動化水平的提升[4]。
急救箱應用的關鍵技術在于java面向對象編程,shell編程技術及調用技術,基于D5000平臺的進程操作指令。通過應用急救箱功能,實現調度人員、自動化運維人員通過使用本軟件而不用在終端上敲復雜的命令,而快速、便捷地自動排查常見的系統使用故障及一鍵恢復,這樣便能夠在電網調度出現問題的地方實現及時的故障分析,并采取對應的故障處理措施,從而確保主站系統的正常運行不受影響[5]。
當系統宕機后,通過急救箱功能,也可以為工作人員提供檢測依據,幫助其能夠快速地輔助啟動,這樣便解決了調度人員遇到系統故障后不能自主恢復,需要自動化人員到場排查的耗時耗人問題、系統常規故障運維工作重復、操作煩瑣及系統失靈后恢復超時的問題[6]。
上述問題解決之后,便能夠進一步提高電網調度主站系統的自動化水平,并減去繁雜的人工操作步驟,由此大大提高系統自動化操作效率,為基層班組減負,保證系統穩定運行。
2 系統急救箱架構說明
系統急救箱程序界面如圖1所示,主要分為客戶端程序和服務端程序,以及一個配置文件,客戶端程序即sys_operate_manage,是一個界面程序,主要用于查看巡視結果,服務端程序sys_operate_monitor是采集程序,作用是采集各節點上的信息。
客戶端程序拷貝到工作站上,便于查看系統巡視結果,服務端程序則分發到需要體檢的服務器或者工作站上。配置文件需要拷貝到有客戶端程序的工作站上,里面定義了需要體檢的節點信息,以及體檢項目的閾值,只有超過閾值的體檢項會被標為異常項目在報告上體現出來[7]。
此軟件主要是使用java的swing框架開發,故障的排查及處理通過調用shell腳本執行,采用面向對象技術開發,并通過配置文件,動態增加可處理故障。通過發揮急救箱的相關功能,便可以充分分析系統故障,并做好故障的排查工作,基于急救箱功能進行故障處理,以快速地恢復主站系統運行,提高主站系統的運行水平[8]。
圖1中工作站的客戶端程序通過remote_exed命令到服務器執行sys_operate_monitor程序采集數據,然后再匯總到工作站,以便查看巡視結果。由此,便能夠充分采集相關數據,并綜合整理分析這些數據,整體匯總到工作站后便能查看最終的巡視結果,完成相應的功能發揮[9]。
3 部署說明
系統環境:D5000系統。
軟件環境:系統版本3.02/3.03、qt453及以上。
需要在數據庫創建3張表,現場環境基于國產達夢數據庫。3張表的具體信息如表1所示。
新增的3張表不需要在表、域信息表中增加記錄,僅需要在ALARM模式下新增表實體即可,其中sys_operate_info表記錄會隨著多次體檢而增加。
建表腳本在sys_operate_monitor/doc目錄下,包括create_sys_operate_info.sql、create_sys_operate_item_info.sql、create_sys_operate_examine_report.sql。
使用isql ALARM/ALARM@mdb xxxxx.sql將sys_operate_manage目錄下sys_operate_manage.sys配置文件拷貝到$HOME_D5000/conf目錄下,填入需要體檢的節點名稱。
[NodeName]//配置需要體檢的節點名稱,右側的值都為1;
kf1-sca01=1;
kf1-sca02=1;
[CONFIG];
disk_threshold=60.0//磁盤使用率閾值;
inode_threshold=60.0//磁盤INODE使用率閾值;
cpu_threshold=80.0//機器CPU使用率閾值;
mem_threshold=80.0//內存使用閾值;
swap_threshold=80.0//SWAP使用率閾值;
util_threshold=70.0//磁盤IO使用率閾值;
net_status=1//正常的網卡狀態值;
time_threshold=5//對時差的閾值,單位秒;
max_connect=20//進程連接數閾值;
proc_cpu_usage=50.0//進程CPU使用率閾值。
4 源碼編譯
程序需要使用json接口,有些現場的src/include目錄已經有json相關的文件,但是由于版本的關系可能編譯會報錯,建議在編譯體檢程序時先將~/src/include/json目錄改名,等編譯完成后再修改回來。
將sys_operate_monitor和sys_operate_manager程序拷貝到源碼機的src/interface或者其他src目錄。
在sys_operate_monitor目錄進行make編譯,會在~/bin目錄生成sys_operate_monitor程序(如果編譯報json的錯,一般是因為src/include目錄下的json版本不一致,可以先移走再編譯)。
在sys_operate_manage目錄進行make編譯,會在~/bin目錄生成sys_operate_manage程序(如果編譯報json的錯,一般是因為src/include目錄下的json版本不一致,可以先移走再編譯)。
5 系統急救箱工具界面
功能界面啟動:sys_operate_manage,啟動后的功能界面如圖2所示,分別顯示“系統巡視”“數據監視”“點表維護”“模型修改”“自動修復”“自定義”六個功能模塊。
針對主站系統所需要操作的內容,可以根據工具界面的顯示選擇,然后實施下一步操作。如果系統出現問題,則可以點擊“自動修復”以實現系統修復,確保其功能正常投入使用。
急救箱的功能界面簡單明了,操作非常方便,在出現問題后,操作人員可以在短時間內進行對應的功能操作,確保系統快速恢復正常,進而確保主站系統的穩定運行[10]。
6 系統巡視
點擊“系統巡視”—“立即巡視”,系統會自動掃描讀取每個節點的信息,檢測每個硬盤、CPU、內存、IO、網卡狀態、對時狀態等信息,并顯示異常項。
例如,圖3所示,系統巡視界面中就有“節點數據采集”“硬盤檢測”“內存檢測”“網卡狀態”“句柄檢測”幾個異常巡視項,點擊“硬盤檢測”就可以彈出具體節點分區磁盤異常信息。
通過“系統巡視”功能,可以充分了解主站系統的日常運行情況,積極查找其中存在的隱患,并采取對應的處理措施,確保主站系統的正常穩定運行[11]。
點擊“系統巡視”—“腳本巡視”,系統會根據指定腳本內容進行巡視。
7 數據監視
數據監視下,分為點擊不刷新、數據跳動、SOE示標異常、通道投退檢測。點擊“數據監視”—“通道投退檢測”,選擇“起始時間”和“結束時間”,點擊“數據查詢”,即可查詢這一段時間內發生投退的通道以及投退次數。
數據監視界面如圖4所示。
8 點表維護
點擊“點表維護”即可調用如下點表導入工具,完成點表導入。
9 模型修改
點擊“模型修改”彈出一鍵修改間隔設備名稱工具,選擇廠站,選擇間隔后,讀出新的間隔名稱和設備名稱;然后再點擊“新間隔名”,直接修改具體的設備名稱;點擊“修改預覽”,一鍵修改完成設備更名操作。
模型修改界面如圖5所示。
10 自定義
點擊“自定義”,可以通過自定義腳本,展示結果后再一鍵點擊運維窗口。
11 結語
通過應用本研究的“急救箱”,能夠快速、精確地排查常見故障和及時恢復故障,不需自動化運維人員到場,節約了時間及人力,并且能夠運用自動程序替代日常的人工故障處理,以提高工作效率,降低人力成本。
通過自主編程研發,可以掌握核心技術及軟件著作權,可以節約通過第三方公司特別系統原廠的開發成本。此外,大大減輕了自動化班組運維工作量,響應為基層“減負”號召。同時,還可以提高主網調度工作效率,降低自動化運維班組人力成本,減少因發生調度自動化主站系統失靈而帶來的間接經濟損失[12]。因此,此種系統可以推廣使用,推動提高經濟效益與社會效益。
參考文獻
[1] 王權剛.電力調度自動化系統在大慶油田電網的應用與發展[J].化工管理,2021(19):73-74.
[2] 張宇,朱江,嚴威,等.AI語言功能在配電自動化主站中的應用[J].電力設備管理,2021(5):23-24,44.
[3] 鄭煒楠,茍吉偉,許伯陽,等.電網調度自動化主站系統故障處理與對策[J].集成電路應用,2020,37(6):92-93.
[4] 陳劍,張潔華,趙悅瑩.創新智能電網調度自動化技能培訓模式[J].中國電力教育,2020(5):32-33.
[5] 李昱潼,李昊禹.電網調度自動化主站系統功能擴展設計[J].電工技術,2019(24):87-88.
[6] 張智淵.電網調度自動化管理系統的設計與實現[J].中國新通信,2019,21(21):75.
[7] 舒適.電網調度自動化遠程瀏覽技術的設計和應用[J].智庫時代,2019(39):226-227.
[8] 李俊.淺析調度自動化系統在石河子電網中的應用[J].石河子科技,2018(3):40-41.
[9] 劉彬.電網調度自動化主站不間斷供電電源的運行與維護[J].通信電源技術,2018,35(5):255-256.
[10] 胡揚.調度自動化系統狀態評估與預測[J].機電工程技術,2018,47(4):142-145.
[11] 王曉蔚,郭捷,劉翔宇,等.移動式主站模擬測試裝置關鍵技術研究[J].河北電力技術,2017,36(5):4-7,14.
[12] 朱向立,孫長春,王文林,等.提升電力調度系統狀態估計遙測合格率的措施[J].電力安全技術,2017,19(10):13-15.