戴軍衛 溫耀斌
(廣東電網有限責任公司江門供電局,廣東江門529000)
隨著以5G通信、人工智能、工業互聯網、物聯網為代表的新型基礎設施的快速發展及各種高性能移動智能終端的大規模普及,人們對互聯網提出了快捷、便利地獲取信息的更高要求。在全新的移動互聯網時代,微信在滿足大眾正常信息交流需求的同時,也為電力系統的管理工作提供了一個全新的服務渠道,隨之而來的是在微信基礎上的各種技術創新。
目前,電力公司已在應用執行的包括國家法律229件、行政法規600多件、地方性法規7 000多件、電力行業相關法規(DL字頭)2 032件,國家、行業及電網公司的技術標準更是不勝枚舉。但現在還沒有合適的組織或個人對電力工程建設適用的法規及標準進行整理,導致法規及標準的更新及查詢工作均費時費力,為公司管理帶來了很大的不便。因此,非常有必要研發并建立一套方便實用的電力行業生產技術標準管理系統,提高監理人員的工作效率和管理水平。
本項目擬建立一套生產技術標準管理系統,主要由PC管理端、微信公眾號移動端、PDF自動轉換txt和數據爬取服務端等部分構成。PC管理端主要提供對制度、標準等基礎信息的維護和文檔上傳等功能,計劃采用ASP.NET開發框架中的MVC開發模式進行開發。操作系統的服務器端使用Windows Server 2008 R2及以上版本,客戶端采用微信WeChat 7.0及以上版本。CPU采用Intel Xeon 2.5 GHz或性能更好的芯片,內存8G及以上,硬盤可用空間20G。軟件環境要求IIS7.5及以上、MSSQL Server 2008 R2及以上、Net Framework4.6.1。微信公眾號移動端用于查詢和瀏覽制度、標準文檔,用戶通過搜索關鍵字,能夠快速檢索到對應的制度、標準中的相關條款。要完成以上檢索功能,系統就必須有服務端的支撐,服務端功能主要工作分為兩部分:第一是對PFD進行文本轉換;第二是使用爬蟲技術定時去目標站點進行數據爬取,并將爬取的數據存儲到系統數據庫中。本系統架構方案采用分層分布式的部署結構,明確分離了表現層和業務邏輯,能夠保證應用服務邏輯的一致性和穩定性、結構的開放性、功能的可擴展性和可維護性、開發的可并行性。
生產技術標準管理系統的數據相對敏感和保密,如何有效地保障系統的安全性和數據的安全性,是本平臺系統需要重點考慮的原則之一。同時,要建立日志文件,跟蹤記錄用戶對系統每一次操作的詳細情況,并建立數據定期備份機制,提供數據災難恢復功能。
從研發規劃階段開始,研發團隊就把信息安全作為頭等大事。系統選用了全球領先的阿里云服務器,該服務器作為“電商云”,在天貓雙11、世界杯、12306、海關、微博運行良好,保證了系統數據的安全。用戶只需關注公眾號,無需下載手機軟件(App),通過手機號碼實名綁定即可進行使用,系統后臺能夠實時監控用戶的使用情況,在簡潔方便、易于推廣的同時,確保了系統內資料的保密性及信息安全。同時,在系統的架構設計上充分考慮系統的開放性和可擴展性。為滿足新業務范圍的擴展需求,采用基于框架的組件化設計,當出現新的業務時,用戶可以根據自己業務的需要進行系統模型的擴展和開發,只需添加新的業務組件即可。
生產技術管理系統創新性地運用了OCR光學字符識別技術,可以將PDF文檔轉換成txt文本,使系統能夠對標準的內容進行匹配及搜索。用戶可以按照標準的名稱或內容輸入關鍵字進行查詢,系統會通過用戶輸入的關鍵字,利用txt文本與PDF版本之間建立的映射向智能顯示模塊推送搜索結果,最終顯示出標準的名稱、關鍵字出現的段落、關鍵字所在的頁碼等內容。用戶可以根據需求,選擇獲取相應的標準信息,具體如下:
3.2.1 搜索模塊
搜索模塊建立與數據庫的對比,采用白帽SEO技術優化搜索功能,用戶發出一次搜索指令時搜索模塊同時執行以下多個策略:
(1)全字符精準匹配:用戶輸入關鍵字,對比word版本的內容,如果所有字節全數匹配,推送該標準的書名、搜索內容出現頁碼等信息。
(2)語義拆分模糊搜索:用戶輸入關鍵字,程序根據句子自動拆分成數個漢字詞語,對比word版本內容,在同一書名、段落中同時出現拆分的漢字詞語時,推送該標準書名、搜索內容出現頁碼等信息。
3.2.2 定位模塊
根據搜索模塊推送word版本的頁碼段落信息,定位模塊根據word版本與PDF版本建立的映射,向智能顯示模塊推送搜索結果,輸出PDF文件書名、搜索內容出現段落頁碼等信息到智能顯示模塊。
3.2.3 智能顯示模塊
(1)標準查看(數據庫訪問)功能:智能顯示模塊根據定位模塊返回的搜索結果向用戶展示相應內容,允許用戶訪問數據庫相應記錄的鏈接。
(2)排序功能:定位模塊返回的搜索結果是根據數據庫錄入時建立映射的數值大小排序的。為進一步優化用戶體驗,增強搜索功能,在法律法規數據庫每條記錄后添加一個熱度計數器,計數器默認為“0”,每次經用戶點擊“查看”按鈕后加“1”。系統向用戶展示的搜索結果按照以下原則排序,且上一級排序原則大于下一級排序原則:
1)計數器數值從大到小排列;
2)全字符精準匹配高于語義拆分模糊排序;
3)標準名稱匹配高于內容匹配。
生產技術標準管理系統能夠查詢國家標準、行業標準及電網標準,其爬蟲功能可從萬維網自動搜索法律法規及技術標準的更新信息,一旦搜索到更新信息會立即對管理員進行提示,使技術文件的更新及管理更加智能化。同時,系統可根據標準的使用頻率、內容搜索次數等條件,通過搜索計數的方式進行大數據收集,優先展示熱門標準,優化展示搜索結果。
3.3.1 爬蟲模塊
(1)定向網站爬?。涸谀K內設定某些特定的標準發布官方網址,在網址內爬取所有信息與數據庫內的標準編號進行對比,因為標準編號是固定的,如《建設工程監理規范》為GB/T 50319—2013,因此爬取原則設置為當匹配到目標網址存在“GB/T 50319”字符,對比后面的字符大小,目標網址持有的記錄比數據庫記錄的字符大時定義為標準有更新,提醒管理員更新。
(2)管理員反饋:當偵查到標準有更新時,發送更新信息到管理員賬號,提醒管理員更新。
3.3.2 錄入模塊
管理員根據法律法規庫、爬蟲模塊提醒、現實使用中用戶反饋等信息來源,向數據庫內添加標準信息。
(1)單個標準錄入:錄入標準的名稱、英文名稱、標準號、類別、發布部門、起草部門、施行日期、作廢日期等信息,隨后上傳文件的PDF版本或word版本。
(2)批量標準導入:使用Excel編輯好標準的名稱、英文名稱、標準號、類別、發布部門、起草部門、施行日期、作廢日期等信息,將Excel文件上傳至系統內,自動形成記錄,隨后上傳文件的PDF版本或Word版本。
(3)標準庫建立:記錄建立后,上傳相應的PDF版本文件會通過OCR自動轉換成Word版本,上傳Word版本文件會自動轉換為PDF版本,并重置該記錄的熱度計數器,然后建立一個內容一致但文件格式不同的法律法規數據庫?;ハ噢D換時系統會在兩個版本的標準之間建立相應的映射,映射包含的信息包括文件內容及內容相應所在頁碼,供搜索模塊使用。
本項目把微信公眾號應用到生產技術標準管理工作中,通過研發該系統,進一步完善了公司的生產技術標準、法律法規體系,提高了公司信息化水平,改善了辦公條件,使得管理更加高效化、規范化和科學化,為現場施工及督查提供了依據。