[摘 要]文章提出了一種創新的電網基礎設施工程知識圖譜構建方法,該方法結合了雙向長短期記憶網絡和依存關系模型,以實現對電網基建工程相關非結構化文本數據的有效提取和結構化表示。通過該方法,能夠從設計說明、審核報告和設備測試報告等非結構化數據中,以及項目竣工驗收所需的設備清單等半結構化資料中,提取關鍵信息并構建知識圖譜。該知識圖譜不僅提高了電網基建工程數據的可訪問性和可操作性,而且為電網的智能化管理和維護提供了有力的數據支持。試驗結果表明,該方法在數據挖掘準確率、分類準確率及挖掘效率方面均表現出色,為電網基建工程的信息化和智能化發展提供了新的思路和工具。
[關鍵詞]電網基建工程;知識圖譜;雙向長短期記憶網絡;依存關系模型
[中圖分類號]TP311.13 [文獻標志碼]A [文章編號]2095–6487(2024)12–0167–03
Research on Construction and Application of Knowledge Map of Power Grid Infrastructure Engineering
YAO Jun
[Abstract]This article proposes an innovative method for constructing a knowledge graph of power grid infrastructure engineering, which combines a bidirectional long short-term memory network and a dependency relationship model to effectively extract and structurally represent unstructured text data related to power grid infrastructure engineering. Through this method, key information can be extracted from unstructured data such as design specifications, audit reports, and equipment testing reports, as well as semi-structured data such as equipment lists required for project completion and acceptance, and a knowledge graph can be constructed. this knowledge graph not only improves the accessibility and operability of power grid infrastructure project data, but also provides strong data support for intelligent management and maintenance of the power grid. The experimental results show that this method performs well in data mining accuracy, classification accuracy, and mining efficiency, providing new ideas and tools for the informationization and intelligent development of power grid infrastructure projects.
[Keywords]power grid infrastructure engineering; knowledge graph; bidirectional long short-term memory network; dependency relationship model
1 電網基建工程數據及其建模
1.1 基建工程知識圖譜的數據來源與實體選取
本研究以我國電力工程建設項目為背景,選取特定的工程項目作為研究案例,運用ETL技術進行深入分析。ETL技術能夠揭示文本數據中實體與概念之間的復雜關聯性。從項目管理的視角出發,著重于項目的關鍵信息,包括項目名稱、實施地點、設計工藝等要素。在數據處理過程中,將項目內的每項設備及其屬性視為獨立的節點進行分析,這些屬性包括但不限于材料的名稱、編碼及采購成本等。利用“位于”“電壓等級”“包含”“采用”等詞匯來描述項目節點與其他節點之間的聯系。通過上述方法,構建一個涵蓋基礎設施工程知識的圖譜基礎,并據此提供相關數據支持。
1.2 基建工程相關數據及其預處理
當前,在電力行業,建設工程的全流程文檔管理已經實現了分層存儲。以一個新建變電站項目為例,其施工階段所涉及的文檔類型見表1。
在建筑設計說明、設備屬性參數、審核報告等關鍵文檔中,Word、PDF、Excel這3種格式的文件因其廣泛的應用和龐大的數據量而顯得尤為重要。具體步驟如下:①利用開源工具(如Python-Docx、xlrd、PDFMiner等)來提取這些文檔中的數據。②對提取的文本進行轉換和編碼,將其轉化為適合計算機處理的矢量格式,以便進行后續的自然語言處理。例如,對于“提高供電可靠度”這一短語,若將其拆分為6個字,每個字可以表示為一個六維的詞向量,如“提”可表示為[1,0,0,0,0,0]。
3 電網基建工程知識圖譜的構建方法
文章提出了一種基于資源描述框架(以下簡稱“RDF”)的數據模型,并將其應用于工程領域。RDF所表達的知識通常以三元組的形式呈現,其中主體為實體,謂詞為屬性,而屬性則用于連接兩個實體或關聯屬性值與實體。若將三元組中的主體和客體視作圖中的節點,謂詞視作連接節點的邊,則RDF的知識庫可被視為一種圖結構模型。為應對大規模知識庫在存儲與檢索方面的難題,圖數據庫Neo4j通過屬性圖模型有效處理節點、屬性及邊等元素,顯著提升了存儲層的訪問效率,突破了傳統關系數據庫的性能瓶頸。此外,該系統支持跨部門和多用戶共享,以滿足不同部門間基礎設施項目數據的互聯互通需求。
4 算法試驗
4.1 數據集收集
本研究聚焦于某市電力公司新建的110 kV變電站項目。本研究通過實證分析已構建的工程項目知識庫,涵蓋了包括非結構化的設計說明、審計報告、設備測試報告及半結構化的設備清單等資料。在數據預處理階段,最終整理出2 983條中文文本記錄和154條詳細表格數據。
4.2 大數據挖掘準確率對比試驗
為了評估本項目所提出技術的效能,本研究實施了不同的策略:①方案1,應用傳統的計算機數據庫來管理電力基礎設施生命周期中的大數據;②方案2,采用分階段的分類管理方法,對電力基礎設施項目的全生命周期管理大數據進行對比分析,并在3 h內完成測試;③方案3,文章研究方法。
如圖1所示,隨著試驗數據集的增加,方案1大數據挖掘的精度起初為60%。但隨后有所降低。方案2大數據挖掘的精度雖高于方案1,但提升幅度僅為10%。而本研究提出的算法在處理10×103規模的大數據集時,預測精度為24%,但當數據集規模增長到40×103時,其預測精度已超越了方案1與方案2。對于100×103規模的大數據集,該算法的挖掘精度更是達到了93%,因此,該方法在精確度上是領先的。
4.3 大數據訓練集分類精度對比試驗
在對電力基礎設施建設項目的裝備生命周期管理數據進行預處理后,提出了一種數據驅動的電力工程全生命周期管理大數據集。隨后,對各類資料的分類精度進行了比較分析,在對30×103規模的數據集進行訓練時,方案1的訓練案例準確率達到了58%,方案2的準確率為37%。
采用基于大數據的數據挖掘算法,在訓練樣本中實現了77%的正確率。此外,在對規模達到100萬乘以103的大型電力基礎設施裝備生命周期管理大數據進行訓練時,該方法的識別精度分別達到了64%和92%。這表明,在處理大規模數據集時,該方法能夠提供更高的分類準確度。
4.4 大數據挖掘效率對比試驗
為了驗證大數據挖掘效率,設定在相同的時長(100 s)內進行測試。
在對50×103規模的數據集進行訓練時,方案1的處理耗時為43 s,方案2為61 s,而本研究方法則為25s。當訓練數據集規模擴大至100×103時,方案1、方案2、研究方法的處理時間分別增加至60 s、85 s及30 s。這些數據表明,文章提出的算法在訓練時間上更為高效,從而證明了其處理速度的優越性。試驗結果進一步顯示,在數據挖掘的準確率、分類的準確率及挖掘效率方面,文章所提出的算法均表現出色,是目前最優的解決方案。
5 結束語
本研究成功構建了一個基于雙向LSTM網絡和依存關系模型的電網基建工程知識圖譜,有效整合了電網基建工程的多維數據。該圖譜支持復雜查詢和決策支持,顯著提高了數據的可訪問性和可操作性,為電網的智能化管理提供了數據支持。研究結果展示了知識圖譜在電網基建工程中的應用潛力,為未來電網信息化和智能化發展提供了新的工具和思路。
參考文獻
[1] 魏惠敏,王秀芳,趙超,等.電網基建工程數據中心助推數字化移交方案研究[J].科學技術創新,2024(8):58-61.
[2] 劉超,尹凡,胡亞偉,等.國家電網小型基建工程限上項目安全管理的思考[J].農電管理,2023(12):58-59.
[3] 張錦元.基于K–均值聚類電網基建工程造價中前期費用整合方法[J].中國管理信息化,2023,26(23):88-91.
[4] 阮永麗,屈軍.電網基建工程全過程造價管控研究[J].云南電力技術,2023,51(5):13-16.