國網浙江省電力有限公司嘉興供電公司 肖 波 徐 明 紀宏德
安全生產是企業正常運轉的基礎和保障,尤其是電力企業。通過構建安全知識圖譜,可以利用可視化的圖譜形象地展示電力生企業在作業風險、隱患等各方面存在的影響安全生產的要因以及彼此之間的相互聯系,以支持作業單位及人員對作業薄弱環節的分析。在本文的研究中,分別從風險類別、潛在風險、因素類別、因素辨析等角度出發,從典型作業中提取的具體信息構建實體和實體關系,開展了電力安全知識圖譜的搭建,查找影響安全的要因及其之間的關聯,定性分析作業單位與人員的安全薄弱環節[1]。
結合專業技術從業人員意見,按照自頂向下的構建方法,根據作業名、潛在風險、風險類別、因素辨析、因素類別收集數據,構建知識圖譜。知識圖譜的構建主要分為三個部分:數據的獲取、信息抽取、數據塑形和數據的交互可視化。
整理歷年的文件、表單并結合專業技術從業人員的參考意見,整理出典型作業的列表。針對各項典型作業,從人員、環境、工器具、作業方法、設備五個維度,收集整理得到作業具體影響風險的各類因素及其影響結果。
考慮到項目的工期及具體要求,本項目選擇了以下電力系統的六大典型作業開展研究。通過對各類作業風險因素的梳理和分析,找到作業類型和風險因素的直接和間接聯系,為后續安全知識圖譜的建立創造了條件。
本項目將實體的屬性視作實體與屬性值之間的一種名詞性關系,因此在這里屬性抽取任務被轉化為關系抽取任務。在數據獲取階段,我們得到的數據集以Excel的形式展現,雖然能夠表現因素、風險和作業之間的層次關系,但需要進一步提取整理的數據,得到知識圖譜需要的實體關系以及實體屬性等結構化的信息[2]。

表1 某電力工程高墜風險因素分析表
在本項目中,實體抽取主要針對的是Excel數據集中的“因素辨析”列(其它列已經是規范的命名實體)。目的是從“因素辨析”列的文本數據集中提取出真正影響作業風險關鍵的因素,并以命名實體表現。該部分的工作主要可以分為三部分:分詞及詞性標注、專名識別、關鍵詞提取。
分詞與詞性標注。是自然語言處理的基礎工作之一,是大多數后續工作的前提。中文分詞指將一個漢字序列切分成一個個單獨的詞。詞性標注也被稱為語法標注,是語料庫語言學中將語料庫內單詞的詞性按其含義和上下文內容進行標記的文本數據處理技術。
專名識別。考慮到結巴分詞的詞典限制,專名識別是對結巴分詞的一個補充,為了能夠保證計算機能夠準確的提取到文本中的全部名詞、并一定程度上消除歧義,一方面電力系統安全作業存在部分專有名詞,如“帶電間隔”;另一方面,根據知識圖譜存在消歧的要求,如:安全帶和安全帶固定點在實際作業中涉及到的人員和風險并不完全相同,因此“安全帶”和“固定點”需要合并為“安全帶固定點”作為一個專有名詞,單列為一項影響作業的風險因素[3]。針對這兩類名詞,使用自定義詞典靜態導入對結巴分詞器做補充。由于本項目中選取的作業均為典型作業,因此該定義詞典也具有典型性,可在后期的項目延伸與拓展中繼續使用。
關鍵詞提取。主要任務是從海量的文本文檔中提取少量表征其內容的關鍵詞,在本項目中,使用關鍵詞提取技術是為了從文本數據集(“因素辨析”列中的每一行)中提取出關鍵因素。
本項目中關系的抽取主要參考數據獲取部分得到的Excel數據集,該數據集中的列標簽之間的關系能夠直接表現不同數據之間的層次關系。經實體抽取后,表格中的文本數據內容已轉化為關鍵實體名詞,因此列標簽之間的關系能夠代表實體與實體之間的關系。因此在這一環節,使用pandas對Excel數據集處理,根據列和列的關系,得到了實體之間的關系。
使用python對數據塑形,得到數據對象數組。將命名實體放入nodes數組中用于生成拓撲關系中的點,將關系放入edges數組中用于生成拓撲關系中的邊,將數據結果生成json文件作為數據庫,方便管理和可視化。D3js函數庫生成力導向模型,展示知識圖譜,并為知識圖譜添加事件事件響應和節點搜索功能。部分可視化界面如圖1。

圖1 部分實體關系可視化
力導向圖把整張知識圖譜模擬成一個物理仿真系統(Simulation)。通過觀察力導向圖,可以直觀的根據作業和作業間的相對位置分析作業間的聯系緊密程度。鼠標點擊節點,只展示和節點有直接聯系的節點。這一功能幫助使用者可以通過幾次點擊快速地分析作業中的任一環節與其它作業間的聯系[4]。搜索作業中包含的因素或風險,能夠展示該搜索詞的知識圖譜。這一功能幫助使用者能夠快速的查找特定的知識圖譜,方便閱讀數據庫內容。
通過構建安全知識圖譜,可以通過可視化的方式形象地展示生產經營單位在作業風險、隱患等各方面存在的影響安全生產的要因以及彼此之間的相互聯系,以支持作業單位及人員對作業薄弱環節的分析。本文從風險類別、潛在風險、因素類別、因素辨析等角度出發,從典型作業中提取的具體信息構建實體和實體關系,開展了電力安全知識圖譜的搭建,查找影響安全的要因及其之間的關聯,定性分析作業單位與人員的安全薄弱環節。為后續作業安全風險的評估提供了技術支撐。