簡宇翔,董興芝,宋清水,呂占民
(1.中國國家鐵路集團有限公司 辦公廳,北京 100844;2.中國鐵道科學研究院集團有限公司 電子計算技術研究所,北京 100081;3.中國鐵路北京局集團有限公司 客運部,北京 100860)
值班值守是鐵路機關部門工作的重要組成部分,是形成鐵路內部運轉高效、應急有備、應對有序的關鍵環節,主要包括政務值班、應急值守和信息報送等內容[1]。值班值守工作涉及數據來源多樣,其范圍覆蓋鐵路各專業及其他領域,盡管跨部門數據流通渠道已基本建立,但橫向部門間數據共享仍缺乏統一的規范和融合機制,導致相關數據的隱藏價值難以被釋放,碎片化的值班數據難以為決策所用。
知識圖譜技術近年來被廣泛應用于知識檢索、知識管理及問答等領域,其結構化知識表示形式能夠更好地描述業務領域中客觀實體及關系,這一技術優勢切合了鐵路值班值守數字化和智能化的發展需要。本體作為一種知識形式化表示方法,用以約束知識圖譜數據的組織方式,是知識圖譜構建的重要基礎。領域本體在眾多領域研究和應用的底層邏輯方面發揮了重要作用,能夠促進領域知識的管理及應用,高質量的領域本體有助于提高圖譜構建質量,提升下游任務效果[2-3]。
如今,各行各業均有學者開展了相關本體構建研究,于坤[4]提出了面向城市公共交通服務的本體映射方法,實現了多來源城市公共交通服務數據的關聯;黃偉春等人[5]基于軍事領域常用術語對領域本體進行了頂層設計,對軍事領域的實體屬性、關系等要素進行了規定,并對軍事術語的提取規則進行了總結歸納,保障了軍事領域知識圖譜構建的規范性和準確性;唐懿飛等人[6]以疫情事件為驅動場景,基于疫情事件本體進行城市疫情放開領域知識建模,并進行了模擬驗證,證明了方法的有效性。在不同領域本體構建中,研究人員往往會根據應用場景的差異提出不同的構建標準。領域本體通常可以劃分為通用性常識本體、專業領域本體、任務型本體等[7]。比較有代表性的本體構建方法包括七步法、骨架法、IDEF5、TOVE、ETHONTOLOGY、KACTUS法及SENSUS法等,不同領域的本體構建方法,其構建原則和設計標準也不相同,難以實現本體的共享、重用和互操作。
基于上述分析,本文研究面向鐵路值班值守的任務本體構建方法,構建值班值守任務庫,設計值班值守任務本體架構,研究值班值守任務本體應用方案,從而規范值班任務語義的一致性,實現任務內容的高效組織與重構,全面提升鐵路值班值守及應急管理水平。
鐵路值班值守涉及多個專業領域數據,不同專業來源數據的領域本體間在概念定義、屬性關系方面均存在差異,無法直接進行合并使用,影響了值班值守信息的共享和繼承,間接影響事務處置的決策[3],因此,以值班值守任務為驅動的本體構建,首先要圍繞值班內容構建其任務庫。
鐵路機關值班值守任務主要包括:落實上級機關各項值班工作要求;建立本單位所屬單位、 部門的值班體系,建立健全各項值班工作制度;本單位突發事件信息和重要緊急事項報告工作,協助處置各類突發事件。其任務庫是由函件辦理、應急任務處置等過程中產生的信息記錄、傳達、分析、請示上報等一系列處置情景要素構成。分析值班值守任務形式,識別信息報送、會議通知、應急事件信息等多任務情景要素是構建值班值守任務庫的首要工作。通過綜合專家知識、基礎數據庫、歷史案例等數據,構建值班值守任務庫,可為構建值班值守任務本體架構提供基礎支撐。
對值班領域內值守任務進行結構化及定義明確的描述,在全面涵蓋值班領域概念基礎上,使得該領域內各方參與者對這些概念的描述能夠達成共識。值班值守任務本體架構如圖1所示。

圖1 值班值守任務本體架構
基于鐵路值班值守任務庫,匯集鐵路值班值守領域涉及的數據資源,進而確定值班值守任務本體涉及的領域范圍、主要概念關系及主題詞,同時,歸納值班值守任務場景。結合行業專家的經驗,提煉出描述值班值守任務的本體分析表達,進一步確定本體構建的框架結構,同時,開展合理性和可行性分析評估,不斷進行動態優化調整。基于確定的值班值守本體框架,劃分任務情景域并確定本體層級關系及關系類型。最終,結合既有鐵路行業本體,修正完善值班值守任務本體。
面向值班值守的任務本體偏向于多種值班任務內容的統一描述,因此本文參照事件性任務本體構建過程,設計值班值守本體流程。
1.3.1 定義值班值守任務涉及的類和類的繼承
確保類的繼承(is-a、kind-of)正確,同時考慮繼承結構中的并列關系等,提出一種面向鐵路值班值守領域本體構建的方法,其邏輯表達可定義為六元組形式,表示為
式(1)中,A表示值班值守的處置動作;O表示涉及到該值班內容的對象,包括部門、人員角色等;T表示值班內容發生的時間段,包括值班開始時間及值班內容事件記錄時間;C表示值班內容的類型,可表示為會議邀請、禮遇函、感謝信、應急事件等;P表示值班記錄員的信息;H表示概念層級,用于說明概念集合的層級劃分,H(A1,A2)表示A1是A2的子概念。
1.3.2 定義屬性和關系
基于類的基礎,進一步定義其概念和概念間的內部聯系。概念之間的聯系可分為內部屬性(Datatype Property)和外部屬性(Object Property)。基于值班值守任務本體架構,調研分析當前Protégé、WebOneto、KAON、WebODE等常用的本體自動化構建工具,其中,Protégé的圖形化構建界面操作簡便,且支持中文語言推理及軟件擴展等功能[8]。因此,本文采用Protégé本體編輯工具對值班值守任務進行類及其關系定義[9]。 值班值守任務函件辦理類下的SubClassOf從屬類定義過程如圖2所示。

圖2 值班值守任務類的定義
1.3.3 創建類對應的實例
創建實例后要為實例的屬性賦值。基于鐵路值班值守業務內容,根據日常工作任務,劃分不同的作業類別,進而定義類和子類、對象屬性和數據屬性的應用。基于值守內容不同的類、子類等從屬關系,實現了基于語義的關聯架構。
函件辦理屬于值班值守任務的一項子類,包括禮遇函、邀請函、感謝信等處理內容,各處理內容含有不同的處理屬性,通過處理過程中的不同操作觸發其屬性,形成函件辦理的類別、屬性關聯架構,如圖3所示。

圖3 函件辦理類別關聯架構
本體是構建知識圖譜的基礎,是衡量圖譜構建質量和完整度的重要依據[10],值班值守任務本體概念模型形式化地表達了其領域內相關概念的關系和基本術語規則,本體應用架構如圖4所示。

圖4 本體應用架構
基于構建的值班值守任務本體架構,既可支撐領域知識圖譜構建,對復雜知識建模過程形成一種規范約束,保障領域知識圖譜構建質量;又可通過本體及本體間的關聯關系進行規則推理,實現知識的智能計算,最終服務于知識應用。基于本體輔助構建搜索引擎,可暢通和拓寬值班信息獲取渠道,建立信息收集網絡,提升獲取信息線索的能力;建立健全突發事件信息報送制度,在接到上級單位突發事件通知后,事發地單位和相關部門須按通知時限和內容要求及時準確地組織報送有關書面材料。在本體基礎上實現值班知識圖譜數據庫,能協助做好報送上級單位突發事件信息的起草、 修改等工作,大幅提升鐵路機關辦公的工作效率。
值班值守任務本體定義了任務規則規范,利用本體對知識的規范化描述來更好地理解信息資源的語義,可極大提升檢索的效率及準確率,并為不同軟件、系統間的知識共享提供堅實基礎。在構建本體之后,開展值班文件內容的輔助解析服務。基于詞頻-逆文檔頻率(TF-IDF,Term Frequency-Inverse Document Frequency)方法,可評估某一實體在值班文檔中的重要程度[11],并進行文本數據的關鍵詞提取,進而歸納總結值班文件的主體內容。本文采用TFIDF方法,評估該文件中重要的主題詞,結合值班值守任務本體,通過規則推薦方式鎖定相關聯的處置手段和應急策略,以支撐突發事件信息的快速啟動應急。TF-IDF方法如下。
(1)TF 表示給定詞語在該文檔中出現的頻率,設給定詞為ti,文件為dj,則單詞ti的重要程度可以描述為
式(2)中,ni,j為ti在文件dj中出現的次數,分母是文件dj字詞出現的總次數和。
(2)IDF 表示給定詞出現的普遍重要程度,逆向文件頻率值越大,說明辨識度越好,公式為
式(3)中,|D|為值班語料庫中的文檔總數,|j:ti∈dj|為包含詞語的文檔數目。公式的分母加1是為了避免詞語出現在文檔中的數目為0。
(3)TF-IDF是基于詞頻與逆向文件頻率的組合,給定詞的權重Wi,j公式為
利用TF-IDF詞頻分析對突發事件文本內容進行解析,通過對文本關鍵實體詞重要性排序,與應急值守本體領域實體相比對,篩選出該領域本體的關鍵實體詞,實現對突發事件信息中涉及的安全事故類本體所對應實體的詞頻分析,同時,結合本體上下級關聯關系,輔助值班值守人員快速定位突發事件涉及的主管部門及相關負責人員,大幅提升值班值守人員對突發事件內容的判斷分析質量和信息報送效率 。
本體的構建是知識圖譜模式設計的關鍵,而本體對齊是實現知識融合的關鍵步驟,主要指在不同本體中,對具有相關語義的概念建立聯系的過程,實現不同本體間的知識共享。值班值守相關政策要求在值班過程中切實強化信息報告的主動性,基于領域本體設計值班知識圖譜有利于暢通和拓寬信息獲取渠道。知識圖譜是富語義網絡,能夠加強單一值班任務對各方面情況的掌握。同時,基于知識圖譜強大的語義關聯關系,可強化值班輿情監測和分析,盡早察覺出預警性、苗頭性信息,做到早監測、早發現、 早報告。基于值班值守任務本體,可進一步分析值班事件的脈絡關系,如以值班任務中來電值班內容為例,內容為“2023年9月12日8時,總值班室劉XX接到國際鐵路聯盟UIC的來電,邀請國鐵機關及下屬企業負責人派員主持軌道交通裝備展覽會議”,對來電值班任務進行實體映射,實例層和本體層對應關系如圖5所示。

圖5 實例層和本體層映射關系
本文闡述了面向鐵路值班值守的任務本體構建的原理和實現過程,確定了值班值守任務本體涉及的范疇及構建原則,設計了值班值守任務本體架構。利用本體構建工具 Protégé 實現了值班值守任務本體的形式化表示,并對值班值守任務的事務操作進行關聯,有助于值班人員從內容層面對值班任務進行知識組織和管理。由于鐵路值班值守不是針對某一專業進行,而是面向全國鐵路各專業,其數據來源多、結構松散、關系復雜多樣,值班值守任務本體的構建一定程度上促進了各領域的信息共享,進一步推動了值班和應急處置工作的科學化和規范化。值班值守任務本體的構建是一個長期的系統工程,仍需要不斷探索和實踐,當前研究的粒度還不夠細,對語義本體的完善、知識庫的建設是本文下一步的研究方向。