許 慧,張久鵬
(1.重慶郵電大學經濟管理學院,重慶 400065;2.重慶工業大數據創新中心有限公司工業大數據應用技術國家工程實驗室,重慶 400707)
截至2022年4月,我國國內(不含港澳臺)共計51個城市開通運營城市軌道交通(以下簡稱城軌)線路275 條,運行總里程8 904 km[1]。城軌具有空間特殊性、結構緊湊性、電器密集性、人流聚集性等特點,使得城軌運營安全事故不僅具有一般安全事故的不確定性、緊急性等特征,還具有專業交叉、疏散困難、影響廣泛等特點[2]。城軌運營安全事故管理需要決策者在復雜動態的環境下快速做出應對決策,其中管理經驗至關重要。目前管理經驗應用流程化的研究尚少,運營管理通常依賴主觀判斷,對以往積累的城軌運營管理經驗利用不足。已有學者開展相關研究,Yu 等[2]基于案例推理和專家規則構建并探討系統結構和關鍵技術的實現方法;陸瑩等[3]利用前兆信息作為案例索引;Lu 等[4]利用前體語義網絡實現案例的自動檢索;Wu 等[5]通過CBR技術和自然語言處理技術,提取120 起城軌事故案例用于案例檢索;Feng等[6]利用本體模型表達領域知識進行災害情景匹配;郭素[7]設計了基于聚類分析的2 級檢索策略;Xiao等[8]使用改進相似度算法優化案例推理過程。現有研究仍有以下不足:一是國內城軌運營安全事故案例推理方面的研究較少;二是事故知識的表示較多依賴專業領域知識,缺少對數據自身特點的關注;三是對案例表示、特征屬性選擇等關鍵環節描述尚有優化空間;四是案例檢索策略較為單一,對城軌事故適應性一般;五是已有事故案例庫內案例數量較少,不能保證檢索精確性。
因此,本文以城軌運營安全事故為研究對象,以案例推理為研究技術,在事故案例收集、特征屬性選取、特征屬性分層結構化表示的基礎上,構建城軌運營安全事故案例庫。通過拓寬案例庫的規模,降低小規模案例庫對檢索質量的影響。提出多圈層相似案例匹配策略,并通過實例驗證該方法的有效性,增強案例管理經驗的可用性。本文研究為城軌運營安全領域管理經驗的重用提出了1 條可行路徑,可為城軌運營單位、相關政府部門制定安全管理決策方法和制度流程等提供借鑒。
案例推理技術是人工智能領域內1 種基于知識的問題解決方法。常用案例推理過程為案例檢索-案例復用-案例修正-案例保存,形成檢索、匹配、加工使用和存儲的循環過程[9]。
主題網絡爬蟲技術是快捷準確抓取互聯網中相關主題信息并儲存的方法[10]。運用文獻資料法,在有關城軌運營事故原因分析的文獻中收集事故原因,根據不同層級應急預案總結事故類型。爬取關鍵詞格式為事故類型+事故原因,爬取內容為事故新聞標題、正文內容、發布時間、網址鏈接。加載獲得原始文本數據7 238條。爬蟲搜索流程如圖1所示。
圖1 爬蟲搜索流程Fig.1 Crawler search process
城軌事故文本數據內容雜亂,依靠軟件識別、篩選得到的數據可用性較低,因此開展人工篩選工作。選擇2002—2021年的事故樣本,根據新聞標題,刪除重復內容、無關數據、國外事故數據等;再依據正文內容,刪去事故關鍵屬性缺失案例。整個爬取和篩選流程歷時3個月,最終將7 238 條原始案例數據處理為507 條事故案例文本,將篩選出的案例以結構化形式存儲。
Access是微軟發布的圖形用戶界面形式的關系數據庫管理系統。“表”是Access數據庫中最重要的對象,定義表和表之間的關系,完成事故案例庫的建立。表間關系如圖2所示。
圖2 表間關系Fig.2 Relationship between tables
2.1.1 特征屬性選取
根據辨識度,從3 個層面選取城軌運營安全事故特征屬性,包括關鍵圈層屬性、重要圈層屬性和一般圈層屬性。圈層屬性分類如圖3所示。
圖3 圈層屬性分類Fig.3 Classification of attr ibutes in circles
1)關鍵圈層屬性是高共性、高完整性、高區分度、高影響力的特征屬性。
①高共性是指不同事故的某一屬性的主要屬性值具有高集中度。本文所選3 個關鍵屬性的各屬性值均具有較高集中度,其中事故部位屬性中的屬性值“車站空間”占比最低,為25%,因此設定主要屬性值占比不小于25%的屬性為高共性屬性。
②高完整性是指某一屬性的屬性值在所有文本中均無缺失,屬性值完整度為100%。
③高區分度受高共性影響,是指能夠快速分割、聚類案例庫中的不同事故,如利用事故類型可將事故快速劃分為自然災害類事故、事故災難類事故等。
④高影響力是指某一屬性直接影響其他屬性,如事故原因會對后續事故應急措施產生直接影響。
2)重要圈層屬性是指在事故文本中存在信息缺失,完整性低于100%,屬性的共性值低于25%,屬性區分度和影響力低于關鍵圈層事故,用于進一步擴充事故檢索信息的屬性。
3)一般圈層屬性是用以補充案例事故細節及背景信息的一般屬性。
2.1.2 特征屬性細分
文本型特征屬性之間存在著部分匹配的情況。例如,“6·19”深圳城軌1 號線列車突發故障停駛事件中,事故影響為列車延誤40 min,但是如果將“列車”“延誤”“40 min”合為一體進行事故影響匹配,完全匹配的事故數量會非常少,一些潛在匹配案例會被過濾掉,降低最終匹配結果質量。因此,考慮將“事故影響”細分為“影響對象”(列車)、“影響結果”(延誤)、“影響時長”(40 min)。特征屬性細分主要針對概括性比較高的特征屬性,本文主要針對重要圈層的4 個屬性展開,如圖4所示。此外,部分特征屬性的語義描述模糊,如乘客跳軌和乘客墜軌同為社會安全事件,但行為主體主觀性不同,事件影響和安全管理措施也不同,實際情況中二者差異較大。因此,需要對特征屬性進行規范化、結構化表達,消除文本語義模糊和部分信息匹配對案例相似度的影響。
圖4 特征屬性細分Fig.4 Feature attributes subdivision
2.1.3 城軌運營安全事故的表示框架
框架表示法是將結構性知識以框架形式儲存起來。1 個框架包括多個槽,槽由槽名及側面組成,側面包含側面名稱、側面值和側面值類型。圈層特征屬性框架如表1所示。
表1 特征屬性框架Table 1 Feature attributes fr amework
2.2.1 城軌多圈層檢索策略
由于傳統案例檢索策略計算范圍遍及整個案例庫及案例的所有特征屬性,檢索時間較長。因此,本文改進案例檢索策略,即在案例檢索時,將城軌事故案例庫作為初始案例庫,計算案例關鍵圈層相似度,按相似度高低篩選一定數量案例,形成重要圈層案例子庫;再依次計算重要圈層、一般圈層相似度;最后綜合圈層權重和各圈層相似度得出目標案例與源案例之間的相似度,輸出全局相似度高的案例作為決策案例。相比傳統案例檢索策略,改進策略單輪檢索的案例個數大幅度減少。經過關鍵圈層案例檢索,初步相似結果集中的案例數減少,降低后續檢索的復雜度,縮短檢索時間。改進案例檢索策略流程如圖5所示。
圖5 改進案例檢索策略流程Fig.5 Process of improved case retrieval strategy
2.2.2 城軌運營安全事故屬性特征權重計算
權重計算主要分為主觀評價法和客觀評價法,但2種權重計算方法都有使用上的局限性。本文結合研究內容特征,使用主客觀綜合賦權法[11]。在運營安全評價時,需要借助專家主觀判斷,本文使用較為成熟的模糊層次分析法(fuzzy analytic hierarchy process,FAHP),模糊層次分析法結合模糊理論和層次分析法,改善層次分析法中存在主觀性強和科學性弱等問題[12]。此外,為了綜合分析城軌運營評價指標體系,需要依據客觀數據間的關系,運用熵值法確定各指標的權重。熵權法能夠深刻反映指標信息熵值的效用價值,因此,本文采用FAHP和熵值法綜合賦權的方法來評價影響城軌運營安全的各項指標,既能改善熵權法無法體現屬性重要性差異的問題,又能避免FAHP法依賴專家經驗引起的屬性偏好。
1)模糊層次分析法
①構造模糊判斷矩陣。設某層特征屬性集為A={A1,A2,A3,…,An},通過專家對A1,A2,…,An相互之間的重要度進行比較,可得特征屬性集A的模糊判斷矩陣R,如式(1)所示:
式中:rij為元素ri與元素rj的重要性比較結果;i=1,2,3,…,n;j=1,2,3,…,n。
②計算特征屬性權重。結合排序向量的最小二乘法,可求得特征屬性權重Wi如式(2)所示:
式中:a=2(n-1)/5。
2)熵權法
①構建評價多項特征屬性集合的特征屬性評價矩陣Xij,如式(3)所示:
式中:Xij為第i個案例的第j個信息特征屬性值,i=1,2,3,…,m;j=1,2,3,…,n。
各信息特征屬性值標準化計算公式如式(4)所示:
式中:Yij為各Xij數據標準化處理后的值;max Xij和min Xij為特征屬性極值。
②對標準化處理后的各特征屬性進行比重變換,計算特征屬性j的比重Pij,如式(5)所示:
計算各特征屬性對應的熵值Ej如式(6)所示:
③計算各特征屬性權重。依據式(6),得出各個特征屬性的信息熵為E1,E2,E3,…,Ej,而后第j個特征屬性值所占權重Wj,如式(7)所示:
3)主客觀綜合賦權法
計算主客觀綜合權重值λi,如式(8)所示[13]:
式中:λi為第i個指標的綜合權重;ωs為FAHP法計算的主觀權重;ωo為熵權法計算的客觀權重。
使用綜合權重法計算特征屬性權重后,使用AHP法計算圈層權重,圈層各特征屬性權重及圈層權重如表2所示。
表2 綜合權重值Table 2 Comprehensive weight values
2.2.3 城軌運營安全事故相似度計算
最近鄰法是通過計算目標案例和源案例之間的加權相似度,篩選輸出相似度值最高的案例[14]。基于最近鄰法的相似度計算主要包含屬性相似度計算和全局相似度計算2 個部分,其中屬性相似度計算包括單個屬性相似度計算和屬性綜合相似度計算。
1)單個屬性相似度計算
針對符號型數據的計算公式如式(9)所示:
針對數值型數據采用基于海明距離公式計算相似度,如式(10)所示:
式中:xj,yij分別表示目標案例X與源案例Yi關于屬性j對應的數據。
2)屬性綜合相似度計算
屬性綜合相似度計算公式如式(11)所示[15]:
3)全局相似度計算
全局相似度計算公式如式(12)所示:
式中:ωi表示圈層權重。
事故災難類事故在案例庫中的占比最大,為61.1%,選擇此類事故檢驗本文所構建的事故多圈層匹配模型實用性。選擇案例“6·19”深圳城軌1 號線列車突發故障停駛事件進行驗證。限于篇幅,應用過程僅展示排名前3 的案例,事故名稱以日期替代表示。
1)計算案例庫中關鍵圈層屬性相似度,結合屬性權重計算關鍵圈層綜合相似度,驗證結果如表3所示。
表3 關鍵圈層綜合相似度計算驗證Table 3 Calculation and verification of comprehensive similarity of core circles
2)篩選關鍵圈層綜合相似度符合閾值的案例作為下一階段匹配的案例子庫,計算重要圈層綜合相似度,驗證結果如表4所示。
表4 重要圈層綜合相似度計算驗證Table 4 Calculation and verification of comprehensive similarity of important circles
3)確定重要圈層綜合相似度后,計算一般圈層屬性及圈層綜合相似度,驗證結果如表5所示。
表5 一般圈層綜合相似度計算驗證Table 5 Calculation and verification of compr ehensive similarity of general circles
4)結合各圈層權重和圈層綜合相似度,計算案例全局相似度,相似度排序前3 的案例如圖6所示。
圖6 排序前3 的案例相似度對比Fig.6 Top 3 case similar ity compar isons
繼續選取其他類型的2 起案例作為補充驗證,案例為“6·25”深圳城軌4 號線男子跳入路軌事件和“7·31”上海暴雨致城軌3 號線供電故障事故。驗證結果中,“事故災難類”、“社會安全事件”、“自然災害類”驗證案例的最高相似度值分別為0.892 2,0.784 1,0.721 5;案例庫中,3 類事故占比分別為61.1%,35%,3.6%,證明案例數量對案例相似度值存在影響。
1)基于人工智能技術開展管理經驗的流程化提取和總結,可提高以往管理經驗的可用性,進而滿足城軌運營管理對相似案例應用精度、速度的要求。
2)依據文本數據特點,結合領域知識進行分層結構化表示,可避免案例的結構表達較多依賴專業知識的問題,并對案例表示、檢索等關鍵環節進行詳細的闡述。
3)針對傳統檢索策略的不足,提出多圈層檢索策略,通過3 種類型事故的案例匹配驗證,驗證多圈層檢索策略的實際應用有效性,所檢索出的相似案例可為現實事件提供管理依據。