薛 蕊,馬小寧,李 平,楊連報
(中國鐵道科學研究院集團有限公司 電子計算技術研究所, 北京 100081)
自然語言處理涉及到人機交互的計算語言學和人工智能領域,它使得計算機和人類之間可以進行無縫交互,并且在機器學習的幫助下,使得計算機獲得理解人類語言的能力。自然語言處理是一門融合語言學、計算機科學、數學于一體的科學[1]。已在多領域得到廣泛應用,并通過智能信息服務產生應用價值[2-4]。在鐵路行業內,雖然非結構化數據量十分龐大,但是自然語言處理的應用才剛剛起步,如Rosadini等人提出利用自然語言處理技術分析鐵路信號制造商需求文檔,從中探測鐵路需求的缺陷[5]。未來通過自然語言處理相關技術可以對海量的文檔進行有效管理,如存儲和檢索;對文檔深入挖掘和分析,發現事件之間的內在聯系和規律;與既有的技術手段相結合,促進和推動智能鐵路的發展。以往的綜述性研究多為總結某項技術在自然語言處理領域的發展和應用[6-8]。本文在概述自然語言處理發展歷程和關鍵技術的基礎上,將自然語言處理技術引入智能鐵路,探索和分析自然語言處理在智能運營、智能裝備和智能制造等方面的典型應用,展望自然語言處理在鐵路行業的應用前景。
作為計算機科學領域與人工智能領域中的一個重要方向,自然語言處理最早于上世紀50年代正式提出。最早的自然語言理解方面的研究工作是機器翻譯,20世紀60年代西方研究者對機器翻譯做出了大量探索性的研究工作。然而,由于低估了自然語言的復雜性,和當時自然語言處理理論和技術的缺乏,自然語言處理領域的研究進展緩慢。直到20世紀70~80年代,機器學習相關算法的引入,為自然語言處理帶來了革新。從此自然語言處理從基于規則的時代進入了廣泛應用統計模型的時代,在這一階段,很多自然語言處理任務得到了長足的發展。近年來,深度學習技術在各個方面取得矚目的成果,通過應用深度學習相關技術方法,自然語言處理的多項任務取得了突破,比如語言建模,語義解析等。
文本分類是將文本劃分至預設好類別中的過程。如果 Di是文檔集合 D 中的一個文檔,{C1,C2,C3,…,Cn}是類別集合,那么文檔分類就是將其中一個類別Cj分配給文檔Di的過程。根據其特征,文檔可以被標記為一個類別或者多個類別。如果文檔僅屬于一個類別,被稱為“單個標簽”,反之如果文檔屬于多個類別,則被稱為“多個標簽”。如果文檔僅屬于兩個類別中僅有的一個,“單個標簽”的文本分類問題可以進一步被理解為“二分類”問題[9]。如圖1所示,文檔分類流程通常包括文檔表征、特征選擇或者特征變換、構建算法模型、訓練算法模型、以及最終對算法模型的評價。

圖1 文檔分類過程圖
命名實體識別是對文本中的重要名詞和指代詞定位和分類的過程。例如,定位和識別新聞中的人名、地名和組織機構名稱等重要的信息,用于進一步的語言處理和應用。命名實體識別作為自然語言處理中的重要任務,可被用于信息抽取、問答系統和機器翻譯等領域中。例如,命名實體信息可以將專有名詞定位為一個整體,從而輔助機器翻譯系統進行整詞翻譯,以避免逐詞翻譯可能導致的翻譯錯誤。
大部分命名實體識別系統包括人名、地名、組織機構名和定義更為寬泛的混合實體。這些類別主要用于與新聞相關的語料,在其他相關領域,命名實體模型需要用其相關語料和標注類別重新進行訓練和測試[10]。
自動文摘是對輸入文本進行壓縮和精煉,最終輸出源文本中重要概念的過程[11]。根據輸入文檔類型的差異(單個文檔/多個文檔)、目的的差異(泛化的/特定領域的/基于查詢的)、輸出文檔類型的差異(抽取性的/概括性的),自動文摘系統可以被劃分不同的類別[12]。單個文檔摘要是指對單個文檔進行總結概括,同理多個文檔摘要的數據源是多個文檔,但是多個文檔涉及的基本是同一個主題。泛化的自動文摘系統是指對所有的文本進行概括總結而不考慮其主題或者類別。特定領域的文摘系統則有著很強的專業或者領域的指向性,比如金融文章的摘要,生物制藥文檔的摘要等等。通常,該類型的摘要需要特定的專業知識以輔助句子的篩選過程。基于查詢的摘要僅僅包含用戶需要提取的信息,這些查詢通常是自然語言問題或者是特定主題的關鍵詞。抽取性文摘和概括性文摘的生成方式有所差異,抽取性文摘從文檔中定位和抽取重要句子從而生成文摘,而概括性文摘是通過合并選定的文檔,再將不重要的部分進行壓縮生成最終的文摘。
知識圖譜以實體和實體關系的形式對信息進行建模從而得到知識表征和它們的關聯關系[13]。知識圖譜并非是一個全新的概念,而是基于在2006年提出的語義網概念,語義網強調使用本體模型來形式化表達數據中的隱含語義,由此產生了RDF(resource description framework)模式(RDF schema)和萬維網本體語言(OWL,Web ontology language)的形式化模型。基于以上研究,Google于2012年5月17日正式提出了知識圖譜[14]。
三元組是知識圖譜一種通用的表示方式,之前流傳較廣的是RDF的一種(主語、指向、賓語)三元組(SPO),其中,主語(subject)和賓語(object)均為實體,指向(predict)闡明了實體之間的關系。該三元組可以用有向的圖結構表示,如圖2所示。知識圖譜的三元組可表示為G=(E,R,S),其中,E={e1, e2, …, e|E|}是知識庫中的實體集合,共包含|E|種不同實體;R={r1, r2, …, r|E|}是知識庫中的關系集合,共包含|R|種不同關系;S?E?R?E代表知識庫中的三元組集合。

圖2 (主語、指向、賓語)三元組示例
智能問答旨在針對用戶問題傳遞包含相應答案的精確信息。問答范式產生于60年代末,并在70年代初納入自然語言理解的框架。根據問題的類型問答系統被分為兩類,開放域問答系統與固定域問答系統。開放域系統主要基于網絡,對專業領域沒有限制,固定域系統對專業進行了限制,比如醫藥或天氣預報等[15]。
問答系統構建有諸多方案,如基于語言學的方法,基于統計模型的方法和基于模式匹配的方法。為了問答系統性能更優,往往采用混合的方法進行構建[16]。近年來很多公司研發了語音助手,如蘋果手機的Siri,這類應用本質上是任務導向的智能問答系統,在之前的智能問答上集成了語音識別等技術,其流程如圖3所示。

圖3 任務導向的智能問答樣例
根據《中長期鐵路網規劃》,到2020年,全國鐵路網規模達到15萬km,其中高速鐵路3萬km,覆蓋80%以上的大城市。隨著全國鐵路網規模不斷擴大,鐵路運營中的節能高效、安全管控等問題越發得到了人們的關注。自然語言處理的命名實體識別、知識圖譜、智能問答等關鍵技術應用在鐵路運營中,可以有效節約運營成本、改善乘客服務以及提高運營中的安全管控。
3.1.1 智能客服
智能客服是自然語言處理的一個重要的應用場景,其主要功能是與用戶進行基本溝通,并自動回復用戶有關產品或服務的問題,以達到降低企業客服運營成本、提升用戶體驗的目的。智能客服在電子商務、金融領域等已經得到了廣泛的應用。在鐵路運營中,智能客服可以在票務、車站等場景中給乘客提供優質高效的服務和良好的乘車體驗。
3.1.2 安全管控
鐵路運營中的安全涉及風險、隱患、事故故障等多個方面,對風險、隱患和事故故障的描述多以文本的方式存在,如風險庫、隱患庫、和事故故障報告等。通過文本分類和命名實體識別等技術手段,可以將非結構化的文本數據轉化為結構化字段,便于存儲、檢索和統計分析。通過對事故故障進行關聯分析和原因分析,可以挖掘事故故障之間的內在聯系和事故故障的發生規律。結合風險和隱患方面的數據,解析風險、隱患和事故故障之間的相關關系和轉化路徑,有助于將事故故障扼殺在萌芽狀態,提高鐵路的行車安全。此外,結合相關結構化數據如設備數據、傳感器數據等,可以對一些安全問題進行預測,促進設備檢查維修從基于條件的維修向基于預測的維修轉變,真正做到對安全問題的超前防范。
鐵路行業擁有龐大且多元化的資產,如機車車輛、基礎設施等,因此如何對這些資產進行有效的管理和優化的配置,一直是鐵路行業關注的重點問題。資產管理指的是通過一系列措施和方法降低資產的全生命周期的成本,同時獲取資產使用的效益最大化。資產管理不僅僅局限于維修方面,而是從設計、制造、運維到淘汰更新的一個全生命周期管理。通過運用自然語言處理相關技術,可以有效提高資產管理的效率,推動資產管理向資產智能的轉變。
3.2.1 資產檔案
在資產管理中運用自然語言處理相關技術可以自動化地建立和管理資產檔案,及時跟蹤資產的狀態變更,有助于簡化資產管理的流程。同時通過對資產檔案進行關聯分析,可以將相關資源進行整合,合理高效地配置現有資源避免浪費。
3.2.2 智能維修
將自然語言處理應用于鐵路的資產管理能夠整合行業內有價值的信息、專家知識、安全條例、維修規定等相關規章制度,自動優化維修作業所需的車輛調度、工具設施、人力資源等。例如,香港鐵路公司(MTR)利用人工智能進行工程師每周的工作派遣和調度。這一方式使得他們在維修制度內得以最大化使用資源,MTR也因此在維修效率上提高了至少50%,同時節省了時間和成本[17]。
除此之外,結合基礎設施等設備檔案和設備監控數據,可以對設備維修、維修時間進行建模預測,有助于從按時維修和狀態維修向預測維修進行轉變,減少成本的同時提高效率[18]。
隨著建筑制造領域信息化的不斷完善,建筑制造行業已經過渡到了數字化階段,具有代表性的就是BIM系統的應用。作為強大的集成化系統,基于BIM的系統能夠在工程設計、工程施工以及工程監察過程中高效地傳遞信息、進行資源的優化配置、以及通過一些監察手段提前發現施工問題以避免返工。在信息化和數字化之后,下一步則是智能化,智能化能夠減少人力成本、進行資源配置和決策的最優化。建筑制造領域智能化的最大特點是,人工智能技術方法在行業中的廣泛應用。人工智能技術的應用離不開數據的支持,而集成了大量數據和信息的BIM系統可以發揮重要的作用。將BIM系統與自然語言處理相結合,可以切實有效地處理建筑施工中的實際問題,促進建筑制造由數字化向智能化的轉變。
3.3.1 決策輔助
建筑施工過程中需要進行大量的決策,例如,選擇施工方法、承包方、施工材料等。自然語言處理中的知識圖譜、智能問答以及推理等技術可以為相關業務人員提供決策依據,輔助業務人員在復雜場景下進行相關決策[19]。
3.3.2 督查校驗
建筑施工相關的標準和規程往往以非結構化文本的形式存在,例如施工質量驗收規范。通過集成應用 BIM 技術和自然語言處理相關技術,可以按規范要求對 BIM 模型構件的尺寸及位置等進行自動檢查,從而減輕有關人員的工作量。
本文在介紹自然語言處理發展歷程、關鍵技術的基礎上,結合智能鐵路的發展,創新性地將自然語言處理技術全面引入鐵路行業,闡述了自然語言處理在智能鐵路中諸多可能的應用場景。在智能運營、智能裝備和智能建造3大領域中,自然語言處理相關技術方法均可結合業務需要,在實際的場景中推動和促進鐵路行業向智能化轉變。