文/張洪福
所謂安全生產,是指在生產經營活動中,為了避免造成人員傷害和財產損失的事故而采取相應的事故預防和控制措施,使生產過程在符合規定的條件下進行,以保證從業人員的人身安全與健康,設備和設施免受損壞,環境免遭破壞,保證生產經營活動得以順利進行的相關活動。最近幾年,許多生產企業將大數據應用到自身的經營管理之中,重視大數據在安全生產中的應用價值。
《中國安全生產報》2001年10月11日創刊,是國內安全生產領域唯一綜合性報紙,是傳遞黨中央、國務院、國家安全生產監督管理局、各行業主管部門、各地方政府對安全生產工作各個階段工作部署的重要媒介;是安全生產專業信息咨詢和交流的權威平臺和安全生產理論探尋、安全文化建設的主陣地;是各級安監干部工作的良師益友。作為安全生產領域權威主流媒體有著深遠的影響力,能夠匯聚行業內的各種數據資源,數據資源包括:各地記者站稿件、民眾投稿、專家約稿、企業安全生產數據、政府安全監管數據、調查報告、安全生產相關法律知識、安全生產管理知識、安全生產技術等。作為大數據而言,除了內部數據積累,還應充分利用互聯網數據,結合大數據手段對安全生產領域信息快速抓取和分析。完善生產中的數據與資料,從大數據中不斷探索其中規律。
同時,2015年4月2日,國務院辦公廳印發《國務院辦公廳關于加強安全生產監管執法的通知》,通知指出,要大力提升安全生產“大數據”利用能力,加強安全生產周期性、關聯性等特征分析,做到檢索查詢即時便捷、歸納分析系統科學,實現來源可查、去向可追、責任可究、規律可循。中國安全生產報社發揮自身優勢,利用大數據技術開展安全生產工作,應用價值在多個方面都能夠有所體現。首先是對安全生產領域監察的敏感性強,分析基礎數據可知哪些安全生產行業或某個安全生產行業哪個環節易發生安全問題。其次是有利于安全生產領域相關政策制定。中國安全生產報社擁有大量的數據支撐,對基礎數據內容進行分析,便于對多因素影響下事態的發展以及在趨勢方式下制定最適宜的安全舉措。最后是有利于整個安全生產領域的管理推進和實施。中國安全生產報社經過有效處理海量的基礎性數據,對如何安全管理已有系統性的研究。
首先要充分利用已有數據。包括:各地記者站稿件、民眾投稿、專家約稿、企業安全生產數據、政府安全監管數據、調查報告、安全生產相關法律知識、安全生產管理知識、安全生產技術等。
其次是充分利用互聯網數據。隨著網絡應用技術的發展,網絡信息呈現出一定的“異構”特點。網絡信息仍以HTTP為網絡傳輸協議,以HTML為展示格式,但隨著互聯網社區化的發展和Web 2.0的崛起,網頁所蘊含的內容發生了深刻的變化。原來以網站/網頁內容為主導的互聯網,逐漸演變為網站、論壇(社區)、博客、微博等信息共存的局面。微信、論壇、博客、微博上蘊含的大量信息已經成為互聯網上重要的信息組成部分。網民們可以在這些自媒體平臺隨時隨地發表他們所見所聞的安全生產事件或對某個安全生產事件的態度看法等。這些自媒體平臺互動性強,信息傳播快,儼然成為一個輿論放大器。而且對安全生產領域來說,論壇、微博、微信上的信息比普通網站上的信息具有更重要的使用價值。安全生產事故,如燃氣爆炸、坍塌事故、火災、沉船、重大車禍等信息,都是通過論壇、微博、微信等渠道第一時間傳播的。另外,一些安全生產隱患,如煤氣泄漏、安全漏洞、火災隱患等,網民可以通過互動的形式告知安監總局、安全生產報社等單位,在事故發生之前及時處理,減少人民生命財產損失,具有重大意義。
安全生產大數據的要求是對互聯網上的有效信息進行采集和利用,但目前的數據采集技術主要是面向網站和網頁的收集和采集,不能有效解決論壇(社區)、博客、微博、微博的采集和更新問題。對于安全生產大數據來說,最終建設的應該是全面的信息收集機制,有效信息遍布于論壇、博客、微博、微信等載體上。針對安全生產行業特點和業務領域,選擇神華集團、中石油、中石化等同類企業或同行企業的安全生產事件進行素材的收集(如央國企新聞發言稿等),歷年全國各地發生的安全生產事故信息等。主要包括過往案例、對外宣傳稿、分析報告等,按照事故命名、發生時間、地點、程度級別、事故類型、傷亡人數、死亡人數等屬性特征進行分類,并可設定相關報道的媒體范圍,同時采集與事故相關的互聯網信息,形成安全生產大數據的數據支撐。
據國家安全生產監督管理總局官網數據顯示,2017年1~7月,全國共發生各類生產安全事故27478起,死亡19783人。其中,較大事故377起,死亡1442人;重大事故17起,死亡225人,同比增加1起等。及時獲取這些信息,有利于相關部門了解事件態勢,盡早合理決策,避免不良影響擴大化。
隨著人工智能的大熱,國內各大企業開始紛紛布局人工智能領域,并打造出各種不同的智能終端,比如人工機器人、無人駕駛汽車、智能電視、智能冰箱……這些智能終端有一個共同的特點——不但能讀懂人類語言,還能與人類交流,同時,還能進一步完成人類所下達的指令。
如此神奇的技術是如何實現的呢?這要歸功于人工智能領域一項核心的處理技術——NLP。NLP(Natural Language Processing),即自然語言處理,它是研究人與計算機交互的語言問題的一門學科,也是人工智能一個重要的子領域。簡單來說,NLP是讓機器“理解”人們使用的自然語言結構和意思,將自然語言翻譯為機器語言形式,并加工它(總結、句法分析等),再返回給用戶自然語言。它涉及很多內容和技術,如文本朗讀/語音合成、語音識別、中文自動分詞、詞性標注、句法分析、自然語言生成、文本分類、信息檢索、信息抽取、文字校對、問答系統、機器翻譯、自動摘要、文字蘊涵……
在人工智能發展之初,NLP技術就已經顯示出巨大的魅力。1949年埃德蒙·伯克利(Edmund Berkeley)在他出版的《Giant Brains Or Machines That Think》一書中曾寫道:“最近出現許多消息,談論的主題是奇怪的巨型機器處理信息,速度極快,技能很強……這種機器與大腦相似,由硬件和線纜組成,而不是血肉和神經,機器可以處理信息,可以計算、可以得出結論,可以選擇,還可以根據信息執行合理操作。總之,這臺機器可以思考。”
作為人工智能核心技術之一,自然語言處理技術越發受到技術公司的青睞,在國務院印發的《新一代人工智能發展規劃》中,自然語言處理技術被列為關鍵共性技術。
先進的技術需要與行業進行深度結合,才能實現更大的價值。自然語言處理技術可以實現對安全生產大數據的分析處理,建立符合行業特色的安全生產知識庫,包括安全生產案例庫、安全生產口徑庫、關鍵詞庫、媒體庫及敏感詞庫、專業領域知識庫等,形成知識的積累。
安全生產案例庫:首先,利用采集的行業數據,經過自然語言的解析和整理,自動從大規模行業語料中挖掘專業術語和新詞,快速構建行業詞典,構建行業語料庫。同時,通過多個行業語料庫的采樣和綜合,構建通用語料庫。語料預處理中對語料分塊,并進行分詞、命名實體識別,然后進行串頻統計、子串歸并操作,再分別通過橫向對比和縱向遞進的方法進行行業術語和行業短語挖掘。可實現數據內容過濾,多語種識別和自動轉碼、自動分詞、自動分類、自動聚類、自動熱點發現、相似檢索、文章排重、自動摘要、重點信息抽取等功能。案例庫本著科學、實用的原則,對每個安全生產事件的特征都進行了全方位的剖析,既包括該事件的發展演變過程、網上民意演變過程圖表,也包括在事件過程的各個階段中網絡上各種不同觀點、看法的所占比重和典型觀點的摘編。可按照事故命名、發生時間、地點、程度級別、事故類型、傷亡人數、死亡人數等屬性特征進行分類,并可設定相關報道的媒體范圍。業務人員可通過安全生產案例庫瀏覽、查詢和下載案例報告,利用過往的應對經驗,并結合當前實際情況,提高安全生產應對處置能力。安全生產案例庫是長期研究、分析互聯網及行業數據積累下來的寶貴資料,對安全生產的宣傳、調研、理論、培訓等有一定的參考和借鑒價值。
安全生產口徑庫:通過自然語言處理技術,可為安全生產口徑庫提供技術支撐,收集并分類細分歷年全國發生的安全生產事故,采集相關的媒體報道,實現提取涉事人名、地名和機構名稱的功能,同時可自動標識是否涉及國務院、安監總局或各地安監局,便于分析整理各級監管機構、涉事企業及其他相關部門的處理意見、回應的時間節點、回應內容、處置方法等。可以及時、全面、準確地掌握各種信息和網絡動向,從浩瀚的數據宇宙中發掘事件苗頭、歸納輿論觀點傾向、掌握公眾態度情緒,并結合歷史類似事件進行趨勢預測和應對建議。建立完善的地區、機構、行業、社情民意的分類體系,便于進行信息共享、分析處理、信息快速查找,逐步形成圍繞安全生產的口徑知識庫。通過安全生產口徑庫的建設,利于安全生產業務人員熟悉掌握政策、口徑、提升自身業務素質,也有利于加強新聞宣傳工作的組織規范性和整體協作效率,降低信息搜索成本,提高信息回應的針對性、準確性、一致性和及時性。
以自然語言理解技術為基礎的新一代搜索引擎,被稱為智能語義檢索。由于它將信息檢索從目前基于關鍵詞層面提高到基于知識(或概念)層面,對知識有一定的理解與處理能力,能夠實現分詞技術、同義詞技術、概念搜索、短語識別以及機器翻譯技術等,因而這種搜索引擎具有信息服務的智能化、人性化特征。這種允許網民采用自然語言進行信息檢索,將為他們提供更方便、更確切的搜索服務。
安全生產行業搜索利用智能語義檢索,能夠比通用搜索提供更多的行業相關查詢方式。行業搜索應提供豐富的查詢手段,包括自動分類、普通檢索、組合檢索、拼音檢索、相關短語檢索等。智能語義檢索更加人性化,功能也更強,能夠滿足行業的特殊需求。在搜索應用開發過程中,逐步選擇適合于行業應用的查詢方式。
2.3.1 拼音檢索
拼音檢索的主要功能是提供全拼檢索、簡拼檢索、同音檢索等技術,幫助用戶快速有效地檢索自己所需要的內容。
基于串頻統計和上下文的注音技術:在大量拼音語料基礎上,統計漢字串和拼音串的分布規律等大量有用信息,利用基于上下文的注音算法對多音漢字進行注音,保證了注音的準確性。
同音檢索技術:支持同音檢索、全拼檢索和簡拼檢索,在豐富的拼音語料庫基礎上,對漢字串的分布頻率進行了統計,整理出高頻漢字串和拼音串的對應表,在此基礎上,保證用戶輸入的拼音串對應的一定是最可能的漢字串。
拼音輸入校正技術:利用拼音詞典和相關算法實現輸入校正。
2.3.2 相關短語檢索
相關短語檢索的主要功能是,在檢索過程中,根據用戶輸入查詢,提供一組比較常用的相關查詢供用戶參考,向用戶提供高質量的“查詢建議”,方便用戶使用搜索系統。例如,輸入“知識”, 提示“知識管理”“知識在線”“知識經濟”等。
一是相關短語匹配技術。如何定義并計算短語的相關性是個很有挑戰性的問題。相關短語匹配技術采用了語義詞典和短語語法結構相結合的方法,計算短語之間的相關性,取得了滿意的效果。
二是相關短語詞典。相關短語詞典是相關短語檢索的基礎,來源主要有兩部分:一部分是人工整理的短語相關知識;另一部分是通過數據挖掘技術,從搜索引擎查詢日志中獲取的相關短語。這樣既保證了詞典的規模,又保證了詞典的質量。新華搜索前期的工作已經形成了包含數十萬條詞條及其相關短語的短語詞典。
三是高頻查詢詞典。主要來源是在長期積累的檢索日志基礎上,整理并統計用戶在日常檢索中經常使用的100多萬個查詢。如果用戶輸入的短語不包含在相關短語詞典中,則使用相關短語匹配技術從高頻查詢詞典中檢索相似短語。
四是人工整理和數據挖掘方法結合構造相關短語詞典。相關短語詞典的規模達到百萬級詞條和它們的相關短語,其來源主要有兩部分:一部分是人工整理的短語相關知識;另一部分是通過數據挖掘技術,從搜索引擎查詢日志中獲取的相關短語。這樣既保證了詞典的規模,又保證了詞典的質量。
如何定義并計算短語的相關性是個很有挑戰性的問題。 實驗證明了采用語義詞典和短語語法結構相結合的方法,計算短語之間的相關性,取得了滿意的效果。
行業搜索的檢索結果排序方法是研究的一個重點。通用搜索引擎采用以鏈接分析為主要手段的排序手段,行業搜索的檢索結果排序需要綜合考慮網頁內容的相關性(用戶查詢詞與網頁內容的相關度)、網頁自身的重要性(鏈接分析)以及時效性。
傳統IR技術中判斷查詢條件與文檔的內容相關性,最為通用的方法是采用向量空間模型(VSM)進行計算。
安全生產智能語義檢索將綜合運用相關性排序、網頁權重、時間權重等多種排序因素,獲得較優的排序結果,具體排序過程主要基于以下與相關度相關的因素進行。
比如TF-IDF,VSM,計算查詢條件與網頁的內容相關度。在網頁內容方面,標題中的關鍵詞、黑體的關鍵詞以及標題中出現的關鍵詞、網頁外部鏈接的錨文本等,比網頁本身內容具有更高的權重。
文檔權重:主要基于鏈接分析方法(如PageRank)計算文檔的權重。
時間權重:按照網頁發布時間(如果獲取不到發布時間則取收錄時間)計算時間權重。
結果排序算法的主要流程是,系統依據內容相關性、文檔權重、時間權重,計算獲得排序結果。
以上大數據的基礎、技術和應用為大數據在安全生產中的應用提供了方向。安全生產基于大數據技術可以做到安全生產檢索查詢即時便捷、歸納分析系統科學。
通過對安全生產行業相關數據采集、自然語言處理、檢索,可以實現資源共享、內容創新、信息增值及優質服務;通過大數據技術,逐步打造面向 “互聯網+”語境下的現代化信息系統,能夠充分貫徹《國務院辦公廳關于加強安全生產監管執法的通知》的精神。中國安全生產報社將大數據技術與安全生產業務相結合,為安全生產領域今后的進一步改革和發展打下堅實的技術基礎。