


摘要:災情受理是消防救援隊伍滅火救援行動的首要步環節,關系著救援行動的成敗和群眾生命的安危。然而,在實際接警中,由于單純語音溝通的局限性和表達描述的口頭性,災情定位和事故類型等關鍵要素需要反復確認任然極易出現偏差,導致調派效率低下,裝備力量不準,甚至貽誤戰機,嚴重威脅到國家與人民群眾的生命財產安全。本文基于AI語音語義識別、AI文本轉換優化的關鍵信息智能提取等多種技術,提出一種新型智能化災情受理系統的設計方案。
關鍵詞:AI;全媒體;災情受理系統
中圖分類號:X915文獻標識碼:A文章編號:1672-9129(2020)07-0064-03
Abstract:The acceptance of the disaster is the first step of the fire rescue team fire rescue operation, related to the success of the rescue operation and the safety of people's lives. In actual receiving alarm, however, due to the limitation of the simple voice communication and expression to describe oral sex, disaster and accident types such as key element requires repeated confirmation still deviation, appear easily lead to inefficient transfer, power equipment, and even delay, serious threat to the country and the people's life and property safety. Based on AI speech semantic recognition, AI text conversion optimization of key information intelligent extraction and other technologies, this paper proposes a new intelligent disaster acceptance system design scheme.
Key words:AI;All the media;Disaster acceptance system
1前言
目前各級消防救援隊伍的災情受理方式還主要是程控電話傳統方式。“電話報警”“短信報警”“網上報警”3種方式進行報警。而提取災情的關鍵信息則依靠人工,從其效率和準備性上有待提高。市場上的報警方法或產品主要問題:報警方式不夠自動化。報警人在事發過程中往往不及反映,或沒有精力來完成報警動作;報警后處置系統需要完全由人工甄別災情,在處置資源不足時往往造成災情處置延誤,謊報、誤報的災情往往也造成無效接警。
現如今,人工智能技術的飛速發展,在各種行業都有應用,基于AI語音語義識別,文本轉換等技術有效的提取信息,能減少或避免傳統的災情受理靠成延誤或無效接警。
2總體目標
研究基于語音語義識別、文本轉換優化的關鍵信息智能提取技術,提供災情定位等有效信息,通過移動應用(android/ios)、微信小程序等多種互聯網報警方式的融合接入技術,基于實時全媒體災情信息和歷史接處警信息智能化動態生成人、車、裝備輔助調派方案。
3研究內容
3.1 AI語音語義識別:包括以語言學、計算機語言等學科為背景的,對自然語言進行詞語解析、信息抽取、時間因果、情緒判斷等等技術處理,最終達到讓計算機“懂”人類的語言的自然語言認知,以及把計算機數據轉化為自然語言的自然語言生成。
詞語解析與信息抽取:包括分詞、詞性標注、命名實體識別和詞義消歧,從給定文本中抽取重要的信息。
句法解析與語篇理解:對篇章結構的一系列連續的子句、句子和語段間一定層次結構和語義關系的分析,包括時間、事件、因果關系等,甚至于文本所攜帶的情緒識別。
自然語言生成:從結構化數據中以可讀地方式自動生成文本的過程。包括三個階段:文本規劃(完成結構化數據中基礎內容的規劃)、語句規劃(從結構化數據中組合語句,來表達信息流)、實現(產生語法通順的語句來表達文)。
詞典、數據集、語料庫、知識圖譜,以及外部世界常識性知識等都是語義識別算法模型的基礎。模式匹配部是語音識別系統的關鍵組成部分,它一般采用“基于模式匹配方式的語音識別技術”或者采用“基于統計模型方式的語音識別技術”。前者主要是指“動態時間規整(DTW法”,后者主要是指“隱馬爾可夫(HMM)法”。
隱馬爾可夫模型(HMM)是語音信號處理中的一種統計模型,是由Markov鏈演變來的,所以它是基于參數模型的統計識別方法。由于其模式庫是通過反復訓練形成的與訓練輸出信號吻合概率最大的最佳模型參數而不是預先儲存好的模式樣本,且其識別過程中運用待識別語音序列與HMM參數之間的似然概率達到最大值所對應的最佳狀態序列作為識別輸出,因此是較理想的語音識別模型。
動態時間歸整算法:在孤立詞語音識別中,最為簡單有效的方法是采用DTW(Dynamic Time Warping,動態時間歸整)算法,該算法基于動態規劃(DP)的思想,解決了發音長短不一的模板匹配問題,是語音識別中出現較早、較為經典的一種算法,用于孤立詞識別。HMM算法在訓練階段需要提供大量的語音數據,通過反復計算才能得到模型參數,而DTW算法的訓練中幾乎不需要額外的計算。所以在孤立詞語音識別中,DTW算法仍然得到廣泛的應用。
3.2 AI文字文本轉換:
Ocr:光學字符識別(英語:Optical Character Recognition)是指電子設備(例如掃描儀或數碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程。
將彩色圖像中的三分量的亮度作為三個灰度圖像的灰度值,可根據應用需要選取一種灰度圖像。
根據重要性及其它指標,將三個分量以不同的權值進行加權平均。由于人眼對綠色的敏感最高,對藍色敏感最低,因此,按下式對RGB三分量進行加權平均能得到較合理的灰度圖像。F(i,j) = 0.30R(i,j) + 0.59G(i,j) + 0.11B(i,j))
(1)對圖像進行二值化處理。圖像的二值化處理就是將圖像上的點的灰度置為0或255,也就是將整個圖像呈現出明顯的黑白效果。即將256個亮度等級的灰度圖像通過適當的閾值選取而獲得仍然可以反映圖像整體和局部特征的二值化圖像。在數字圖像處理中,二值圖像占有非常重要的地位,特別是在實用的圖像處理中,以二值圖像處理實現而構成的系統是很多的,要進行二值圖像的處理與分析,首先要把灰度圖像二值化,得到二值化圖像,這樣子有利于在對圖像做進一步處理時,圖像的集合性質只與像素值為0或255的點的位置有關,不再涉及像素的多級值,使處理變得簡單,而且數據的處理和壓縮量小。為了得到理想的二值圖像,一般采用封閉、連通的邊界定義不交疊的區域。所有灰度大于或等于閾值的像素被判定為屬于特定物體,其灰度值為255表示,否則這些像素點被排除在物體區域以外,灰度值為0,表示背景或者例外的物體區域。如果某特定物體在內部有均勻一致的灰度值,并且其處在一個具有其他等級灰度值的均勻背景下,使用閾值法就可以得到比較的分割效果。如果物體同背景的差別表現不在灰度值上(比如紋理不同),可以將這個差別特征轉換為灰度的差別,然后利用閾值選取技術來分割該圖像。
(2)對圖像進行腐蝕處理原理。特征提取和降維:特征是用來識別文字的關鍵信息,每個不同的文字都能通過特征來和其他文字進行區分。對于數字和英文字母來說,這個特征提取是比較容易的,因為數字只有10個,英文字母只有52個,都是小字符集。對于漢字來說,特征提取比較困難,因為首先漢字是大字符集,國標中光是最常用的第一級漢字就有3755個;第二個漢字結構復雜,形近字多。在確定了使用何種特征后,視情況而定,還有可能要進行特征降維,這種情況就是如果特征的維數太高(特征一般用一個向量表示,維數即該向量的分量數),分類器的效率會受到很大的影響,為了提高識別速率,往往就要進行降維,這個過程也很重要,既要降低維數吧,又得使得減少維數后的特征向量還保留了足夠的信息量(以區分不同的文字)。
分類器設計、訓練和實際識別:分類器是用來進行識別的,就是對于第二步,對一個文字圖像,提取出特征給,丟給分類器,分類器就對其進行分類,告訴你這個特征該識別成哪個文字。
3.3智能災情分析和出警信息調度。終端 設備采集數據信息,對歷史 出警數據快速分析,以找到最有效的出警調度信息。
3.4精確定位。GPS+北斗+基站定位+WiFi的混合定位模式進行定位,以達到更準確的定位。
4技術路線
4.1 MFCC提取一般流程。
預濾波:CODEC前端帶寬為300-3400Hz的抗混疊濾波器。
A/D變換:8kHz的采樣頻率,12bit的線性量化精度。
預加重:通過一個一階有限激勵響應高通濾波器,使信號的頻譜變得平坦,不易受到有限字長效應的影響。
分幀:根據語音的短時平穩特性,語音可以以幀為單位進行處理,實驗中選取的語音幀長為32ms,幀疊為16ms。
加窗:采用哈明窗對一幀語音加窗,以減小吉布斯效應的影響。
快速傅立葉變換(Fast Fourier Transformation, FFT):將時域信號變換成為信號的功率譜。
三角窗濾波:用一組Mel頻標上線性分布的三角窗濾波器(共24個三角窗濾波器),對信號的功率譜濾波,每一個三角窗濾波器覆蓋的范圍都近似于人耳的一個臨界帶寬,以此來模擬人耳的掩蔽效應。
求對數:三角窗濾波器組的輸出求取對數,可以得到近似于同態變換的結果。
離散余弦變換(Discrete Cosine Transformation, DCT):去除各維信號之間的相關性,將信號映射到低維空間。
譜加權:由于倒譜的低階參數易受說話人特性、信道特性等的影響,而高階參數的分辨能力比較低,所以需要進行譜加權,抑制其低階和高階參數。
倒譜均值減(Cepstrum Mean Subtraction, CMS):CMS可以有效地減小語音輸入信道對特征參數的影響。
差分參數:大量實驗表明,在語音特征中加入表征語音動態特性的差分參數,能夠提高系統的識別性能。在本系統中,我們也用到了MFCC參數的一階差分參數和二階差分參數。
短時能量:語音的短時能量也是重要的特征參數,本系統中我們采用了語音的短時歸一化對數能量及其一階差分、二階差分參數。
4.2模式匹配和語言處理。
通過語音特征分析以后接下來就是模式匹配和語言處理。
聲學模型是識別系統的底層模型,并且是語音識別系統中最關鍵的一部分。聲學模型的目的是提供一種有效的方法計算語音的特征矢量序列和每個發音模板之間的距離。聲學模型的設計和語言發音特點密切相關。聲學模型單元大小(字發音模型、半音節模型或音素模型)對語音訓練數據量大小、系統識別率,以及靈活性有較大的影響。必須根據不同語言的特點、識別系統詞匯量的大小決定識別單元的大小。
語言模型對中、大詞匯量的語音識別系統特別重要。當分類發生錯誤時可以根據語言學模型、語法結構、語義學進行判斷糾正,特別是一些同音字則必須通過上下文結構才能確定詞義。語言學理論包括語義結構、語法規則、語言的數學描述模型等有關方面。目前比較成功的語言模型通常是采用統計語法的語言模型與基于規則語法結構命令語言模型。語法結構可以限定不同詞之間的相互連接關系,減少了識別系統的搜索空間,這有利于提高系統的識別。語音識別過程實際上是一種認識過程。就像人們聽語音時,并不把語音和語言的語法結構、語義結構分開來,因為當語音發音模糊時人們可以用這些知識來指導對語言的理解過程,但是對機器來說,識別系統也要利用這些方面的知識,只是如何有效地描述這些語法和語義還有困難:
小詞匯量語音識別系統。通常包括幾十個詞的語音識別系統。
中等詞匯量的語音識別系統。通常包括幾百個詞至上千個詞的識別系統。
大詞匯量語音識別系統。通常包括幾千至幾萬個詞的語音識別系統。這些不同的限制也確定了語音識別系統的困難度。
模式匹配部是語音識別系統的關鍵組成部分,它一般采用“基于模式匹配方式的語音識別技術”或者采用“基于統計模型方式的語音識別技術”。
5實施方案
以下所述包括前端AI云端引擎服務、地圖定位服務、AI前端信息采集系統,三個主要部分組成;所述前端AI信息采集系統通過restful 接口與AI研判引擎系統相連接,將自動化采集到的信息發送引擎進行處理;所述AI研判引擎系統通過restful 接口與后臺AI云端引擎服務相連接,將災情處理的研判結果發送調度系統,輔助調度人員的災情研判。本發明結合AI技術,利用計算機視覺處理、聲音識別對報警信息自動化采集、處理,實現信關鍵信息,報警信息傳送后計算機系統自動化輔助分析判斷,極大地提高災情受理的及時性、便捷性與處置效率。
5.1 AI云端引擎服務開發
開發Ai調試引擎服務,監控文本和語音服務,將音頻或文字交附給對對應的AI語音服務和AI文本服務。對應的服務快速提取關鍵信息并迅速反饋。
目前市場語音語義解析產品解決方案AIUI,AIUI是科大訊飛推出的一套以語音為核心的人機交互解決方案,意在使應用和設備能夠快速具備能聽會說,能理解會思考的能力。
支持語音喚醒,高喚醒率,低配置需求,低功耗。支持語音識別:識別結果響應時間低于200ms,支持中文、英文、粵語、四川話等,依托機器學習和積累的海量數據,識別復雜主義,作出精準響應。
構建文字檢測和識別服務
可以考慮OpenCV。OpenCV是一個基于BSD許可(開源)發行的跨平臺計算機視覺庫,可以運行在Linux、Windows、Android和Mac OS操作系統上。它輕量級而且高效——由一系列C函數和少量C++ 類構成,同時提供了Python、Ruby、MATLAB等語言的接口,實現了圖像處理和計算機視覺方面的很多通用算法。
文字檢測:OpenCV的文字檢測模塊textDetectorCNN中使用了TextBoxes:具有單個深度神經網絡的快速文本檢測器 鏈接地址為:
文字識別:OCRHolisticWordRecognizer類提供了分段詞語的功能。給定預定義的詞匯表,使用DictNet來選擇給定輸入圖像的最可能的詞。
5.2 地圖定位服務。
定位SDK通過GPS+基站定位+WiFi的混合定位模式進行定位,不論在室外、室內還是在高樓林立的城市峽谷,都可以實現精準的定位。
地圖開放平臺應提供2D、3D、衛星多種地圖形式供開發者選擇,無論基于哪種平臺,都可以提供API和SDK
5.3 AI前端信息采集系統。
開發android/ios app 開發,用于收集報警信息,語音信息,文字信息,當前海量信息加入深度學習計劃,為后續的ai服務提供支撐,為數據服務提供數據支撐。
同時要開發web管理后端,對于一些用戶權限,信息匯總統計,基本設置,服務治理等公共服務進行管理操作。完成人、車、裝備等信息的管理功能 ,可以有效的匯總此類信息。
參考文獻:
[1]安全,城市面對的嚴峻課題[J]. 王利公. 中國城市經濟. 2004(08)
[2]重大突發事件及其應急決策研究[J]. 袁輝. 安全. 1996(02)
作者簡介:于春強(1970、8一),男,漢族,黑龍江密山市人,大學本科,工科學士,工程師,黑龍江省消防救援總隊,研究方向:信息通信、消防安全。