南方電網調峰調頻發電有限公司信息通信分公司 董天波
本文首先對知識圖譜智能問答分析系統發展現狀簡要分析,然后從深度學習的文本特征提取技術原理、規則引擎基本原理、智能問答系統基本原理等方面分析研究原理和理論依據,從依托工程、實踐基礎等方面分析研究實踐依據,基于知識圖譜的智能問答分析系統實現理論和實踐依據闡述研究的關鍵點和難點,最后闡述基于知識圖譜的智能問答分析系統技術路線,并從IT設備質量信息文本特征提取技術、IT設備質量信息知識發現技術、IT設備質量事件智能問答技術等方面闡述基于知識圖譜的智能問答分析系統實現與研究方案。
知識圖譜關聯的IT設備故障與智能問答系統相結合,通過智能助手系統,采集到相關故障,通過問答對找到根本原因,依據IT設備故障相關報告處理故障,改善IT設備運行環境,提高IT設備運維效率。電力、機械、IT等行業中知識圖譜的智能問答分析系統的研究價值更是遠超于其他行業,IT設備智能問答分析系統若能根據知識圖譜智能問答分析系統自主判斷故障位置和原因,則IT設備智能問答分析系統維修效率和質量可以獲得極大提高。
國內研究人員主要使用Filter算法、Wrapper算法、Embedded算法研究文本特征自動提取方法,IT設備文本中運用知識工程的領域本體構建方法、敘詞表的領域本體構建方法、頂層本體的領域本體構建方法完成海量非結構化質量信息數據的獲取,這樣再使用JRules、Drools、Mandarax、IBM ILOG、QuickRules等規則引擎即可不斷優化算法模型[1]。
國外研究人員可以直接利用DBpedia、Yago等高質量大規模開放知識圖譜,采用一種多源數據融合的框架或者原語、功能和模型構建的多維信息的集成框架實現智能應用的高層次融合,例如智能問答機器人。
(1)深度學習的文本特征提取技術原理。為了搭建起文本語言與計算機語言之間的橋梁,需要采用文本特征提取技術,該技術的核心任務就是將文本向量化。研究人員可以先掃描語料庫記錄詞組信息,隨后基于詞頻分析構建起向量空間,實現文本向量化,但是IT設備智能問答分析系統中文本信息是海量的,因此需要基于深度學習進行文本向量化。深度學習中經常使用卷積神經網絡算法,通過觀察、提取特征得到分類結果,其優點是準確率較高。卷積神經網絡可以在提取特征信息之后通過全連接層提取最終特征信息。卷積層中卷積運算公式如式(1)所示:

公式(1)中各指標意義如下:Z表示卷積運算最終的結果矩陣;d為窗口的寬度和高度;i,j表示滑動窗口的索引;x表示輸入矩陣向量;m,n表示滑動窗口對應矩陣的局部區域索引;W表示卷積核;b表示偏置參數[2]。
(2)規則引擎基本原理。規則引擎基本原理為利用文本特征提取技術提取IT設備文本中設備參數、地點、時間、原因及處理措施等關鍵信息,最終形成一套以設備質量、設備狀態管理和設備處置相關規定為依據的業務規則的設備質量信息規則引擎構建方法。其核心就是獲取知識,再應用知識到特定的數據上,它可以將任何復雜的業務邏輯清晰、簡要地表達出來。規則引擎具有靈活快捷、邏輯和數據分離、知識集中化、實現業務邏輯與業務規則的分離等優點[3]。
(3)智能問答系統基本原理。基于大量IT設備文本建立起的IT設備知識圖譜與規則引擎需要通過智能問答系統才能夠與IT設備運維人員方便地進行信息交互與反饋更新,從而實現人機之間關于IT設備質量事件的問答對話[4]。智能問答系統處理框架如圖1所示。

圖1 智能問答系統處理框架Fig.1 Processing framework of intelligent question answering system
(1)主要研究方向。知識圖譜關聯的IT設備故障與智能問答系統相結合,通過智能助手系統,采集到相關故障,通過問答對找到根本原因,依據IT設備故障相關報告處理故障,改善IT設備運行環境,提高IT設備運維效率。
(2)實踐基礎。基于知識圖譜的智能問答分析系統打造一個集狀態全面感知、信息高效處理、應用深度智能為特征的IT設備運維中心,針對當前IT設備狀態實時監測難、信息傳輸效率低、狀態評價智能化水平不足的問題,通過多維狀態信息融合監測實現設備狀態的全面感知,結合邊緣代理技術實現狀態監測數據的安全接入和高效傳輸,進一步應用智能AI主動學習技術,深度挖掘多維狀態監測信息,實現設備狀態的精準評價和智能決策。同時以設備文本信息結構化為基礎,將與設備管理密切相關的信息作為知識點進行整合,通過對結構化與非結構化知識的抽取與融合,形成了以相似案例推薦、知識檢索為核心的設備高級知識庫,同時再不斷拓展設備知識驅動的高級應用,提升設備管理智能化水平。
(1)關鍵點。基于知識圖譜的智能問答分析系統實現與研究必須先根據IT設備文本數據的普適性、多樣性、多場景構建IT設備本體標準與方法,并保證IT設備領域文本的高準確率、實用化自動抽取。而知識表征技術必須包含數值單位、復雜邏輯、計算公式的物理機理,使其具備自動挖掘、知識的自動發現規則。這樣在高質量的IT設備文本數據下,才能完成IT設備文本中復雜問題的解答,因此IT設備處理服務器、芯片必須采取并行與分布式方式。
(2)技術難點。基于知識圖譜的智能問答分析系統實現與研究必須收集大量的IT設備文本數據,而IT設備領域中大部分都是專業術語,直接從互聯網爬取相關數據信息并不準確。基礎IT設備文本數量如何根據復雜的規律、公式對相關的問題進行解答也是其中的關鍵問題,因此研究人員必須解決小樣本的情況下該系統如何基于自學習算法覆蓋全部故障類型處置方案。
項目總體技術路線如圖2所示。

圖2 項目總體技術路線Fig.2 Overall technical route of the project
(1)研究基于領域的IT設備質量信息本體模型構建方法。首先開展本體構建引擎調研總結本體構建方法的成功經驗,然后開展領域本體構建引擎評價研究比較各方法技術的優缺點,最后優選本體模型構建引擎并制定本體評價標準對所建本體模型的概念體系,這樣即可得到IT設備質量信息本體模型。
(2)研究基于人工標注的IT設備質量文本特征自動提取方法。首先對故障案例、處置方案、規范、導則、標準、科研論文等IT設備文本數據進行廣泛收集通過多部門協調合作,大量收集、整理與IT設備質量相關的文本,然后開展IT設備文本預處理技術研究通過人工標注初步形成IT設備質量信息文本特征詞字典,最后開展IT設備文本表示方法和實時自動信息抽取技術研究,對信息抽取模型進行修正和評估。
(3)研究基于深度學習的IT設備質量信息融合方法。首先開展IT設備多源質量信息融合需求分析掌握IT設備質量信息來源和特點,提出IT設備多源質量信息融合需求,然后開展深度學習框架下的多源異構數據融合機制設計,最后開展基于深度學習的IT設備質量信息融合算法研究,這樣才能提出異構數據的設備質量信息融合方法。
(1)圍繞業務規則研究IT設備質量信息規則引擎構建方法。首先建立IT設備質量信息規則引擎的業務規則,編寫規則引擎所需的規則文件,然后提取出的信息是人類所使用的自然語言,對業務規則進行規則編譯,最后對IT設備質量信息規則引擎的模式識別方法進行研究,得到推薦的IT設備故障原因及故障處置方案的功能。
(2)結合知識網絡結構與規則引擎,研究IT設備質量信息知識發現方法。首先提取冗余數據并對有效數據進行歸類和挖掘,得到真實案例中的故障現象、潛在故障原因與故障處置方案等有效信息,然后開展不同故障原因與故障現象之間的映射關系的建模分析,構建故障原因與故障現象之間的映射關系網絡,最后完善規則引擎相關判斷處置功能,建立可高效準確工作的設備質量信息規則引擎。
(3)研究基于置信度的專業領域知識網絡數據質量評估與治理方法。首先建立一套IT設備安全管理文本智能分析系統評價體系,然后選取大量真實設備案例文本,并利用統計學原理,關聯規則算法等計算得到系統結果的置信度,最后并將相應結果補充進入業務規則、知識圖譜,實現系統治理,形成高置信度的設備質量信息知識網絡。
(1)研究基于數據挖掘的IT設備質量事件特征標簽分析方法。首先通過研究文本數據挖掘技術實現對主設備質量事件樣本特征提取及標簽歸類,然后訓練文本特征深度學習模型使其能夠自動識別文本中存在的質量事件特征,最后評估驗證深度學習模型實現IT設備質量信息知識庫在應用層上的開發與集成。
(2)研究基于特征標簽與圖搜索的IT設備質量事件智能問答方法。首先利用信息抽取模型生成被問詢質量事件的問句子圖,然后開展圖搜索方法獲得基于現有數據庫的具有最高置信度的答案信息,最后基于樣本特征標簽與圖搜索方法幫助其進行故障判斷與決策處理,這樣才能不斷提高智能問答引擎性能。
綜上所述,本項目將首先通過分析IT設備質量信息數據,對海量非結構化的文本數據中包含的詞、語法、語義等信息進行標識、理解和抽取,挖掘其中存在的知識、規律,其中重點研究文本數據特征提取技術,建立可提取文本數據中設備參數、地點、時間、原因及處理措施等關鍵信息的文本特征提取模型。然后研究IT設備質量信息關聯分析技術,融合知識網絡與規則引擎,實現質量信息知識圖譜建立、關聯分析和原因推薦。最后研究IT設備質量事件智能問答技術研究,實現質量事件特征標簽分析和智能問答。