馬璐 牛珂



摘? 要:知識圖譜技術(shù)能夠?qū)⒑A看髷?shù)據(jù)中的信息、數(shù)據(jù)以及關(guān)聯(lián)關(guān)系匯聚為知識網(wǎng)絡(luò),實現(xiàn)用戶智能化檢索與意圖分析推理。通過對知識圖譜構(gòu)建過程中本體構(gòu)建,多源異構(gòu)互聯(lián)網(wǎng)數(shù)據(jù)的實體抽取、關(guān)系抽取、圖譜更新與維護(hù)等關(guān)鍵技術(shù)進(jìn)行研究,構(gòu)建了軍事目標(biāo)專業(yè)領(lǐng)域知識圖譜,并在可視化查詢、智能問答、高價值關(guān)系推薦等方向進(jìn)行了應(yīng)用探索,有效提高了數(shù)據(jù)的使用效益,為軍事情報分析和知識應(yīng)用提供了一種有效的工具和方法。
關(guān)鍵詞:知識圖譜;軍事目標(biāo);實體抽取;圖譜更新
中圖分類號:TP311.1? 文獻(xiàn)標(biāo)識碼:A? 文章編號:2096-4706(2023)23-0156-06
Exploration of Construction and Application of Target Professional Field Knowledge Graph
MA Lu, NIU Ke
(Institute of Remote Sensing Information of Beijing, Beijing? 100011, China)
Abstract: Knowledge Graph technology can aggregate information, data and correlations and relationships in massive Big Data into a knowledge network to realize intelligent user retrieval and intent analysis and reasoning. The key technologies of ontology construction, entity extraction, relation extraction, graph updating and maintenance based on multi-source internet data are studied. And the military target professional field Knowledge Graph is constructed. It can be used in the visual query, intelligent question-and-answer, high-value relationship recommendations and other directions for application. It effectively improves the use efficiency of data and provides an effective tool and method for military intelligence analysis and knowledge application.
Keywords: Knowledge Graph; military objective; entity extraction; graph update
0? 引? 言
知識圖譜技術(shù)采用數(shù)據(jù)挖掘、信息分析、計量分析等方法,利用圖形將復(fù)雜的知識領(lǐng)域繪制并可視化,不僅能夠?qū)χR資源和載體進(jìn)行描述,同時還可以對知識以及知識之間的關(guān)聯(lián)關(guān)系進(jìn)行分析和描述,實現(xiàn)用戶智能化檢索與意圖分析推理。
目前,知識圖譜在互聯(lián)網(wǎng)和一些特定行業(yè)(如音樂知識、公安系統(tǒng)等)得到應(yīng)用推廣,但是對于軍事目標(biāo)專業(yè)領(lǐng)域,由于數(shù)據(jù)來源眾多、數(shù)據(jù)格式復(fù)雜,且對于領(lǐng)域?qū)<抑R經(jīng)驗具有較強(qiáng)的依賴性等原因,從數(shù)據(jù)到知識的轉(zhuǎn)化能力還明顯不足。具體體現(xiàn)在:一是雖然數(shù)據(jù)種類多、數(shù)據(jù)量大,但是蘊含在各類數(shù)據(jù)中關(guān)于目標(biāo)特性、屬性狀態(tài)、環(huán)境變化規(guī)律、關(guān)聯(lián)關(guān)系沒有被有效挖掘和利用。二是現(xiàn)有掌握的各類資料因為領(lǐng)域?qū)I(yè)性導(dǎo)致未進(jìn)行有效整理和規(guī)范化處理,尚未形成體系化的知識組織管理模式。三是數(shù)據(jù)分析智能化、自動化水平不高。針對上述問題,本文探索將知識圖譜技術(shù)應(yīng)用于軍事目標(biāo)專業(yè)領(lǐng)域,提出了基于領(lǐng)域?qū)<抑R的本體構(gòu)建、基于開源數(shù)據(jù)的多源異構(gòu)數(shù)據(jù)的實體抽取、基于軍事目標(biāo)屬性的時序多標(biāo)簽關(guān)系抽取、圖譜更新與維護(hù)等解決方法和途徑,構(gòu)建了軍事目標(biāo)專業(yè)領(lǐng)域知識圖譜,并在可視化查詢、智能問答、高價值關(guān)系推薦等方向進(jìn)行了應(yīng)用探索,為軍事情報分析和知識應(yīng)用提供一種有效的工具和方法。
1? 國內(nèi)外本學(xué)科領(lǐng)域的發(fā)展現(xiàn)狀與趨勢
1.1? 知識圖譜是大數(shù)據(jù)分析與挖掘的基礎(chǔ)工具和有效手段
知識圖譜能夠?qū)χR資源和載體進(jìn)行描述,同時能夠?qū)χR及其關(guān)系進(jìn)行分析和描繪。通過采用大數(shù)據(jù)分析、信息挖掘等方法,利用圖譜的形式將復(fù)雜的知識展現(xiàn)出來,為人們提供了管理、分析和利用海量信息的手段。
知識圖譜概念首次由Google正式提出,其最初目的是為了提高搜索服務(wù)的能力,改善用戶搜索結(jié)果的質(zhì)量以及搜索使用體驗。目前,隨著信息技術(shù)的不斷發(fā)展,在智能搜索、智能問答甚至商業(yè)個性化推薦等領(lǐng)域,知識圖譜技術(shù)已得到廣泛的應(yīng)用。
1.2? 知識圖譜已成為新一代數(shù)據(jù)分析技術(shù)的發(fā)展方向
1.2.1? 互聯(lián)網(wǎng)等新興領(lǐng)域?qū)⒅R圖譜用于行業(yè)數(shù)據(jù)分析和檢索
Google最初提出知識圖譜概念,主要針對智能語義檢索,目前已經(jīng)十分完備;FaceBook將知識圖譜技術(shù)深化應(yīng)用,構(gòu)建興趣圖譜(interest graph),將人與其分享的信息等進(jìn)行連接,并基于此構(gòu)建了圖片搜索服務(wù),使檢索推薦更加智能化;微軟的Probase也將知識圖譜應(yīng)用于智能問答方面;Amdocs利用一個統(tǒng)一的圖譜進(jìn)行客戶管理,通過將多種來源的數(shù)據(jù)進(jìn)行整合分析,可以對用戶的信用和各種行為進(jìn)行分析,并對結(jié)果進(jìn)行預(yù)測,從而進(jìn)行客戶關(guān)系維護(hù)管理[1,2]。
國內(nèi)對知識圖譜研究起步較晚,但是目前也已經(jīng)在許多行業(yè)取得重大進(jìn)展。搜狗和百度分別基于知識圖譜構(gòu)建了新一代智能搜索引擎智立方和知心,在語義搜索、智能問答等方面發(fā)揮出色;阿里巴巴也利用知識圖譜構(gòu)建了自己的知識庫為平臺服務(wù);科大訊飛目前將知識圖譜應(yīng)用于大規(guī)模音樂知識庫構(gòu)建和自動客服系統(tǒng);明略數(shù)據(jù)公司將公安的數(shù)據(jù)和業(yè)務(wù)系統(tǒng)利用知識圖譜做了整合,通過海量數(shù)據(jù)找到嫌犯的藏身之處,為民警辦案提供巨大幫助[3,4]。
1.2.2? 美商業(yè)公司將知識圖譜推廣到軍事領(lǐng)域
在軍用方面,美國的Palantir公司最早幫助美國政府機(jī)構(gòu)和軍方運用知識圖譜技術(shù)解決各類決策規(guī)劃問題。就軍事國防應(yīng)用領(lǐng)域而言,其產(chǎn)品功能涵蓋了對在地理、空間上分散的人、裝備、環(huán)境、事件等進(jìn)行大規(guī)模實時關(guān)聯(lián)和因果分析,以指導(dǎo)復(fù)雜戰(zhàn)場環(huán)境下的軍事行動。
其中較為典型的應(yīng)用案例有:戰(zhàn)場態(tài)勢分析和預(yù)測,定位伊拉克戰(zhàn)場可能存在的炸彈或地雷位置,幫助美軍在巴格達(dá)規(guī)劃一條被襲概率最小的路徑,或者分析亞丁灣海盜活動的熱點區(qū)域。就其總體產(chǎn)品實現(xiàn)方案而言,除了整合美軍等多方原本孤立的數(shù)據(jù)源(如軍事情報部門和陸海空、海軍陸戰(zhàn)隊等組織機(jī)構(gòu)的數(shù)據(jù)),Palantir公司還借助基于本體的大數(shù)據(jù)融合技術(shù),無縫整合多源異構(gòu)數(shù)據(jù)進(jìn)行分析模型協(xié)同,包括各類數(shù)據(jù)模型、安全模型和本體對象的管理,其全量數(shù)據(jù)分析和知識管理能跟蹤每一個數(shù)據(jù)和模型的讀、寫和編輯、保存,以積累戰(zhàn)場空間的決策知識。基于這樣的通用性大數(shù)據(jù)融合和可視化分析平臺,指揮人員和調(diào)度人員能在單一系統(tǒng)內(nèi)解決包括敵情分析(情報報告,事件行為等)、關(guān)聯(lián)分析(背景、關(guān)聯(lián)、跟蹤、反應(yīng)等)、預(yù)判決策等在內(nèi)的各種決策相關(guān)問題。
1.3? 軍事目標(biāo)專業(yè)特定領(lǐng)域知識圖譜構(gòu)建尚處于探索階段
知識圖譜的研究目前在國內(nèi)總體上仍處于初級階段,雖然基礎(chǔ)理論和通用算法較多,但是僅在互聯(lián)網(wǎng)公司和少數(shù)特定行業(yè)(如音樂知識、公安系統(tǒng)等)應(yīng)用推廣,在知識問答、語義搜索、規(guī)律發(fā)現(xiàn)等方面進(jìn)行了一些探索和研究。對于軍事目標(biāo)專業(yè)領(lǐng)域,由于數(shù)據(jù)來源的多樣性、數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性,包括文本、圖像、音視頻等多源數(shù)據(jù),具有非結(jié)構(gòu)化特點。特別是軍事目標(biāo)需要專家知識經(jīng)驗、缺少成熟的專家知識庫進(jìn)行本體構(gòu)建和知識抽取等特殊性原因,知識圖譜在軍事目標(biāo)專業(yè)特定領(lǐng)域的研究尚處于探索階段。
2? 軍事目標(biāo)專業(yè)領(lǐng)域知識圖譜構(gòu)建關(guān)鍵技術(shù)
軍事目標(biāo)專業(yè)領(lǐng)域知識圖譜構(gòu)建相比于應(yīng)用比較廣泛的互聯(lián)網(wǎng)等領(lǐng)域,存在知識的深度、準(zhǔn)確性具有很強(qiáng)的領(lǐng)域性與專業(yè)性特點,因此針對軍事目標(biāo)專業(yè)領(lǐng)域,更強(qiáng)調(diào)人工輔助的方式進(jìn)行圖譜的構(gòu)建,在此基礎(chǔ)上,探索以目標(biāo)及目標(biāo)間的關(guān)系為中心的應(yīng)用方向。
2.1? 體系架構(gòu)
軍事目標(biāo)專業(yè)領(lǐng)域知識圖譜構(gòu)建體系架構(gòu)主要分為五個層級,分別是數(shù)據(jù)層、知識層、組織關(guān)聯(lián)層、挖掘分析層和應(yīng)用服務(wù)層。知識圖譜體系架構(gòu)如圖1所示。
1)數(shù)據(jù)層。實現(xiàn)對多源異構(gòu)數(shù)據(jù),包括圖像,文本、網(wǎng)頁等互聯(lián)網(wǎng)公開數(shù)據(jù)、基礎(chǔ)地理信息測繪數(shù)據(jù)以及移動通信數(shù)據(jù)等進(jìn)行統(tǒng)一的引接和管理。
2)知識層。實現(xiàn)對判讀經(jīng)驗/背景知識/目標(biāo)知識以及文字材料等表達(dá)和抽取。
3)組織關(guān)聯(lián)層。采用目標(biāo)抽取、關(guān)系抽取等技術(shù),給數(shù)據(jù)打上時間戳和空間戳,建立時間關(guān)聯(lián)、空間關(guān)聯(lián)、屬性關(guān)聯(lián)等多種關(guān)聯(lián)體系,實現(xiàn)面向目標(biāo)的一體化時空組織。
4)挖掘分析層。為整個技術(shù)框架的核心部分,包含了一套基于深度網(wǎng)絡(luò)模型的智能化框架,可以實現(xiàn)目標(biāo)特征提取表達(dá)、目標(biāo)檢測識別、規(guī)律行為分析、信息協(xié)同推薦等功能。
5)應(yīng)用服務(wù)層。提供目標(biāo)信息的可視化支持,滿足態(tài)勢分析、規(guī)律行為分析等不同的應(yīng)用需求。
技術(shù)體系架構(gòu)中每層對應(yīng)相關(guān)軟件組件。其中數(shù)據(jù)管理層對應(yīng)了底層的數(shù)據(jù)庫和文件系統(tǒng)管理系統(tǒng);組織關(guān)聯(lián)層對應(yīng)數(shù)據(jù)組織中間件;挖掘分析層通過統(tǒng)一檢索接口與算法框架進(jìn)行數(shù)據(jù)交換,利用深度學(xué)習(xí)等算法分析數(shù)據(jù),解譯目標(biāo)信息;而應(yīng)用服務(wù)層進(jìn)一步利用可視化支持軟件,以圖形化的方式給用戶展現(xiàn)目標(biāo)態(tài)勢和情報。
2.2? 知識圖譜構(gòu)建技術(shù)流程
對于軍事目標(biāo)領(lǐng)域的知識圖譜構(gòu)建而言,其構(gòu)建流程可以用圖2來進(jìn)行表示,分為五個主要的流程。
2.3? 基于領(lǐng)域?qū)<抑R的本體庫構(gòu)建
本體庫可以視為構(gòu)建知識圖譜基本組成元素的模具,定義了知識圖譜中的數(shù)據(jù)模式,定義了該領(lǐng)域知識標(biāo)準(zhǔn)化、規(guī)范化的結(jié)構(gòu),所有外部輸入的知識必須經(jīng)過到本體庫中本體、屬性和關(guān)系的映射之后,才能夠被添加到知識圖譜中去。
在軍事目標(biāo)專業(yè)領(lǐng)域,因情報分析人員長期形成的判讀經(jīng)驗分散復(fù)雜、系統(tǒng)性較差、主觀性強(qiáng)、重復(fù)性差且不易量化表達(dá)等問題,研究重點是將經(jīng)驗知識數(shù)字化,將情報分析人員的主觀經(jīng)驗進(jìn)行規(guī)范化描述,系統(tǒng)性總結(jié),形成計算機(jī)可處理的客觀知識。
在軍事目標(biāo)專業(yè)領(lǐng)域知識圖譜的本體構(gòu)建中,首選要根據(jù)專家經(jīng)驗列出重要概念[5]。以飛機(jī)目標(biāo)為例,對于軍事作戰(zhàn)來說,分為軍用飛機(jī)和民用飛機(jī),其中軍用飛機(jī)按照作戰(zhàn)用途可分為戰(zhàn)斗機(jī)、攻擊機(jī)等。與飛機(jī)相關(guān)的重要概念的有包括飛機(jī)名稱、飛機(jī)別稱、外形尺寸、性能、研制單位、制造商、生產(chǎn)日期等。
在列出重要概念的基礎(chǔ)上,需要給出類的關(guān)系屬性。在本體中的語義關(guān)系表示類與類之間的關(guān)聯(lián)關(guān)系,如表1所示。
結(jié)合應(yīng)用領(lǐng)域?qū)嶋H,列舉飛機(jī)類內(nèi)、飛機(jī)類與機(jī)場類間語義關(guān)系如表2所示。
最后,采用本體表示語言O(shè)WL與Protégé工具構(gòu)建軍事目標(biāo)專業(yè)領(lǐng)域知識圖譜本體庫,成為知識圖譜的基礎(chǔ)和規(guī)范,如圖3所示。
2.4? 基于開源數(shù)據(jù)的多源異構(gòu)數(shù)據(jù)的實體抽取
在軍事目標(biāo)專業(yè)領(lǐng)域知識圖譜構(gòu)建的過程中,從非結(jié)構(gòu)化的數(shù)據(jù)源獲取實體及實體間的關(guān)系是圖譜內(nèi)容的主要來源之一[6,7]。從數(shù)據(jù)結(jié)構(gòu)來講,主要是文本、圖像、視頻等。本文數(shù)據(jù)來源主要為網(wǎng)絡(luò)上的開源數(shù)據(jù),其包含海量多源異構(gòu)的軍事領(lǐng)域信息,基本上都以半結(jié)構(gòu)化或非結(jié)構(gòu)化的形式存在,難于直接進(jìn)行知識表達(dá)和挖掘。因此,針對多源異構(gòu)開源信息,設(shè)計并實現(xiàn)了一個通用的多源異構(gòu)軍事信息抽取框架,具體步驟如圖4所示。
1)利用網(wǎng)頁檢索工具,從互聯(lián)網(wǎng)中獲取可能包含軍事領(lǐng)域信息的網(wǎng)頁,通過對網(wǎng)頁上的鏈接進(jìn)行進(jìn)一步分析,獲取更多軍事信息的網(wǎng)頁,從而進(jìn)行一定深度的爬取來獲取更多的軍事領(lǐng)域信息。
2)通過網(wǎng)頁去重避免對相同的頁面進(jìn)行重復(fù)爬取。
3)通過網(wǎng)頁預(yù)處理,對網(wǎng)頁中的語法錯誤進(jìn)行修復(fù),去除文檔中的無用信息,同時將HTML格式的文檔轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù)格式,方便后續(xù)處理。
4)根據(jù)設(shè)定的模板規(guī)則對爬取到的網(wǎng)頁進(jìn)行分類,剔除相關(guān)性不大的頁面,得到目標(biāo)頁面。
5)從目標(biāo)頁面中識別出需要的信息,利用機(jī)器學(xué)習(xí)的方法自動生成符合用戶目標(biāo)的抽取規(guī)則來抽取信息。
6)將抽取出來的數(shù)據(jù)實體進(jìn)行規(guī)范化處理,并將處理過的數(shù)據(jù)實體存儲到數(shù)據(jù)庫中。
2.5? 基于軍事目標(biāo)屬性的時序多標(biāo)簽關(guān)系抽取
在知識圖譜構(gòu)建的過程中,實體關(guān)系抽取與傳統(tǒng)的實體關(guān)系抽取任務(wù)不同,在軍事目標(biāo)專業(yè)領(lǐng)域知識圖譜構(gòu)建的過程中,存在兩個明顯特點:一是專業(yè)領(lǐng)域知識圖譜需要反應(yīng)軍事情報的動態(tài)特征,所以知識圖譜必須是時序的;二是知識圖譜需要反映軍事目標(biāo)之間的復(fù)雜關(guān)聯(lián),部分實體間存在著多種關(guān)聯(lián)關(guān)系,所以知識圖譜的關(guān)系類別是多標(biāo)簽的。針對上述問題,設(shè)計了一種多標(biāo)簽的實體關(guān)系抽取方法:
1)利用初步提取的實體和本體庫中預(yù)設(shè)的簡單關(guān)聯(lián)關(guān)系,將實體和關(guān)聯(lián)關(guān)系等價為詞匯,使用語句分類的方式對存在間接關(guān)聯(lián)實體進(jìn)行關(guān)系分類,并為之賦予相應(yīng)的時序標(biāo)簽,進(jìn)而得到帶有時序信息的多標(biāo)簽式關(guān)聯(lián)關(guān)系。
2)由于軍事目標(biāo)時空結(jié)構(gòu)和時空關(guān)聯(lián)關(guān)系的復(fù)雜性,場景實體之間的關(guān)聯(lián)關(guān)系往往呈現(xiàn)出多標(biāo)簽、多類別的形式。作為一個典型的案例,在同一個觀測案例中,F(xiàn)-16型戰(zhàn)斗機(jī)可能同時停住和離開內(nèi)利斯機(jī)場,這樣F-16和內(nèi)利斯機(jī)場之間就同時存在“停駐”和“離開”兩種類型的關(guān)聯(lián)關(guān)系。正由于這種情況,假設(shè)各實體之間關(guān)聯(lián)類型單一的傳統(tǒng)關(guān)系抽取方法,就無法滿足這種多類和非確定關(guān)聯(lián)關(guān)系的分析需求。針對這種情況,本文采用遠(yuǎn)程監(jiān)督的方式來完成多標(biāo)簽關(guān)聯(lián)關(guān)系的分類和提取,以關(guān)系標(biāo)簽的無向圖的方式來對實體之間多個關(guān)聯(lián)關(guān)系進(jìn)行建模,基于無向圖的關(guān)系標(biāo)簽分類以圖結(jié)構(gòu)遍歷算法的方式來實現(xiàn),通過尋找關(guān)系連通圖中的聯(lián)通分量的方式,對所有可能屬于當(dāng)前語句表達(dá)方式的關(guān)系標(biāo)簽進(jìn)行搜集。
3)最后通過K-means聚類的方式完成可能關(guān)聯(lián)關(guān)系標(biāo)簽的篩選和劃分。上述K-means聚類主要解決樣本中多標(biāo)簽問題,具有這樣一些典型的優(yōu)勢:進(jìn)一步放松了遠(yuǎn)監(jiān)督啟發(fā)式匹配的假設(shè)條件,更好地利用知識庫中給出的信息,可以解決知識庫存在的實例不完整問題。這些優(yōu)勢契合了軍事情報中信息時空離散性高、關(guān)系種類多樣、關(guān)聯(lián)模式不單一的特點,進(jìn)而能夠更好地起到挖掘軍事情報中關(guān)聯(lián)關(guān)系的作用。
2.6? 圖譜更新與維護(hù)
知識圖譜的更新與維護(hù)是指在其構(gòu)建后對知識圖譜中的實體及其屬性和關(guān)系進(jìn)行增加、刪除、修改的一種方法。知識圖譜的建立是一個反復(fù)迭代長期的過程,并不是一次性就能夠?qū)崿F(xiàn)的,需要對其實體及其屬性和關(guān)系進(jìn)行常態(tài)化的周期性的更新與維護(hù)[8]。主要過程包括:
1)在軍事目標(biāo)專業(yè)領(lǐng)域知識圖譜的更新與維護(hù)當(dāng)中,首先要確定需要更新的實體與新的實體之間的關(guān)聯(lián)。通過采用Trans E推理模型,推理出在增加過程中需要補(bǔ)全的實體數(shù)量,作為實體的數(shù)據(jù)源進(jìn)行更新操作。
2)在確定實體間的關(guān)系后,對于實體間的刪除操作應(yīng)謹(jǐn)慎處理。首先增加時間戳判斷是否進(jìn)行知識圖譜更新,如果沒有達(dá)到更新頻率,則對更新頻率進(jìn)行估算,對關(guān)聯(lián)算法進(jìn)行改進(jìn),以求在更新過程中對相關(guān)資源得到最優(yōu)化利用。由于軍事目標(biāo)專業(yè)領(lǐng)域知識圖譜中刪除操作有可能對原有的知識圖譜的結(jié)構(gòu)產(chǎn)生影響甚至破壞,因此在進(jìn)行實體及其關(guān)系刪除操作前,必須對其進(jìn)行判斷是否造成“孤島現(xiàn)象”,一旦發(fā)生知識圖譜結(jié)構(gòu)的變化則調(diào)用數(shù)據(jù)模式層的相關(guān)算法,否則采用關(guān)聯(lián)更新算法。其更新與維護(hù)流程如圖5所示。
3? 軍事目標(biāo)專業(yè)領(lǐng)域知識圖譜可視化及應(yīng)用
3.1? 基于視覺特征的可視化查詢
由于軍事目標(biāo)種類型號劃分復(fù)雜,僅以肉眼方式進(jìn)行判別需要大量的專業(yè)背景知識和長年累月工作經(jīng)驗的積累,因此在知識圖譜的基礎(chǔ)上提供一種直接基于圖像特征輸入的目標(biāo)智能化查詢結(jié)構(gòu),對提高情報分析效率和準(zhǔn)確率具有極其重要的意義[9]。視覺特征的智能化查詢步驟如圖6所示。
本文設(shè)計了結(jié)合深度學(xué)習(xí)目標(biāo)檢測識別,將檢測結(jié)果送入以上識別模塊中進(jìn)行目標(biāo)型號級識別,識別結(jié)果與軍事目標(biāo)專業(yè)領(lǐng)域知識圖譜信息進(jìn)行實體映射,最終可實現(xiàn)對圖像輸入進(jìn)行目標(biāo)相關(guān)信息檢索,提高情報分析人員的自動化和智能化水平。
3.2? 基于知識圖譜的智能問答
基于知識圖譜的智能問答主要由問題理解、問題求解和答案生成三部分構(gòu)成。其中問題理解對輸入的用戶問題進(jìn)行解析,抽取出求解該問題必需的語義信息,問題求解則將問題理解的結(jié)果轉(zhuǎn)換成圖數(shù)據(jù)庫的查詢,最終答案生成將查詢結(jié)果轉(zhuǎn)化成了自然語言形式的答案返回給用戶。由于基于知識圖譜的智能問答是在知識圖譜的基礎(chǔ)上進(jìn)行的,問題求解也最終體現(xiàn)為知識圖譜上的查詢,所以問題理解模塊的關(guān)鍵是將用戶問題映射到知識圖譜上的實體,并表達(dá)出用戶的查詢意圖,這兩者即構(gòu)成了問題中待抽取的語義信息[10]。
模塊的總體流程如圖7所示,用戶問題首先經(jīng)過淺層語法分析進(jìn)行分詞,得到的結(jié)果作為問題分類的輸入;問題的類別識別出后,問題的部分用戶意圖便已識別出,問題中的對知識圖譜的指稱也被抽取出來,指稱被鏈接到知識圖譜中具體的實體;問題理解的結(jié)果對圖數(shù)據(jù)庫查詢模板進(jìn)行實例化,生成具體的查詢語句,得到的查詢結(jié)果由答案生成模板加工成自然語言形式的答案返回給用戶[11]。
3.3? 高價值關(guān)系推薦
由于情報分析人員對目標(biāo)和關(guān)系的認(rèn)知具有局限性,并不能完全掌握所有實體間的關(guān)系。軍事目標(biāo)專業(yè)領(lǐng)域知識圖譜利用學(xué)習(xí)和推理算法進(jìn)一步挖掘出實體與關(guān)系之間更深層次的聯(lián)系,以達(dá)到豐富和完善知識圖譜,可用于輔助發(fā)現(xiàn)異常癥候和進(jìn)行規(guī)律分析。
知識圖譜新增實體節(jié)點和隱藏關(guān)系數(shù)據(jù)量巨大,將新增關(guān)系全部推送給情報分析員不利于情報數(shù)據(jù)的高效分析。為更好地發(fā)揮知識圖譜的使用效益,本文借鑒互聯(lián)網(wǎng)中常用的高效鏈接推薦和排序?qū)W習(xí)等方法,提出了一種協(xié)同過濾推薦算法:對關(guān)鍵性鏈接的價值進(jìn)行排序,僅將出現(xiàn)頻率上較為罕見或是關(guān)聯(lián)實體較為重要的關(guān)聯(lián)關(guān)系推薦給情報分析員,本方法加入知識圖譜會得到更好的效果,提高推薦的有效性,輔助其快速準(zhǔn)確地獲取所需知識。
4? 結(jié)? 論
本文在介紹知識圖譜技術(shù)發(fā)展現(xiàn)狀與趨勢的基礎(chǔ)上,商業(yè)知識圖譜與專業(yè)領(lǐng)域知識圖譜構(gòu)建存在較大的區(qū)別,本文針對軍事目標(biāo)的特點,提出了軍事目標(biāo)專業(yè)領(lǐng)域知識圖譜構(gòu)建的技術(shù)流程和主要實現(xiàn)思路,最后給出了知識圖譜的應(yīng)用方向。
現(xiàn)階段,知識圖譜的容量不足,本體和實體數(shù)量遠(yuǎn)遠(yuǎn)不能滿足軍事目標(biāo)領(lǐng)域的實際使用需求,知識圖譜的情報保障與應(yīng)用服務(wù)能力還有待進(jìn)一步探索。下一步,將持續(xù)對知識圖譜進(jìn)行更新和維護(hù),探索人工智能等先進(jìn)方法提高知識圖譜的知識保障能力。
參考文獻(xiàn):
[1] 徐增林,盛泳潘,賀麗榮,等.知識圖譜技術(shù)綜述 [J].電子科技大學(xué)學(xué)報,2016,45(4):589-606.
[2] LIN Z Q,XIE B,ZOU Y Z,et al. Intelligent Development Environment and Software Knowledge Graph [J].Journal of Computer Science & Technology,2017,32(2):242-249.
[3] 劉柳.知識圖譜的行業(yè)應(yīng)用與未來發(fā)展 [J].互聯(lián)網(wǎng)經(jīng)濟(jì),2018(4):16-21.
[4] 劉嶠,李楊,段宏,劉瑤,等.知識圖譜構(gòu)建技術(shù)綜述 [J].計算機(jī)研究與發(fā)展,2016,53(3):582-600.
[5] 張德政,謝永紅,李曼,等.基于本體的中醫(yī)知識圖譜構(gòu)建 [J].情報工程,2017,3(1):35-42.
[6] 魏自強(qiáng),鄭偉偉,許永康.基于百科知識的醫(yī)療數(shù)據(jù)知識圖譜構(gòu)建 [J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2020(10):86-88.
[7] 滕曉程.Web信息抽取框架技術(shù)研究 [D].南京:東南大學(xué),2016:15-24.
[8] 李天宇.教育知識圖譜更新與維護(hù)的方法研究 [D].哈爾濱:哈爾濱工程大學(xué),2018:22-36.
[9] 歐陽劍波.基于圖像語義相關(guān)性學(xué)習(xí)的視覺檢索重排序 [D].合肥:中國科學(xué)技術(shù)大學(xué),2022:19-29.
[10] 樊美琦.基于知識動態(tài)補(bǔ)全的金融智能問答系統(tǒng) [D].成都:電子科技大學(xué),2022.
[11] 孔世明,馮永,張嘉云.融合知識圖譜的多層次傳承影響力計算與泛化研究 [J].計算機(jī)科學(xué),2022,49(9):221-227.
作者簡介:馬璐(1984.11—),女,漢族,遼寧沈陽人,助理研究員,碩士研究生,研究方向:知識圖譜構(gòu)建及軍事應(yīng)用;牛珂(1976.9—),男,漢族,河南唐河人,高級工程師,本科,研究方向:軍事目標(biāo)體系構(gòu)建。
收稿日期:2023-06-28
基金項目:裝備預(yù)研項目(30503040311)