999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于百科知識的軍事裝備知識圖譜構建與應用

2019-02-25 10:03:10車金立唐力偉鄧士杰蘇續軍
兵器裝備工程學報 2019年1期

車金立,唐力偉,鄧士杰,蘇續軍

(陸軍工程大學石家莊校區火炮工程系, 石家莊 050003)

伴隨信息時代的發展,各個行業中的業務數據呈爆炸式增長,已逐漸成為一種重要資源,并發揮著不可或缺的作用。與此同時,在軍事裝備領域中,也擁有大量裝備類型、裝備型號及裝備參數等數據。這些數據蘊含著豐富的價值信息,然而,相關人員在面對這些海量的軍事裝備數據時,卻無法高效地從中獲取關鍵知識,從而也無法依據數據指導軍事裝備工作[1]。通過調研發現,導致數據中價值信息繼續沉睡的首要問題是,這些數據缺乏緊湊有效的組織結構與直觀形象的可視化查詢方式,沒有形成相應的軍事裝備知識體系,難以進行深層次的數據挖掘與應用。

因此為解決上述問題,本文將知識圖譜(knowledge graph,KG)技術引入到軍事裝備領域。知識圖譜是借助信息處理技術從海量文本數據中抽取領域實體、屬性及其相互關系,從而構成結構化知識的一種知識表示形式。知識圖譜可以將具有復雜關系的知識通過圖形化的方式準確形象的表達出來,這種形成體系的知識更符合人類的學習習慣,有助于相關人員快速地從海量數據中學習關鍵知識及其相互關系,更好地把握知識結構。知識圖譜目前在通用領域、金融領域、醫療領域及情報領域等均有廣泛應用,且發揮著前所未有的作用[2]。

谷歌在2012年率先提出知識圖譜的概念,并將其用于增強搜索引擎的性能,提高知識搜索的質量[3]。此后,知識圖譜就在國內外掀起了研發熱潮,通用領域知識圖譜的構建技術逐漸走向成熟。例如基于維基百科數據構建的多語言知識圖譜DBpedia[4],其規模龐大并覆蓋了125種語言,在全世界都有廣泛的應用。以及具有較高置信度的YAGO[5],其擁有的大部分實體都經過了高質量的評估,具有較高的準確率,但所包含實體的豐富程度低于DBpedia。另外由微軟公司所構建的Probase[6]也極具代表性,是擁有概念最多的知識圖譜。除此之外,國內許多機構也展開了對通用知識圖譜的探索,例如上海交通大學構建的首個中文通用領域知識圖譜Zhishi.me[7]、復旦大學構建的知識圖譜、百度構建的“知心”和搜狗構建的“知立方”等。這些通用知識圖譜的數據大多都來自于百科知識及已有的結構化數據,覆蓋范圍較為廣泛。此后,一部分學者開始對垂直知識圖譜進行研究,垂直知識圖譜就是針對特定領域構建的知識圖譜,其構建過程依賴該領域的行業數據,覆蓋范圍較窄。如面向影視領域的IMDB、面向音樂領域的MusicBrainz、面向中醫藥領域的知識圖譜[8]及面向植物領域的知識圖譜[9]等,這些垂直知識圖譜在構建過程中也有相當一部分數據來源于互聯網中的網頁。通過總結以上知識圖譜的研究可以發現,領域中現有的結構化數據以及百科網頁中的半結構化數據是構建知識圖譜的關鍵數據源。與此同時,在面向軍事裝備領域時,由于該領域具有一定的保密性,相關數據難以獲取,且實體間關系較為復雜,面向非結構化數據抽取知識時準確性有限,構建軍事裝備知識圖譜面臨一系列困難。

為此,本文主要基于數據質量相對較高的半結構化百科知識構建軍事裝備知識圖譜,對構建流程中的知識抽取、知識融合、知識圖譜的構建與儲存以及知識圖譜的更新維護等重要技術進行研究,為裝備工作者提供全面準確的軍事裝備知識體系。并在此基礎上,實現了基于軍事裝備知識圖譜的知識問答,輔助裝備工作者快速準確地獲取所需知識。

1 知識圖譜技術架構

1) 知識圖譜的定義

知識圖譜實質上是一種以圖形的方式形象表示現實概念及其相關關系的結構化知識庫,其更加符合人類對現實世界的認知,是一種更為合理的管理海量知識的方式,其基本的網狀結構如圖1所示。另外,也正是這種儲存結構使得知識圖譜可擴充性較好,便于修改知識及添加新的知識。

圖1 知識圖譜的網狀結構

知識圖譜的基本單元為<實體1—關系—實體2>及<實體—屬性名稱—屬性值>這種三元組,圖1中的節點代表實體,實體是知識圖譜中最基本的元素,描述現實世界中某一概念分類中的個體,如步槍分類中的具體型號步槍,并且每個實體應擁有唯一的ID來與其他實體進行區分。圖1中的邊代表實體間的相互關系,實體通過彼此關系相互連接,進而構成完整清晰的結構化知識網絡。另外,實體可包含多個屬性,描述實體可能具有的屬性、特性及參數等內在特征,例如射程、殺傷力等。

2) 知識圖譜構建的技術流程

構建知識圖譜的主要目標就是綜合利用多種信息處理技術將蘊藏在非結構化文本數據、半結構化網頁及表格數據及結構化數據中具有價值的知識抽取出來,以三元組的形式儲存在計算機中形成知識體系,便于人與計算機的進一步學習與分析利用,

知識圖譜構建的技術流程如圖2所示,主要就是通過信息抽取、知識融合、圖譜的構建與儲存等核心技術從海量的異構數據源出發,抽取其中的實體、屬性等關鍵知識及其相互關系,再完成實體對齊與實體消歧等數據融合工作,然后采用符合質量要求的知識構建圖譜,并利用圖數據庫對構建好的知識圖譜進行儲存。另外,由于信息時代中數據隨時在高速增長,人們對于知識的認知需求也在持續提升,因此為了保證知識圖譜的時效性,還需按照整個技術流程將新的知識不斷地加入到已構建完成的知識圖譜當中,實現對知識圖譜的更新與維護。

圖2 知識圖譜構建的技術流程

目前,按照知識圖譜的構建方式,主要分為自頂向下與自底向上兩種方式[10]。其中,自頂向下構建知識圖譜的方式相對簡單,但這種方式十分依賴已構建好的高質量結構化知識庫,需要首先從結構化數據源中抽取出相應的本體模式,定義好概念之間的層次關系,然后再將從多種數據源中學習到的實體及屬性添加到定義好的概念體系當中。在知識圖譜研發的初期,許多公司都采用這種高效的方式,例如,谷歌構建的知識圖譜中有很大一部分數據都來自Freebase數據庫,DBpedia是在維基百科數據基礎上構建完成的。

然而,隨著自然語言處理等知識抽取技術的快速發展,自底向上的構建方式逐漸成為了主流。該方式的主要思想是利用知識抽取技術先從異構數據源中抽取實體,然后再對抽取到的實體進行抽象,歸納出概念間的體系結構,進行本體的構建。這種方式有利于抽取出新的本體模式,可以構建出更為豐富全面的概念體系,且自動化程度更高,Knowledge Vault[11]則是通過這種方式構建的典型代表,實現了對現有知識庫的補充與完善。

2 基于百科知識的軍事裝備知識圖譜構建

2.1 軍事裝備知識圖譜構建流程

依據知識的覆蓋范圍進行劃分,面向特定領域構建的軍事裝備知識圖譜應屬于垂直知識圖譜,它相比于強調知識廣度的通用知識圖譜而言,更強調知識的深度、知識的準確性及知識的層次結構[12]。因此為使軍事裝備工作者及相關人員快速準確地把握關鍵知識及知識體系,軍事裝備知識圖譜應具有很強的領域針對性與專業性,需要根據領域相關度更高且豐富準確的領域數據進行構建。

在分析軍事裝備領域數據時可以發現,由于保密性等原因,現有結構化數據十分稀少,收集較為困難,而非結構化數據中知識權威性較低,且抽取準確率有限,難以達到可用性標準。因此,可信度較高的半結構化百科知識將作為構建軍事裝備知識圖譜的重要數據源,發揮關鍵作用。并且,為滿足垂直知識圖譜的知識準確性及正確層次結構的要求,本文將采用自頂向下和自底向上相結合的方式來構建軍事裝備知識圖譜,其構建流程如圖3所示。

圖3 軍事裝備知識圖譜構建流程

該流程首先通過定義知識圖譜的本體模式來保證知識層次結構的正確性,然后再針對定義好的本體模式抽取領域數據中的相關知識,再經過知識融合、質量評估等階段篩選出滿足準確率要求的三元組進行軍事裝備知識圖譜的構建,并用圖數據庫進行儲存。整個流程是一個循環更新的過程,需要根據新的數據來更新或修正已構建好的知識圖譜。

由于軍事裝備知識圖譜的特殊性,應首先構建本體。本體是對領域內不同實體概念、屬性及其相互關系進行抽象和約束而得到的一種規范,是知識圖譜中最核心的部分,主要表現為樹形結構[13]。構建本體的主要目的是為知識圖譜定義明確的數據模式,正確的數據模式可以保證知識圖譜中的實體具有較強的體系關系,是構建知識圖譜的基礎。由于軍事裝備知識圖譜主要為領域相關人員提供服務,對本體準確率的要求較高,因此本文在綜合考慮軍事裝備領域專業知識及數據源的基礎上,通過對軍事裝備分類及其之間關系進行剖析,確定軍事裝備核心概念,得到具有樹形結構的數據模式圖,總共分為8大類、100小類,由于數量較多,圖4中有所省略。每個裝備實體還包含各自的屬性,如國家、射程、戰斗全重、最大速度等。

圖4 軍事裝備本體結構示意圖

2.2 百科數據抽取

現實世界中數據是零散的,如何獲取數據是構建知識圖譜所面臨的又一大難題。在信息時代,互聯網中擁有著世界上最為龐大的數據,互聯網中的網頁可以為構建知識圖譜提供海量的數據。百科網站是這些海量數據中的一種高質量半結構化知識,其中的詞條大部分由人工進行編輯,包含了文章標題、分類標簽、信息框等大量規范化知識,可信度較高,利用這些數據構建知識圖譜非常具有價值。

本文主要采用網絡爬蟲技術從百科網頁中獲取知識,并在爬蟲過程中使用Partial PageRank策略來優先爬取重要程度較高的網頁,其主要流程如圖5所示。

圖5 數據爬取流程

該流程首先將“軍事裝備”的百科詞條鏈接作為初始的URL,然后對該詞條URL進行頁面解析,提取出頁面中所包含的其他詞條鏈接添加到詞條URL庫中用于爬取軍事裝備相關百科詞條上的數據。而數據解析是對百科網頁中所包含的知識進行定位,進行所需知識的爬取,最后將爬取到的實體、屬性及相互關系等知識以三元組的形式進行儲存。

本文在該爬蟲框架的基礎上輔助以人工篩選的方式總共獲取了5858條軍事裝備詞條頁面,每條軍事裝備詞條頁面如圖6所示。每個詞條對應一個實體,詞條標題即為實體名稱。每個實體擁有分類標簽,列舉其所屬類別,可從中挖掘實體間存在的關系,以<實體1,關系,實體2>形式的三元組進行儲存。除此之外,每個詞條中的特定位置上還有描述其對應實體屬性的信息框,通常以表格形式出現,可從中抽取出實體的屬性信息,以<實體,屬性名稱,屬性值>形式的三元組進行儲存。本文通過數據解析模塊對這些關鍵知識進行抽取而構建三元組,并通過分類關系將抽取到的各個實體對應到構建好的軍事裝備本體中,以實現知識圖譜的構建。

圖6 軍事裝備百科詞條頁面

百科知識抽取將百科頁面中的半結構化數據轉換成了三元組形式的關鍵知識,但這些關鍵知識中仍存在部分冗余的信息,主要存在具有不同實體名稱但實際對應現實世界中同一實體的現象,需要對這些冗余的知識進行知識融合,保證所構建知識圖譜的準確性。由于本文所構建的軍事裝備知識圖譜對準確性的要求較高,因此本文將采用聚類算法對這些冗余的知識進行篩選,然后再使用人工進行評估。該方法首先使用詞袋模型[14]對實體名稱進行向量化表示,并計算各實體名稱的相似度,然后設定閾值篩選出相似度較高的實體名稱,最后再通過人工決定舍取,實現實體對齊及屬性值的整合。由于百科知識中只是部分存在這種冗余的信息,使用該方法并不會造成較高的人工成本。

2.3 知識圖譜的儲存更新與維護

在經過復雜的信息處理之后,零散的知識已被整理成有序的結構良好的知識,接下來則需要對這些知識進行儲存。軍事裝備知識圖譜中的節點及關系數量眾多,且隨著知識圖譜的更新與維護,其數量不斷增長,節點及關系也需要不斷地修正以保證知識的準確性,給知識圖譜的儲存帶來一系列困難,因此知識圖譜的儲存方式對進一步管理及應用知識具有較大影響。目前,圖形數據庫由于其包含的節點、關系及屬性三種元素可以與知識圖譜中的關鍵知識很好的映射,在儲存知識圖譜方面獲得了很好的效果,成為了主流方式。Neo4j作為圖形數據庫的典型代表,可輕松穩定地儲存及管理上億的節點及關系,具有較高的可靠性及擴展性,并支持完整的ACID事務,可高效地完成對知識圖譜的儲存、更新、管理與檢索。

因此,本文將采用Neo4j圖形數據庫對軍事裝備知識圖譜進行儲存,并對其進行可視化,使軍事裝備領域知識具有更強的可讀性,方便使用者快速獲取及理解軍事裝備領域知識及知識結構,圖7是軍事裝備知識圖譜的部分實例。圖7中不同顏色的節點代表不同類型的實體,節點之間的邊描述了實體間具有的關系。

圖7 軍事裝備知識圖譜實例

構建知識圖譜并不是一蹴而就的,需要不斷地根據新的知識來更新與豐富知識圖譜,以保證其所包含領域知識的時效性。本文將采用增量更新的方式對軍事裝備知識圖譜進行更新,即首先利用爬蟲程序持續獲取百科頁面中的數據并以三元組的形式進行儲存,選取其中置信度較高且經過去重操作的三元組作為新增知識,再依據這些新增知識對已構建的軍事裝備知識圖譜進行更新或修正,并借助部分人工進行干預。

知識圖譜的更新主要包括本體更新和數據更新兩方面。本體更新即為數據模式的更新,主要是通過對新增知識進行抽象以發現新的實體類型,實現對本體元素的增加或修正。本體更新所涉及的元素相對較少,但都會直接對知識圖譜中的實體及相互關系造成影響,因此需要較強的人工干預。數據更新則相對簡單,對整個知識圖譜所造成的影響也較小,其主要目標是繼續發現新的實體、關系或屬性,不斷豐富和擴展軍事裝備知識圖譜。

3 基于軍事裝備知識圖譜的知識問答

基于百科知識構建的軍事裝備知識圖譜實現了對網絡中零散信息的良好組織,將其整合為了更加符合人類認知習慣的結構化知識,是一種高效管理與利用知識的方式。然而為了更好地利用和展示知識,發揮軍事裝備知識圖譜的潛在使用價值,本文基于軍事裝備知識圖譜實現了的知識問答,輔助相關使用人員快速準確地獲取所需知識。

知識問答是知識圖譜最主要的應用之一,其目的是回答使用者通過自然語言所提出的問題[15]。由于知識圖譜中數據的精度、關聯度及結構化程度較高,基于知識圖譜的知識問答具有較好的性能。本文在已構建的軍事裝備知識圖譜的基礎上,基于模板匹配的方式[16]實現了知識問答,其主要流程如圖8所示。該流程的輸入為使用者所提出的自然語言問題,在經過分詞,模板匹配和查詢三個主要步驟之后,返回用戶的查詢結果。

圖8 知識問答流程

分詞時所采用的方法為借助分詞詞典的正向匹配法,分詞詞典則基于軍事裝備知識圖譜進行構建,其包含了知識圖譜中的實體名、關系名、屬性名及屬性值,并加入了上述名詞的同義詞列表。分詞的目的是劃分出輸入問題中所包含的知識圖譜中的關鍵詞,并確定這些關鍵詞在知識圖譜中的類型,加入同義詞列表是為了保證在使用者輸入較隨意時的分詞準確性與魯棒性。然后將分詞后得到的結果與預先定義的模板進行匹配,找到匹配率最高的模式。例如當匹配到“實體+屬性”的模式時,用戶最有可能查詢的為該實體所包含屬性的屬性值。最后再依據匹配到的模式將自然語言問題轉換為Neo4j圖形數據庫的Cypher查詢語言,在軍事裝備知識圖譜中完成知識的查詢,并將可視化查詢結果返回給使用者。

4 結論

本文在充分闡述知識圖譜的發展、定義及其一般構建流程的基礎上,分析了軍事裝備知識圖譜構建的特殊性,提出了針對軍事裝備領域的知識圖譜構建方法。該方法預先構建了軍事裝備本體,通過網絡爬蟲技術不斷獲取百科網頁中高質量的百科知識,再通過知識融合去除冗余的知識,將最后得到的關鍵知識以三元組的形式儲存在Neo4j圖形數據庫中形成網狀結構的知識體系,并對構建完成的軍事裝備知識圖譜持續更新。另外,本文利用已構建的軍事裝備知識圖譜實現了軍事裝備領域的知識問答,輔助裝備工作者高效獲取知識。

下一步工作將對非結構數據中的知識抽取技術進行研究,提高抽取準確率,并利用抽取得到的知識逐步擴增本體的層級結構。同時還需進一步開發知識問答過程中靈活多樣的人機交互界面。

主站蜘蛛池模板: 在线看片中文字幕| 日本免费福利视频| 亚洲日韩欧美在线观看| 99久久国产综合精品2023| 国产成本人片免费a∨短片| 激情午夜婷婷| 欧美色99| 亚洲一级毛片在线观播放| 亚洲AⅤ无码国产精品| 中国一级特黄视频| 亚洲综合18p| 亚洲综合片| 在线免费a视频| 国产手机在线观看| 精品亚洲麻豆1区2区3区| 萌白酱国产一区二区| 国产成人精品一区二区不卡| 丁香婷婷激情综合激情| 尤物亚洲最大AV无码网站| lhav亚洲精品| 就去吻亚洲精品国产欧美| 黄色免费在线网址| a级毛片在线免费观看| 国产尤物在线播放| 国产综合精品一区二区| 中文字幕 欧美日韩| 91久久青青草原精品国产| 亚洲日韩高清无码| 欧美成人aⅴ| 免费a在线观看播放| 99伊人精品| 欧美亚洲国产精品久久蜜芽| 99久久免费精品特色大片| 久久国产精品麻豆系列| 老司国产精品视频| 国内精品久久久久久久久久影视| 香蕉蕉亚亚洲aav综合| 午夜无码一区二区三区在线app| 日韩免费毛片视频| 久久这里只有精品免费| 都市激情亚洲综合久久| 国产精品欧美在线观看| 国产丝袜无码一区二区视频| 亚洲国产系列| 一级成人a做片免费| 国产99在线| 青青草国产在线视频| 中国精品久久| 午夜精品久久久久久久无码软件| 五月天久久综合国产一区二区| 免费Aⅴ片在线观看蜜芽Tⅴ| 看av免费毛片手机播放| 婷婷亚洲视频| 国产精品性| 成人国产精品一级毛片天堂 | 狠狠综合久久| 人妻中文字幕无码久久一区| 99人体免费视频| 国产黄色片在线看| 喷潮白浆直流在线播放| 国产呦视频免费视频在线观看| 波多野结衣一二三| 91在线中文| 欧美一级在线| 国产女同自拍视频| av无码久久精品| 亚洲天堂首页| 国内自拍久第一页| 国产屁屁影院| 久久精品国产999大香线焦| 国内自拍久第一页| 国产亚洲日韩av在线| 色婷婷在线影院| 国产白浆视频| 欧美国产日韩在线| 毛片最新网址| 四虎在线观看视频高清无码| 亚洲香蕉在线| 国产午夜精品一区二区三| 91美女在线| 亚洲丝袜第一页| 国产午夜精品一区二区三|