楊陽 薛麗惠
摘要:為解決海空目標標簽體系未構建難以生成完整畫像的難題,通過總結海空目標畫像和標簽技術的基本概念,提出了構建海空目標標簽的三級標簽體系及技術架構,并對構建過程中的基于混合存儲的標簽數據存儲、實體/屬性抽取、關系抽取、關聯融合等關鍵技術進行詳細闡述。仿真實驗對比分析了不同標簽生成算法的準確率,最后介紹了標簽技術的實際應用場景。該文對軍事大數據的應用模式具有一定的探索和借鑒意義。
關鍵詞:標簽;標簽體系;作戰目標;海空目標畫像;軍事大數據
中圖分類號:TP311? ? ? 文獻標識碼:A
文章編號:1009-3044(2024)07-0074-03
開放科學(資源服務)標識碼(OSID)
0 引言
海空目標是作戰體系研究的重要對象,全面、準確地掌握海空目標,將幫助指揮員進行作戰決策[1]。隨著各類戰場傳感器和偵察監視裝備的廣泛使用,作戰數據的生成速度成指數增加[2]。如何從這些海量數據中分析挖掘出準確、高價值的情報信息,獲取作戰數據優勢,成為軍事領域迫切需要解決的難題。
用戶畫像在商業領域的應用,展現出其在解決精準信息服務方面問題的巨大優勢。標簽體系作為用戶畫像的基礎,其廣度和粒度對畫像的刻畫程度有較大影響,因此開展標簽體系構建的研究具有一定的實用價值[3]。
目前,隨著大數據挖掘分析越來越廣泛,標簽及畫像技術的研究多應用于電子商務、健康醫療、交通運輸、精準營銷等通用領域[4-5]。在軍事大數據領域的應用相對較少,尤其是面向海空目標大數據技術研究尚處于起步階段,在實際應用中面臨數據深層價值利用不足、專業性較強不便理解、標簽體系未構建無法生成完整的目標畫像等難點。
基于此,本文利用標簽技術,提出基于海空目標畫像的大數據標簽體系構建方法,構建完備的海空目標標簽體系,并分析構建過程中的關鍵技術,對軍事大數據的應用模式具有一定的探索和借鑒意義。
1 海空目標畫像與標簽技術
1.1 海空目標畫像
作戰目標指交戰雙方為實現某種作戰意圖,彼此進行跟蹤、打擊、壓制、攻占或摧毀的目標對象[6]。海空目標是作戰目標的子集,主要指敵對雙方打擊或抗擊對方的艦船、飛機等。
海空目標畫像借鑒用戶畫像的概念[7],采集特定傳感器、情報分析、指揮決策、武器裝備系統等作戰環節中的各類數據,并將其轉換為畫像標簽,形成數據合力。通過構造合理準確、標準統一、全面實用的標簽體系,形成標簽畫像模型,進而利用大數據、人工智能等技術,可準確勾勒出立體的海空目標畫像,有助于個體認知、群體識別、行為分析等。
1.2 標簽技術
標簽是對一類對象或特定群體的某項特征或某種特質的具象描述,具備較強的業務歸納性。標簽是目標畫像的基礎,兩者之間的關系如圖1所示。
依據分析整理,海空目標標簽可分為4類:基本屬性類、事實行為類、業務場景類和管理評價類。基本屬性類標簽體現海空目標的靜態特征,如目標類型、敵我屬性、國別屬性等;事實行為類標簽描述目標的活動行為、參與任務、途徑區域等行為信息,反映目標的動態特征;業務場景類標簽則帶有清晰的業務邏輯,可解釋性強,如熱點話題、軍事專題、高價值目標、時敏目標等;管理評價類標簽用于數據在加工處理和管理使用過程中,對數據進行具體環節的標記。
2 海空目標標簽體系
2.1 標簽體系
分層分級的標簽體系設計既提高標簽的實用性和精準性,又避免在語義理解、特征描述等方面的差異性。海空目標標簽體系按照三級標簽體系架構進行設計,綜合利用作戰環節的各類數據,產生完整的目標畫像標簽。
1) 一級標簽。海空目標的一級標簽描述目標畫像基本的分類維度,歸納了海空目標的共性特征,如表1所示,可分為基礎信息、行為信息、關系信息、任務事件、統計分析和數據管理等6類維度。
2) 二級標簽。海空目標的二級標簽是對其一級標簽分類維度的細化,包括目標的生產研制情況、戰技性能、武器裝備特征、活動區域、活動航路、搭載關系、隸屬關系、參與任務事件類型、統計分析規律、數據來源、數據可信程度等多個方面,如表2所示。
3) 三級標簽。三級標簽是對二級標簽具體內容的細化,反映了海空目標的具體狀態。其主要通過以下三種方式獲取:
一是直接映射。此類標簽無需經過復雜的計算邏輯即可從原始數據中獲得,如通過海空目標屬性表進行基本屬性規則判定即可生成標簽,如目標類型、敵我屬性、國別屬性等。
二是簡單規則統計。此類標簽基于簡單規則的統計計算即可獲取,如基于目標活動信息表中的出發基地、活動時間等維度進行出港統計、出動次數等標簽的計算。
三是算法分析挖掘。此類標簽需要利用大數據挖掘分析相關技術,結合業務規則和專家先驗知識,整合運用作戰過程中敵我雙方的各類數據,進而生成可以反映海空目標某一維度的標簽數據,如目標威脅指數、活動熱力等。
2.2 技術架構
海空目標標簽體系的技術架構如圖2所示,可分為數據匯聚、標簽構建和標簽應用等3層。技術架構重點圍繞標簽的構建、挖掘分析及管理,面向標簽應用,綜合運用大數據分析挖掘技術,匯聚并處理作戰環節的各類數據源,對標簽體系進行全生命周期管理,滿足指揮控制、情報分析、戰場環境保障等典型軍事領域的業務需求。
數據匯聚層對作戰過程中涉及的傳感器數據、非合作截獲數據、軍事信息系統生成數據、互聯網開源數據、海空目標知識數據等,進行數據預處理、數據解析、數據標注等,最后入庫存儲。
標簽構建層基于數據匯聚層處理存儲后的數據,按照標簽體系設計,生產加工刻畫海空目標畫像的具體標簽內容。標簽管理通過標簽定義、評估驗證、標簽規則管理、標簽任務管理、標簽存儲、標簽展示等多個環節,全過程服務于標簽的生成、存儲和優化。標簽挖掘利用大數據技術進行實體、屬性、關系的抽取,以及聚類、分類、預測、關聯融合等挖掘分析,為標簽生成提供算法支撐。標簽全生命周期管理能夠追溯標簽從定義、應用到調整的全過程,并隨著業務流程的調整、數據的豐富等,對標簽體系進行調整優化。
標簽應用層則基于海空目標標簽庫,結合具體軍事需求,開展目標畫像、作戰決策輔助分析、作戰數據服務保障等軍事化應用。
3 關鍵技術
3.1 基于混合存儲的標簽數據存儲技術
海空目標標簽數據涉及的內容及格式復雜多樣,在存儲架構的設計上,需兼顧各類數據的規模與業務處理特點,采用多類型存儲庫以實現標簽數據的混合存儲,包括離線數據庫、對象存儲庫、MPP數據庫、關系數據庫、內存數據庫等。離線數據庫作為數倉,存儲所有原始結構化數據,事實行為類、業務場景類標簽基于離線庫進行加工生產;對象存儲庫主要存儲海空目標關聯的作戰文書、情報文本、話音報以及戰場圖像視頻等非結構化數據;MPP數據庫主要存儲海量時空航跡數據,便于上層業務查詢的快速響應;關系數據庫重點存儲業務規則、知識數據、配置信息等;內存數據庫,主要存儲熱點標簽數據,降低業務應用與數據庫的交互頻次,提高查詢響應效率。
通過提供多源異構庫統一訪問技術,屏蔽底層物理庫的語法差異,降低應用開發復雜性,使得業務訪問異構數據庫時,能夠基于同一套語法邏輯進行統一訪問,提高開發效率。
3.2 實體/屬性抽取技術
實體/屬性抽取技術是獲取海空目標基礎信息、行為信息、任務事件等類別標簽的重要方式。傳統的基于模式匹配的方法,包含字典詞庫匹配和正則表達式匹配兩種,字典詞庫匹配法適用可枚舉的命名實體類型,如目標名稱、地點等;正則表達式匹配方法適用于報文結構相對固定的實體類型,如目標屬性、時間、數量等信息。
基于機器學習的方法,主要的模型是條件隨機場(CRF) [8],其特點是假設輸出隨機變量構成馬爾可夫隨機場,是解決分詞、實體抽取等序列標注問題的常用方法。但CRF模型復雜度高,參數相對較多,其準確率和召回率尚不夠理想。
考慮到海空目標數據涉及的實體/屬性分類相對固化,行文方式有其獨特的要求,采用單一的方式難以在所有的實體/屬性類型上表現良好,利用預定義分類與機器學習相結合的方式,能夠增強不同實體/屬性類型抽取的效果。
3.3 關系抽取技術
關系抽取技術是獲取海空目標關系信息類別標簽的重要方式。早期的方法主要通過人工構造規則集合,結合領域業務知識,利用模式匹配方式來識別關系。基于機器學習的方法通常把關系抽取問題轉換成分類問題來解決,利用特征提取方法來獲取代表性特征,這部分特征經訓練后獲得分類模型,利用分類模型判定實體間的關系。
由于海空目標數據的實體關系較為復雜,可首先手動標注少量樣本數據,再結合大規模軍事領域內無監督語料訓練的預訓練模型,如BERT(Bidirectional Encoder Representation from Transformers) [9]、GPT(Generative Pre-Training) [10]等,加入軍事領域特殊行文規范的先驗知識作為實體關系對識別的補充特征向量,獲取實體關系分類模型,再依據該模型來識別關系。
3.4 關聯融合技術
針對海空目標的標簽關聯融合問題,可通過時空行為分析、屬性分析、業務規則分析等方式實現。
時空行為分析根據實體活動的時間、地點等時空維度信息進行實體對象之間的數據碰撞,計算所需識別的實體對象間的行為軌跡相似性[11]或行為軌跡的交疊度,通過設置相似度或交疊度的閥值,實現目標實體對象的關聯融合。
屬性分析利用實體對象間的共性屬性其中一個或若干個組合取值相同,作為實體對象識別約束條件,實現實體對象的關聯融合。
業務規則分析從業務角度出發,通過業務值班的經驗、規則等業務知識,利用知識特征的比對實現目標實體的識別和關聯。
4 仿真實驗
本文利用大數據離線分析平臺,基于某方向相關的3 000余篇動向報文、100余萬條目標活動過程數據進行實驗。數據涉及100余個海空目標,下面以某型戰斗機FJ0001、某艦船JC0001為例進行說明。
利用實體/屬性抽取方法進行熱點事件、演習事件、日常訓練、偵察巡邏等任務事件類標簽的生成,實驗結果如表3所示,結果表明,CRF算法結合模式匹配的算法準確率大幅提升,達到90%以上,基本滿足實戰的要求;利用關系抽取技術進行指揮、協同、補給、通聯等關系信息類標簽的生成,實驗結果如表4所示,結果表明,相比GPT算法,BERT算法準確率較高。
5 標簽應用
標簽技術在軍事大數據領域有著廣泛的應用研究價值,具體以目標畫像、作戰輔助決策分析、作戰數據服務保障等場景為例進行闡述。
5.1 目標畫像
通過構建基于大數據的標簽系統,實現了對海量數據進行規整、關聯、挖掘,形成了較為完備的海空目標標簽體系,在此基礎上能夠快速形成海空單目標畫像、群目標畫像,完整刻畫了海空目標的真實情況、目標信息、行為模式、作戰關系,為智能推薦、智能搜索、目標情報保障、戰場態勢感知等各類業務提供有據可查的畫像服務。
5.2 基于標簽的作戰輔助決策分析
目標相關數據轉化為離散的業務標簽后,統計分析更容易。如獲取“F-22過去一年參與的任務事件”“釣魚島海域近期活動的海空目標數量”等結果,直接統計相關標簽即可。同樣,基于標簽進行作戰目標的分類、聚類、預警預測、威脅程度、意圖識別等挖掘分析也容易實現。
5.3 基于標簽的作戰數據服務保障
標簽數據有著明確的業務邏輯,實質上也形成了對數據的分類。基于標簽的查詢檢索能夠靈活快速獲取到準確的數據,再基于這些查詢結果進行專題分析、數據分發推送、數據可視化等,能夠事半功倍,達成精準數據服務保障的目的。
6 結束語
本文基于作戰應用中的業務需求,系統闡述了海空目標畫像與標簽技術的背景、三層標簽體系內容、技術架構及關鍵技術,通過仿真實驗分析了不同標簽生成算法的準確率,最后分析了標簽應用的典型案例,是對大數據在軍事領域業務應用模式的一次新探索,后續將持續結合具體作戰需求,進一步拓展標簽技術運用的場景,迭代完善標簽體系,優化提升業務場景類標簽算法的準確性。
參考文獻:
[1] 左毅,張桂林,吳蔚,等.面向戰場目標識別的知識圖譜應用[J].指揮信息系統與技術,2019,10(3):1-5.
[2] 李衛星,王峰,李智國,等.面向多源數據的軍事信息系統設計[J].中國電子科學研究院學報,2020,15(3):237-243.
[3] 李娜,范正潔,郝傳州,等.采用語義分析的標簽體系構建方法[J].西安交通大學學報,2019,53(1):169-174.
[4] 蔡莉,王淑婷,劉俊暉,等.數據標注研究綜述[J].軟件學報,2020,31(2):302-319.
[5] 王洋,丁志剛,鄭樹泉,等.一種用戶畫像系統的設計與實現[J].計算機應用與軟件,2018,35(3):8-14.
[6] 江志浩,周卿,石敏,等.作戰目標知識圖譜構建與應用[J].海軍航空工程學院學報,2020,35(6):471-477.
[7] 費鵬,林鴻飛,楊亮,等.一種用于構建用戶畫像的多視角融合框架[J].計算機科學,2018, 45(1):179-182,204.
[8] 馮蘊天,張宏軍,郝文寧.面向軍事文本的命名實體識別[J].計算機科學,2015,42(7):15-19.
[9] 劉歡,張智雄,王宇飛.BERT模型的主要優化改進方法研究綜述[J].數據分析與知識發現,2021,5(1):3-15.
[10] 劉睿珩,葉霞,岳增營.面向自然語言處理任務的預訓練模型綜述[J].計算機應用,2021,41(5):1236-1246.
[11] 成磊峰,覃鋒,賈瑩,等.基于時空相似性的跨域目標關聯分析方法[J].電訊技術,2019,59(4):426-430.
【通聯編輯:王 力】