

引用格式:,,.一種知識圖譜與大型語言模型聯(lián)合的軍事人力資源大數(shù)據(jù)技術研究[J].指揮控制與仿真,2025, 47(4):34-39.FENGQ,WANGJG,WANGJResearchonbigdatatechnologyformiliaryhumanresourescombining knowledgegraph andlargelanguagemodel[J].Command Controlamp; Simulation,2O25,47(4):34-39.
摘要:針對大數(shù)據(jù)時代背景下的軍事人力資源數(shù)據(jù)領域,提出了一種知識圖譜與大型語言模型聯(lián)合的軍事人力資源大數(shù)據(jù)技術,該技術通過構建多源知識圖譜消除數(shù)據(jù)孤島,引入大型語言模型提升智能交互能力,應對軍事人力資源領域數(shù)據(jù)應用難度大和智能化程度低的問題。通過在試驗環(huán)境中進行數(shù)據(jù)孤島存量測試、智能問答性能驗證和對比分析,證明了該技術的可行性和準確性。
關鍵詞:大數(shù)據(jù);軍事人力資源;跨模態(tài)數(shù)據(jù)融合;雙重注意力;知識圖譜;大型語言模型中圖分類號:E917;N945 文獻標志碼:A DOI:10.3969/j.issn.1673-3819.2025.04.006
Research on big data technology for military human resources combining knowledge graph and large language model
FENG Qi,WANG Jigang,WANG Jian(Unit96741ofPLA,Weinan714000,China)
Abstract:Aimingatthefieldofmilitary humanresourcesdataintheeraofbigdata,this paperproposesamilitary human resourcebigdata technologycombining knowledge graphand large languagemodel(Mhr-KL).Thistechnologyeliminates datasilos byconstructing multi-source knowledge gaph,and introduceslargelanguage model toimprove inteligent interactionability,soastosoletheproblemsofdificultdataapplicationandlowdegreeintellgentinteractioninthefeldf militaryhumanresources.Thefeasibilityandaccuracyof thistechnologyareprovedbythedataislandinventorytest,inteligent question answering performance verification and comparative analysis in the test environment.
Key words:bigdata;militaryhumanresources;cross-modal datafusion;doubleatention;knowledgegraph;large language model
隨著大數(shù)據(jù)時代的到來和社會發(fā)展的需要,海量、多樣化且高速增長的數(shù)據(jù)已經(jīng)成為重要的資產(chǎn)和決策依據(jù),它們的處理需要依賴強大的數(shù)據(jù)處理中心、智能的算法和處理技術[1-3]。在人力資源領域,人力資源數(shù)據(jù)中與人員強相關的信息數(shù)據(jù)體量極大,是社會各組織(單位)管理過程中不可或缺的部分。它對推動各組織(單位)高效、創(chuàng)新發(fā)展起到重要作用,但也面臨來自大數(shù)據(jù)時代的挑戰(zhàn)[4]。這些挑戰(zhàn)在涉密程度高、數(shù)據(jù)使用嚴格遵守法規(guī)、更側重數(shù)據(jù)規(guī)范化管理和新技術采納更加保守的軍隊等組織(單位)體現(xiàn)得尤為明顯。因此,在大數(shù)據(jù)時代背景下研究一項相對通用、使用便捷、準確性高且更加智能的軍事人力資源大數(shù)據(jù)技術,具有較大的現(xiàn)實意義。
1研究現(xiàn)狀及存在的問題
我軍的人力資源信息化工作起步較早,目前,已經(jīng)積累了大量的、時間跨度很長的軍事人力資源數(shù)據(jù),并進行了部分開發(fā)利用,建立了基本的管理和維護機制[5]。這些數(shù)據(jù)大多是軍隊人力資源管理部門、軍內(nèi)其他部門和社會相關部門三類有關部門以信息系統(tǒng)錄入和日常填表上報的方式采集、留存下來的。
對于注重數(shù)據(jù)統(tǒng)一化、規(guī)范化管理和使用的軍隊而言,任何形式的不統(tǒng)一都是難以容忍的。然而,目前的軍事人力資源數(shù)據(jù)時間跨度很大,各類填表模板、屬性字段以及填寫規(guī)范等內(nèi)容已經(jīng)發(fā)生了重大變化,兼容不同歷史階段的軍事人力資源數(shù)據(jù)信息是一個挑戰(zhàn)。另外,基于不同歷吏階段的信息技術發(fā)展水平和人力資源信息使用需求而設計的軍事人力資源信息化系統(tǒng)在建設標準和技術路線上不統(tǒng)一:系統(tǒng)之間不兼容或兼容性很差,數(shù)據(jù)流動性較低:同質(zhì)化數(shù)據(jù)重復收集現(xiàn)象嚴重,各部門脫節(jié)情況明顯,部門間的互聯(lián)互通和數(shù)據(jù)共享還有較大的提升空間[5]。同時,軍事人力資源領域存在龐大的政策、制度和法規(guī)等方面的問答需求,目前軍內(nèi)各級基本上以信箱留言、人工回復的形式進行處理,同類型問題多,牽扯精力大,處理周期長。
總體來說,在軍事人力資源數(shù)據(jù)的具體使用過程中,主要存在以下問題:
(1)數(shù)據(jù)應用難度大,缺乏統(tǒng)一、有效的管理手段處理不同歷史階段、不同格式、不同系統(tǒng)的軍事人力資源數(shù)據(jù),信息數(shù)據(jù)“孤島化”問題嚴重,數(shù)據(jù)共享、校驗和維護更新機制不完善,難以被充分挖掘、利用;
(2)智能化程度低,缺乏人機交互能力,問答類需求無法智能化處理,對復雜任務場景支持程度低或不支持,難以應對非預設模式的內(nèi)容生成。
這些問題出現(xiàn)的深層次原因在于軍事人力資源數(shù)據(jù)不是單一的結構化數(shù)據(jù)或非結構化數(shù)據(jù),而是兩者高度綁定的復雜嵌合體。當前亟須通過異構融合、重研新建等途徑對軍事人力資源數(shù)據(jù)進行分類整合和深度解析,消除數(shù)據(jù)孤島并提升其智能化水平,為軍事人力資源領域的業(yè)務辦理和輔助決策提供堅強支撐。
2 解決方案
知識圖譜(knowledgegraph,KG)在解決數(shù)據(jù)孤島問題上具有顯著作用,它通過構建一個基于語義關系的數(shù)據(jù)結構將分散的數(shù)據(jù)連接起來形成一個統(tǒng)一的知識體系,從而提升數(shù)據(jù)整體的管理和利用效率,YAGO[6、WiKidata[7]等都是基于KG開發(fā)的知名產(chǎn)品。大型語言模型(large languagemodel,LLM)具備高效的自然語言處理能力和知識泛化能力,被廣泛用于開發(fā)智能系統(tǒng),如ChatGPT[8]、GPT-4[9]等先進的LLM具有數(shù)百甚至上千億個參數(shù),它們已經(jīng)能通用地解決許多現(xiàn)實存在的復雜任務。在學術研究領域,KG與LLM的聯(lián)合成為研究熱點[10-12]
本文基于KG與LLM聯(lián)合的思路,提出了一種知識圖譜與大型語言模型聯(lián)合的軍事人力資源大數(shù)據(jù)技術(a big data technology for military human resourcescombining knowledge graph and large language model,Mhr-KL),該技術通過深度解析軍事人力資源數(shù)據(jù),構建多源軍事人力資源知識圖譜(multi-sourceknowledgegraphofmilitaryhuman resourcesdata, Mhr-Mkg ),消除數(shù)據(jù)孤島,并以 Mhr-Mkg 賦能Bert[13]的改進模型Mhr-Bert完成智能化推理,有效地應對大數(shù)據(jù)時代背景下的軍事人力資源數(shù)據(jù)領域數(shù)據(jù)應用難度大和智能化程度低的問題。Mhr-KL的工作流程如圖1所示,圖中主要包含 Mhr-Mkg 和Mhr-Bert兩部分,但為完整描述其流程,添加了必要的其他內(nèi)容。
圖1Mhr-KL工作流程Fig.1The workflow of Mhr-KL

2.1多源知識圖譜構建,消除數(shù)據(jù)孤島
軍事人力資源數(shù)據(jù)歷史遺留多、時間跨度長,數(shù)據(jù)格式和存儲策略存在極大的差異性,數(shù)據(jù)孤島現(xiàn)象嚴重。推動軍隊人力資源數(shù)據(jù)領域創(chuàng)新發(fā)展,實現(xiàn)信息互聯(lián)互通和數(shù)據(jù)共享、軍事人力資源相關單位之間業(yè)務協(xié)同,解構軍事人力資源數(shù)據(jù)嵌合體,消除數(shù)據(jù)孤島是當前必須要面對的一項挑戰(zhàn)。
消除數(shù)據(jù)孤島,在技術層面需要做到實時收集最新產(chǎn)生的軍事人力資源數(shù)據(jù),并兼容、納人歷史軍事人力資源數(shù)據(jù)。KG能夠以三元組(實體-關系-實體)整合、存儲巨量結構化和非結構化的事實內(nèi)容,并隨著新知識的持續(xù)輸入而積極演進,穩(wěn)定、精確地提供特定領域的專業(yè)知識[14],是處理軍事人力資源數(shù)據(jù)的理想選擇。
為避免軍事人力資源數(shù)據(jù)大規(guī)模的物理遷移,本文梳理軍隊人力資源數(shù)據(jù)字典,合理劃分密級,采取“邏輯集中、物理分散”的分布式策略,基于KG將分散的海量軍事人力資源數(shù)據(jù)存人圖數(shù)據(jù)庫Neo4j,匯聚整合為邏輯上集中的軍事人力資源數(shù)據(jù)(體系)圖譜Mhr-Mkg ,其構建過程如圖2所示。
圖2Mhr-Mkg構建過程
Fig.2The construction process of Mhr-Mkg

2.1.1 多源數(shù)據(jù)提取
軍事人力資源數(shù)據(jù)體量龐大、內(nèi)容復雜且格式多樣,依據(jù)存儲格式可細分為基礎數(shù)據(jù)、業(yè)務數(shù)據(jù)和問答數(shù)據(jù)三大類。其中,基礎數(shù)據(jù)是人員的自然(屬性)信息和待遇等級、被裝、住房等其他關聯(lián)信息的數(shù)據(jù)集合,主要以文檔、表格等可編輯的(資源)文件存儲;業(yè)務數(shù)據(jù)是人員的業(yè)務辦理信息數(shù)據(jù)集合,以PDF、掃描件、照片甚至紙質(zhì)文件等不可(易)編輯的存儲格式為主,主要包括請示、報告、批復、人事檔案以及命令通知等材料;問答數(shù)據(jù)是面向軍隊全體人員的人力資源業(yè)務辦理需求,對政策法規(guī)執(zhí)行、相關業(yè)務辦理過程中的問答數(shù)據(jù)整合而形成的問答數(shù)據(jù)集合,多以數(shù)據(jù)庫字段的形式進行存儲。
多源數(shù)據(jù)提取是構建多源知識圖譜的基礎性工作,需要兼顧各歷史階段、不同數(shù)據(jù)格式的原始軍事人力資源信息Mhr-data-raw。為兼容這些資源信息存儲格式的差異性,數(shù)據(jù)提取工作依賴Pythondatabasedriv-ers、Pandas、Openpyxl、Python-docx、LibreOffice以及Ocr等工具組合而成的多源數(shù)據(jù)提取工具鏈(dataextractiontoolchain,DETC)進行提取,進而得到待處理的軍事人力資源數(shù)據(jù)Mhr-data-pending。
需要說明的是,PDF、掃描件、照片以及紙質(zhì)文件僅獲取存放路徑(地點)的“鏈接”字符串,作為Mhr-Mkg內(nèi)對應節(jié)點的屬性值。
2.1.2 知識抽取
Bert是Google AI研究院基于Transformer[15]結構開發(fā)的預訓練LLM,它僅需通過小規(guī)模的標注數(shù)據(jù)集完成微調(diào)過程Fine-tune后即可適應不同的下游自然語言處理任務。
基于Bert無須大量標注樣本進行初始化訓練的優(yōu)勢特性,知識抽取階段將標注的軍事人力資源數(shù)據(jù)集Mhr-data注入Bert的Bert-base-chinese版本,完成Fine-tune訓練生成Mhr-Bert后,再以Mhr-Bert對2.1.1中獲取的Mhr-data-pending進行實體識別、關系抽取、語義消歧和指代消解,區(qū)分信息源抽取出多源軍事人力資源數(shù)據(jù)中實體Mhr-E和關系Mhr-R。
需要注意的是,文本類非結構化的材料在被關聯(lián)到對應實體后不再遞歸識別,保留為結構化的圖譜信息節(jié)點。
2.1.3 知識融合
軍事人力資源數(shù)據(jù)在解構后通常會存在重復實體,為消除冗余、整合信息,確保不同源信息語義的一致性,知識融合階段對多源軍事人力資源數(shù)據(jù)中來自不同源的Mhr-E和Mhr-R進行唯一性區(qū)分、同一性合并,然后存人圖數(shù)據(jù)庫Neo4j生成 Mhr-Mkg 。
唯一性區(qū)分的執(zhí)行過程中,系統(tǒng)為Mhr-E和 Mhr-R 分別建立唯一標識符Mhr-E-Id和Mhr-R-Id,同一性合并時,保留合并屬性字段的別名,建立歷史屬性別名表Mhr-E-List和Mhr-R-List以支持 Mhr-Mkg 兼容歷史軍
事人力數(shù)據(jù)。
2. 1. 4 新知緩解
KG在處理知識表示和數(shù)據(jù)集成方面具有優(yōu)勢,但KG往往需要經(jīng)常更新以反映現(xiàn)實世界的變化,進而提供最新的語義信息和知識背景,否則會導致查詢結果不準確或不完整,對于大規(guī)模的KG,及時更新數(shù)據(jù)具有挑戰(zhàn),特別是數(shù)據(jù)源多樣且分布廣泛時[16]
當新知識產(chǎn)生時,LLM需要及時更新KG并完成自身狀態(tài)(參數(shù))調(diào)整,本文的情況是,新的軍事人力資源數(shù)據(jù)Mhr-data-new產(chǎn)生時,Mhr-Bert需要及時維護Mhr-Mkg 并進行自身參數(shù)的適應性更新。對此,本文構建了新知緩解策略:一方面,Mhr-Bert將Mhr-datanew存人臨時知識圖譜Mhr-Mkg-temp,并在執(zhí)行查詢?nèi)蝿諘r優(yōu)先對Mhr-Mkg-temp的內(nèi)容進行搜索,緩解因Mhr-Bert的參數(shù)調(diào)整時間窗口而引發(fā)的Mhr-data-new延遲同步現(xiàn)象;另一方面,Mhr-Bert定期將Mhr-Mkg-temp并入Mhr-Mkg并微調(diào)自身參數(shù),以維護Mhr-Bert的實用性和 Mhr-Mkg 中數(shù)據(jù)的時效性。
2.2知識圖譜賦能大型語言模型,提升智能化水平
LLM可以通過自我學習和遷移學習的方式不斷學習新知識,然而,其在本質(zhì)上是基于概率的黑箱模型,缺乏對真實世界的常識和深層理解,不具備特定領域的專業(yè)知識,使得它們在泛化到未知領域時可能會出現(xiàn)不可預料的結果,存在無法回憶事實、易產(chǎn)生幻覺知識等問題,嚴重影響了LLM的可信度[14]。KG作為存儲海量事實的知識庫,可為LLM提供專業(yè)領域的知識數(shù)據(jù)以輔助解釋產(chǎn)生的結果,克服LLM泛化能力的缺陷。兩者的聯(lián)合具有較強的優(yōu)勢互補性,可以造就執(zhí)行知識表征和推理能力的強大模型,以應對軍事人力資源數(shù)據(jù)智能化水平較低的問題。
Bert作為雙向Transformer結構開源LLM的代表模型之一,能夠在理解一個詞的意義時同時考慮其前、后的上下文。相比于適合長文本生成、對話生成和多輪對話的單向Transformer結構LLM,Bert可以提供更高精度的查詢、搜索結果,對分析軍事人力資源數(shù)據(jù)、為管理者提供輔助決策更具現(xiàn)實意義。另外,雖然Bert是非國產(chǎn)化工具,但其作為一個成熟的LLM,部署運行在不涉及數(shù)據(jù)向非安全域流轉(zhuǎn)的本地(內(nèi)網(wǎng)安全域)環(huán)境中,在技術層面完全可以實現(xiàn)監(jiān)督透明化,確保軍事人力資源數(shù)據(jù)和信息的安全性。同時,Bert擁有龐大的社區(qū)支持和豐富的資源,提供了高質(zhì)量中文語料版本Bert-base-chinese,避免了模型應用過程中的本土化挑戰(zhàn)。近年來,國內(nèi)的華為、阿里云也對其展開研究,并取得了豐碩成果,相繼發(fā)布了Bert的國產(chǎn)化改造版本 MacBert[17]和RoFormer[18]
最重要的是,Bert模型體量相對較小,適合在資源有限的環(huán)境中部署,使得它在小型企業(yè)和資源受限的通用場景或領域中更具優(yōu)勢,對本文關注的軍事人力資源領域尤其有用。因此,本文選取了原生Bert作為為軍事人力資源領域提供智能交互能力的上游LLM,并通過改造它的Encoder結構,使得2.1.2訓練生成的Mhr-Bert可以在推理期間接受 Mhr-Mkg 子圖的動態(tài)注入,增強其在軍事人力資源領域的推理能力, Mhr -Bert的工作流程如圖3所示。
圖3Mhr-Bert工作流程Fig.3The workflow of Mhr-Bert

2.2.1 Encoder改造
Bert本質(zhì)上是一個預訓練Transformer結構的編碼器Encoder堆棧,原生Encoder接受非結構化上下文輸入序列Context轉(zhuǎn)換輸出一個上下文向量token。為了將 Mhr-Mkg (子圖)注入Mhr-Bert并可被正確處理,本文在原生的Encoder中添加多源知識層Mkg-layer和融合層Fusion-layer,使得顯式的結構化圖譜(子圖)數(shù)據(jù)也可以編碼后作為輸入,聯(lián)合Context展開后續(xù)推理。
2.2.2 Mhr-Mkg子圖生成
為了獲取推理期間所需子圖,本文基于Mhr-Bert將Context中的文本實體Context-E與 Mhr-Mkg 中的Mhr-E進行鏈接,得到 Mhr-Mkg 子圖的初始節(jié)點集合G 考慮 Mhr-Mkg 子圖的生成質(zhì)量, G 添加其中各節(jié)點的3跳鄰居節(jié)點進行擴容得到節(jié)點集合G-A,依據(jù)實體鏈接置信度對G-A降噪,同時將Context作為頭節(jié)點注入,得到最終的子圖節(jié)點集合 G-Sub ,最后依據(jù)Mhr-Mkg檢索G-Sub中任意兩節(jié)點的所有連接邊,構建Mhr-Mkg子圖[19-20]
2.2.3 多模態(tài)數(shù)據(jù)聯(lián)合
Context為隱式的非結構文本語料, Mhr-Mkg 子圖為顯式的結構化圖譜數(shù)據(jù),在訓練或推理期間,Context在原生的Encoder中被轉(zhuǎn)換為字token,而 Mhr-Mkg 子圖節(jié)點被新添加的Mkg-layer處理為獨特的node結構。
其中,Encoder的初始輸入為Context的單字劃分(204 token0={h10,h20,h30,…,hk0}. k 為token的長度, tokeni-1 到 tokeni 的層間輪次信息傳遞表示為:
tokeni-1={h1i-1,h2i-1,h3i-1,…,hki-1}
tokeni={h1i,h2i,h3i,…,hki}
tokeni=Enc(tokeni-1)
Mkg-layer實際上是一個圖注意力網(wǎng)絡GAT,其初始節(jié)點嵌人表示為 node0={e10,e20,e30,…,ep0},p 為node的長度。 node0 傳人GAT(即Mkg-layer),從而完成圖節(jié)點之間的信息傳播, nodei-1 到 nodei 的層間輪次信息傳遞表示為:
nodei-1={e1i-1,e2i-1,e3i-1,…,epi-1}
nodei={e1i,e2i,e3i,…,epi}
nodei=Mkg(nodei-1)
由于node與token是不同模態(tài)的數(shù)據(jù),存在數(shù)據(jù)結構引起的語義鴻溝,改造后的Mkg-layer也為node構建了定制化的注意力機制。因此, Mhr-Bert 實際上是雙重注意力機制。原生Encoder的注意力機制是關于Context的基礎語境注意力,而Mkg-layer的注意力機制則是關于 Mhr-Mkg 子圖的外源信息注意力。Mkg-layer的注意力機制通過GAT的層間輪次信息傳播過程實現(xiàn), emi-1 到 emi 的信息傳遞可表示為

其中,F(xiàn)N是一個數(shù)據(jù)單向傳播、沒有反饋的前饋神經(jīng)網(wǎng)絡,
分別為 emi-1 的任意鄰域節(jié)點對 emi 傳播消息的注意力權重和消息。
2.2.4交互編碼深度綁定
為實現(xiàn)兩種模態(tài)數(shù)據(jù)的深度信息交互,需要將編碼后生成的token和node形成初始聯(lián)合表征信息 TN0= {token0 , node0} ,注入融合層Fusion-layer中展開推理,其中, TN0[0]=token0,TN0[1]=node0 。Fusion-layer是前饋神經(jīng)網(wǎng)絡,在Fusion-layer中, tokeni 與 nodei 直接發(fā)生傳遞、交互,然后輸出的聯(lián)合表征信息再次拆分,TNi-1 到 TNi 信息層間輪次傳遞表示為:
TNi-1={TNi-1[0],TNi-1[1]}
TNi={TNi[0],TNi[1]}
TNi=Fusion(TNi-1)
3 評估驗證
為了驗證本文所提出的 Mhr-KL 的可行性和準確性,在試驗環(huán)境搭建了簡單的測試系統(tǒng)對該模型進行檢測評估,檢測評估包括數(shù)據(jù)孤島存量測試、智能問答性能驗證和對比分析三個方面。
3.1數(shù)據(jù)孤島存量測試
Mhr-KL的可行性和準確性建立在基礎數(shù)據(jù)支撐完備的情況下,為測試模型基礎數(shù)據(jù)支撐情況,測試評估階段首先對 Mhr-Mkg 進行了數(shù)據(jù)孤島存量測試。測試結果如表1所示。
為全面體現(xiàn)數(shù)據(jù)孤島存量測試的有效性,測試結果區(qū)分完整性測試、時效性驗證、一致性檢驗以及冗余度檢查四個維度進行驗證。完整性測試和時效性驗證針對單項的測試記錄,以缺失值和時間戳對測試記錄的完整程度和實時適用性進行檢測;一致性檢驗和冗余度檢查著眼整體的測試記錄關聯(lián)結果,以交叉驗證值和重復記錄驗證關聯(lián)結果的正確性和重復程度。

測試在2017個文件共計8947項記錄上進行,數(shù)據(jù)孤島存量測試結果如表1所示。其中,8947項測試記錄涉及973項不同的時間戳,測試記錄關聯(lián)涉及194項關聯(lián)結果。從實驗結果來看,各項指標的未通過存量均能夠保持在該項總量的 3% 以下,驗證了 Mhr-Mkg 對數(shù)據(jù)孤島的有效抑制。
3.2 智能問答性能驗證
為評估Mhr-KL的智能化水平,在數(shù)據(jù)孤島存量測試的基礎上,測試評估階段繼續(xù)使用該8947項記錄(其中包含658項問答記錄)組合設計了 1 000 項屬性問答、200項文本問答測試用例對Mhr-KL中Mhr-Bert的進行測試,結果如表2所示。
需要說明的是,測試指標區(qū)分完備性、可理解性、(平均)響應時間以及魯棒性四項,其中,完備性以問答結果中關鍵字段是否完全命中體現(xiàn)Mhr-Bert測試結果的完整程度,可理解性針對Mhr-Bert中文語境(本地化)語言組織能力使用開源工具Readability[9]進行自動化易讀性指數(shù)(ARI)評估并二值化評估結果于0/1,響應時間和魯棒性分別以平均時間和報錯(崩潰)次數(shù)的補集來側重檢測Mhr-Bert的整體性能。
表2智能問答性能驗證
Tab.2Performance verification of intelligent Qamp;A

從實驗結果看,屬性問答測試與文本問答測試的各項指標的合格率總體保持在 80% 以上,但與 3% 的數(shù)據(jù)孤島存量相比,提升空間仍較大。智能問答的性能取決于多方面因素,根據(jù)實驗結果, Mhr-Bert 對輸人的魯棒性是限制其他指標提升的最主要因素。
3.3 對比分析
測試評估階段的最后進行了對比分析,以量化Mhr-KL與傳統(tǒng)方法的效果差異,整體評估Mhr-KL帶來的性能提升。由于傳統(tǒng)方法涉及對多源數(shù)據(jù)的查詢,為排除人為因素(如業(yè)務熟練程度)干擾,提升對比分析的可信度,對比分析過程中的傳統(tǒng)方法使用自動化程序模擬人力資源領域工作人員實際的業(yè)務辦理流程,實現(xiàn)對8947項記錄所在原始文件(資源)的查詢與搜索。
對比分析沿用(改造)了3.2設計的1000項屬性查詢、200項文本查詢,共計1200項測試用例,并在統(tǒng)一設計輸入的條件設定下排除魯棒性差異對兩種方法進行類似于3.2的完備性、可理解性以及(加權平均)響應時間三項指標測試,結果如表3所示。
分析實驗結果, Mhr-KL 的各項指標表現(xiàn)均優(yōu)于傳統(tǒng)方法,得益于KG和LLM的聯(lián)合效果,其查詢結果不再是字段的簡單堆疊,在響應時間和可理解性上對比傳統(tǒng)方法也有較大提升。
表3對比分析
Tab.3 Comparative Analysis

4 結束語
本文提出了一種知識圖譜與大型語言模型聯(lián)合的軍事人力資源大數(shù)據(jù)技術,解構軍事人力資源數(shù)據(jù)嵌合體,以應對大數(shù)據(jù)時代的軍事人力資源數(shù)據(jù)領域數(shù)據(jù)應用難度大和智能化程度低的問題。通過在試驗環(huán)境中進行數(shù)據(jù)孤島存量測試、智能問答性能驗證和對比分析三項評估,證明了該技術的可行性和準確性。
分析實驗可知,3.2中Mhr-Bert的魯棒性制約了Mhr-KL的整體性能,使用提示工程 Prompt[20] “格式化”來自用戶的“任意”輸入,使Mhr-Bert能夠更好地理解任務要求,引導其生成期望的高質(zhì)量輸出,避免不必要的迭代次數(shù),提升模型魯棒性和交互質(zhì)量,值得在下一步工作中考慮。另外,本文應用大型語言模型時的輸入涉及兩種模態(tài)數(shù)據(jù)[2],并通過一一對應的形式進行聯(lián)合編碼,探索跨模態(tài)數(shù)據(jù)編碼(對齊)技術,將多模態(tài)數(shù)據(jù)更合理地編碼綁定、映射到同一個潛空間,促進不同模態(tài)數(shù)據(jù)深度融合、高效交互,提升Mhr-Bert應對跨模態(tài)數(shù)據(jù)輸入的能力,也是一個重要的研究方向。
參考文獻:
[1]王鵬.數(shù)據(jù)資產(chǎn)賦能數(shù)字經(jīng)濟高質(zhì)量發(fā)展;解析《關于 加強數(shù)據(jù)資產(chǎn)管理的指導意見》[N].中國日報,2024- 01-23. WANG P. Empowering high quality development of digital economy with data assets:analysis of the guiding opinions onstrengthening data asset management[N].China Daily,2024-01-23.
[2]王愛敏,王崇良,黃秋鈞.人力資源大數(shù)據(jù)應用實踐: 模型、技術、應用場景[M].北京:清華大學出版 社,2017. WANG A M, WANG C L,HUANG Q J. Human resource big dataapplication practice[M]. Beijing:Tsinghua University Press,2017.
[3]穆勝.人力資源管理新邏輯[M].北京:新華出版 社,2015. MU S.New logic of human resource management[M]. Beijing: Xinhua Publishing House,2015.
[4]QAMAR N. Big data analytics: recent trends and applications in human resource management[J]. Journal of Data Acquisition and Processing,2023,38(2):10.
[5]王濤,鄒玉,陳國升,等.軍事人力資源大數(shù)據(jù)體系與 應用展望[J].網(wǎng)絡安全與數(shù)據(jù)治理,2023,42(S1): 51-54. WANG T, ZOU Y,CHEN G S,et al. Military human resources big data system and application prospect[J]. Information Technologyand Network Security,2O23,42 (S1):51-54.
[6]Suchanek FM,Kasneci G,Weikum G.Yago:a core of semantic knowledge[C]//Proceedings of the 16th international conference on World Wide Web.2007:697-706.
[7]Vrandecic D,Krotzsch M. Wikidata:a free collaborative knowledge base[J].Communications of the ACM,2014, 57(10) : 78-85.
[8]KALLAD,SMITHN,SAMAAHF,et al. Study and analysis of chat GPT and its impact on different fields of study[J]. International Journal of Innovative Science and Research Technology,2023,8(3):1-15.
[9]Achiam J,Adler S,Agarwal S,et al. Gpt-4 technical report[EB/OL]. arxiv preprint arxiv:2303.08774,2023.
[10]黃勃,吳申奧,王文廣,等.圖模互補:知識圖譜與大 模型融合綜述[J].武漢大學學報(理學版),2024,70 (4):397-412. HUANG B,WU S A,WANG W G,et al.KG-LLMlarge language model[J].Journal of Wuhan University (Natural Science Edition),2024,70(4):397-412.
[11]LIU W,ZHOU P,ZHAO Z,et al.Kbert:Enabling language representation with knowledge graph[J].Proceedings of the AAAI Conference on Artifical Intelligence,2020,34(3):2 901-2 908.
[12]YAO L,MAO CS,LUOY.KG-BERT:BERT forknowledge graph completion[EB/OL]. 2019:1909.03193. https://arxiv.0rg/abs/1909.03193v2.
[13]KENTON JD M W C,TOUTANOVA L K. Bert:Pretraining of deep bidirectional transformers for language understanding[C]//Proceedings of naacL-HIT,2019:2.
[14]PAN SR,LUO L H,WANG Y F,et al. Unifying large language models and knowledge graphs : a roadmap[J]. IEEE Transactions on Knowledge and Data Engineering, 2024,36(7) : 3 580-3 599.
[15]VASWANI A. Attention is all you need[J]. Advances in Neural Information Processing Systems,2017(1) :1-10.
[16]王明皓,殷濤,楊洪杰,等.知識圖譜和大模型技術發(fā) 展與應用[J].網(wǎng)絡安全與數(shù)據(jù)治理,2023,42(S1): 126-131. WANG M H, YIN T, YANG HJ,et al. Knowledge graphs and large language models technology development and application[J].Information TechnologyandNetwork Security,2023,42(S1):126-131.
[17] CUI Y M, CHE W X,LIU T,et al. Revisiting pre-trained models for Chinese natural language processing[EB/OL]. 2020:2004.13922. htps://arxiv.org/abs/2004.13922v2.
[18]SU JL,AHMED M,LU Y,et al.RoFormer:enhanced transformer with rotaryposition embedding[J].Neurocomputing,2024(568): 127 063.
[19]NLTK Contributors,\"Readability,”in NLTK Contrib, GitHub[EB/OL]. Avai-lable:htps://github.com/nltk/ nltk_contrib/tree/master/nltk_contrib/readability.
[20]SAHOO P,SINGH A K, SAHA S,et al. A systematic survey of prompt engineering in large language models: techniques and applications [EB/OL]. 2024: 2402. 07927.https://arxiv.org/abs/2402.07927v1.
[21]唐獲音,丁奕州,王軒,等.知識圖譜技術在預測與健康 管理中的應用現(xiàn)狀與研究展望[J].電光與控制,2024, 31(2) :1-11. TANGDY,DINGYZ,WANGX,et al.Research progress and prospects of knowledge graph technology applied in prognostics and health Management[J].Electronics Opticsamp; Control,2024,31(2) :1-11.
(責任編輯:張培培)