中圖分類號:TP18 文獻(xiàn)標(biāo)志碼:A DOI:10.3969/j. issn.1673-3819.2025.05.011
Abstract:The innovativedevelopmentoflarge languagemodels inthefieldofnatural language processing provides newideasfortheapplicationofartificialintellgenceithemilitaryAtpresent,theinformationserviceworkofourarmyiscaried outaccording tothetraditionalserviceconcept,thesubmiteddocumentsarereviewedandscreened before beingpublished. However,theabilityofoffcersandsoldierstotransformmilitaryspecializedcontentintooficialdocumentssuchasnewsand special issuesgenerallyneedstobestrengthenedTisaticleaims toadresstecurrentsituaionbycollctingilitarynews fromopen-source channelsandconstructingadatasetcontainingover 5OO pieces ofimportantinformationand news.Using theChatglm2-6bmodelfromTsinghuaUniversityasthebasemodel,theretrieval-augmentedgenerationmethod isusedto improvethemilitarydomaininformationcognitionabilityofthelargelanguage model,thepromptengineering isusedtooptimizethedocument generationcontaining professionalmilitaryknowledge.Throughmodel evaluationandcaseanalysis,the feasibilityoftheexperimenthasbeenverified,whichcanfurthersupportthegenerationofmilitarytextcontentandimprove theefficiencyofinformationserviceworkin thefuture.
Keywords:large language model;information services;ChatGLM model;retrieval-augmented generation
用和推廣提供了重要支持。
2020年5月,國外OpenAI公司發(fā)布1750億參數(shù)規(guī)模的大語言模型(large language model,LLM)GPT-3,引領(lǐng)人工智能自然語言處理領(lǐng)域的新革命[1]。通過引入Transformer架構(gòu)和大規(guī)模預(yù)訓(xùn)練,大語言模型可以處理包括問答、文本分類在內(nèi)的多種自然語言任務(wù),并且具備強大的泛化能力。但GPT模型非開源且無法在國內(nèi)使用,此后國內(nèi)廠商陸續(xù)推出大語言模型。其中,清華大學(xué)推出支持中英雙語的ChatGLM-6B開源模型,模型具有62億參數(shù),并在后續(xù)不斷完善。當(dāng)然,豐富的優(yōu)化算法和強大的硬件算力等也為大語言模型的使
當(dāng)前,我軍按照傳統(tǒng)服務(wù)思路開展信息服務(wù)工作,依賴于廣大官兵主動報送軍事簡訊、軍事新聞,經(jīng)審查篩選后刊發(fā)至軍事專刊或發(fā)布于軍隊網(wǎng)站、主流媒體等網(wǎng)宣陣地。其中,作者大都從事細(xì)分專業(yè),聚焦于業(yè)務(wù)建設(shè)、觀點建議、敵軍研究等視角撰寫公文,將上述內(nèi)容轉(zhuǎn)變?yōu)楹営崱⑿侣劦任母宓墓哪芰Σ粔蛲怀觥?/p>
基于此,可利用大語言模型的自然語言處理能力,在軍隊信息服務(wù)領(lǐng)域展開應(yīng)用探索。但在實際應(yīng)用中,可能存在以下問題:(1)許多開源模型在大量英語語料上訓(xùn)練,對多語言能力的理解有所欠缺;(2)模型訓(xùn)練及部署環(huán)境需要強大的GPU算力,即使是輕量化的ChatGLM-6b也需要至少13GB的顯存才可進(jìn)行推理。
本研究旨在利用大語言模型自動且準(zhǔn)確地生成特定軍事業(yè)務(wù)的專業(yè)文稿。本文利用一個包含5000余條軍事文稿的自建數(shù)據(jù)集對基座模型進(jìn)行檢索增強生成[2](retrieval-augmented generation,RAG),利用提示工程[3(promptengineering,PE)推理生成內(nèi)容,為軍事領(lǐng)域大模型的優(yōu)化應(yīng)用提供實證基礎(chǔ)。
1 數(shù)據(jù)集制作
為提高模型對軍事公文的生成能力,同時能學(xué)習(xí)互聯(lián)網(wǎng)開源信息,區(qū)分來源收集數(shù)據(jù),包含軍事簡訊、新聞和互聯(lián)網(wǎng)開源涉軍新聞,其中軍內(nèi)刊發(fā)稿件與互聯(lián)網(wǎng)稿件比例相當(dāng)。
以半自動化的方式構(gòu)建數(shù)據(jù)集:(1)收集的互聯(lián)網(wǎng)稿件為txt格式,而軍內(nèi)刊發(fā)稿件均為doc格式,為方便進(jìn)行數(shù)據(jù)處理,使用Spire.Doc庫將doc格式轉(zhuǎn)化為txt格式。(2)對txt文本進(jìn)行數(shù)據(jù)預(yù)處理,去除稿件來源、作者信息、生僻字、復(fù)雜符號等信息雜質(zhì)。(3)對文本數(shù)據(jù)進(jìn)行分類統(tǒng)計、詞頻統(tǒng)計和長度分析,以便在后續(xù)過程中進(jìn)行實驗對比效果。(4)對文本進(jìn)行人工復(fù)核,最終整編構(gòu)建出包含5000余條軍事文稿的數(shù)據(jù)集。
2 實驗過程
2. 1 訓(xùn)練環(huán)境
本研究基于windowslO環(huán)境,開發(fā)語言Python3.10,開發(fā)平臺Pytorch2.0.0(Cuda11.7),CPU為Intel
CoreTMi7-8750H,內(nèi)存32G,GPU單張,型號 NVIDIAQuadro RTX6000,獨顯24G。
2.2 實驗流程
強化LLM對領(lǐng)域知識的認(rèn)知能力,一般通過模型微調(diào)或檢索增強生成方法。模型微調(diào)指通過學(xué)習(xí)新的數(shù)據(jù)集對LLM的參數(shù)進(jìn)行微小的調(diào)整,其利用了LLM在大規(guī)模預(yù)訓(xùn)練過程中學(xué)習(xí)到的通用語義表征,從而大幅提高了模型收斂的速度和效率。檢索增強生成,指利用外掛的數(shù)據(jù)集知識庫作為LLM的記憶擴充,無須重新訓(xùn)練模型,便可擴展對專業(yè)領(lǐng)域的知識認(rèn)知。考慮實驗為小樣本無標(biāo)簽數(shù)據(jù)集,采用檢索增強生成方法更為合適。
完整的實驗流程如圖1所示,可分為選擇基座模型、檢索增強生成、提示工程3個步驟[1]。
圖1實驗過程流程圖
Fig.1Experimental process flowchart

2.3 基座模型
考慮LLM在軍事領(lǐng)域中的應(yīng)用需兼顧模型安全性、數(shù)據(jù)隱私性和中文理解能力,選擇國內(nèi)廠商開源中文模型。根據(jù)中文通用大模型的綜合性評測基準(zhǔn)Su-perCLUE[4]網(wǎng)站數(shù)據(jù),繪制表1對比模型表現(xiàn),綜合考慮筆者的硬件環(huán)境及部署環(huán)境遷移條件,本論文最終選擇ChatGLM2-6b開源模型作為基座模型。
ChatGLM2-6b是基于PrefixDecoder-only架構(gòu)的大語言模型,具有60億參數(shù),主要特點如下:
(1)基于FlashAttention技術(shù),擴展長文本處理能力。經(jīng)過1.4T中英標(biāo)識符的預(yù)訓(xùn)練與人類偏好對齊訓(xùn)練,擴展了上下文對話能力,在同尺寸開源模型中具有較強的競爭力。
(2)基于Multi-QueryAttention技術(shù),優(yōu)化GPU內(nèi)存訪問開銷,通過重計算、核融合等方式完善注意力機制,提高推理生成速度。生成2000字符平均僅需44.62s,推理速度相比初代提升約 42% 。
(3)采用CausalMask進(jìn)行對話訓(xùn)練,顯著優(yōu)化顯存占用,進(jìn)行量化推理時,初代模型最多能生成1119個字符,就會提示顯存耗盡,而ChatGLM2能生成至少8192個字符。
(4)采用RotaryPositionEmbedding,該編碼方式引入相對位置信息,能夠幫助模型區(qū)分不同位置的token,從而更好地理解上下文的語義結(jié)構(gòu)。
表1中文大模型表現(xiàn)(2023年7月)

2.4檢索增強
考慮在實際使用中LLM存在幻覺問題,即面對訓(xùn)練數(shù)據(jù)不包含的專業(yè)領(lǐng)域知識時,容易給出虛構(gòu)信息答案,同時加強大模型對軍事專業(yè)知識的學(xué)習(xí),采用檢索增強生成方法,增強模型處理密集專業(yè)知識的能力[5-6]。RAG 結(jié)合信息檢索與語言生成,檢索模型從外部知識庫中檢索出問題相關(guān)的知識,并將其作為LLM的上下文輸入提示(Prompt)。
本實驗基于LangChain框架進(jìn)行檢索增強,分為以下兩個步驟:
(1)數(shù)據(jù)準(zhǔn)備階段: ① 對數(shù)據(jù)集根據(jù)固定長度進(jìn)行文本分割,分別選擇100、150、200詞塊量進(jìn)行分割實驗[7],對比模型表現(xiàn),最終選擇200詞塊量定長; ② 數(shù)據(jù)向量化(embedding),分別選擇M3E模型和Text2Vec模型進(jìn)行向量化處理,并存儲于chromaDB向量庫,對比模型表現(xiàn),最終選擇 Text2Vec 模型;
(2)檢索生成階段: ① 使用相同Embedding模型將問題轉(zhuǎn)換為查詢向量,建立索引,根據(jù)檢索策略、使用檢索算法進(jìn)行相似性檢索; ② 根據(jù)檢索結(jié)果使用排序算法進(jìn)行重排序,最終篩選最相關(guān)的 N 個向量,根據(jù)索引提取數(shù)據(jù); ③ 把檢索到的相關(guān)數(shù)據(jù)知識與提問并入Prompt,充分發(fā)揮ChatGLM2的泛化能力,生成回答。
2.5 提示工程
經(jīng)過檢索增強后的LLM仍具有語義不一致性現(xiàn)象,即語義相同的問題,由于表述方式不同,回答大相徑庭,同時還存在回答不受提示詞約束的影響,仍舊回答錯誤的問題。因此,一般通過增加約束性的指令提示、鏈?zhǔn)剿季S提示、路徑語言模型等多種提示工程方法,彌合期望輸出與LLM實際輸出的差距。本實驗采用類似思維鏈(chain-of-thoughts,CoT)[8]和迭代提示(iterativeprompting)的方式,流程如圖2所示。
圖2提示工程流程圖
Fig.2Prompt engineering process diagram

(1)思維鏈通過增加LLM中間的推理步驟,將復(fù)雜問題分解為一系列子問題并依次求解,從而構(gòu)建清晰的推理思路和邏輯關(guān)系,提高推理能力。一個完整的包含CoT的Prompt往往由指令(instruction),邏輯依據(jù)(rational),示例(examples)3部分組成,其中示例分為Zero-Shot-CoT與Few-Shot-CoT。
本實驗以Few-Shot-CoT的方式提問,由問題描述、示例、偏好要求3部分構(gòu)成[9,示例如表2所示。
表2提示工程示例
Tab.2Example of prompt engineering

(2)迭代提示通過與LLM不斷交互,迭代改進(jìn)提問,逐漸找到能夠滿足期望輸出的提問方式或得到較符合預(yù)期的輸出。這種漸進(jìn)式提示與LLM良好的上下文理解能力契合,常用于實際使用中。
本實驗根據(jù)實際情況, ① 通過LLM對提問抽取關(guān)鍵詞,對比該提問檢索到的相似上下文,根據(jù)經(jīng)驗準(zhǔn)確提問語義。 ② 對回答內(nèi)容增加自我驗證[1]、深度思考引導(dǎo),通過LLM交互式上下文感知,提高LLM回答問題準(zhǔn)確性。
3 實驗結(jié)果及分析
3.1模型指標(biāo)評估
本實驗采用“自動 + 人工”方式對大模型回答結(jié)果進(jìn)行評估,包含相似度評價指標(biāo)ROUGE[\"]和準(zhǔn)確性評價指標(biāo)準(zhǔn)確度。
相似度評價借鑒摘要生成[]常用的文本生成評價指標(biāo)ROUGE,該指標(biāo)常用于衡量文本摘要質(zhì)量,考慮了模型譯文和參考譯文之間的最長公共子序列,實驗調(diào)用rouge_chinese包進(jìn)行計算。準(zhǔn)確度指標(biāo)由人工評估,選擇三位具備相同軍事知識且不參與實驗者進(jìn)行準(zhǔn)確度打分,從文章完整度、邏輯性、文章結(jié)構(gòu)、實用參考性和用詞專業(yè)性五個方面進(jìn)行百分制量化評分,最終取平均值。模型效果評估見表3,各項指標(biāo)仍有較大的上升空間,通過“小樣本數(shù)據(jù) + 提示工程”方法,LLM具備對軍事專業(yè)知識的回答能力,但不完全能做到“仿真擬人”。
表3模型效果評估Tab.3Model effect evaluation

3.2 案例分析
以具體案例(見表4)分析,實驗結(jié)果邏輯通順,LLM能夠掌握特定軍事業(yè)務(wù)的專業(yè)詞匯,對實際文稿的撰寫具有借鑒意義,還提供一些開拓性思考,符合預(yù)期[11-12]。但模型仍然存在語義理解不足的問題,回答部分中有與提問相關(guān)度不大的描述。
4結(jié)束語
本文進(jìn)行大語言模型在軍隊信息服務(wù)工作中的應(yīng)用實驗,以半自動化方式構(gòu)建小樣本量軍事文稿的數(shù)據(jù)集,基于LangChain框架對ChatGLM2模型進(jìn)行檢索增強,通過思維鏈和迭代提示方式進(jìn)行提示工程,提高模型對于軍事領(lǐng)域?qū)I(yè)信息的認(rèn)知能力和推理能力。通過“自動 + 人工”方式評估模型表現(xiàn),推理結(jié)果符合預(yù)期,可按照提示要求推理生成準(zhǔn)確專業(yè)的軍事簡訊、新聞稿件,實驗表明可利用大模型生成內(nèi)容,輔助信息服務(wù)工作開展。下步,可通過軍內(nèi)交流合作等方式擴展數(shù)據(jù)樣本,嘗試?yán)么髽颖玖繑?shù)據(jù)進(jìn)行模型微調(diào),加強提示工程等方式,完善模型應(yīng)用,還可在戰(zhàn)略規(guī)劃、情報認(rèn)知等方面推進(jìn)大模型應(yīng)用。
表4模型具體案例
Tab. 4 Specific case of LLM

參考文獻(xiàn):
[1]董昭軒,王衛(wèi)鋒,劉美麗.基于生成式大語言模型的 軍事領(lǐng)域受控文本生成方法[C]//第五屆體系工程學(xué) 術(shù)會議論文集——數(shù)智時代的體系工程,西寧,2023. DONGZX,WANGWF,LIUML.Method forcontrolled text generationin themilitary domain based on generative large language models[C]//Proceedings of the 5th Academic Conference on Systems Engineering-Systems Engineeringin theDigital Age,Xining,2023.
[2]張艷萍,陳梅芳,田昌海,等.面向軍事領(lǐng)域知識問答系 統(tǒng)的多策略檢索增強生成方法[J/OL].計算機應(yīng)用,1- 12[2024-10-11]. ZHANGYP,CHENMF,TIANCH,etal.Multi-strategyretrieval-augmented generationmethod formilitary domainknowledge question answering system[J/OL].Journal ofComputerApplications,1-12[2024-10-11].
[3] 李姝,韋有濤,喬芷琪.大語言模型Prompt的設(shè)計原則 和優(yōu)化流程[J].中國信息化,2024(9):31-33. LIZ,WEIY T,QIAO ZQ. Design principles and optimization process of the Large Language Model prompt[J]. Chinainformatization,2024(9) :31-33.
[4]謝明華.基于大模型的電子信息領(lǐng)域知識圖譜自動構(gòu)
建與檢索技術(shù)[J].電訊技術(shù),2024,64(8):1228- 1 234. XIEM H.Automatic construction and retrieval of knowledge graph in electronic information field based on Large Language Model(LLM)[J]. Telecommunication Engineering,2024,64(8):1228-1 234.
[5] 李鉑鑫.面向私有問答系統(tǒng)的檢索增強式大模型穩(wěn)定 輸出方法[J/OL].計算機科學(xué)與探索,1-11[2024-10- 11]. LI B X.A method of retrieval-augmented large language models with stable outputs for private question-answering systems[J/OL]. Journal of Frontiers of Computer Science and Technology,1-11[2024-10-11].
[6]張華平,李春錦,魏順平,等.大語言模型驅(qū)動的開源情 報認(rèn)知[J].國防科技,2024,45(3):51-57. ZHANG HP,LICJ,WEI SP,et al.Large language model-driven open-source intelligence cognition[J].NationalDefenseTechnology,2024,45(3):51-57.
[7]鄒佰翰,汪瑩,彭鑫,等.重新審視代碼補全中的檢索增 強策略[J/OL].軟件學(xué)報,1-28[2024-10-11]. ZOUB H,WANGY,PENG X,et al. Revisiting retrieval-augmentation strategy in code completion[J/OL]. Journal ofSoftware,1-28[2024-10-11].
[8] 李榮涵,浦榮成,沈佳楠,等.基于思維鏈的大語言 模型知識蒸餾[J].?dāng)?shù)據(jù)采集與處理,2024,39(3): 547-558. LIRH,PURC,SHENJN,et al.Knowledgedistillation of large language models based on chain of thought [J].Journal of Data Acquisition and Processing,2024, 39(3) : 547-558.
[9] 程云,呂爽,陳國祥.基于大模型的標(biāo)準(zhǔn)文獻(xiàn)智能問答 技術(shù)研究[J].信息技術(shù)與標(biāo)準(zhǔn)化,2024(8):38-43. CHENY,LYU S,CHENG X.Research on intelligent question answering for standard literature based on largescale models[J]. Information Technology amp; Standardization,2024(8):38-43.
[10]LIUY,LAPATA M.Text summarization withpretrained encoders[C]//Proceedings of the 2O19 Conferenceon Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing(EMNLP-IJCNLP).2019:3730-3740.
[11]崔健,汪永偉,李飛楊,等.結(jié)合知識蒸餾的中文文本 摘要生成方法[J/OL].計算機科學(xué)與探索,1-12 [2024-12-24]. CUIJ,WANGYW,LIFY,et al.Chinese text summarization with knowledge distillation[J/OL].Journal of Frontiers of Computer Science and Technology,1-12 [2024-12-24].
[12]劉佳,孫新,張宇晴.知識圖譜與大語言模型協(xié)同的教 育資源內(nèi)容審查[J].華東師范大學(xué)學(xué)報(自然科學(xué) 版),2024(5):57-69. SUNJ,SUNX,SUNYQ.Educational resourcecontent review method based on knowledge graph and large languagemodel collaboration[J]. Journal of East China NormalUniversity(Natural Science)2024(5):57-69.
(責(zé)任編輯:許韋韋)