中圖分類號:TP18 文獻標志碼:A DOI:10.3969/j. issn.1673-3819.2025.05.011
Abstract:The innovativedevelopmentoflarge languagemodels inthefieldofnatural language processing provides newideasfortheapplicationofartificialintellgenceithemilitaryAtpresent,theinformationserviceworkofourarmyiscaried outaccording tothetraditionalserviceconcept,thesubmiteddocumentsarereviewedandscreened before beingpublished. However,theabilityofoffcersandsoldierstotransformmilitaryspecializedcontentintooficialdocumentssuchasnewsand special issuesgenerallyneedstobestrengthenedTisaticleaims toadresstecurrentsituaionbycollctingilitarynews fromopen-source channelsandconstructingadatasetcontainingover 5OO pieces ofimportantinformationand news.Using theChatglm2-6bmodelfromTsinghuaUniversityasthebasemodel,theretrieval-augmentedgenerationmethod isusedto improvethemilitarydomaininformationcognitionabilityofthelargelanguage model,thepromptengineering isusedtooptimizethedocument generationcontaining professionalmilitaryknowledge.Throughmodel evaluationandcaseanalysis,the feasibilityoftheexperimenthasbeenverified,whichcanfurthersupportthegenerationofmilitarytextcontentandimprove theefficiencyofinformationserviceworkin thefuture.
Keywords:large language model;information services;ChatGLM model;retrieval-augmented generation
用和推廣提供了重要支持。
2020年5月,國外OpenAI公司發布1750億參數規模的大語言模型(large language model,LLM)GPT-3,引領人工智能自然語言處理領域的新革命[1]。通過引入Transformer架構和大規模預訓練,大語言模型可以處理包括問答、文本分類在內的多種自然語言任務,并且具備強大的泛化能力。但GPT模型非開源且無法在國內使用,此后國內廠商陸續推出大語言模型。其中,清華大學推出支持中英雙語的ChatGLM-6B開源模型,模型具有62億參數,并在后續不斷完善。當然,豐富的優化算法和強大的硬件算力等也為大語言模型的使
當前,我軍按照傳統服務思路開展信息服務工作,依賴于廣大官兵主動報送軍事簡訊、軍事新聞,經審查篩選后刊發至軍事??虬l布于軍隊網站、主流媒體等網宣陣地。其中,作者大都從事細分專業,聚焦于業務建設、觀點建議、敵軍研究等視角撰寫公文,將上述內容轉變為簡訊、新聞等文稿的公文能力不夠突出。
基于此,可利用大語言模型的自然語言處理能力,在軍隊信息服務領域展開應用探索。但在實際應用中,可能存在以下問題:(1)許多開源模型在大量英語語料上訓練,對多語言能力的理解有所欠缺;(2)模型訓練及部署環境需要強大的GPU算力,即使是輕量化的ChatGLM-6b也需要至少13GB的顯存才可進行推理。
本研究旨在利用大語言模型自動且準確地生成特定軍事業務的專業文稿。本文利用一個包含5000余條軍事文稿的自建數據集對基座模型進行檢索增強生成[2](retrieval-augmented generation,RAG),利用提示工程[3(promptengineering,PE)推理生成內容,為軍事領域大模型的優化應用提供實證基礎。
1 數據集制作
為提高模型對軍事公文的生成能力,同時能學習互聯網開源信息,區分來源收集數據,包含軍事簡訊、新聞和互聯網開源涉軍新聞,其中軍內刊發稿件與互聯網稿件比例相當。
以半自動化的方式構建數據集:(1)收集的互聯網稿件為txt格式,而軍內刊發稿件均為doc格式,為方便進行數據處理,使用Spire.Doc庫將doc格式轉化為txt格式。(2)對txt文本進行數據預處理,去除稿件來源、作者信息、生僻字、復雜符號等信息雜質。(3)對文本數據進行分類統計、詞頻統計和長度分析,以便在后續過程中進行實驗對比效果。(4)對文本進行人工復核,最終整編構建出包含5000余條軍事文稿的數據集。
2 實驗過程
2. 1 訓練環境
本研究基于windowslO環境,開發語言Python3.10,開發平臺Pytorch2.0.0(Cuda11.7),CPU為Intel
CoreTMi7-8750H,內存32G,GPU單張,型號 NVIDIAQuadro RTX6000,獨顯24G。
2.2 實驗流程
強化LLM對領域知識的認知能力,一般通過模型微調或檢索增強生成方法。模型微調指通過學習新的數據集對LLM的參數進行微小的調整,其利用了LLM在大規模預訓練過程中學習到的通用語義表征,從而大幅提高了模型收斂的速度和效率。檢索增強生成,指利用外掛的數據集知識庫作為LLM的記憶擴充,無須重新訓練模型,便可擴展對專業領域的知識認知。考慮實驗為小樣本無標簽數據集,采用檢索增強生成方法更為合適。
完整的實驗流程如圖1所示,可分為選擇基座模型、檢索增強生成、提示工程3個步驟[1]。
圖1實驗過程流程圖
Fig.1Experimental process flowchart

2.3 基座模型
考慮LLM在軍事領域中的應用需兼顧模型安全性、數據隱私性和中文理解能力,選擇國內廠商開源中文模型。根據中文通用大模型的綜合性評測基準Su-perCLUE[4]網站數據,繪制表1對比模型表現,綜合考慮筆者的硬件環境及部署環境遷移條件,本論文最終選擇ChatGLM2-6b開源模型作為基座模型。
ChatGLM2-6b是基于PrefixDecoder-only架構的大語言模型,具有60億參數,主要特點如下:
(1)基于FlashAttention技術,擴展長文本處理能力。經過1.4T中英標識符的預訓練與人類偏好對齊訓練,擴展了上下文對話能力,在同尺寸開源模型中具有較強的競爭力。
(2)基于Multi-QueryAttention技術,優化GPU內存訪問開銷,通過重計算、核融合等方式完善注意力機制,提高推理生成速度。生成2000字符平均僅需44.62s,推理速度相比初代提升約 42% 。
(3)采用CausalMask進行對話訓練,顯著優化顯存占用,進行量化推理時,初代模型最多能生成1119個字符,就會提示顯存耗盡,而ChatGLM2能生成至少8192個字符。
(4)采用RotaryPositionEmbedding,該編碼方式引入相對位置信息,能夠幫助模型區分不同位置的token,從而更好地理解上下文的語義結構。
表1中文大模型表現(2023年7月)

2.4檢索增強
考慮在實際使用中LLM存在幻覺問題,即面對訓練數據不包含的專業領域知識時,容易給出虛構信息答案,同時加強大模型對軍事專業知識的學習,采用檢索增強生成方法,增強模型處理密集專業知識的能力[5-6]。RAG 結合信息檢索與語言生成,檢索模型從外部知識庫中檢索出問題相關的知識,并將其作為LLM的上下文輸入提示(Prompt)。
本實驗基于LangChain框架進行檢索增強,分為以下兩個步驟:
(1)數據準備階段: ① 對數據集根據固定長度進行文本分割,分別選擇100、150、200詞塊量進行分割實驗[7],對比模型表現,最終選擇200詞塊量定長; ② 數據向量化(embedding),分別選擇M3E模型和Text2Vec模型進行向量化處理,并存儲于chromaDB向量庫,對比模型表現,最終選擇 Text2Vec 模型;
(2)檢索生成階段: ① 使用相同Embedding模型將問題轉換為查詢向量,建立索引,根據檢索策略、使用檢索算法進行相似性檢索; ② 根據檢索結果使用排序算法進行重排序,最終篩選最相關的 N 個向量,根據索引提取數據; ③ 把檢索到的相關數據知識與提問并入Prompt,充分發揮ChatGLM2的泛化能力,生成回答。
2.5 提示工程
經過檢索增強后的LLM仍具有語義不一致性現象,即語義相同的問題,由于表述方式不同,回答大相徑庭,同時還存在回答不受提示詞約束的影響,仍舊回答錯誤的問題。因此,一般通過增加約束性的指令提示、鏈式思維提示、路徑語言模型等多種提示工程方法,彌合期望輸出與LLM實際輸出的差距。本實驗采用類似思維鏈(chain-of-thoughts,CoT)[8]和迭代提示(iterativeprompting)的方式,流程如圖2所示。
圖2提示工程流程圖
Fig.2Prompt engineering process diagram

(1)思維鏈通過增加LLM中間的推理步驟,將復雜問題分解為一系列子問題并依次求解,從而構建清晰的推理思路和邏輯關系,提高推理能力。一個完整的包含CoT的Prompt往往由指令(instruction),邏輯依據(rational),示例(examples)3部分組成,其中示例分為Zero-Shot-CoT與Few-Shot-CoT。
本實驗以Few-Shot-CoT的方式提問,由問題描述、示例、偏好要求3部分構成[9,示例如表2所示。
表2提示工程示例
Tab.2Example of prompt engineering

(2)迭代提示通過與LLM不斷交互,迭代改進提問,逐漸找到能夠滿足期望輸出的提問方式或得到較符合預期的輸出。這種漸進式提示與LLM良好的上下文理解能力契合,常用于實際使用中。
本實驗根據實際情況, ① 通過LLM對提問抽取關鍵詞,對比該提問檢索到的相似上下文,根據經驗準確提問語義。 ② 對回答內容增加自我驗證[1]、深度思考引導,通過LLM交互式上下文感知,提高LLM回答問題準確性。
3 實驗結果及分析
3.1模型指標評估
本實驗采用“自動 + 人工”方式對大模型回答結果進行評估,包含相似度評價指標ROUGE[\"]和準確性評價指標準確度。
相似度評價借鑒摘要生成[]常用的文本生成評價指標ROUGE,該指標常用于衡量文本摘要質量,考慮了模型譯文和參考譯文之間的最長公共子序列,實驗調用rouge_chinese包進行計算。準確度指標由人工評估,選擇三位具備相同軍事知識且不參與實驗者進行準確度打分,從文章完整度、邏輯性、文章結構、實用參考性和用詞專業性五個方面進行百分制量化評分,最終取平均值。模型效果評估見表3,各項指標仍有較大的上升空間,通過“小樣本數據 + 提示工程”方法,LLM具備對軍事專業知識的回答能力,但不完全能做到“仿真擬人”。
表3模型效果評估Tab.3Model effect evaluation

3.2 案例分析
以具體案例(見表4)分析,實驗結果邏輯通順,LLM能夠掌握特定軍事業務的專業詞匯,對實際文稿的撰寫具有借鑒意義,還提供一些開拓性思考,符合預期[11-12]。但模型仍然存在語義理解不足的問題,回答部分中有與提問相關度不大的描述。
4結束語
本文進行大語言模型在軍隊信息服務工作中的應用實驗,以半自動化方式構建小樣本量軍事文稿的數據集,基于LangChain框架對ChatGLM2模型進行檢索增強,通過思維鏈和迭代提示方式進行提示工程,提高模型對于軍事領域專業信息的認知能力和推理能力。通過“自動 + 人工”方式評估模型表現,推理結果符合預期,可按照提示要求推理生成準確專業的軍事簡訊、新聞稿件,實驗表明可利用大模型生成內容,輔助信息服務工作開展。下步,可通過軍內交流合作等方式擴展數據樣本,嘗試利用大樣本量數據進行模型微調,加強提示工程等方式,完善模型應用,還可在戰略規劃、情報認知等方面推進大模型應用。
表4模型具體案例
Tab. 4 Specific case of LLM

參考文獻:
[1]董昭軒,王衛鋒,劉美麗.基于生成式大語言模型的 軍事領域受控文本生成方法[C]//第五屆體系工程學 術會議論文集——數智時代的體系工程,西寧,2023. DONGZX,WANGWF,LIUML.Method forcontrolled text generationin themilitary domain based on generative large language models[C]//Proceedings of the 5th Academic Conference on Systems Engineering-Systems Engineeringin theDigital Age,Xining,2023.
[2]張艷萍,陳梅芳,田昌海,等.面向軍事領域知識問答系 統的多策略檢索增強生成方法[J/OL].計算機應用,1- 12[2024-10-11]. ZHANGYP,CHENMF,TIANCH,etal.Multi-strategyretrieval-augmented generationmethod formilitary domainknowledge question answering system[J/OL].Journal ofComputerApplications,1-12[2024-10-11].
[3] 李姝,韋有濤,喬芷琪.大語言模型Prompt的設計原則 和優化流程[J].中國信息化,2024(9):31-33. LIZ,WEIY T,QIAO ZQ. Design principles and optimization process of the Large Language Model prompt[J]. Chinainformatization,2024(9) :31-33.
[4]謝明華.基于大模型的電子信息領域知識圖譜自動構
建與檢索技術[J].電訊技術,2024,64(8):1228- 1 234. XIEM H.Automatic construction and retrieval of knowledge graph in electronic information field based on Large Language Model(LLM)[J]. Telecommunication Engineering,2024,64(8):1228-1 234.
[5] 李鉑鑫.面向私有問答系統的檢索增強式大模型穩定 輸出方法[J/OL].計算機科學與探索,1-11[2024-10- 11]. LI B X.A method of retrieval-augmented large language models with stable outputs for private question-answering systems[J/OL]. Journal of Frontiers of Computer Science and Technology,1-11[2024-10-11].
[6]張華平,李春錦,魏順平,等.大語言模型驅動的開源情 報認知[J].國防科技,2024,45(3):51-57. ZHANG HP,LICJ,WEI SP,et al.Large language model-driven open-source intelligence cognition[J].NationalDefenseTechnology,2024,45(3):51-57.
[7]鄒佰翰,汪瑩,彭鑫,等.重新審視代碼補全中的檢索增 強策略[J/OL].軟件學報,1-28[2024-10-11]. ZOUB H,WANGY,PENG X,et al. Revisiting retrieval-augmentation strategy in code completion[J/OL]. Journal ofSoftware,1-28[2024-10-11].
[8] 李榮涵,浦榮成,沈佳楠,等.基于思維鏈的大語言 模型知識蒸餾[J].數據采集與處理,2024,39(3): 547-558. LIRH,PURC,SHENJN,et al.Knowledgedistillation of large language models based on chain of thought [J].Journal of Data Acquisition and Processing,2024, 39(3) : 547-558.
[9] 程云,呂爽,陳國祥.基于大模型的標準文獻智能問答 技術研究[J].信息技術與標準化,2024(8):38-43. CHENY,LYU S,CHENG X.Research on intelligent question answering for standard literature based on largescale models[J]. Information Technology amp; Standardization,2024(8):38-43.
[10]LIUY,LAPATA M.Text summarization withpretrained encoders[C]//Proceedings of the 2O19 Conferenceon Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing(EMNLP-IJCNLP).2019:3730-3740.
[11]崔健,汪永偉,李飛楊,等.結合知識蒸餾的中文文本 摘要生成方法[J/OL].計算機科學與探索,1-12 [2024-12-24]. CUIJ,WANGYW,LIFY,et al.Chinese text summarization with knowledge distillation[J/OL].Journal of Frontiers of Computer Science and Technology,1-12 [2024-12-24].
[12]劉佳,孫新,張宇晴.知識圖譜與大語言模型協同的教 育資源內容審查[J].華東師范大學學報(自然科學 版),2024(5):57-69. SUNJ,SUNX,SUNYQ.Educational resourcecontent review method based on knowledge graph and large languagemodel collaboration[J]. Journal of East China NormalUniversity(Natural Science)2024(5):57-69.
(責任編輯:許韋韋)