基于大語言模型的標準化文件生成方法研究

2025-07-08 00:00:00劉哲澤張寧鄭楠

復雜系統與復雜性科學 2025年2期

Abstract：ln order to promote the standardized development of various industries， correspondingstandardizing documenis need to be formulated in variou-s fields， such as nationaL standard and in-dustry standard. These standardizing documents not only provide a unified operating standard forthe industry， but also provide a cLear guidance basis for relevant parties. The Central C，ommitteeof the CPC and the State Council clearly pointed out in the \"the （）utlines for the Development ofNational Standardization\" thai promoting the digitalization process of standard is an importantmeasure to realize the modernization of the industry. Therefore， it is particularly important tocarry out research on the automatic generation of standardizing documents. With the rapid devel-opment of artificial inteLligence technology， especially the out-standing performance of Large lan-guage models in l.ext generation rasks， it is possibLe to use these advanced technologies to realizethe automatic generation of standardizing documenls. Based on this background， this paper pro-poses a two-stage scheme ：[or generating standardizing documenis." The scheme firsr. generates theoutline of the standardizing document through the large model， and then expands r.o generate thecomplete document content on this basis. By combining in-context learning and reirieval augmen-ted general.ion techniques， this method can not only generate high-quality texl.， but also signifi-cantly improve the accuracy and professionaLism of the generated content*" In order to verify thefeasibility of the scheme， we conducted a series of experiments on our self-built dataset， and theresulls show that the method can effectively generate documents that meet industry standards，and has good pracricability and promotion potential.

Keywords： large language models; reirieval augmented generation; text generation; in-contextlearning

0" 引言

目前，標準化文件的編寫主要依賴人工完成，由于標準化文件涉及特定格式及領域知識，編寫過程通常耗費大量時間。隨著數字化浪潮席卷各行各業，標準化文件的數字化進程也應受到積極推動。《國家標準化發展綱要》明確指出，要推進標準數字化進程。因此，迫切需要自動化方法來輔助標準化文件的編寫，以適應時代發展的需要并降低編寫成本。

從零開始生成完整的標準化文件被認為是一項復雜的任務，面臨著風格一致性和幻覺問題等挑戰。在法庭科學領域，標準化文件具有較高的專業化水平，要求用詞嚴謹，因此需要解決生成文本與標準化文件風格一致的問題，這也是本文關注的要點。

近年來，人工智能技術高速發展，相關技術也被應用到眾多下游任務中。生成完整文檔需要借助文本生成領域的相關研究。文本生成旨在生成清晰可讀的人類文本，即在給定一段文字作為輸入的情況下，模型返回另一段文字作為輸出。文本生成相關研究包括基于模板的模型、統計語言模型、神經網絡模型和預訓練模型等。基于模板的模型依賴于預定義的模板或詞匯，適合處理高度格式化的文本生成工作，Mi等對此進行了相關研究，但此類模型的輸出往往缺乏多樣性和可變性。統計語言模型通過統計語料庫中單詞的詞頻進行建模，主要包括N-gram模型和PCFG模型等，但該方法受到數據稀疏性的困擾。神經網絡模型利用神經網絡對語言進行建模，代表性工作有LSTM，已被應用到多個領域。然而，該方法在獲取大規模標注數據時面臨挑戰，且計算復雜度高，難以進行并行計算，盡管已有優化算法被提出。預訓練模型使用參數量巨大的模型進行文本生成，且可以在大規模未標注數據集上進行無監督訓練，Transformer[5]是該領域的代表性框架，在此框架下誕生了BERT、GPT等預訓練模型。特別是，使用預訓練模型生成有組織的文章被認為是一項頗具前景的研究領域，目前已有一些相關研究工作。

在神經網絡模型的研究過程中，每個下游任務通常需要單獨訓練一個新的模型，這在涉及較大模型時，成本往往高昂。預訓練模型（Pre-Trained Models，PTMs），即大語言模型（Large Language Models，LLMs），在應用于下游任務時，通常采用預訓練微調（Pre-train and Finetuning）的形式。首先，LLMs在大量未標注文本數據中進行無監督訓練，以獲得PTMs;然后，再利用針對特定任務的少量標注數據集進行微調，最終應用于下游任務。這種預訓練微調的模式顯著降低了訓練成本，并減少了標注數據集收集的開銷。同時，各種高效的參數微調方法的出現，進一步降低了微調過程中的訓練成本和模型存儲需求。

然而，大語言模型在生成過程中仍然存在幻覺問題，即可能生成與事實不符的信息。為此，學術界和丁業界提出了多種技術方法來緩解這一問題，例如檢索增強生成（ Retrieval" Augmented Generation，RAG）。同時，上下文學習（In-Conlexl. Learning，ICL）使得模型能夠理解任務的輸入輸出格式，從而更好地控制生成文本的格式。這些方法主要通過在提示詞中加入額外信息，為模型提供參考依據，從而實現指定形式的輸出。

基于上述背景，本文提出了一種結合大語言模型、模型微調、檢索增強生成和上下文學習的兩階段生成全文的方法。我們收集了710份法庭科學領域相關的標準化文件，并對其進行了清洗和整理，構建成數據集，并按7：3的比例劃分為訓練集和測試集。在實驗中，我們使用了一個擁有7B參數的預訓練模型，并在訓練集上針對兩階段生成任務對該模型進行了微調。在生成過程中，結合了檢索增強生成和上下文學習，第1階段從給定主題生成文章大綱，第2階段則基于大綱進行擴展，最終生成完整的文檔。最后，我們在測試集上對不同的方法進行了評估，以驗證方案的有效性。

1相關理論

1.1研究現狀

目前，針對文檔生成的研究主要集中在日志文件、法律文件和維基百科等方面，一些研究工作專注于章節和段落等短文的生成，而另一些則致力于全文的生成。例如，Mi等提出了一種自動化日志文檔生成模型，由于其工作偏向于模板化，導致生成的文檔缺乏多樣化。Shao等研究了使用大語言模型從零開始撰寫維基百科全文，主要關注了預寫作階段。Lin等研究了法律文件草稿的起草任務，側重于法律文檔數據集的收集和處理，并將其用于微調大語言模型，以生成法律文檔草稿，但其工作僅限于生成文章片段。Fan等同樣探索了使用大語言模型從零開始生成維基百科人物傳記全文，關注檢索過程中可能存在的偏差。沈等利用大語言模型對衛生標準化文件進行標準程度檢驗，并自動生成修改建議，主要集中在衛生標準化文件的自動化質控。至今尚未發現從零開始生成標準化文件全文的相關研究，本文的工作填補了這一空白。

1.2大語言模型

大語言模型，也稱為大型語言模型或大規模語言模型，是一種旨在理解和生成人類語言的人丁智能模型，這類模型通常具有數十億以上的參數。一般而言，隨著參數規模的增加，大模型的能力也會增強，這一現象被稱為拓展法則（ Scaling" Law）。白2017年Transformer模型問世以來，其架構被廣泛應用于各種下游任務，包括但不限于機器翻譯、文本生成、圖像生成、視頻生成等。近年來，針對大模型的研究迅速增長，國內外學術界和工業界相繼推出了多種大語言模型，如Google的BERT模型、OpenAI的（JPT系列模型、阿里云的Qwen系列模型以及深度求索的DeepSeek-Rl模型等。這些模型在幾乎所有自然語言處理任務中表現出色，展現了在理解人類語言和處理復雜問題方面的強大能力。

1.3檢索增強生成

盡管大模型在其參數中存儲了大量知識，但它們仍然存在幻覺問題，即在進行下游任務時可能產生不符合任務要求的輸出。檢索增強生成可以有效緩解這一問題。該方法通過提供外部知識來增強大模型的生成能力，這些知識被編碼為向量表示并存儲在數據庫中。借助檢索器，大模型可以從知識庫中提取與特定問題相關的信息，最終將這些知識融人提示詞中，輸人生成器（即大模型）以獲取輸出。Lewls等[14]將大模型的參數稱為“參數化內存”，而外部知識庫則作為補充，被稱為“非參數化內存”。這種外部知識庫使得大模型能夠獲取最新的知識或特定領域的專業知識，從而緩解生成中的幻覺問題。

此外，越來越多的新型檢索增強生成方法或技術被提出。例如，Balepur等[15]提出了IRP（ Imitate，Re-t rieve，Paraphrase，IRP）方法，旨在確保輸出的事實準確性，同時保留文檔的樣式。Semnani等[16]使用了少樣本提示的七步流程，通過檢索實現幾乎零幻覺。檢索增強生成通過整合外部數據，擺脫了大模型的知識限制，顯著增強了模型的生成能力。

1.4上下文學習

上下文學習是指給定模型提示詞和一些輸入輸出樣例的情況下，大模型能夠在不進行參數更新的前提下，表現出優于沒有樣例的性能。例如，在執行翻譯任務時，提供一些翻譯樣例可以提升大模型的翻譯能力。Brown等[13]研究了上下文學習，對比了零樣本、單樣本和多樣本情況下模型的表現。

上下文學習可以幫助大模型生成預期格式的輸出。通過在提示詞中加入示例，可極大提升大語言模型在下游任務中的表現。在上下文學習中，提示詞通常包括多個示例輸入和輸出對，以及要求大模型執行的具體指令，這有助于模型理解特定任務的輸入輸出要求，從而提高其處理類似任務的能力。生成的文本不僅依賴于模型在預訓練中學到的知識，還基于模型對上下文的理解。Min等[17]研究表明，示例輸入和輸出的匹配程度對大模型在下游任務中的表現影響有限。

1.5微調

預訓練一微調策略被認為是將大模型應用到下游任務的有效手段之一，該策略能夠實現模型的復用，節省訓練成本。在進行下游任務時，可直接使用他人預訓練好的模型，也可以對其進行微調，使其更好地應用于特定任務。

大模型首先在預訓練任務上進行預訓練，如掩蔽語言建模（Mask Language Modeling，MLM）和下一句子預測任務（Next Sentence Prediction，NSP）等。在此過程中，數據集中的知識被編碼到大模型的參數中，即形成“參數化內存”，使得大模型具有語義理解、知識問答和指令遵循等能力。掩蔽語言建模任務有助于模型學習單詞和句子之間的關系，而下一句子預測任務則使模型能夠理解句子與句子之間的語義關系。

在將大模型應用到下游任務中時，通常會選擇對模型進行微調。微調一般是在特定任務的標注數據集上進行有監督學習，在此過程中，模型學習到針對特定任務的知識。針對文本生成任務的微調方法主要包括全參數微調和參數高效微調。全參數微調對大模型的所有參數進行調整，消耗更多的計算資源和存儲空間，尤其在訓練參數量極大的模型（如（GPT - 3[13]，約175B參數）時，其代價不可接受。

相比之下，參數高效微調僅對部分參數進行調整，從而在不損失性能的情況下，顯著降低訓練成本并節省模型存儲空間。Houlsby等[10]提出了適配器微調（Adapter Fineiuning）方法，通過在Transformer模塊中加入適配器，在微調時凍結其他參數，僅對適配器參數進行訓練。Hu等提出了低秩自適應（ Low-Rank Adaptation，LoRA）方法，凍結預訓練模型權重，并將可訓練的秩分解矩陣注入到Transformer模塊的每一層，極大地減少了訓練參數量。相比于適配器方法，LoRA在推理時沒有額外延遲，成為目前比較先進的微調方法。

2" 問題及解決方案

2.1" 文檔生成任務

本文所關注的任務是“標準化文件生成任務”，其目標是根據給定的標準化文件題目生成完整的標準化文件，包括大綱及其具體內容。具體而言，本文旨在解決法庭科學領域的標準化文件生成問題。例如，給定標準主題“疑似毒品中海洛因的氣相色譜、氣相色譜質譜檢驗方法”，系統應能生成相應的標準大綱及其內容。

為便于后續討論，本文定義了一些關鍵術語。標準文件主題（topic，簡稱TO），大綱（outline，簡稱0），各級標題（title，簡稱Ti），小節內容（content，簡稱C），向量數據庫的文檔集合（document，簡稱D，D={d，，d2，d3，…}）。在生成過程中，大綱O經過層級化操作之后轉化為各級標題Ti。向量數據庫的建立將在3.1.4小節詳細介紹。

2.2檢索增強生成的實現

檢索增強生成包括索引（Indexing），檢索（Retrieval）和生成（Generation）三個步驟，本小節將重點介紹檢索和生成的具體過程（見圖1），索引的建立過程在3.1.4小節中進行詳細說明。

生成過程則是將檢索到的文檔D與提示詞結合，輸入生成器（即LLMs）以獲取最終輸出。在大綱生成中，將表2的通用提示詞與大綱生成的內容拼接，同時用文檔D填充“rag_outline_information”字段；在內容生成中，則是填充“rag_content_information”字段。“num”字段用文檔數目填充，其余字段根據具體任務不同進行相應填充。最后，將填充好的提示詞輸人生成器進行文本生成。

2.3兩階段生成全文

由于一次性生成完整的標準化文件存在一定困難，本文采用兩階段生成的策略。第1階段根據給定的標準文件主題To生成大綱O;第2階段根據標準文件主題To和大綱O逐小節生成全文。

2.3.1大綱生成

在大綱生成階段，使用標準文件主題To生成大綱0，如圖1中每半部分的上一行所示。首先進行檢索，使用標準文件主題To從3.1.4小節的第一階段向量數據庫中檢索得到文檔集合D={di，d2，…，d}，D中包含是個文檔，且這些文檔均與大綱內容相關；然后，結合提示詞，將檢索到的內容作為上下文為大模型提供輸入輸出樣例，用于生成大綱，見式（1）。提示詞見表2的通用提示詞與大綱生成。

2.3.2" 內容生成

在內容生成階段，使用標準文件主題To和大綱0來小節生成全文，如圖l中每半部分的下一行所示。

3實驗

3.1" 標準化文件數據集

我們收集了法庭科學領域的國家和行業標準化文件700余份，涵蓋了法庭科學相關領域，包括強制性標準（GA，GB）、推薦性標準（GAlT，GB/T）及指導性技術文件（（JAlZ）。在數據處理過程中，首先使用水印去除工具去除文檔中的水印，然后使用光學字符識別（OCR）T具識別出每頁的文本，經過人工校對后，我們最終獲得了710份文件，并提取了文本中的結構化信息，保存為JSON文件格式。接著，將結構化的JSON文件轉化為兩個任務所需的輸入輸出文本形式，最后建立標準化文件向量庫。

以下將詳細介紹人工處理、結構化信息提取、輸入輸出文本轉換及標準化文件向量庫的建立過程。

3.1.1人工處理

在這一步驟中，我們對OCR識別出的文件進行了人工處理，主要包括糾錯以及對標題、圖表和公式等的處理。糾錯主要針對水印去除不充分的文件，人工修正OCR識別后產生的錯誤文本，確保文本的準確性。

為了提取文本中的結構化信息，我們使用標題正則表達式（見表4）匹配文本中的標題。在此過程中，可能會出現由于OCR識別導致的錯誤情況。例如，某個不應被識別為標題的行符合我們的標題正則表達式（情況1），

或者某行應為標題但是未匹配標題正則表達式（情況2）。針對情況1，我們為該行添加（ not-tir.le）的標簽；對于情況2，我們為該行添加lt;titlegt;標簽，具體的樣例如表3所示。

此外，我們刪除了目次、附錄等內容，針對圖表公式，使用（ figuregt;、lt;tablegt;和lt;formulagt;進行替換，替換后的結果樣例為“（ figuregt;圖1剪切工具刃部各部位名稱”、“lt;tablegt;表l流動相和梯度洗脫條件”及“（formulagt;”。

3.1.2提取結構化信息

將經過3.1.1小節處理后的文本，提取為結構化文本格式，即從中提取出文件名、標準名、前言、各級標題及內容等，并以JSON文件進行存儲。具體而言，標題的提取依賴于表4中的“標題正則表達式”，而標準名則依據表4中的標準正則表達式進行匹配。標題以字典形式存儲，格式為“iitLe：（level，content}”，其中level表示當前標題的層級，content表示標題的具體內容；內容采用“paragraph：[’xxx，xxx…]”的形式存儲，其中“xxx”代表一句完整的句子

3.1.3轉化為輸入輸出文本形式

將3.1.2小節處理得到的JSON格式數據轉換為任務所霈的輸入輸出形式。在這一過程中，我們提取了標準文件主題To、大綱O、各級標題丁i及對應的內容C。特別地，標準文件主題T經過格式統一和規范處理。

需要注意的是，各級標題采用層級化方式與其對應內容一起存儲。

3.1.4建立標準化文件向量數據庫

此階段還涉及到索引建立。根據3.1.3小節處理得到的文件，我們依據訓練集和測試集的劃分，分別建立向量數據庫。我們使用了Chroma向量數據庫，并采用bce-embedding-base_vl嵌入模型，向量維度設定為768維。

對于第一階段任務，我們使用標準文件主題To作為索引，大綱O作為索引目標，建立第1階段的向量數據庫（訓練集包含497組數據、測試集包含213組數據）；對于第2階段任務，我們使用標準文件主題To和標題Ti作為索引，內容C作為索引目標，建立第二階段的向量數據庫（訓練集包含119 54組數據、測試集包含5 551組數據）。

兩階段的向量數據庫的建立過程如圖2所示。此外，訓練集和測試集的向量數據庫是分開建立的。

3.2評價指標

3.3基準模型及微調模型

本文使用的基準模型為Qwen2. 5-7B-Instruct，該模型是阿里云開發的大語言模型，它在多達18T詞元的數據集上進行了預訓練。我們選擇此模型主要是基于該模型對中文文本優秀的處理能力以及推理能力，并且模型大小合適。此外，該模型經過了指令微調，可以更好的按照用戶指令執行任務。

我們分別使用第1、2階段任務的訓練集微調了兩個模型：大綱生成模型和內容生成模型。我們使用LO-RA‘Ⅲ方法進行微調，使用LLaMA-Factory工具。對于兩個微調模型，學習率均設置為le - 5并采用余弦退火，預熱比例為0.1。訓練輪數選擇20輪，在八張NVIDIA Tesla VlOOS PCIe 32GB上進行訓練，每張卡的訓練批次大小為1，梯度累計步數為8，驗證集比例設置為0.1。

針對圖3的訓練結果，對于大綱生成模型，我們選擇第120步處的檢查點；對于內容生成模型，我們選擇第200步處的檢查點。

我們還訓練了一個神經網絡模型（Char-RNN）作為對比實驗，但在面對本文的長文本生成任務時效果很差（Rouge 1得分約0.257 81，Rouge I。得分約0.094 37，且生成文本中存在很多噪點），出于篇幅考慮，本文不列出結果。

3.4實驗設置

為了更好的彰顯結果的有效性，針對大綱生成和內容生成兩個階段任務，我們分別進行了5組實驗：

1）使用原始模型，輸人為表2的提示詞，但不帶檢索；2）使用原始模型，輸人為表2的提示詞，但帶檢索；3）使用微調模型，輸人為標準文件主題To（標準文件主題To和標題Ti）；4）使用微調模型，輸入為表2的提示詞，但不帶檢索；5）使用微調模型，輸入為表2的提示詞，但帶檢索。

使用測試集進行了實驗，檢索的數據庫為訓練集向量數據庫。表5和表6中的試驗編號即代表上述5組實驗，對于每個實驗設置，均進行了3組平行實驗，最終每組的實驗結果取平均值。

3.5結果與分析

3.5.1主要結果

我們首先評估了大綱生成的質量，表5展示了軟頭召回率和Rouge指標的得分。可以看出，小節2.3.1提出的大綱生成方法（對應表5的實驗（2）和實驗（5）取得了最好的表現。接著我們評估了內容生成的質量，表6展示了Rouge指標的得分。可以看出，小節2.3.2提出的內容生成方法（對應表6的實驗（2）和實驗（5》取得了最好的表現。這表明小節2.3提出的方案是有效的，我們將在3.5.2和3.5.3對實驗結果進行詳細的分析。

最后，展示標準文件主題為“GB/T 29361-2012電子物證文件一致性檢驗規程”的生成結果。如圖4所示，為大綱生成的一個樣例（選用實驗（2）結果），可見預測大綱包含了真實大綱的大部分內容，在內容豐富度上，預測大綱要更好一些；如圖5所示，為內容生成的一個樣例（選用實驗（2）結果，大綱使用真實大綱），可見預測內容的專業化水平高，且與真實內容的文本風格相似，但預測內容在細節上存在不足，如在“#4儀器設備##4.2軟件”中，預測內容只是給出了軟件應具備的功能但缺乏實例，而真實內容則是給出了具體的軟件，提供了實際可用的選擇。

3.5.2消融實驗

對于大綱生成和內容生成來說：

1）檢索的作用。對比表5、表6中的實驗（1）和實驗（2）或者實驗（4）和實驗（5）的結果可以得知，加入檢索可以提高最終的表現。這表明，通過檢索相關示例，然后在提示詞中為大模型提供一些動態的輸入輸出示例，能有效的激活模型的類比能力，從而提高模型的性能表現，這驗證了模具有強大的上下文學習能力，也驗證了該模塊的有效性。

2）微調的作用。對比表5、表6中的實驗（1）和實驗（4）的結果可以得知，經過微調之后，僅使用提示詞能夠提高模型的性能表現。這表明當輸入格式從結構化文本（微調階段）調整為自然語言描述（推理階段）時，經過微調的模型（實驗（4》較基線（實驗（1））在各指標上有所提升，這驗證了模型具有較好的格式魯棒性。

3.5.3討論

對于大綱生成和內容生成來說（針對表5和表6）：

1）提示詞的影響。未經過微調的模型，在直接使用實驗（3）的輸入時，無法產生預期格式的輸出，因此我們未進行該類型的實驗。然而通過實驗（3）與實驗（4）的對比，我們可以得知，經過微調的模型，即使不使用提示詞給出明顯的輸出格式定義，其性能表現仍能達到很高，因此，模型微調能顯著提高在下游任務中的表現。

2）微調的影響。實驗（2）和實驗（5）的性能數據各有勝負，實驗（5）僅在Rouge l指標上要高出實驗（2），而在其余指標上低于實驗（2）。這表明，經過微調后的模型，在生成的文本中可能包含了更多與參考文本相同的詞元，這反映了較好的詞匯匹配；然而，相比于未經過微調的模型，生成的文本可能并沒有建立起相對完整或連貫的句子結構，微調模型傾向于重復參考文本的高頻詞元，存在冗余問題。

為了進一步探究檢索和微調對實驗結果的影響，針對表5和表6，我們計算了使用檢索或微調之后，各項指標的提升比例（見表7和表8）。

3）檢索機制的核心作用。實驗（2）和（5）均顯著優于無檢索的對應實驗（1）和（4），且指標的提升幅度較大，這表明檢索機制是性能提升的核心因素，無論是否微調模型，引入檢索都能大幅增強生成內容的相關性和準確性。

4）微調策略的邊際效應。實驗（4）和（5）相比于未微調的對應實驗（1）和（2），提升比例非常小，甚至有負提升，這表明當前微調策略的優化有限，尤其在與檢索場景相結合時。

表7和表8的結果表明，實驗（2）和（5）的成功主要歸功于檢索機制的有效性，而微調模型的潛力尚未完全釋放。未來工作需優化微調策略，使其更緊密適配檢索場景，以進一步提升生成質量。

4結論

本文建立了法庭科學標準化文件數據集，并通過兩階段生成全文的方式，使用大語言模型和相關技術，開展了法庭科學領域的標準化文件生成工作。通過一系列實驗，結果表明，本文提出的方法在性能上取得了顯著的提升，驗證了其有效性。本研究為法庭科學領域的標準化文件生成提供了有效的方法和實踐經驗，同時為后續研究指明了方向，尤其是在微調模型與檢索機制的結合應用方面。首先，微調模型在生成過程中存在冗余問題，這影響了生成文本的質量。雖然我們嘗試使用檢索增強生成技術來緩解幻覺問題，但未能對此進行深入分析。因此，未來的研究應重點關注優化微調策略，以更好地適應檢索場景，從而進一步提升生成質量。

參考文獻：

[1]中華人民共和國國務院．中共中央網務院印發《網家標準化發展綱要》[EB八）IJ[2025 - 03 - 28l." https：//www. gov. cn/gongbao/content/2021/content_5647347. htm." Siate Council of the People's Republic or China." The cenLral committee or the cpc and the state council print ancl issue the outlines for ihe deveL" opment" of naiional stanclardizaiion[EB/（）I.].[2025 -" 0 3 - 28l. htips：/J www. gov. cn，/gongbao／coment/2021J content_564 734 7. htm.

[2]" Ml I。，I.I C R， DU P，el a1.Construction and application.r an automatic documem generation modeI[Cl. 2018 26th InternaLional Conference" "on Geoinformatics." Kunming， China， 2018：1 -" 6.

[3]孿若晨，肖人彬．基于改進狼群算法優化I.Srl'M網絡的輿情演化預測[J]．復雜系統與復雜性科學，2024， 21（1）：1-10." I.l R（’， XIAOR B.Public opinion evoluiion prediction based on I.STM network optimized by an improved wolf pack algorithm[Jl. Complex" Sysiems and Complexity Science，" 202/L，" 21（1）：1 - 10.

[4]李炎，李憲，楊明業，等．基于概率優化的神經網絡模型組合算法[J]．復雜系統與復雜性科學，2022， 19（3）： 10/1-109" "I.I Y，I，I X， YAN（;M Y，et aL Neural network model combinacion algoriihm based on probability optimization[J]. Complex Systems ancl"Complexity Science， 2022. 19（3）：" 10/1 - 109.

[5]" VASWANI A， SHAZEER N，PARMAR N，吼al_Attention ls all you need[Cl. Advances in Neural Information Processing Systems. LongBeach， C.alifornia， USA： C-urran Associates， Inc， 2020： 1877 - 1901.

[6]" "DEVI.IN J，CHANGM W， I}EE K，eL al.F3ER'F： prertraining of deep biciirectional transformers for language understanding[EB/（）I.l.[2020 - 03" 28l." https：//arxiv. org/abs／1810. 0{1805

[7]" SHAOY J，JIANC Y C，KANEI_I.T，et al" Assisting in writing wikipedia-like articles from scratch with large language models[Cl." Proceed- ings of the 2024 Conference of the Norih American Chapter or the As：sociation for Computational I，inguistics： Human IJanguage Technologies." Mexico：" Association ror Computational IJinguistics，" 2024，1：6252 - 6278

[8]" I_IN C H！ C/HENG P J.I_egal documems drafting wiih fine-tuned pre-trained large language modeI[EB/（）I.].[2020 -03 -28l. hitps：//arxiv." " org/ab.s/2r106.04202.

[9]" FAN A， GARDENT C.Generating biographies on wikipedia： the impaa of gender bias on the reirieval-based generation of women biographies

[C]." Proceedings of the 60th Annual Meeting.f the Association for C：omputational I.inguistics." Dublin， Ireland： Association ～or Computational" " I，inguistics， 2022，1： 8561 - 8576.

[10] HOUI.SBY N，GIURGIU A， JASTRZEBSKI S，et al.Parameier-Efficient 'rransfer I.earning for NI_P[C]. Proceedings of the 36th Interna" " tional Conference on Machine Learning， IC，ML 2019." I_ong Beach， California， USA， 2019： 2790 - 2799.

[11] HU E J，SHEN Y I.，WAIJI_IS P，et al.LoRA： low-rank adaptation of large language models[Cl." 'I'he Tenth International Conference on" " I.earning Representations， ICIJR 2022." VirtuaL Event， 2022：1 - 13.

[12]流佳妮，曹劍峰，殷亦超，等．基于大模型構建衛生標準文檔規范住質控系統的研究[J]．中罔衛生信息管理雜志，2023， 20（6）：875 -880，896." " SHEN J N， CAOJ F，YIN Y C，el al_Study on construciion or a normative qualiiy control system /or healih standard document based on large" "models[Jl." C.hinese Journal of Health In～ormatics and Managemenc， 2023， 20（6）： 875 - 880，896.

[13] BR（）WVN T， MAVN JN B，RYDER N，et al.I.anguage models are few-shot learners[C]. Advances in Neural Inrormation Processing Systems." " Vancouver， BC， Canada： Curran Associates， Inc， 2020： 1877 -1901.

[14] I_EWIS P，PERE：Z E，PIK FUS A， et al_Retrieval-augmented generation for knowledge-intensive NIJP tasks[Cl." Advances in Neural Inforrna-

tion Processing Sy.stems. Yancouver， BC， Canacla： C.urran Associates， Inc， 2020， 9/159 - 9{17/1.

[15] BALEPUR N，HUANG J，CHANG K.Expository text generalion： imitate， retrieve， paraphrase[C]. Proceedings or the 2023 C，onference on" " Empirical Methods in Natural I.anguage Processing." Singapore：" Association for Computaiional IJinguistics， 2023：" 11896 - 11919.

[16] SEMNANI S，YA（） V， ZHA7NG H，et al.WikiChat： stopping the hallucination of large language model chaibots by few-shot grounding on wikipedia[C]." Findings of the Associaiion for Computational IJinguistics： EMNIiP 2023." Singapore： Association ～or Computational Ilinguistics." " 2023： 2387 - 2/113.

[17] MIN S.I_YU X， HOI.TZMAN A， et al.Rethinking the roLe of demonstrations： what makes in-comext learning work？" [Cl. Proceedings.f the" 2022 Conlerence on Empirical Methods in N Jatural I_anguage Processing." Abu Dhabi， United Arab Emirates： Association ror C.omputational I_in guisiics， 202？： llOr18 - 1106rl.

[18] F'RAhlTI P，MARIESCU-ISTODOR R.Sofi precision and recaIl[Jl." Pattern Recognit Lett， 2023， 167： 110 - 121.

[19] I.IN（：Y.ROUGE：A package for automatic evaluation of summaries[Cl. Text Summarization Branches Out. Barcelona， Spain： Associationfor C，omputational I_inguistics， 2004：7d- 81.

【責任編輯李" 進）