999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

KADR-LLM:基于深度檢索推理的大語言模型輔助檔案開放審核方法

2025-08-20 00:00:00曹正陽金詠詩孫俐麗秦洋馮李航
中國測試 2025年7期

中圖分類號:TB9 文獻標志碼:A文章編號:1674-5124(2025)07-0009-10

Abstract:This paper addresses limitations in traditional archive declassification review systems, including low efficiency, excessive subjectivity,and inadequate semantic analysis.A KADR-LLM-based intelligent auditing framework was developed,integrating Dense Passage Retrieval (DPR) capabilities with Knowledge Augmented Reasoning Process (KARP) mechanisms to establish a three-stage \"retrieval-reasoningverification\" paradigm. Key innovations include: A dual-channel text preprocessng method optimizing semantic representation through paragraph truncation based on document spatial structures; A rule-driven dynamic reasoning system combining sensitive term matching with retrieval-augmented generation; A keywordguided progressve auditing strategy enabling interpretable decision-making from surface feature extraction to logical chain validation. Evaluations on OParchives datasets showed KADR-LLM achieved 79.98% accuracy in zero-shot conditions and 82.34% in few-shot scenarios, surpassing baseline models by 4.31% while demonstrating superior semantic generalization capability.

Keywords: archival opening review; large language model; dense retrieval; reasoning prompt

0 引言

在數字時代,檔案開放共享對社會信息化和知識創新意義重大。我國《檔案法》修訂及“互聯網 + 政務服務”改革背景下,檔案開放審核急需從保管型向服務型轉型。截至2023年,全國綜合檔案館館藏超12億卷檔案,開放率卻不足 30% ,存在“重保管輕利用”的矛盾。傳統審核模式存在三重瓶頸:人力審核效能低,專業人員年均處理量僅2000件,難以應對檔案積壓;敏感信息識別依賴個體經驗,易錯審漏審;跨卷宗語義關聯分析能力缺失,無法解析復雜歷史語境中的潛在風險。尤其在涉密檔案、個人隱私及商業秘密等敏感領域,現行技術缺乏深度語義理解與智能預判能力,致使大量檔案滯留待審狀態。亟需技術創新突破,通過智能化手段重構審核流程,實現范式轉變,激活“沉睡檔案”的知識價值與社會效益。

隨著人工智能技術迅猛發展,大語言模型在自然語言處理領域脫穎而出。其與傳統深度學習模型不同,主要依賴無監督學習,對海量文本數據預訓練,無需大量標注數據即可掌握語言模式和規律。同時具備強大上下文理解能力,能根據前文內容準確把握語義,生成符合邏輯和語境的回答。此外,可作為初篩工具,在信息檢索、文檔審核等場景中,快速篩選出與用戶需求相關的候選結果,再由人工或其他精細模型進行最終審核,提高流程效率。這些優勢使其能有效彌補當前檔案自動化審核方法的不足,為檔案審核領域帶來新機遇和改進。

針對這些挑戰,本文提出KADR-LLM(Keyword-Augmented Dense Retrieval with Large LanguageModels)創新方法,通過深度融合DPR(Dense PassageRetrieval)的向量空間映射能力與KARP(KeywordAndReasoningPrompting)的領域知識引導機制,構建起\"檢索-推理-驗證\"的三階智能審核范式。

本研究的理論創新體現為三方面:

1)傳統數字檔案預處理方法多側重于格式統一化調整,難以有效區分文本結構信息。本研究創新性地提出按圖像結構區分關鍵信息與正文信息的預處理架構,通過段落語義單元裁剪技術實現正文解構,突破了現有方法對文本結構化處理的局限性。

2)現有敏感詞審核技術通常采用靜態規則匹配,忽視了審核細則的動態關聯性。本研究提出了檢索增強模型(DPR),將敏感詞觸發文本與審核細則通過Prompt工程進行深度綁定,解決了傳統方法在復雜政策法規匹配中的語義鴻溝問題。

3)針對現有關鍵詞提取方法無法兼顧規則匹配與推理診斷的矛盾,提出了一種基于KARP的關鍵詞與推理提示方法。KARP采用了一種漸進式推理策略來處理與審核細則匹配好的檔案數據,首先提示大語言模型尋找表面關鍵詞,然后將DPR模型檢索到相對應的審核細則進行診斷推理,最后綜合上述兩個步驟確定最終的審核結果,并附上審核理由和對應的審核細則。

1相關工作

1.1基于規則匹配的審核分類方法

基于規則匹配的檔案開放審核技術是早期常見方法,其核心是構建預設規則,通常以敏感詞、敏感信息特征等形式存在,通過判斷檔案內容是否符合規則進行標記和處理。楊揚等1介紹了敏感詞全文比對技術在檔案開放審核中的應用,利用OCR技術和DFA算法識別敏感詞并定位,實現自動化篩選和批量處理,提升了審核效率。符澤凡等[2]為變體詞還原和敏感信息識別提供了參考。然而,這類方法存在局限,規則覆蓋面有限,難以應對復雜語義和隱喻,可能無法準確識別未被規則涵蓋的敏感信息。

1.2基于機器學習的審核分類方法

隨著技術發展,基于機器學習的檔案開放審核技術興起,利用大量已標注檔案數據訓練人工智能模型來識別敏感信息,相比基于規則匹配的方法更靈活、適應性強。劉佩鑫等[3]提出了一種基于樸素貝葉斯的檔案分類方法,實現了檔案資源自動分類的功能。霍光煜等[4則通過LDA主題特征聚類實現檔案類別劃分。但機器學習方法存在局限,如模型準確性受固有限制,在大數據集或復雜語義時難以精準分類。

基于深度學習的檔案開放審核技術進一步推動了該領域發展,深度學習模型能自主學習自然語言的語法和語義特征,具有更高容錯性和準確率。楊宏宇等[5提出一種融合多層次語義和依存句法信息的檢測方法。劉桂雄等研究的無監督學習檢測方法為檔案開放審核中的篡改痕跡檢測提供參考,通過預訓練大模型提取跨模態特征實現異常樣本檢測。不過,深度學習模型訓練需耗費大量人力標注數據,且存在語義分析不準等問題,在實際應用中仍有局限性。

1.3基于大語言模型的審核分類方法

隨著Transformer架構與預訓練技術的持續突破,大語言模型(Large Language Models,LLMs)[7]憑借其深層次語義理解能力和知識泛化特性,為檔案開放審核范式革新提供了關鍵技術支撐。作為參數規模達千億級的預訓練語言模型,LLMs通過自監督學習從海量語料中捕獲語言規律與領域知識,展現出三方面顯著優勢:上下文感知能力支持長文本連貫性解析,可有效處理檔案文本的跨段落語義關聯;提示工程[8][9](Prompt Engineering)技術突破傳統監督學習限制,通過zero-shot或few-shot學習實現審核任務的快速適配;邏輯推理能力賦能復雜規則體系解構,可模擬檔案審核專家的多維度決策路徑。閆奕樸等人[10]提出將大模型應用于工業異常檢測中,進一步豐富了大模型的應用場景。林瑀等人[]討論了多源異構數據給復雜信息系統的智能化信息處理帶來巨大挑戰。Sun等人[12]表明,通過上下文學習,模型能夠根據提示中提供的示例對文檔進行分類。 Yu[13] 提出了一種基于大語言模型的數據增強方法,為檔案分類提供了一種新穎高效的解決方法。劉越男等人[14]針對大語言模型在語義理解、無監督學習、可解釋性等方面具備技術優勢,提出基于大語言模型的檔案開放審核任務框架,通過提示工程引導大模型完成復雜多樣的檔案開放審核任務。

2基于KADR-LLM的檔案開放審核方法

針對現有輔助檔案審核技術缺乏充分的數據預處理操作,以及依賴高質量涉密檔案作為訓練數據的問題。本文提出了一種基于KADR-LLM技術的輔助檔案開放審核方法。該方法整體結構如圖1所示。KADR-LLM技術主要包括:文本數據優化機制、敏感詞匹配機制、DPR檢索模型、KARP關鍵詞與推理提示法、本地大語言模型。具體流程如下:

圖1KADR-LLM結構圖

1)構建本地細則知識庫、訓練文檔庫、敏感詞庫,通過訓練文檔庫和本地細則知識庫結合訓練DPR檢索模型參數。

2)對待審核數字檔案進行預處理操作,將文本按圖像結構區分為關鍵性信息和正文信息,通過段落裁剪方法解構正文。

3)對預處理后的文本數據進行敏感詞匹配操作,通過敏感詞匹配的文本輸入DPR檢索模型進行審核細則匹配。將被審核文本與審核細則進行組合,并進行關鍵詞與推理提示法進行進一步審核。

4)獲取大模型審核意見,根據提供的控制指數結合敏感詞匹配情況綜合給出最終審核意見,將審核意見進行標注并送往人工復審。

2.1 檔案數據預處理模塊

檔案數據預處理模塊負責構建審核細則知識庫、敏感詞庫及處理被審核檔案數據,旨在為DPR檢索模型生成訓練數據,并對被審核文本進行分詞、清洗、分段等前處理操作。檔案文本通常較長且語義復雜,噪聲較大,傳統基于語義相似度的審核模型難以充分理解其深層含義。為此,本文提出一種被審檔案數據預處理方法:通過記錄原電子檔案數據的空間位置信息,將文本劃分為關鍵性信息和正文信息。對關鍵性信息文本,重點檢測敏感詞;對正文信息文本,在統計敏感詞出現次數的同時,關注深層語義,進一步將其切割為段落單元的中短文本,具體流程見圖2。

圖2數據預處理流程圖

首先,使用OCR識別技術對電子檔案進行文本識別,同時記錄單頁檔案每行左上、右下二個坐標,唯一確定每行坐標值。并計算當前頁行高平均值、行間距平均值。行坐標以 2×2 的二維數組定義(代表當前行數):

首先,使用OCR識別技術對電子檔案進行文本識別,同時記錄單頁檔案每行左上、右下二個坐標,唯一確定每行坐標值。并計算當前頁行高平均值、行間距平均值。行坐標以 2×2 的二維數組定義(代表當前行數):

行高平均值計算表示為:

式中: Rh -行高平均值;l? -行數;Ai [1][2]- 第i行左上坐標值的Y;Ai [2][2]- -第行右下坐標值的 Y 。

行間距平均值表示為:

式中: Ls 一 -行間距平均值;

l—行數;

Ai [2][2]- 第i行左上坐標值的Y;

Ai-1 [1][2]- 第i-1行右下坐標值的Y。

考慮到存在個別檔案中的關鍵信息,如標題對正文部分行間距過大,可能導致公式計算的偏差,為了減少特殊行的行高和行間距對整體平均值的影響,這里針對行間距大于平均行間距三倍及以上的特殊行,使用 Ls×1.2 進行替換,針對行高大于平均行高三倍及以上的特殊行,使用 Rh×1.2 進行替換。并再一次計算優化后的行高與行間距平均值。

進行上述預處理操作后,按行依次對各頁文本內容分類為關鍵性信息與正文文本信息。針對該行上下行間距大于平均行間距 10% 以上的,單側行間距大于行平均間距 20% 以上的;或當前行高高于平均行高 30% 以上的行,標記為關鍵性信息所在行。其余非關鍵性信息行標記為正文文本信息所在行。完成關鍵性信息與正文信息的劃分操作后,對正文信息進行分段處理,這里需要記錄正文信息文本行寬和平均行寬,文本平均行寬計算公式如下:

式中: Rw —行寬平均值;

ln —正文信息行數;

Ai [2][1]- 第 i 行右下坐標值的 Xi

Ai [1][1]- 第 i 行左上坐標值的 X

定義換行標記為該段落文本的結尾終止符。針對正文行寬低于行寬平均值 90% 的行標記為換行。針對本行以句號結尾且第二行文本左側起始坐標大于行寬平均值 8% 的標記為換行。按換行標記進行正文文本分段處理,如圖3示例。

工業大學浦江學院 實例:關鍵信息:[“工業大學江浦校區”,“科研處文件”,“2022科研處文件 年”,“科學規劃”,“通知”]e滿科(2022)29號 正文信息:關于組織申報2022年度省教育科學規劃課題的通知 [二級學院、各部門:為認真學習貫徹黨的二十大精神,全面落實amp;省“十四五”二級學院、各部門:教育科研發展規劃gt;,更好發揮規劃課題促進和引領教育改革發展的為認真學習黃徹黨的二十大精神,全面落實《省“十四五”教育科研發展規劃》,更好發揮規劃課題促進和引領 重要作用,以加快建設高質量教育體系,積極推動高標準建設教教育改革發展的重要作用,以加快建設高質量教育體系。積 育強省。經研究決定,從今年11月起組織開展2022年度省教育科學極推動商標準建設教育強省,經研究決定,從今午11 規劃課題的申報工作。現將有關事項通知如下:月起組織開展2022年度省教育科學規劃課題的申報工作。一、課題類別現將有關事項通知如下:一、課題類別 課題設為“重大課題”“重點課題”“專項課題”“委托課題勢四課題設為“重大課題”“重點課題”“專項課題”“委 類,共設立800項左右。托課題”四類,典設立800項左右。 “重大課題”聚焦高標準建設教育強省和高質量教育體系構建的“重大課題”聚焦高標準建設教育強省和高質量教育體戰略性與政策性問題,按照規定程序征集避選,最終由省教育廳和省系構建的戰略性與政策性問題,按照規定程序征集適選,最終由省教育廳和省教育科學規劃領導小組審定,擬設立10 教育科學規劃領導小組審定,擬設立10個左右戰略性與政策性重大個左右戰略性與政策性重大招標課題,向金社會公開發布, 招標課題,向全社會公開發布,采用“揭榜招標”方式進行研究。]采用“揭榜招標”方式進行研究。

2.2 敏感詞匹配機制

使用敏感詞匹配的方式可以快速決策部分檔案,從而提高審核效率和準確率,本文采用多層敏感詞匹配機制。首先設置敏感詞相似度閾值 T1 ,設置正文敏感詞出現次數區間 T2 。這兩個參數都是可調的超參數。設置完成后導入本地敏感詞信息庫,該信息庫的建立由數據預處理模塊完成,對通過預處理后的關鍵性信息進行敏感詞逐次匹配操作,并比較關鍵性信息詞向量與敏感詞向量相似度,相似度計算公式如下:

式中: Ai -關鍵信息詞向量;Bi 一 敏感詞向量。

當 sin(θ) 靠近1時表示相似度高,當被審詞語相似度 sin(θ) 高于閾值 T1 時判定敏感詞匹配成功,根據敏感詞索引返回對應匹配到的敏感詞,同時將該檔案設置為關鍵性信息次敏感狀態。

判斷當前被審檔案是否同時具備關鍵性信息次敏感檔案和正文信息次敏感檔案兩個標簽。當檔案同時具備兩個標簽,將檔案標記為控制類型,送至人工審核。若檔案只具備一個標簽或不具備任何標簽時,進行本地大模型輔助審核流程。

2.3 DPR檢索增強模塊

傳統檔案審核模型依賴大量標注數據,但優質數據稀缺,影響審核準確度。通用大語言模型雖具備語義理解和邏輯推理能力,可應對未見過的涉密檔案,但存在對檔案審核流程理解不足及幻覺問題。微調通用大模型又依賴優質數據且可能破壞其通用能力。為此,提出DPR深度檢索方法,通過RAG技術檢索審核細則,以此作為審核依據,避免復雜微調,提升審核效能,增強可解釋性,且更具部署優勢。

首先導入數據預處理模塊中構建的審核細則序列和訓練文檔庫。其中審核細則序列是由 np 個詞語組成的文本序列,并擁有唯一索引指向對應的原始審核細則文本。訓練文檔庫由文檔存儲單元組成,文檔存儲單元由詞語集合 {w1,… , wn} 組成。構建本地訓練數據,設 D 是由 m 個實例組成的訓練數據。

D={(qi,pi+,pi,1-,pi,2-,…,pi,k-)}i=1m

其中 m 為文檔存儲單元的數量,即訓練文檔庫大小。每個實例由一個文檔存儲單元 qi ,一個相關審核細則序列 pi+ 和 k 個不相關的審核細則序列 pi,j- 組成。設每個實例中的審核細則序列 pik 由 {w1,…,wnp} 個詞語組成,文檔存儲單元 q 由詞語集合 {w1,… , wn} 組成。

進一步地,使用Word2Vec詞向量嵌入模型分別對 pik 和 q 中的每個詞 wt 進行映射,分別獲得 ??np 個 ?τ 維 (τ=np) 詞向量 VP(wt1×τ 和 n 個 τ 維 (τ=np) 詞向量Vq(wt1×τ 。其中[PAD]符號詞對應詞向量為全零。分別對向量 VP(wt1×τ 和 Vq(wt1×τ 進行平均池化,得到屬于該實例的兩個表示向量 Vi(q) 和

式中: Vi(q) —第i個實例中訓練文檔平均池化后的表示向量; —第i個實例中正、負相關審核細則平均池化后各自的表示向量;V(wt) —第t個詞語的向量表示;τ 詞向量維度,這里規定 τ=np

定義DPR檢索過程中將被審核文檔的關鍵性信息表示為攜帶語義信息的向量 EQ(Vi(q))d×1 ,并與審核細則知識庫中攜帶語義信息的向量集合EP(Vi(pjk+1))d×1 進行相似度匹配,通過計算 ?EQ(Vi(q))d×1 與 EP(Vi(pjk+1))d×1 中各向量的相似性,檢索最接近的條目返回。其中使用余弦相似度計算。

定義文檔信息與正相關審核細則的負對數似然函數為該模型的損失函數,具體如下式:

其中點積函數公式可進一步簡化為:

Sim(qi,pi+)=EQ(Vi(q))T?EP(Vi(pi,1))

Sim(qi,pi,j-)=EQ(Vi(q))T?EP(Vi(pi,jk))

2.4KARP關鍵詞與推理提示

為提高大語言模型在檔案文本解析任務中的復雜推理能力,本研究提出基于漸進推理策略的關鍵詞推理提示法。該方法構建了包含關鍵詞提取、邏輯推演和結論生成的三階段推理框架,模擬人類的思考方式:首先將DPR檢索到的審核細則與輸入的檔案數據進行語義融合,通過多維度特征分析提取核心語義要素;隨后運用因果推理網絡構建關鍵詞間的邏輯聯結,形成多維度的語義拓撲結構;最終基于可解釋的推理路徑生成審核結論及其依據。該體系通過分層語義解析與動態知識整合,有效提升模型對非結構化文本的深層語義理解能力。下面概述關鍵詞收集和推理過程,隨后描述實現的細節,如圖4所示。

你是一個檔案文本內容輔助開放審核專家,準確且深人地識別輸入的檔案內容,給出開放或控制審核意見。輸人:1978年XX省關于落實中共中央十一屆三中全會精神的專題匯報,包含省內政策調整方向及基層干部執行反饋,部分內容涉及歷史階段的具體措施。審核結果:開放檔案×(a)一般提示學習審核方法

你是一個檔案文本內容輔助開放審核專家,用戶需要一個輔助審核系統來自動根據提供的審核細則判斷檔案是否需要控制,如果需要控制則

提供理由和對應的審核細則。

首先,將輸入的檔案內容與審核細則進行深度檢索,檢索到相匹配的審核細則;

然后列出關鍵詞(例如:相關敏感詞),其影響輸入檔案內容的線索;

其次根據匹配到的審核細則以及列出的關鍵詞進行推理審核;

最后提供明確的審核結果(控制或開放),附上審核理由和對應的審核細則。

輸人:1978年XX省關于落實中共中央十一屆三中全會精神的專題匯報,包含省內政策調整方向及基層干部執行反饋,部分內容涉及歷史階段

的具體措施。

審核細則:

1、包含個人隱私、健康狀況、家庭信息等內容不得開放。

2、會議紀要不宜開放。

3、涉及政治事件、領導講話、批示文件材料、內部信息不宜開放。

4、.

關鍵詞:十一屆三中全會、省內政策、歷史階段、具體措施.

推理:關鍵詞“十一屆三中全會\"屬于歷史政治事件,“省內政策\"歷史階段\"具體措施\"這些短語涉及到內部信息。經過深度檢索,符

合審核細則第三條。

審核結果:控制檔案。理由:文本中包含歷史政治事件、內部信息等內容,根據審核細則“涉及政治事件、領導講話、批示文件材料、內部信

息不宜開放\"需要對檔案進行控制。 1(b)KARP關鍵詞與推理提示方法

關鍵詞收集。針對檔案數據的復雜性特征,關鍵詞是最有力的審核證據。系統通過融合短語結構分析、上下文關聯特征識別及語義網絡建模技術,精確捕獲文本中的實體屬性、語義依存關系和潛在邏輯關聯,形成支撐審核決策的證據鏈。下面是一個示例:

輸人:會議總結了上年度工作成果,討論了新年度的重點工作計劃,包括提升行政效率和加強內部培訓等議題。會議決定成立專項工作組,負責推進數字化轉型。

關鍵詞:“會議\"\"工作計劃\"行政效率\"內部培訓\"這些是決定審核結果的關鍵線索。

推理過程。對于大語言模型的推理,那些膚淺的詞語對于審核結果是無用的,挖掘更深層次的語義信息,考慮邏輯語義關系,將局部信息拼接在一起,形成最終審核結果。下面的示例展示了根據收集到的關鍵詞來進行推理的過程:

1)“會議”一詞意味著此檔案可能屬于會議紀要文件。

2)\"工作計劃\"“內部培訓\"這兩個詞屬于內部文件的范疇。

3)\"行政效率”與審核細則中的內部信息相吻合,極大程度上說明此檔案文件屬于控制檔案。

審核結果。根據關鍵詞推理過程,模仿人思考過程后模型給出的審核結果:

總體而言,關鍵詞和推理過程表明此檔案屬于控制檔案。

將關鍵詞收集與推理提示機制結合有以下優勢:推動模型漸進式思考與決策,分層處理方式更契合人類認知決策路徑;構建人機協同干預通道,便于開發者在少樣本學習場景下調試優化;增強可解釋性,人工設計的線索和推理流程為模型決策提供透明解釋路徑。

3實驗

為了驗證文本所提出方法的有效性,在兩種模式設置下進行了實驗:1)全數據訓練設置,模型可以訪問完整的訓練集數據;2)少樣本設置,其中模型只能訪問部分訓練數據集,少樣本設置可以更好地模擬訓練集有限的現實情況。對于全數據訓練實驗,遵循訓練集、驗證集和測試集進行數據分割;對于少樣本設置實驗,從訓練集中每個類別隨機采樣n 個實例 (n={16,128,256,512,1024}) 。采集到的少樣本形成新的訓練集,來測試不同模型在少樣本情況下的性能。本實驗中使用ChatGLM2-6B量化版作為基礎模型,運行該模型的硬件要求本地機器顯存至少在8GB及以上。

3.1 實驗數據

本文使用復旦大學數據集、THUCNews新聞數據集兩個公開文本分類數據集和檔案開放審核數據集OParchives一個私有數據集對模型進行有效性驗證。

1)復旦大學數據集[15]:長文本分類數據集,由復旦大學計算機信息與技術系國際數據庫中心自然語言處理小組提供,包括19636條長文本文檔,分為20個類別。

2)THUCNews新聞數據集[1:短文本分類數據集,包含14個類別,74萬篇文檔。本文選取其中的10類,20萬條文檔。

3)檔案開放審核數據集(OParchives):長文本檔案分類數據集,包含5個類別,其中四個為延期開放檔案,一個為開放檔案。本數據集為自建虛擬檔案數據,數據集的主題類別,標簽以及主要內容如表1所示。

表1OParchives數據集類別

3.2 對比模型

使用以下模型作為基準模型,來驗證本文所提出方法的有效性:

1)TextCNN[17]:利用不同尺寸卷積核提取文本中的局部關鍵特征,并結合最大池化操作保留最主要的特征,最后采取Softmax進行分類。

2)BERT[18]:使用BERT預訓練語言模型提取文本特征向量,然后結合全連接層進行分類。

3)RoBERTa-Large[19]:是BERT的改進版本,更大規模的數據、動態掩碼和更長的訓練優化策略。

4)RoBERTa-GCN[20]:在 RoBERTa-Large 模型的基礎上構建異構圖網絡模型。

5)GCN-SB[21]:引人簡化的增強算法協同訓練CNN 和 GCN。

在三個不同的數據集上,進行了多次實驗以驗證所提出的KADR-LLM方法的性能。實驗結果如表2和圖5所示,這些數據清晰地揭示了KADR-LLM方法在不同樣本條件下的顯著優勢。在零樣本學習的極端條件下,KADR-LLM方法展現出了令人矚目的性能。盡管沒有直接的訓練樣本可供學習,其分類準確率依然與那些在全訓練樣本條件下訓練的對比模型相差無幾。這一結果表明,KADR-LLM方法在處理未見過的類別時,能夠憑借其強大的泛化能力和對數據內在結構的理解,有效地進行分類任務。這種能力在實際應用中尤為重要,因為很多時候可能面臨樣本稀缺或無法獲取足夠樣本的情況,而KADR-LLM方法能夠在這些情況下依然保持較高的分類準確率,為解決實際問題提供了有力工具。

表2對比模型在不同數據集上的準確率

%

在少樣本訓練條件下,KADR-LLM方法展現出顯著優勢。當樣本量僅 n=16 時,其性能遠超其他基準模型,能高效利用有限樣本快速適應新任務。尤其在OParchives數據集零樣本實驗中,分類準確率依舊領先。這源于其設計貼合檔案分類領域特點,能精準捕捉檔案復雜結構與豐富語義信息,提供精準解決方案。

為全面評估少樣本性能,對各數據集每個類別分別用 n={16,128,256,512,1024} 個實例訓練,如表3所示。當訓練樣本極有限( n=16 時,有監督模型準確率接近隨機猜測,而KADR-LLM準確率遠高于有監督模型,能更好利用有限樣本。隨樣本量增加,其性能提升幅度較小,說明其在少樣本條件下即可取得良好效果,且性能較穩定,與傳統有監督模型形成對比。

3.3 消融實驗

在本小節中,進行了全面的消融實驗,來更好地驗證各部分對整體模型的效果

消融實驗結果如表4所示,在分別去除DPR和KARP模塊后,模型的指標下降了 1.3~1.8 個百分點。由此可見這兩個模塊在大語言模型的檔案開放審核任務中發揮了重要作用。

圖5對比模型在不同數據集上的實驗結果

具體而言,DPR模塊主要負責對文檔進行深度處理和檢索,能夠從大量文本中提取關鍵信息,為模型提供準確的文檔內容。當移除該模塊后,模型在處理復雜文檔時的效率和準確性受到一定影響,導致指標下降。這表明DPR模塊在確保模型能夠全面、準確地理解文檔內容方面具有不可替代的作用。

表3少樣本設置下的實驗準確率
表4消融實驗結果

而KARP模塊則側重于大語言模型的關鍵詞與推理提示。它能夠結合關鍵詞的上下文信息,更精準地識別和處理文檔中的敏感信息。移除該模塊后,模型在處理涉及關鍵詞的文檔時,可能無法充分理解其語義背景,從而影響審核的準確性。這說明KARP模塊在提升模型對關鍵詞的敏感度和語義理解能力方面至關重要。

表6不同基礎模型性能對比

為探究關鍵詞、上下文信息、審核細則、語義關系對模型性能的影響,進行了消融實驗,分別移除每個要素,觀察模型在檔案開放審核任務中的表現變化,實驗結果見表5。此外,為驗證基礎模型選型對審核性能的影響,在保持KADR-LLM框架中的DPR檢索與KARP推理機制不變下,采用不同基礎大語言模型在OParchives數據集上進行對比實驗,訓練設置為少樣本( n=16 ),模型參數與性能對比如表6所示。

表5不同提示信息的對比結果

表6展示了不同大語言模型的性能對比與參數規模。ChatGLM2-6B量化版在保持較高準確率( 82.34% 的同時,模型參數量僅為6B,雖略低于DeepSeek-MoE-16B( 82.81% ,但其8GB顯存需求與42tokens/s的推理速度在本地化部署場景中展現出顯著優勢。在訓練時間方面,模型參數量更大的GPT-3.5-turbo,也需要更久的時間,所消耗的推理成本更高。尤其在處理平均長度967字符的檔案文本時,相較于DeepSeek模型 12GB 的顯存占用,ChatGLM2可支持批量處理的文檔數量提升 50% 更適配基層檔案機構普遍配置的中端計算設備。商業閉源的GPT-3.5-turbo雖具備最優性能( 85.77% ,但其黑箱特性導致審核過程不可追溯,且存在數據隱私風險,不適用于檔案審核領域。

實驗結果表明,在檔案審核場景中,模型的部署成本與安全性約束往往比單純的準確率指標更具決策權重。ChatGLM2-6B量化版在精度損失可控的前提下,實現了硬件成本降低、推理速度提升的顯著優勢,驗證了其作為基礎模型的合理性。

4結束語

在數字時代,檔案開放審核面臨著效率低下和主觀性偏誤等挑戰。本文提出的KADR-LLM框架,通過融合DPR的檢索能力和KARP的推理提示機制,構建了“檢索-推理-驗證\"的智能審核模式。實驗結果表明,KADR-LLM在不同數據集上均展現出色的性能,尤其是在少樣本和零樣本學習條件下,能夠有效處理訓練樣本不足的情況,泛化能力強。消融實驗進一步驗證了DPR和KARP模塊在提升模型效率和準確性方面的重要性。KADR-LLM框架不僅提高了檔案開放審核的智能化水平,還為未來檔案管理的創新發展提供了新的思路和方法,具有重要的理論和實踐意義。

參考文獻

[1]楊揚,孫廣輝,韓先吉.敏感詞全文比對在檔案開放審核中的應用實踐[J].中國檔案,2020(11):58-59.YANGY,SUNGH,HANXJ.Theapplication practiceof

ChinaArchives,2020(11):58-59.

[2] 符澤凡,姚竟發,滕桂法.基于BERT模型的網站敏感信息 識別及其變體還原技術研究[J].現代電子技術,2024, 47(23): 105-112. FU ZF,YAO JF, TENG G F.Research on website sensitive information identification and variant restoration technology based on BERT model[J]. Moderm Electronics Technique, 2024, 47(23): 105-112.

[3] 劉佩鑫,于洪志,徐濤.基于樸素貝葉斯的檔案分類研究 [J].河北大學學報(自然科學版),2018,38(5):549-554. LIU P X,YU H Z, XU T. Research on archives text classification based on Naive Bayes[J].Journal of Hebei University(Natural Science Edition),2018,38(5): 549-554.

[4]霍光煜,張勇,孫艷豐,等.基于語義的檔案數據智能分類方 法研究[J].計算機工程與應用,2021,57(6):247-253. HUO G Y, ZHANG Y, SUN YF, et al. Research on archive data intelligent classification based on semantic[J].Computer Engineering and Applications, 2021, 57(6): 247-253.

[5]楊宏宇,杜路平,胡澤,等.融合多層次語義和依存句法信息 的網絡安全事件檢測方法[J].吉林大學學報(工學版), 2025: 1-14. YANG H Y,DU L P,HU Z,et al.A cybersecurity event detection method fusing multi-level semantic and dependent syntax information[J]. Journal of Jilin University(Engineering and Technology Edition),2025: 1-14.

[6]劉桂雄,閆奕樸,邢星奧.視覺表面缺陷無監督學習檢測方 法研究進展[J].中國測試,2024,50(3):1-12. LIU G X, YAN Y P, XING X A. Research progress on unsupervised learning detection methods for visual surface defects[J]. China Measurement amp; Test, 2024, 50(3): 1-12.

[7] NAVEED H, KHAN A U, QIU S, et al. A comprehensive overview of large language models[J]. arxiv preprint arxiv: 2307.06435,2023.

[8]EKIN S. Prompt engineering for ChatGPT: a quick guide to techniques, tips,and best practices[J]. Authorea Preprints, 2023.

[9] KARPUKHIN V,OGUZ B,MIN S, et al. Dense passage retrieval for open-domain question answering[C]//EMNLP (1),2020: 6769-6781.

[10] 閆奕樸,劉桂雄,邢星奧.工業異常檢測大模型方法研究進 展[J].中國測試,2025,51(1): 1-10+23 YAN Y P,LIU G X, XING X A. Progress of research on large visual language model methods for industrial anomaly detection[J].China Measurement amp; Test,2025,51(1):1- 10+23

[11] 林璃,陳日成,金濤.面向復雜信息系統的多源異構數據融 合技術[J].中國測試,2020,46(7):1-7+23. LINY,CHENG R C,JIN T.Research on multi-source heterogeneous data fusion technology for complex information system[J].China Measurement amp; Test,2020,46(7):1-7+23.

[12] SUN X,LI X,LI J, et al. Text classification via large language models[J].arxiv preprint arxiv: 2305.08377,2023.

[13]YU S. Improving text classification by leveraging large language models for data augmentation[J]. Academic Journal of Computing amp; Information Science,2024,7(12): 91-95.

[14]劉越男,張茜雅,楊建梁.大語言模型在檔案開放審核中的 應用框架與路徑探究[J].檔案學通訊,2025(2):31-38. LIU Y N, ZHANG X Y,YANG JL. Research on the application strategies of large language models in the open audit of archival records[J].Archives Science Bulletin, 2025(2): 31-38.

[15]復旦大學計算機信息與技術系國際數據庫中心自然語言處 理小組.復旦大學中文文本分類數據集[DS/OL].[2025-03- 24]. https://download.csdn.net/download/number59/11374484.

[16] 清華大學自然語言處理實驗室.中文文本分類數據集 THUCNews[DS/OL]. [2025-03-21]. http:/thuctc.thunlp.org/ THUCNews.

[17] CHEN Y.Convolutional neural network for sentence classification[D].UniversityofWaterloo,2015.

[18]DEVLINJ,CHANGMW,LEEK,etal.Bert:Pre-trainingof deep bidirectional transformers for language understanding[C]//Proceedings of the 2019 conference of the North American chapter of the association for computational linguistics: human language technologies, volume 1 (long and short papers),2019:4171-4186.

[19] LIU Y,OTT M,GOYAL N,et al.Roberta:A robustly optimized bert pretraining approach[J]. arxiv preprint arxiv: 1907.11692,2019.

[20] LIN Y, MENG Y, SUN X, et al. Bertgcn: Transductive text classification by combining gcn and bert[J].Association for Computational Linguistics,2021: 1456-1462.

[21] ZENG F,CHEN N,YANG D,et al.Simplified-boosting ensemble convolutional network for text classification[J]. Neural Processing Letters, 2022, 54(6): 4971-4986.

(編輯:徐柳)

主站蜘蛛池模板: 88av在线| 欧美黄色网站在线看| 欧美午夜精品| 亚洲国产日韩视频观看| 亚洲Av综合日韩精品久久久| 国产精品lululu在线观看| 青青青国产在线播放| 久久久久久久97| 好吊色国产欧美日韩免费观看| 日韩高清中文字幕| 久久9966精品国产免费| 成人精品免费视频| 亚洲国产欧美国产综合久久| 99在线观看国产| 成人免费黄色小视频| 人人爽人人爽人人片| 一区二区自拍| 91精品啪在线观看国产91| 看你懂的巨臀中文字幕一区二区 | 青青极品在线| 天天色天天操综合网| 中文字幕一区二区人妻电影| 久久黄色免费电影| 色天堂无毒不卡| 久久婷婷色综合老司机| 免费在线不卡视频| 四虎在线观看视频高清无码| 国产极品美女在线观看| 噜噜噜久久| 日本在线欧美在线| 热思思久久免费视频| 四虎永久免费网站| 91成人试看福利体验区| 亚洲日韩精品无码专区97| 久久香蕉国产线| 国产极品粉嫩小泬免费看| 91一级片| 农村乱人伦一区二区| 国产xxxxx免费视频| 日本欧美成人免费| 国产区在线看| 全免费a级毛片免费看不卡| 麻豆精品在线| 久久久久亚洲精品成人网| 青青久久91| 亚洲国产AV无码综合原创| 丁香亚洲综合五月天婷婷| 大学生久久香蕉国产线观看| 久久久久久久久久国产精品| 国产欧美精品专区一区二区| 大陆精大陆国产国语精品1024| 又猛又黄又爽无遮挡的视频网站| 最新日本中文字幕| 一区二区影院| 国内精品自在自线视频香蕉| 中文字幕免费视频| 日本免费福利视频| 国产精品视频导航| 精品三级网站| 在线免费a视频| www.亚洲一区| 最近最新中文字幕免费的一页| 澳门av无码| 一区二区午夜| 亚洲国产日韩欧美在线| 欧美成人怡春院在线激情| 久久这里只有精品8| 亚洲色婷婷一区二区| 国产在线97| 成年女人a毛片免费视频| 国产成人福利在线| 中文字幕不卡免费高清视频| 日韩国产一区二区三区无码| 日韩国产综合精选| 中文字幕乱妇无码AV在线| 国产尤物在线播放| 亚洲一区二区日韩欧美gif| 手机在线免费不卡一区二| 精品欧美日韩国产日漫一区不卡| 国产又爽又黄无遮挡免费观看| 亚洲最新地址| 免费国产在线精品一区|