曾文龍,劉 丹,張 超
(1.中國人民解放軍31307部隊,四川 成都 610000;2.電子科技大學 電子科學技術研究院,四川 成都 610000)
在當今信息爆炸的時代,海量的數據源源不斷地涌現,其中包含了各種形式的信息,從新聞報道到社交媒體內容,再到專業機構的報告和數據。解析和理解這些數據,提煉其中的關鍵信息,一直是一項極具挑戰性的任務。
智能抄清技術是一種基于自然語言處理和機器學習的技術,其目標是從大規模文本數據中抽取關鍵信息并生成概括性、準確性強的內容摘要,幫助人們在信息過載的時代快速獲取所需信息。不同于傳統的信息摘要方法,抄清技術不僅能提供概括性的內容,還可以重新組織信息,使得生成的摘要更富有創造性和可讀性。
在安全情報領域,有大量情報數據需要及時處理和分析,以識別可能的威脅和風險,智能抄清可以快速抽取關鍵信息,分析威脅的性質、來源和可能影響,并生成詳盡的報告,為安全專家提供深入的情報分析支持,從而制定更有效的安全應對策略。
然而,傳統的手動抄清方法已經無法滿足處理龐大、多樣化情報數據的需求。在提取和概括信息的過程中,有時會出現信息遺漏或失真,影響了摘要的準確性和完整性。對于一些主觀性較強或需要深層語境理解的文本,當前技術難以達到人類的理解水平。對于長文本的處理,當前方法往往效果不佳,難以保持信息的完整性和連貫性。
為了應對這一挑戰,本文提出了一種創新的基于大模型的智能抄清方法,該方法以事件要點抽取和報告生成為關鍵步驟,旨在實現高效、準確和可靠的情報分析和推理。
本文提出了運用大模型進行智能抄清的方法。該方法首先對文檔進行分型,再基于主題、要點、事件信息、段落小節進行四個維度的信息抽取,然后將抽取的結果作為大模型報告生成的數據支撐;接著利用大模型的分析能力,對事件進行研究、分析和評估,并形成書面報告。
本文提出的方法的創新之處在于,結合了多維度的信息抽取、大模型的分析推理和報告生成的能力,使得抄清更加全面、深入,并且提供更具有價值和深度的書面報告。在多維度信息抽取中,通過抽取主題、要點、段落小節和事件等多維度的信息,獲得了文檔中不同層次、不同關鍵性質的信息,使得抄清更為全面和細致。對基于大模型的報告生成,將抽取出的關鍵信息作為輸入,利用大模型的生成能力,生成更為全面且內容豐富的書面報告,更好地結合了信息抽取和生成模型的優勢。
事件要點抽取是從文檔中提取重要信息的過程,結合語義、語法、上下文信息和推理邏輯等多種語言信息進行分析展示。
要實現這一過程,需要采用自然語言處理和機器學習技術,利用文檔的結構信息和內容信息進行抽取,從海量非結構化情報數據中提取事實要點。通過文本分類器、主題抽取算法、原文要素抽取和段落小節抽取等模型,自動識別文本中的重點關注人物、組織機構、主要事件等基本信息,同時提取用戶關注的其他要素信息,為報告生成提供基礎信息來源。
要點抽取的核心目標在于保留文檔中的關鍵信息,幫助用戶快速理解文本內容,減少信息過載的影響。這一過程不僅需要依賴先進的技術,還需要結合領域知識和人工智能算法,以確保抽取的準確性和全面性。
1.1.1 文檔分型
文檔分型是根據文檔的內容、類型、主題或其他特征將文檔進行分類、分組或歸檔,以便更好地管理和組織文檔。
在安全情報領域,文檔分型可以根據威脅類型、攻擊來源、受影響實體等標準對文檔進行分組。文檔分型是事件要點抽取的第一步,通過有效地從分類文檔中提煉信息,使得情報團隊能夠更有針對性地分析和應對威脅,提高工作效率和情報利用價值。
本文首先將抄清文章定義為科技、經濟、政治、娛樂、商業、其他六種類型,并在紐約時報(https://www.nytimes.com)上爬取了600篇相關新聞作為訓練數據,最后使用BERT(Bidirectional Encoder Representations from Transformers)和softmax的組合進行文檔分型訓練。
當使用模型作為分類器時,這些非結構化的文本序列需要轉換成結構化的特征空間[1]。常見的文本分類技術包括邏輯分類、boosting算法、bagging算法、KNN、支持向量機、決策樹、隨機森林、條件隨機場CRF等[2]。
基于BERT的分型模型如圖1所示。通過在大規模文本數據上進行預訓練,模型學習了豐富的上下文表示和語言知識,使其能夠更好地理解詞語和句子在語境中的含義和關系。它的雙向性和對上下文的全面考慮使其適用于文章分型任務,因此本文將新聞文本使用預訓練BERT模型作為特征提取器進行輸入,并通過輸出層的[CLS]位置對應的值傳入到softmax中進行分型任務的訓練微調,從而實現對文章類型的分類。

圖1 分型模型框架
1.1.2 主題生成
主題生成是從大量文本數據中自動確定主題并生成相應的摘要和標簽,將一篇文本自動轉化為表示其主題的詞或短語的技術。主題生成可以用于文本分類、話題檢測、信息過濾等任務中。
常見的主題生成算法包括基于概率模型的方法(如Latent Dirichlet Allocation模型、貝葉斯概率模型)、基于深度學習的方法(包括詞向量模型、循環神經網絡和Transformer等)、基于話題模型的方法等。由于預訓練模型的出現,基于深度學習的生成模型在主題生成領域的應用越來越廣泛,也出現了一些基于此的改進方法,如加入注意力機制、引入增量訓練等[3]。
大語言模型(LLM)是具有大量參數和能力的語言模型,它們經過大規模的訓練,能夠理解和生成自然語言文本。在情境學習框架下,大語言模型在各種自然語言處理任務中表現出了出色的性能。這包括但不限于翻譯、問答、關系抽取和主題生成等任務。本文選擇了ChatGLM-6B和Alpaca兩種模型,以便將情境學習應用于主題生成任務,從而更好地適應本文的需求。對于主題生成,使用大型語言模型進行這項工作通??煞譃橐韵氯齻€步驟:
(1)構建prompt:每個輸入文章都需要構建一個與其內容相關的prompt。這個prompt可以是一段文字、問題或指令,作為大模型的輸入引導,使其能夠理解輸入文章的主題和要點。
(2)模型生成文本序列:將構建的prompt輸入到大模型中,模型將根據該prompt生成與輸入文章主題相關的文本序列。這個過程可以通過對模型進行fine-tuning來優化模型在特定任務上的表現,提高生成文本的準確性和相關性。
(3)文本序列與相關段落小節對應:生成的文本序列需要與原始輸入的段落小節相對應,以確保生成的內容與輸入文章的不同部分相匹配,保持邏輯連貫性和主題一致性。
在圖2中,第一句話是任務描述,這個描述不僅告訴了大語言模型應該關注的任務重點,還指示模型理解輸入的文章并輸出與主題相關的內容。第二部分將原文作為輸入提供給模型,模型在這個階段需要運用其大量的預訓練知識和對語言的理解能力,通過對原文的分析和編碼,捕捉其中的語境、主題、語義等信息,模型會嘗試將輸入的信息編碼成適合進一步處理的形式,以便于后續對主題進行輸出。在第三部分,模型將其對原文的理解轉化為與文章主題相關的輸出內容,這個輸出不僅需要與原文主題相關,還需要保持準確性和連貫性,以便于后續應用或進一步分析。

圖2 主題抽取示例
1.1.3 要點抽取
要點提取是一種從文本中識別出重點信息的方法。其主要思想是通過識別文本中的關鍵單詞或短語,從而得到文本的概要或標簽。要點提取在文本分類、信息檢索、文本聚類等任務中具有廣泛的應用。常見的要點提取算法包括基于詞頻的方法、基于TF-IDF的方法、基于主題模型(如LDA)的方法以及基于機器學習和深度學習的方法[4]。
基于詞頻的方法是通過統計詞語在文本中出現的頻率來確定其權重,以較高的頻率為主要依據挑選出要點?;赥F-IDF的方法在基于詞頻的基礎上增加了逆文檔頻率的考慮,該方法可以用來衡量單詞在特定文檔中的重要性和相對于整個語料庫的稀有性。基于主題模型的方法則利用文本中主題的概率分布進行建模,找出與主題相關的詞語作為要點。基于機器學習和深度學習的方法是通過對大量訓練數據的學習得到要點提取的規律,例如BERT模型可以通過自監督學習得到更好的文本表達。
如圖3所示,原文中通過序號1、2、3標記或者帶星號標記等信息一般均為事實要點信息,本文通過規則算法將此類信息從原文中直接抽取出來,并利用SimBERT模型評估抽取結果與文章主題的相關性,如果結果涵蓋了文章的核心概念、主題或關鍵觀點,那么這些信息便作為要點信息保存下來。

圖3 要點篩選示例
1.1.4 事件信息
Open Information Extraction(OIE)是一種從自然語言文本中提取結構化事實的技術。它通過自動識別文本中的主語、謂語和賓語等成分,從而生成一組結構化事實。OIE算法主要分為規則算法和基于機器學習的方法。規則算法是直接查找符合一定規則和模式的詞組,然后將這些短語轉換為三元組。而基于機器學習的方法則利用神經網絡模型或傳統機器學習算法,從大量的語料庫中學習如何使用統計模型來提取語義三元組[5]。
事件信息抽取是OIE的一種類型,在進行事件信息抽取前,需要對輸入文本進行指代消解處理,將文本中的代詞和名詞指向其代表的實體內容。本文使用語言技術平臺(Language Technology Platform,LTP)對文本進行指代消解處理[6],首先對文本進行分詞、詞性標注和句法分析處理,提取出文本中所有的代詞、名詞短語等指稱詞匯。接著,使用規則或模板來判斷這些指稱詞匯與先前提到的實體是否指代相同的實體,如果是,則將它們標注為同一個實體;否則將它們標注為不同的實體。
接下來,本文利用OpenIE6模型對處理后的文本進行事件信息提取。OpenIE6是一個開源的事件三元組抽取工具,其基本原理是從自然語言文本中自動抽取所有事件三元組,包括主語、謂語和賓語。得到這些事件三元組后,再通過KBIR和T5抽取原文的關鍵短語,最后將三元組與關鍵短語進行篩選和去重,保留那些具有較高語義相似度和重要性的信息,從而實現事件信息的精確提取。
單獨使用OpenIE6進行事件信息抽取時,由于文本表述的多樣性和文本上下文的差異性,提取出的事件三元組可能存在一些重復或冗余的信息。因此,結合指代消解以及關鍵短語的語義相似度比較,可以提高信息抽取的準確率,得到更加精確、完整的事件信息。
1.1.5 段落小節
段落小節是一種將一段文章自動轉化為簡潔、準確、具有概括性的標題的技術,以提高用戶體驗和效率[7]。在新聞自動摘要、電商商品推薦、搜索引擎結果呈現等任務中,都可以通過段落小節技術將原文章轉換為更為簡明扼要的表述方式。
常見的段落小節算法包括基于生成模型的方法、基于強化學習的方法、基于預訓練模型的方法。基于生成模型的方法首先將原始文本編碼為向量,然后通過循環神經網絡(RNN)或自注意力模型(Transformer)等深度神經網絡生成標題?;趶娀瘜W習的方法通過訓練一個智能體,根據生成的標題獲得獎勵,以優化標題的生成[8]。由于基于預訓練模型的方法只需要對已有大規模語料庫進行預訓練,能夠直接完成新文本的生成任務,并且具有較高的效率和準確性。T5、autoNLP和Pegasus都是常見的基于預訓練技術的模型[9],具有良好的泛化性和較高的準確性,被廣泛應用于段落小節中。
T5(Text to Text Transfer Transformer)是本實驗抽取段落小節的基礎模型,由Raffel[10]提出。T5是一個通用的基于文本到文本轉換的框架,它在許多NLP任務(如文本摘要、問答、機器翻譯等)上產生了先進的性能。該框架背后的基本思想是將所有NLP任務轉換為文本對文本問題。該框架接收文本作為輸入,并生成一個新文本作為輸出,如圖4所示。

圖4 T5模型任務示例
模型以無監督的方式在大型數據集上進行預訓練,然后對下游任務進行微調,從而在NLP和其他任務中產生先進的性能。本實驗充分利用了預訓練模型的優勢。由于T5模型是一個微調的預訓練模型,因此復制了基本模型的所有參數。然后,在SIPRI網站爬取的數據集上訓練模型進行段落小節抽取。
在報告生成階段,將抽取的事實要點和一些背景信息輸入到大模型中,利用大模型的生成能力生成邏輯性強、準確性高的抄清報告。通過輸入抽取的事實要點和相關背景信息,大模型能夠自動歸納、總結和分析這些信息,并生成結構化的、內容完整的抄清報告。報告內容包括事件的基礎情況、重要事實要點、事件發展脈絡、情感分析結果以及針對該事件的預案和對策建議等。
1.2.1 模型預訓練與微調
思考和決策過程中的推理能力是人工智能的一個重要方面,其中大語言模型(LLMs),如GPT-3[11]、ChatGLM等,通過學習大規模語料庫的語言模式和知識在一些自然語言處理任務(如算術、常識和邏輯推理)中能夠表現出強大的推理能力[12]。
大模型具有分析推理能力的原理是基于它所采用的深度學習算法和海量數據的訓練。在深度學習中,大模型通常是由多個層、多個參數和復雜的網絡拓撲結構組成的,這使得它可以處理非常大的數據集和非常復雜的
問題。大模型可以通過反向傳播算法來調整網絡中的各個參數,使網絡的輸出結果更加接近于已知的正確答案。這個過程可以讓大模型逐漸學會不同的數據特征和問題規律,從而在未知情況下進行預測和推理。
結合自身所積累的抄清行業數據對通用大模型進行微調,并在此基礎上結合行業化、場景化的數據與知識進行進一步訓練,以提升大模型針對抄清行業及應用場景的模型表現和可控性,形成抄清行業大模型,幫助AI完成“專業教育”。基于抄清行業大模型,可通過API接口等方式,方便、快捷地調用、整合與自身行業更為匹配的行業大模型的底層能力,再結合自然語言處理相關技術能力,即可實現基于抄清大模型的基礎報告生成訓練。
在大模型訓練過程中,主要通過遠程監督方式,將純文本與現有知識圖譜進行對齊,能夠自動標注大規模訓練數據。在完成基礎的知識對齊與抽取后,本文通過知識融合解決當前模型缺乏層次性與邏輯性的問題,使模型生成的文章更精準,錯誤更少,質量更高。
1.2.2 生成報告
對抄清數據進行文本分析之后,需要通過prompts手動模板設計抄清報告的整體結構和布局,手動模板設計是基于人工經驗設計模板用以處理文本生成任務,最終調用相應的抄清大模型自動生成抄清報告的內容。本文中采用的抄清報告生成方案為Stanford_Alpaca+LoRA,它是ChatGPT輕量級文檔開源版本,使用LoRA技術在Meta的LLaMA 7B模型上進行微調,在凍結原模型LLaMA參數的情況下,通過往模型中加入額外的網絡層,并只訓練這些新增的網絡層參數[13]。由于這些新增參數數量較少,這樣不僅微調的成本顯著下降,還能獲得和全模型微調類似的效果。
圖5所示的多維度展示則為事實要點的抽取結果,訓練的大模型基于抽取與總結的事實要點信息進行自主報告生成,生成的報告用詞準確,語法規范,事實要點邏輯清晰,每條事實描述或總結都有清晰的事實材料依據并標明出處和來源,整體行文流暢,符合實際應用需求。

圖5 多維度事件信息展示
通過結合事實要點和報告生成,本文提出的智能抄清方法能夠高效地從海量情報中提取有價值的信息,并生成準確且內容豐富的抄清報告。這種方法可以極大地幫助情報分析人員快速理解和分析情報數據,從而提高分析效率和決策準確性。
本文通過爬蟲技術在SIPRI (https://www.sipri.org/)爬取了350篇具有深度的文章作為訓練和測試數據集。表1展示了該數據集的一個驗證集劃分情況。

表1 SIPRI數據集情況
同時為了訓練分型模型,本文利用爬蟲技術從紐約時報(https://www.nytimes.com)上爬取了600篇相關新聞,并將其劃分為科技、經濟、政治、娛樂、商業、其他六種類型,表2顯示了該數據集的分布情況。

表2 紐約時報數據集情況
實驗采用Ubuntu 18.04操作系統、Python 3.10和PyTorch1.8框架,并使用A800 80 GB GPUs進行加速。
本文通過人工評估和專家對比實驗,對生成的報告進行準確性、完整性和可讀性等方面的評估。
為了使模型的效果評估更加準確,本文邀請了5名領域專家和4名人工智能研究人員使用投票機制對數據集進行訓練標注。并根據他們的專業知識和經驗,對結果進行主觀評估和比較。同時在段落小節部分設計了對比實驗:
(1)PEGASUS模型[14]。該模型提出了一種新的自監督目標PEGASUS,在海量文本語料庫上預訓練基于Transformer的大型編碼器-解碼器模型。實驗表明,它在12個下游摘要任務上取得了先進的性能,在低資源摘要任務上也取得了令人驚訝的性能。
(2)BART模型[15]。BART是一種用于預訓練序列到序列模型的去噪自動編碼器,通過用任意的去噪函數破壞文本并學習模型來重建原始文本進行訓練。當對文本生成和理解任務進行微調時,它尤其有效,與反翻譯系統相比,可增加高達6 ROUGE和1.1 BLEU的增益。
(3)T5模型[10]。該模型通過引入一個統一的框架,將所有基于文本的語言問題轉換為文本到文本的格式,探索了NLP的遷移學習技術的前景。本文比較了幾十項語言理解任務的預訓練目標、體系結構、未標記數據集、轉移方法和其他因素,并取得了最先進的結果。
針對紐約時報數據集,本文對六類分型效果進行了統計和評估。根據圖6所示的結果,本文的模型在平均分型效果上已經達到了95%以上的準確率。這意味著本文的模型能夠高度準確地對紐約時報數據集中的文本進行分類,并將其正確地歸類到對應的六個類別中。這樣的高準確率可以為用戶提供可靠的分類結果,使他們能夠更好地理解和分析數據集中的信息。

圖6 新聞分型準確率示意圖
針對SIPRI數據集,本文進行了段落小節效果對比研究。隨機選擇了10篇文章,并使用不同的模型對這些文章進行段落小節生成。圖7展示了本文針對訓練數據使用的模型相較于其他模型的準確數量,對比結果表明,本文的模型在針對SIPRI數據集中的段落小節生成任務上表現出色。相對于其他模型,本文的模型能夠更準確地凝練有信息量的段落小節。這意味著本文的模型能夠提供更優質和高效的摘要結果,幫助用戶更好地理解和獲取文章的核心信息。

圖7 段落小節模型效果對比圖
基于抽取的事實要點,本文利用微調的大模型生成了20篇報告,以專家總結的關鍵信息涵蓋情況為標準,其包含的重要信息占比如圖8所示,實驗結果表明,基于大模型的智能抄清方法能夠有效地從海量情報數據中提取關鍵事實要點,并生成準確、全面且內容豐富的抄清報告。與傳統手動分析相比,該方法大大提高了分析效率,并減少了人為因素對分析結果的影響。此外,通過與人類專家的對比實驗,發現生成的抄清報告在準確性和可讀性方面與人類專家的水平相當甚至更好。

圖8 報告重要信息涵蓋率
基于大模型的智能抄清方法具有廣泛的應用前景。它可以在情報分析領域中應用于事件態勢研判、預案生成、安全風險評估等任務,為決策者提供準確、全面的情報支持。此外,隨著大模型技術的不斷發展和改進,未來可以進一步提升智能抄清方法的性能和適用范圍。
本文提出的基于大模型的智能抄清方法通過事實抽取和報告生成的過程,實現了從海量情報數據中快速提取關鍵信息并生成準確、全面的抄清報告。實驗結果驗證了該方法的有效性和可行性,并展示了其在情報分析領域的應用潛力。未來的研究可以進一步改進模型的性能,拓展方法在更多領域的應用,推動情報分析和推理技術的發展。