基于文本相似度和主題發現的弱信號識別方法

2024-09-14 00:00:00孫濤張秉坤成磊峰李強

電腦知識與技術 2024年23期

摘要：弱信號是未來重大事件的早期預警信號，識別、分析和追蹤弱信號對風險預警具有重要意義。文章針對弱信號處理過程，提出一種定量弱信號識別方法。該方法通過文本的平均相似度計算弱信號強度，并確認弱信號閾值；根據主題發現的方式增強弱信號數據的信號強度，并關聯其他數據。最后，文章基于環球網新聞數據驗證了該方法的弱信號識別過程，實驗證明該方法是一種能夠識別出弱信號文本并增強弱信號強度。

關鍵詞：風險預警；弱信號；文本相似度；主題詞

中圖分類號：TN957.52 文獻標識碼：A

文章編號：1009-3044（2024）23-0034-03

開放科學（資源服務）標識碼（OSID）

0 引言

對將要出現的風險和威脅發出預警并對事物的未來發展作出預測是戰略分析的重要目的。弱信號是一種具備前瞻性和預見性的碎片數據，被視為對未來具有重要影響力事件的早期跡象，往往能夠作為戰略預警能力的核心指標[1]。弱信號通常以碎片化的形式隱藏在海量信息背后，并夾雜著多種噪聲[2]。從大量信息中識別和發現弱信號具有重大意義，從系統論的角度來看。一方面弱信號的識別和分析有利于發現破壞系統內穩態的威脅因素維持系統內在平衡另一方面對系統演化和創新的支持同樣離不開弱信號研究，早于他人發現弱信號可形成一定程度的競爭優勢也有助于預見新系統的出現[3]。本文針對非結構化文本，從文本語義和詞語兩個角度綜合設計了一套自動識別弱信號數據的方式，輔助分析人員對弱信號開展識別和分析。

美國戰略規劃先驅Ansoff教授通過觀察組織戰略方向的長期趨勢變化，于1975年提出了弱信號的概念，認為弱信號具有重大影響的、不確定的早期征兆，可能蘊含著機會，也可能是威脅，但其形式、過程、來源都不明確。自Ansoff教授之后， H. Lesca等學者對弱信號作出了深入研究，弱信號的相關概念也逐漸豐富，總體上目前弱信號的相關概念可以分為三種：認為弱信號既關聯現象，也同結果相關；認為弱信號僅代表著正在變化的現象；認為弱信號只是一個預示著未來變化的征兆。但是對弱信號的認知也包括一些共同的看法，比如弱信號揭示的內容不確定性，弱信號數據的碎片性、弱信號解讀的多視角性、弱信號本身具備前置期、可演化趨勢和引導變化的特征。弱信號難以被分析人員察覺到通常由于以下4個原因：1）弱信號可被感知的信息絕對量較少。2）弱信號的有效部分難以進入分析人員的視野。3）弱信號通常夾雜著噪聲和虛假信息。4）弱信號通常呈碎片狀，無法完整收集[4]。由于外部環境的復雜多變，導致弱信號識別需要以長期性的方式綜合考慮其有效性和意義，以便通過識別出的弱信號發現未來的發展趨勢、機會和威脅[5]。

1 相關研究

從戰略分析的角度來看，所有搜集到的信息最初只能假定為噪聲而不是信號，只有被適當處理后的弱信號才能顯現其價值。篩選可以起到減少背景噪聲的作用，通過從噪聲中抽取弱信號可以幫助弱信號的偵測，總體上，有兩種思路：一是減少噪聲密度從而揭示出弱信號；二是放大弱信號，讓其從相對恒定的噪聲中凸顯出來從統計的角度看，弱信號的“弱”意指其產生的概率低或頻率低，但同時弱信號的信息含量也很低，所以經典統計方法會受到樣本量的約束，可能無法做到合理地解釋弱信號所代表的含義[6]。

目前弱信號的識別過程大多依賴人工輸入或專家意見，自動識別弱信號手段仍處于起步階段。Griol-Barres等利用新聞和社會數據監測弱信號，人工挑選并分析關鍵詞，并使用自然語言處理方法提取準確結果[7]。但是人工挑選存在工作量大，主觀易忽視等問題，不適用于大量數據的弱信號發現。J.Yoon提出一種給定關鍵字的情況下，基于文本內容挖掘的弱信號主題識別方法[8]。該方法基于專家確定的關鍵字發現數據主題，無法發現容易被主觀忽視的弱信號。GUTSCHE提出一種運用動態主題建模和時間序列分析的方法自動檢測弱信號，但是監測效果依賴于主題建模的效果，對模型的實時性要求很高。楊波等基于LDA和BERT模型自動識別文本弱信號，使用LDA發現文本主題，通過緊密中心度、主題權重和主題自相關性評價主題強弱性，并根據各個主題內數據的歸一化頻率和概率提取出弱信號，最后使用通過BERT模型在語義層面對弱信號增強。使用LDA發現文本主題是一種文本匯聚發現的方法，該方法會將部分文本排除在主題之外，會導致弱信號的丟失和遺漏，不適用于主題各異且存在交叉的文本數據[9]。

文本相似度算法主要包括基于字符串匹配的方法，基于統計學的方法和基于深度學習的方法。其過程主要是根據詞向量算法將文本向量化，并通過余弦距離、歐氏距離等向量相似度算法計算兩個文本相似度。文本相似度算法能夠準確計算出兩個文本之間的語義關聯，通過文本之間的語義關聯性，綜合文本之間的詞語共現統計特征，可以量化直觀地識別出大量數據背后隱藏的弱信號。

綜上所述，目前弱信號識別方法主要使用人工識別或主題自動發現的方式，人工識別存在工作量大，主觀性強的缺點。主題自動發現對主題模型的實時性和數據貼合性要求很高，而且存在信號抽取不準導致弱信號丟失的情況，由于LDA模型屬于無監督文本挖掘技術，分析人員也無法對這種丟失情況進行干預。本文提出一種基于文本相似度和主題頻率統計的方法，能夠從文本語義和主題特征兩個角度對弱信號進行識別，并通過主題詞關聯增強語義信號，以獲得更好的弱信號識別能力。

2 弱信號識別方法

2.1 方法概述

為增強弱信號自動發現過程的可控性和發現效果，本文使用較為可控的文本相似度算法和主題特征兩個算法從文本語義層面和文本特征層面兩個角度發現非結構化文本的弱信號信息。其中，文本相似度算法通過文本之間的相似度值建立各個文本在整體內容的相似度基準，得到每個文本的平均相似度，文本平均相似度越高，說明該文本的相似的報文越多，也就說明文本的信號強度越強。上述方法實現了根據平均相似度可以從語義層面表達文本的信號強度，再根據平均相似度的閾值調節可以篩除掉噪聲和強信號，從而發現該批次數據的弱信號?；诎l現的弱信號樣本，提取其主題詞，并通過主題詞共現的方式獲取其他相關數據，實現對弱信號的增幅效應，便于分析人員對弱信號數據開展分析。弱信號識別方法整體流程框架如圖1所示。

文本經過預處理后形成文本庫，計算每一篇報文的相似報文，并計算相似報文的相似程度，從而得到每篇報文的平均相似度和整體平均相似度。計算每個文本的主題詞，并對主題頻率進行統計，構建出主題頻率空間。分析人員根據整體平均相似度設定弱信號閾值，并根據閾值范圍發現對應的弱信號文本，再根據主題關聯和頻率，從不同維度發現其他關聯的報文，從而增強弱信號強度，開展弱信號分析。

2.2 文本預處理

文本預處理使用BERT模型進行分詞。在預處理過程中，文本標題往往能夠說明整個文本數據的核心內容，因此在預處理階段，首先對標題和正文進行拆分，便于后續更精準的關鍵詞權重值計算。分詞后根據停用詞庫刪除無意義的詞語，構建文本庫。

2.3 文本平均相似度計算

文本平均相似度計算用于計算單個文本的平均相似度，并進一步計算整體平均相似度，從而獲取整體文本信號基準，基于單個文本的平均相似度能夠表征該文本在整個文本庫中的信號強度，文本整體平均相似度能夠表征文本庫整體的數據緊密程度，從而可以輔助分析人員根據自身需求設定弱信號的閾值。

在海量文本數據場景下，直接計算文本之間的相似度會花費n2的算力，無法滿足文本實時處置的要求。因此本文使用BM25算法快速召回一定數量的文本后，針對粗召回文本開展相似度計算更符合實際使用場景，BM25算法公式如下：

[Score（W，d）=inwi?R（qi，d）] （1）

其中：[wi]表示文本中的一個詞項權重，[R（qi，d）]表示文本的一個詞項與文檔相關性得分。

針對粗召回的文本，使用word2vec生成詞向量，并計算文本之間的余弦相似度，計算公式如下：

[sim（a，b）=1nAiBi1nA2i1nB2i] （2）

計算出召回數據的相似度后，根據文本數據語義關聯密度和分析需求，調整相似度閾值，形成相似文本集合。

2.4 主題詞計算和統計

主題詞計算通過詞語權重計算出能夠表征文本內容的關鍵詞，再基于關鍵詞統計從詞語粒度計算文本特征的信號強度，綜合文本語義弱信號，開展弱信號分析。文本關鍵詞使用jieba庫的逆詞頻算法TF-IDF，計算文檔關鍵詞和權重，并根據當前詞項是否出自標題增加一個權重調整項，使詞項更能夠代表文本內容。計算公式如下：

[Pwi=tf（wi）×log（Ndf（wi））×wp] （3）

其中，[tf（wi）]表示當前詞項[wi]在文本i中出現的頻率，N表示文本集合中所有文本的總數， [df（wi）]表示文本庫中包含當前詞項[wi]的文本數，[wp]根據詞項是否出現在標題配置的詞項權重。計算出逆詞頻權重后，選擇詞權重前n個詞作為關鍵詞，根據關鍵詞和文本的關系，構建共詞網絡。

2.4 弱信號發現

基于計算得到的整體平均相似度，作為弱信號基準值。根據帕累托原則，弱信號形成的信息不超過20%，且人類專家將噪聲的閾值范圍定義為0%～2%。假定整體平均相似度為Q，弱信號范圍可以在4%Q～40%Q，文本信號分布，如圖2所示。

根據弱信號閾值，獲取平均相似度在閾值內的文本數據，并根據文本的主題出現次數和共現情況對弱信號開展分析。其中主題出現次數能夠表示該主題自身的信號強度，主題共現情況能夠基于主題關聯相關文本，從而增強弱信號文本，輔助分析人員開展弱信號分析。

3 實驗結果及分析

為了驗證文本弱信號識別的效果，本文利用環球網2020年新聞數據集進行實驗。該數據集包括1170篇新聞數據。本文對數據集進行了內容清洗，去除了作者、發文單位等與內容無關的內容，并將清洗后的內容分為標題和正文，形成了文本庫。按照本文設計的方法，分別對文本庫進行平均相似度計算和主題詞計算，以便發現數據集中存在的弱信號數據。

通過文本平均相似度計算結果，文本整體平均相似度為0.3，而弱信號閾值為0.012～0.12，根據弱信號閾值篩選各個文本的平均相似度，獲取到23篇弱信號文本，根據對文本特征分析，可以發現該批次文本存在氣候變化、非洲、歐洲貿易等弱信號數據，對其關聯文本分析，發現存在全球氣候變化，由疫情引發的非洲食物短缺，以及英國脫歐后歐洲貿易影響等問題。

4 結束語

弱信號識別是基于弱信號進行戰略預警的重要組成部分，能否完整地識別和發現弱信號決定著戰略預警是否有效。本文基于文本相似度和主題詞抽取設計一種弱信號發現方法。該方法能夠針對批量數據開展定量的弱信號發現和分析，提高了海量文本數據的弱信號發現效率；該方法通過可量化的弱信號識別分析，提高文本分析過程的準確性；該方法所有過程均使用統計學算法，人可以直觀感受到弱信號文本在內容上的異同，是一種可信的文本分析方法。在實驗過程中，發現關鍵詞關聯文本的分析方法可以提供一種更加靈活的分析方法，該方法能夠提高人為識別文本弱信號的效率。所以在未來的工作中，將考慮如何開展弱信號文本的特征分析，進一步提高弱信號分析的能力。

參考文獻：

[1] 司謹源.基于地平線掃描的公安情報預警模式構建[J].情報雜志，2020，39（1）：56-62.

[2] 董尹，劉千里，宋繼偉，等.弱信號研究綜述：概念、方法和工具[J].情報理論與實踐，2018，41（10）：147-154.

[3] 董尹，李明陽，胡雅萍，等.情報業務語境下的弱信號理論解析[J].情報雜志，2023，42（5）：137-144，41.

[4] 單彬.認知視角下的弱信號分析及實證研究[D].北京：中國人民解放軍軍事醫學科學院，2014.

[5] 馬銘，毛進，李綱.從弱信號到機會：關于弱信號的相關研究進展[J].圖書情報工作，2023，67（19）：121-132.

[6] MüHLROTH C，GROTTKE M.A systematic literature review of mining weak signals and trends for corporate foresight[J].Journal of Business Economics，2018，88（5）：643-687.

[7] GRIOL-BARRES I，MILLA S，CEBRIáN A，et al.Detecting weak signals of the future：a system implementation based on text mining and natural language processing[J].Sustainability，2020，12（19）：7848.

[8] YOON J.Detecting weak signals for long-term business opportunities using text mining of Web news[J].Expert Systems with Applications，2012，39（16）：12543-12550.

[9] 楊波，邵婉婷.基于LDA-BERT融合模型的弱信號識別研究[J].圖書情報工作，2021，65（16）：98-107.

【通聯編輯：朱寶貴】

電腦知識與技術2024年23期

電腦知識與技術的其它文章: 人工智能課程中融入思政元素的規范應用研究; 基于產教融合的應用型本科高校計算機文化基礎教學研究與實踐; 操作系統課程融入思政元素的探索與研究; 基于OBE理念的計算機組成原理翻轉課堂教學模式創新研究; 新工科背景下計算機組成原理課程混合式教學的改革探索; 新工科背景下應用型本科計算機類專業課程體系建設探索