TF-IDF 模型和LSI 模型文本相似度算法的應用

2022-07-08 03:04:34馬偉彬

電子技術與軟件工程 2022年1期

馬偉彬

（國家知識產權局專利局專利審查協作廣東中心廣東省廣州市 510700）

隨著計算機技術的不斷進步，自然語言處理技術得到快速發展。文本相似度計算是自然語言處理中的重要內容[1]。在自然語言處理中，文本相似度計算用于度量不同文本之間所表達的語義的相似程度。基于文本相似度計算相關技術被應用到機器翻譯、信息檢索、文本分類、自動摘要、輿情分析、語義感情分析、對話系統、論文查重等領域[2]。

文本相似度計算在專利檢索實踐中也有廣泛應用。Patentics 進行語義檢索時通過對相關對比文件的相似度進行從高到低的排序[3]。incopat 進行語義檢索時會選擇優先顯示相關度比較高的對比文件[4]。智能檢索系統中，語義檢索通過計算文獻之間的相似度，然后按相似度高低給出文本語義最接近的文獻。

詞頻-逆文檔頻率（Term Frequency-Inverse Document Frequency，TF-IDF）模型、潛在語義索引(Latent Semantic Indexing，LSI）模型是常見的文本相似度計算模型，常用于自動評分系統以及網頁搜索和 DNA 序列匹配中[5][6]。

和網頁、試卷、DNA 序列相比，專利文獻具有格式規范，篇幅較長，有效信息出現頻率較低的特點。專利文獻一般包括說明書、權利要求書、說明書附圖、摘要等部分[7]。其中說明書摘要是說明書記載內容的概述。說明書摘要記載發明的名稱和所屬的技術領域，并清楚地反映所要解決的技術問題、解決該問題的技術方案的要點以及主要用途。說明書摘要通常附有插圖。專利文獻的篇幅較長，通常超過數千字符，增大了文本相似度計算的難度。而專利文獻的檢索過程中重要的信息是發明構思的相關信息[8][9]。發明構思即發明人進行研發的技術構思或技術改進思路，是發明人的一種智力活動，其以現有技術中存在的技術問題為起點，以利用自然規律的能夠解決該技術問題的技術方案為橋梁，以該技術方案所能達到的技術效果為終點。也就是說，發明構思外化于技術問題、技術方案和技術效果。抓住了發明構思就抓住了發明創造的實質。因此，對發明構思的確認和抽提是實質審查工作中的重要內容，對于檢索工作具有重大的指導意義[8]。然而發明構思的相關信息在專利文獻的說明書、權利要求書中直接出現的次數較少，使得頻率統計中發明構思的相關信息難以獲得較大的權重，無法在相似度中得到較好的體現。

表1：實驗文檔

本文根據專利文獻的特點，修改了生成詢問矢量、TFIDF 矢量的基礎文本，有效減少了TF-IDF 模型、LSI 模型中的噪聲信息，從而降低了非發明內容的背景技術專利文獻的相似度，提高發明內容的相關專利文獻的檢出率。

1 模型介紹

TF-IDF 模型是一種常用的加權算法，是詞頻和逆文檔頻率的組合，能夠確定特定詞項的權重的大小[6]。TF-IDF模型通過對文本集合中的每一個詞項都進行分析得到每一篇文本中每一個詞項的TF-IDF 值，然后再利用這些TF-IDF值為每一篇文本建立一個向量模型，進一步通過詢問文檔向量和TF-IDF 向量間的相似度來確定文本之間的相似性[10]。

TF-IDF 值的計算是以 TF 和 IDF 乘積作為特征空間坐標系的取值測度。TF-IDF 與該詞出現頻率成正比，與在整個語料庫中出現的次數成反比。具體而言一個給定詞語wi在文檔集合D 中的TF-IDF 值如下計算，TF-IDF（wi）=TF（wi）×IDF（wi）。

其中TF（wi）=fj（wi）；

fj（wi）表示一個給定詞語wi在文檔集合D 中的一篇文檔 dj中出現的頻率。

log（N／d f（wi））表示文檔集合D 的文本總數N 和文檔集合D 中出現詞語wi的文本總數df（wi）的比值的指數。 log（N／d f（wi））表征一個詞語對于整個文檔集或語料庫的重要性的判斷依據。

TF（wi）越高，說明詞語 wi對文檔 dj越重要。在文檔集合D 中，若包含詞語 wi的文檔越少，則IDF（wi）越大，說明詞語 wi在整個文檔集D 中具有很好的識別區分能力[11]。

LSI 模型是基于文檔和詞共現關系以及奇異值分解（SVD）方法來得到文本主題的一種模型[5]。LSI 模型通過對詞匯頻率-文本矩陣進行奇異值分解，根據實現效果選取一個k 值，產生潛在語義空間；把查詢向量投影到變換后的k 值詞匯頻率-文本矩陣產生的空間中；進一步計算相似度[12]。

LSI 是將文本和詞匯的高維表示投影在低維的潛在語義空間中，縮小了問題的規模，得到詞匯和文本的不再稀疏的低維表示，同時這種低維表示揭示出了詞匯一文本之間語義上的聯系[13]。

2 TF-IDF模型、LSI模型的中文文本相似度計算

本實驗以4 個文檔為例子，文檔介紹如表格1 所示。

分別對 4 個文檔進行 TF-IDF 的算法實現如圖1。首先輸入文本D1-D4；使用jieba 庫進行分詞，形成D1-D4 分詞文檔；對D1-D4 分詞文檔通過stop_word.txt 進行停用詞去除；將去除停用詞后的D1-D4 文檔轉化成D1-D4 詞袋矢量；將D1-D4 詞袋矢量轉化成D1-D4 文本TF-IDF 矢量；通過D1的詞袋矢量和D1-D4 文本TF-IDF 矢量計算 TF-IDF 模型相似度。

圖1：TF-IDF 模型文本相似度計算過程

分別對 4 個文檔進行lsi 的算法實現如圖2。首先輸入文本D1-D4；使用jieba 庫進行分詞，形成D1-D4 分詞文檔；對D1-D4 分詞文檔通過stop_word.txt 進行停用詞去除；將去除停用詞后的D1-D4 文檔轉化成D1-D4 詞袋矢量；將D1-D4 詞袋矢量轉化成D1-D4 文本TF-IDF 矢量；D1-D4 文本TF-IDF 矢量進行SVD 分解，通過設置num_topics 形成若干個潛在主題；通過潛在主題將D1 的詞袋矢量轉化成LSI 矢量；通過潛在主題形成 D1-D4 文本LSI 矢量；將D1的詞袋矢量轉化成LSI 矢量和D1-D4 的文本LSI 矢量計算LSI 模型相似度。

圖2：LSI 模型文本相似度計算過程

上述專利文獻都是長文本，其經過文本分詞后，D1、D2、D3、D4 的詞匯量分別為4034、8085、5170、4938。以下表格僅選取“氣體”、 “加熱器”、“取放”、“內壁”、“執行”、“放置”進行統計，如表2。其中 “氣體”、 “加熱器”是和發明內容相關的信息詞匯；“取放”、“內壁”、“執行”、“放置”是和發明內容不太相關的技術詞匯。可見“取放”、“內壁”、“執行”、“放置”等和發明內容不太相關的技術詞匯的TF-IDF 值較大，最后對TF-IDF 模型文本相似度造成影響。

表2：文檔若干詞的TF-IDF 統計

LSI 模型相似度計算過程如附圖3 所示。從圖3 可知，在num_topics=2 時，LSI 模型中通過把D1-D4 文本TF-IDF矢量轉化成兩個潛在主題。該兩個潛在主題分別由抓取、手臂、吸附、墊、吸盤、盤、機械、腔體、腔、存放；卡盤、SOI、催化、玻璃、伯努利、成膜、150、102、絕緣體、絕緣加權構成。D1-D4 文檔的 TF-IDF 矢量投影到上述潛在主題，形成四組二維lsi_vector。D1 的詞袋矢量投影到上述潛在主題形成二維query_lsi。最后計算D1 的詞袋矢量轉化成LSI 矢量和D1-D4 的文本LSI 矢量計算 LSI 模型相似度。

圖3：LSI 模型文本相似度計算

3 修改后的TF-IDF模型、LSI模型的中文文本相似度計算

通過D1 計算出的D1 的詞袋矢量，其詞匯量為315。其中和發明內容相關的信息詞匯只有“氣體”、 “加熱器”、“熱應力”、 “彎曲”、“變形”等若干個詞匯。有效信息-噪聲比值將近5/315。

采用摘要作為基礎文本D1’，計算D1’的詞袋矢量，其詞匯量為28。中依然保留“氣體”、 “加熱器”、 “熱應力”、 “彎曲”、“變形”等與發明內容相關的詞匯，從而減少了噪聲信息，把有效信息-噪聲比值提高到5/28，繼續進行 TF-IDF 、LSI 的算法實現。

本實驗以4 個文檔為例子，文檔介紹如表3 所示。

表3：實驗文檔

分別對4 個文檔進行 TF-IDF 、LSI 的算法實現。選取若干重要的詞進行TF-IDF 統計，并給出4 個文檔的 TF-IDF模型、LSI 模型文本相似度，如表4。

表4：文檔若干詞的TF-IDF 統計

基礎文本調整后，D1’-D4 的TF-IDF 矢量中，“取放”、“內壁”、“執行”、“放置”等249 個和發明內容不太相關的噪聲信息的TF-IDF 值得到有效降低。有效避免了TFIDF 矢量中“取放”、“內壁”、“執行”、“放置”等和發明內容不太相關的噪聲信息的影響。減少了這些技術詞匯對TF-IDF 模型文本相似度造成的影響。

同時，TF-IDF 矢量中“取放”、“內壁”、“執行”、“放置”等和發明內容不太相關的噪聲信息的減少，還可以使LSI 模型中潛在主題噪聲信息也減少，從而減少噪聲信息對D1-D4 文檔的 TF-IDF 矢量投影、D1 的詞袋矢量投影的影響，使LSI 模型文本相似度中同領域非相關的技術文獻D3 的相似度得到比較大的降低，如圖4、5 所示。

圖4：TF-IDF 模型

從圖4 可知，采用基礎文本D1’后，與本申請密切相關的技術文獻D2 的TF-IDF 相似度從0.02881 降低為0.01496，為原來的52%；而同領域非相關的技術文獻D3 的TF-IDF 相似度從0.14992 降低為0.03270，為原來的22%。可見采用基礎文本D1’更大的降低噪聲的影響。

從圖5 可知，采用基礎文本D1’后，與本申請密切相關的D2 的LSI 相似度從0.05901 增加為0.35108，為原來的595%；而同領域非相關的技術文獻D3 的LSI 相似度從0.98564 降低為0.33400，為原來的33%。可見采用基礎文本D1’不但可以較大的降低噪聲的影響，還能提高發明內容相關的信息的影響。

圖5：LSI 模型文本相似度

LSI 模型中，num_topics 的數值可以調整潛在主題的數量，從而對D’1-D4 文檔的lsi_vector、D1 的詞袋矢量的query_lsi 取值，進而影響LSI 模型文本相似度。num_topics的數值過小，則會導致必要信息被忽略，影響文本相似度的準確性。然而num_topics 的數值過大，則會導致過多的非必要信息被表征，影響文本相似度的準確性。如附圖6 所示，采用基礎文本D1’進行LSI 模型文本相似度計算，當num_topics=1 時，D’1-D4 的文本相似度都為1，無法區分和本申請相關的技術文獻D2、同領域非相關的技術文獻D3、不同領域技術文獻D4。當num_topics=2 時，本申請相關的技術文獻D2 的LSI 相似度下降為0.35109；同領域非相關的技術文獻D3 的LSI 相似度下降為0.33401；不同領域技術文獻D4 的LSI 相似度下降為0。-當num_topics=4 時，本申請相關的技術文獻D2的LSI相似度進一步下降為0.02915；同領域非相關的技術文獻D3 的LSI 相似度下降為0.06372；不同領域技術文獻D4 的LSI 相似度保持為0。可見當num_topics=2 時， D2、D3、D4 得到較好的區分。

圖6：LSI 文本相似度-topic 關系圖

4 總結

本文通過把發明申請的摘要作為基礎文本，有效減少了和發明內容不太相關的噪聲信息，提高基礎文本的有效信息-噪聲比值，從而降低了TF-IDF 模型、LSI 模型中噪聲信息對文本相似度的影響，增加了LSI 模型中有效信息的影響。本文還通過對潛在主題數量進行設置，找到比較適合專利文獻LSI 模型文本相似度計算的潛在主題數。