999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

TF-IDF 模型和LSI 模型文本相似度算法的應用

2022-07-08 03:04:34馬偉彬
電子技術與軟件工程 2022年1期
關鍵詞:詞匯文本信息

馬偉彬

(國家知識產權局專利局專利審查協作廣東中心 廣東省廣州市 510700)

隨著計算機技術的不斷進步,自然語言處理技術得到快速發展。文本相似度計算是自然語言處理中的重要內容[1]。在自然語言處理中,文本相似度計算用于度量不同文本之間所表達的語義的相似程度。基于文本相似度計算相關技術被應用到機器翻譯、信息檢索、文本分類、自動摘要、輿情分析、語義感情分析、對話系統、論文查重等領域[2]。

文本相似度計算在專利檢索實踐中也有廣泛應用。Patentics 進行語義檢索時通過對相關對比文件的相似度進行從高到低的排序[3]。incopat 進行語義檢索時會選擇優先顯示相關度比較高的對比文件[4]。智能檢索系統中,語義檢索通過計算文獻之間的相似度,然后按相似度高低給出文本語義最接近的文獻。

詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)模型、潛在語義索引(Latent Semantic Indexing,LSI)模型是常見的文本相似度計算模型,常用于自動評分系統以及網頁搜索和 DNA 序列匹配中[5][6]。

和網頁、試卷、DNA 序列相比,專利文獻具有格式規范,篇幅較長,有效信息出現頻率較低的特點。專利文獻一般包括說明書、權利要求書、說明書附圖、摘要等部分[7]。其中說明書摘要是說明書記載內容的概述。說明書摘要記載發明的名稱和所屬的技術領域,并清楚地反映所要解決的技術問題、解決該問題的技術方案的要點以及主要用途。說明書摘要通常附有插圖。專利文獻的篇幅較長,通常超過數千字符,增大了文本相似度計算的難度。而專利文獻的檢索過程中重要的信息是發明構思的相關信息[8][9]。發明構思即發明人進行研發的技術構思或技術改進思路,是發明人的一種智力活動,其以現有技術中存在的技術問題為起點,以利用自然規律的能夠解決該技術問題的技術方案為橋梁,以該技術方案所能達到的技術效果為終點。也就是說,發明構思外化于技術問題、技術方案和技術效果。抓住了發明構思就抓住了發明創造的實質。因此,對發明構思的確認和抽提是實質審查工作中的重要內容,對于檢索工作具有重大的指導意義[8]。然而發明構思的相關信息在專利文獻的說明書、權利要求書中直接出現的次數較少,使得頻率統計中發明構思的相關信息難以獲得較大的權重,無法在相似度中得到較好的體現。

表1:實驗文檔

本文根據專利文獻的特點,修改了生成詢問矢量、TFIDF 矢量的基礎文本,有效減少了TF-IDF 模型、LSI 模型中的噪聲信息,從而降低了非發明內容的背景技術專利文獻的相似度,提高發明內容的相關專利文獻的檢出率。

1 模型介紹

TF-IDF 模型是一種常用的加權算法,是詞頻和逆文檔頻率的組合,能夠確定特定詞項的權重的大小[6]。TF-IDF模型通過對文本集合中的每一個詞項都進行分析得到每一篇文本中每一個詞項的TF-IDF 值,然后再利用這些TF-IDF值為每一篇文本建立一個向量模型,進一步通過詢問文檔向量和TF-IDF 向量間的相似度來確定文本之間的相似性[10]。

TF-IDF 值的計算是以 TF 和 IDF 乘積作為特征空間坐標系的取值測度。TF-IDF 與該詞出現頻率成正比,與在整個語料庫中出現的次數成反比。具體而言一個給定詞語wi在文檔集合D 中的TF-IDF 值如下計算,TF-IDF(wi)=TF(wi)×IDF(wi)。

其中TF(wi)=fj(wi);

fj(wi)表示一個給定詞語wi在文檔集合D 中的一篇文檔 dj中出現的頻率。

log(N/d f(wi))表示文檔集合D 的文本總數N 和文檔集合D 中出現詞語wi的文本總數df(wi)的比值的指數。 log(N/d f(wi))表征一個詞語對于整個文檔集或語料庫的重要性的判斷依據。

TF(wi)越高,說明詞語 wi對文檔 dj越重要。在文檔集合D 中,若包含詞語 wi的文檔越少,則IDF(wi)越大,說明詞語 wi在整個文檔集D 中具有很好的識別區分能力[11]。

LSI 模型是基于文檔和詞共現關系以及奇異值分解(SVD)方法來得到文本主題的一種模型[5]。LSI 模型通過對詞匯頻率-文本矩陣進行奇異值分解,根據實現效果選取一個k 值,產生潛在語義空間;把查詢向量投影到變換后的k 值詞匯頻率-文本矩陣產生的空間中;進一步計算相似度[12]。

LSI 是將文本和詞匯的高維表示投影在低維的潛在語義空間中,縮小了問題的規模,得到詞匯和文本的不再稀疏的低維表示,同時這種低維表示揭示出了詞匯一文本之間語義上的聯系[13]。

2 TF-IDF模型、LSI模型的中文文本相似度計算

本實驗以4 個文檔為例子,文檔介紹如表格1 所示。

分別對 4 個文檔進行 TF-IDF 的算法實現如圖1。首先輸入文本D1-D4;使用jieba 庫進行分詞,形成D1-D4 分詞文檔;對D1-D4 分詞文檔通過stop_word.txt 進行停用詞去除;將去除停用詞后的D1-D4 文檔轉化成D1-D4 詞袋矢量;將D1-D4 詞袋矢量轉化成D1-D4 文本TF-IDF 矢量;通過D1的詞袋矢量和D1-D4 文本TF-IDF 矢量計算 TF-IDF 模型相似度。

圖1:TF-IDF 模型文本相似度計算過程

分別對 4 個文檔進行lsi 的算法實現如圖2。首先輸入文本D1-D4;使用jieba 庫進行分詞,形成D1-D4 分詞文檔;對D1-D4 分詞文檔通過stop_word.txt 進行停用詞去除;將去除停用詞后的D1-D4 文檔轉化成D1-D4 詞袋矢量;將D1-D4 詞袋矢量轉化成D1-D4 文本TF-IDF 矢量;D1-D4 文本TF-IDF 矢量進行SVD 分解,通過設置num_topics 形成若干個潛在主題;通過潛在主題將D1 的詞袋矢量轉化成LSI 矢量;通過潛在主題形成 D1-D4 文本LSI 矢量;將D1的詞袋矢量轉化成LSI 矢量和D1-D4 的文本LSI 矢量計算LSI 模型相似度。

圖2:LSI 模型文本相似度計算過程

上述專利文獻都是長文本,其經過文本分詞后,D1、D2、D3、D4 的詞匯量分別為4034、8085、5170、4938。以下表格僅選取“氣體”、 “加熱器”、“取放”、“內壁”、“執行”、“放置”進行統計,如表2。其中 “氣體”、 “加熱器”是和發明內容相關的信息詞匯;“取放”、“內壁”、“執行”、“放置”是和發明內容不太相關的技術詞匯。可見“取放”、“內壁”、“執行”、“放置”等和發明內容不太相關的技術詞匯的TF-IDF 值較大,最后對TF-IDF 模型文本相似度造成影響。

表2:文檔若干詞的TF-IDF 統計

LSI 模型相似度計算過程如附圖3 所示。從圖3 可知,在num_topics=2 時,LSI 模型中通過把D1-D4 文本TF-IDF矢量轉化成兩個潛在主題。該兩個潛在主題分別由抓取、手臂、吸附、墊、吸盤、盤、機械、腔體、腔、存放;卡盤、SOI、催化、玻璃、伯努利、成膜、150、102、絕緣體、絕緣加權構成。D1-D4 文檔的 TF-IDF 矢量投影到上述潛在主題,形成四組二維lsi_vector。D1 的詞袋矢量投影到上述潛在主題形成二維query_lsi。最后計算D1 的詞袋矢量轉化成LSI 矢量和D1-D4 的文本LSI 矢量計算 LSI 模型相似度。

圖3:LSI 模型文本相似度計算

3 修改后的TF-IDF模型、LSI模型的中文文本相似度計算

通過D1 計算出的D1 的詞袋矢量,其詞匯量為315。其中和發明內容相關的信息詞匯只有“氣體”、 “加熱器”、“熱應力”、 “彎曲”、“變形”等若干個詞匯。有效信息-噪聲比值將近5/315。

采用摘要作為基礎文本D1’,計算D1’的詞袋矢量,其詞匯量為28。中依然保留“氣體”、 “加熱器”、 “熱應力”、 “彎曲”、“變形”等與發明內容相關的詞匯,從而減少了噪聲信息,把有效信息-噪聲比值提高到5/28,繼續進行 TF-IDF 、LSI 的算法實現。

本實驗以4 個文檔為例子,文檔介紹如表3 所示。

表3:實驗文檔

分別對4 個文檔進行 TF-IDF 、LSI 的算法實現。選取若干重要的詞進行TF-IDF 統計,并給出4 個文檔的 TF-IDF模型 、LSI 模型文本相似度,如表4。

表4:文檔若干詞的TF-IDF 統計

基礎文本調整后,D1’-D4 的TF-IDF 矢量中,“取放”、“內壁”、“執行”、“放置”等249 個和發明內容不太相關的噪聲信息的TF-IDF 值得到有效降低。有效避免了TFIDF 矢量中“取放”、“內壁”、“執行”、“放置”等和發明內容不太相關的噪聲信息的影響。減少了這些技術詞匯對TF-IDF 模型文本相似度造成的影響。

同時,TF-IDF 矢量中“取放”、“內壁”、“執行”、“放置”等和發明內容不太相關的噪聲信息的減少,還可以使LSI 模型中潛在主題噪聲信息也減少,從而減少噪聲信息對D1-D4 文檔的 TF-IDF 矢量投影、D1 的詞袋矢量投影的影響,使LSI 模型文本相似度中同領域非相關的技術文獻D3 的相似度得到比較大的降低,如圖4、5 所示。

圖4:TF-IDF 模型

從圖4 可知,采用基礎文本D1’后,與本申請密切相關的技術文獻D2 的TF-IDF 相似度從0.02881 降低為0.01496,為原來的52%;而同領域非相關的技術文獻D3 的TF-IDF 相似度從0.14992 降低為0.03270,為原來的22%。可見采用基礎文本D1’更大的降低噪聲的影響。

從圖5 可知,采用基礎文本D1’后,與本申請密切相關的D2 的LSI 相似度從0.05901 增加為0.35108,為原來的595%;而同領域非相關的技術文獻D3 的LSI 相似度從0.98564 降低為0.33400,為原來的33%。可見采用基礎文本D1’不但可以較大的降低噪聲的影響,還能提高發明內容相關的信息的影響。

圖5:LSI 模型文本相似度

LSI 模型中,num_topics 的數值可以調整潛在主題的數量,從而對D’1-D4 文檔的lsi_vector、D1 的詞袋矢量的query_lsi 取值,進而影響LSI 模型文本相似度。num_topics的數值過小,則會導致必要信息被忽略,影響文本相似度的準確性。然而num_topics 的數值過大,則會導致過多的非必要信息被表征,影響文本相似度的準確性。如附圖6 所示,采用基礎文本D1’進行LSI 模型文本相似度計算,當num_topics=1 時,D’1-D4 的文本相似度都為1,無法區分和本申請相關的技術文獻D2、同領域非相關的技術文獻D3、不同領域技術文獻D4。當num_topics=2 時,本申請相關的技術文獻D2 的LSI 相似度下降為0.35109;同領域非相關的技術文獻D3 的LSI 相似度下降為0.33401;不同領域技術文獻D4 的LSI 相似度下降為0。-當num_topics=4 時,本申請相關的技術文獻D2的LSI相似度進一步下降為0.02915;同領域非相關的技術文獻D3 的LSI 相似度下降為0.06372;不同領域技術文獻D4 的LSI 相似度保持為0。可見當num_topics=2 時, D2、D3、D4 得到較好的區分 。

圖6:LSI 文本相似度-topic 關系圖

4 總結

本文通過把發明申請的摘要作為基礎文本,有效減少了和發明內容不太相關的噪聲信息,提高基礎文本的有效信息-噪聲比值,從而降低了TF-IDF 模型、LSI 模型中噪聲信息對文本相似度的影響,增加了LSI 模型中有效信息的影響。本文還通過對潛在主題數量進行設置,找到比較適合專利文獻LSI 模型文本相似度計算的潛在主題數。

猜你喜歡
詞匯文本信息
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
本刊一些常用詞匯可直接用縮寫
主站蜘蛛池模板: 国产精品夜夜嗨视频免费视频| 大学生久久香蕉国产线观看| 国产福利小视频在线播放观看| 日本免费高清一区| 久久人妻xunleige无码| 日韩av无码DVD| a级毛片网| 久久精品娱乐亚洲领先| 91九色视频网| 亚洲最大福利视频网| 日韩在线1| 久久人搡人人玩人妻精品| 夜夜拍夜夜爽| 精品久久香蕉国产线看观看gif| 伊人久久婷婷五月综合97色| 国产在线精彩视频二区| 男人天堂伊人网| 天天色综合4| 亚洲一区二区三区国产精华液| 四虎亚洲国产成人久久精品| 日韩 欧美 小说 综合网 另类| 国产自在线拍| 国产真实乱了在线播放| 青青热久麻豆精品视频在线观看| 日韩在线欧美在线| 国产h视频免费观看| 欧美精品成人一区二区在线观看| 久久国产高潮流白浆免费观看 | 国产地址二永久伊甸园| 日本91视频| 自拍亚洲欧美精品| 日韩国产亚洲一区二区在线观看| 综合亚洲网| 精品国产Ⅴ无码大片在线观看81| 成年A级毛片| 欧美亚洲综合免费精品高清在线观看| 九色视频最新网址| 国产精品免费p区| 国产jizz| 青青青视频91在线 | 2018日日摸夜夜添狠狠躁| 成年人福利视频| 久久免费观看视频| 性喷潮久久久久久久久| 国产精品色婷婷在线观看| 麻豆精品视频在线原创| 2020国产免费久久精品99| 欧美国产另类| 91精品免费久久久| 国产成a人片在线播放| 欧美日韩亚洲国产主播第一区| 亚洲精品国产综合99| 久久久久久国产精品mv| 国产亚洲精品自在线| 久久综合丝袜日本网| 欧美无专区| 中文字幕有乳无码| 亚洲福利一区二区三区| 国产美女无遮挡免费视频| 国产门事件在线| 久久精品这里只有国产中文精品| 91久久偷偷做嫩草影院精品| 热久久综合这里只有精品电影| 亚洲国产看片基地久久1024| 精品国产免费观看一区| 欧美色视频在线| 欧美精品v日韩精品v国产精品| 真实国产乱子伦高清| 高清码无在线看| 欧美国产精品不卡在线观看| 成人在线不卡| 欧美不卡视频在线观看| 日韩a级毛片| 中文字幕啪啪| 亚洲精品片911| 国产原创第一页在线观看| 亚洲欧美日韩另类在线一| 成人噜噜噜视频在线观看| 亚洲成人77777| 国产精品香蕉在线| 最近最新中文字幕在线第一页| 国产91视频观看|