999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Word2Vec及TextRank算法的長文檔摘要自動生成研究

2023-06-25 05:29:28朱玉婷劉樂辛曉樂陳瓏慧康亮河
現代信息科技 2023年4期
關鍵詞:提取

朱玉婷 劉樂 辛曉樂 陳瓏慧 康亮河

基于Word2Vec及TextRank算法的長文檔摘要

自動生成研究

朱玉婷,劉樂,辛曉樂,陳瓏慧,康亮河

(甘肅農業大學,甘肅 蘭州? 730070)

摘? 要:近年來,如何從大量信息中提取關鍵信息已成為一個急需解決的問題。針對中文專利長文檔,提出一種結合Word2Vec和TextRank的專利生成算法。首先利用Python Jieba技術對中文專利文檔進行分詞,利用停用詞典去除無意義的詞;其次利用Word2Vec算法進行特征提取,并利用WordCloud對提取的關鍵詞進行可視化展示;最后利用TextRank算法計算語句間的相似度,生成摘要候選句,根據候選句的權重生成該專利文檔的摘要信息。實驗表明,采用Word2Vec和TextRank生成的專利摘要質量高,概括性也強。

關鍵詞:Jieba分詞;關鍵詞提取;Word2Vec算法;TextRank算法

中圖分類號:TP391.1? 文獻標識碼:A? 文章編號:2096-4706(2023)04-0036-04

Research on Abstract Automatic Generation of Long Document Based on the Word2Vec + TextRank Algorithm

ZHU Yuting, LIU Le, XIN Xiaole, CHEN Longhui, KANG Lianghe

(Gansu Agricultural University, Lanzhou? 730070, China)

Abstract: In recent years, how to extract critical information from large amounts of information has become a problem which needs to be solved urgently. For Chinese patent long documents, a patent generation algorithm combining Word2Vec and TextRank is proposed. Firstly, Python Jieba technology is used to segment words in Chinese patent documents, and meaningless words are removed by using the stop dictionary. Secondly, the Word2Vec algorithm is used for feature extraction, and the extracted keywords are visually displayed by WordCloud. Finally, the TextRank algorithm is used to calculate the similarity between sentences, generate abstract candidate sentences, and generate abstract information of the patent documents according to the weight of candidate sentences. Experiments show that patent abstracts generated by Word2Vec and TextRank are of high quality and have strong generalization.

Keywords: Jieba word segmentation; keyword extraction; Word2Vec algorithm; TextRank algorithm

0? 引? 言

21世紀,由于時代的進步與信息科技的飛速發展,大數據時代也隨之來臨,傳統的手工編織文摘已經落后,人們獲取信息的便捷度不斷提高,信息量不斷增加,使文本信息出現爆炸式增長。如何從大量信息中提取出重要信息還有待解決。在大量數據中提取出具有價值的信息已經成為一個重要的研究方向。自動文摘是全面反映文本信息主要內容的短文本,也具有簡潔連貫的特點。自動摘要技術是計算機通過寫一些算法和輸入的文章自動生成摘要的技術[1],到目前為止,國外做的一些自動文本摘要技術已經取得了成果,英文文本的摘要技術也已經被提出。而中文文本提取摘要的技術上依舊不夠成熟,在提取結果上依然有很大的進步空間,而國內的研究目前仍處于初級階段,因此,根據中文的特點,制作設計出一個中文文本的自動摘要系統顯得尤為重要[2]。

自動文本摘要興起于20世紀50年代,在1958年IBM公司的Luhn[3]第一次進行了自動文本摘要的研究,宣布了這項技術的產生。劉志明[4]等利用LDA主題模型結合TextRank自動摘要方法,解決了不同文檔結構及內容特征等問題對摘要結果的影響,實驗表明,該方法能更為高效的獲取新聞文本摘要結果。Salton[5]提出了著名的TF-IDF方法,詞語的重要程度也被這個方法精確科學的評估到了,所以才能更加精確地抽取主要句子生成摘要。HU[6]等人在K-means算法的基礎上進行了摘要提取。相較國外,國內從事自動文本摘要的研究相對較晚,王永成[7]等人在20世紀80年代開發了用于中文文獻的自動文本摘要系統。國外學者Kchaou[8]等根據文本的相似度計算,克服了現有的CIA方法一方面集中在一個時間段產生的模型,另一方面忽視了整個開發階段產生的各種各類的模型之間的語義相互依賴關系的問題。Li[9]等人提取關鍵詞用到了TextRank算法,最后通過神經網絡得到了關鍵詞,并將其與點生成網絡進行結合,來指導摘要生成任務的進。程園[10]等人一起制作了一個特征加權函數,在文本的訓練中用到了數學回歸模型,使一些冗余句子的信息被去除,進而生成關鍵詞得到文本摘要。徐飛[11]等人利用文本結構分析等技術方法實現了中文自動摘要系統。

文章主要研究的是如何從一篇篇幅較長的專利性文本中提取出其中的關鍵詞,使其輸出文本摘要。在用一些主要的編碼生成摘要時,會有目標算法與評價指標不一致以及結果與預測結果相差較大的問題出現[5],對于存在的問題,本文根據其特點,在進行文本預處理、分詞以及去除停用詞一系列操作之后重點使用Word2Vec和TextRank等算法計算出詞頻,進行關鍵字抽取,詞云展示,生成摘要等幾個妙計,獲取主題的文本摘要。實驗證明,本文提出的方法能夠獲得較好的性能提升。

1? 主要算法介紹

1.1? 分詞和去停用詞

中文分詞作為自然語言處理的第一步,利用計算機將待處理的文字串進行分詞、過濾處理,輸出中文單詞、數字及特殊字符等一系列分割好的字符串。本文采用Python 3.0自帶的中文Jieba分詞,基于前綴詞典進行詞圖掃描,通過精準模式(jieba.lcut(txt,cut_all=False))將句子最精確地切開,適合本文的專利長文檔。

1.2? 去停用詞

停用詞最早發現于信息檢索,Luhn在檢索研究中發現有一些詞出現的概率非常高,但檢索效果確很差[12]。停用詞是除了文本中可以表達具體含義的實詞以外,用于填充結構的虛詞以及一些其他沒有實際意義的詞。這些詞很明顯就不是最后要找的關鍵詞,而且還會對下一步的特征提取產生不好的影響[13],所以要根據停用詞典去除高頻且毫無意義的詞語。

1.3? Word2Vec算法

Word2Vec是一種產生詞向量的語言模式。將所有的詞向量化,以便更好地衡量詞與詞之間的關系,而Word2Vec作為一種編碼方式,將每個詞編碼成向量用來體現這些詞的關系。

Word2Vec主要具有兩種模型,一種是CBOW模型(通過上下文窗口詞向量預測中心詞向量)與Skip-Gram模型(根據中心詞預測窗口詞向量),其主要算法流程如圖1所示。

主要步驟:

(1)讀取源文件(此時的源文件是已經經過分詞和去停用詞的文件);

(2)使用Python的第三方庫,最后可以得到有關專利文本的n個候選關鍵詞,即D={t1, t2…, t3};

(3)遍歷這些候選關鍵詞,從生成的詞向量文件中抽取候選關鍵詞的詞向量表示,即WV={V1, V2,…, Vm};

(4)計算詞向量距離并排序,公式:

(1)

(5)把候選關鍵詞排名在前TopN的詞匯作為文本的關鍵詞。

1.4? TextRank算法

TextRank算法是在PageRank算法的基礎上提出來的,且是一種抽取式無監督的摘要方法,把對文本的分析轉化成一個網絡圖模式,這樣就可以通過分析網絡圖中每個節點的權重,確定節點的重要性。把文本中每一個句子都看作一個節點,如果兩個句子之間存在相似性,則這兩個句子之間有一條無向有權邊[14]。

句子相似度計算:

(2)

通過句子的余弦相似度方法計算可得到句子間的相似度矩陣Sn×n:

(3)

其計算公式為:

(4)

TextRank算法相當于一種排序算法,可以將專利文本分割成若干個單元,通過句子節點構建連接圖[15],利用相似度,通過循環迭代計算句子的TextRank值。TextRank算法流程如圖2所示。

為分割后的每個句子找到向量表示,計算出句子之間的相似度之后存放在矩陣中,然后根據相似矩陣以及網絡圖計算并進行排序,最終,排名最高的n個句子作為最后的摘要結果。

2? 實驗結果及討論

文章的設計目的是從一篇中文專利文檔中抽取關鍵詞,以農業大棚用薄膜為研究對象,對文檔內容進行大致的分析。其中涉及四個步驟,首先對長文檔進行分詞、去停用詞,其次利用Word2Vec算法提取反映文章主要內容的關鍵詞,最后通過TextRank算法自動生成摘要,其具體的流程如圖3所示。

2.1? 分詞和去停用詞

使用Jieba庫,進行分詞拆分,先去掉非漢字字符,讀入停用詞表的文件,對每個詞進行檢索,去除對文本語義分詞無意義的標點符號,對文本數據進行預處理,部分結果如表1所示。

2.2? Word2Vec關鍵字的提取

通過Word2Vec進行提取關鍵詞,使讀者一眼看出文章中的高頻詞,快速捕獲文本信息,節約大量時間,文章共生成了254個關鍵詞,通過Python中詞云庫WordCloud根據254個關鍵詞的重要程度進行可視化展示,其最終生成的詞云如圖4所示。

從圖4的展示結構中可以發現,本文共提取的254個關鍵詞中,按照重要程度依次是監測、裝置、相機、旋轉、調節、機構、處理器、光源等關鍵詞,由此可以推斷這篇長文檔是一篇關于農業大棚薄膜材質的監測裝置。

2.3? TextRank生成摘要

通過Word2Vec算法對在原文中提取的關鍵字進行Embedding處理,TextRank算法根據Embedding值,用WordAVG表示句向量,然后根據余弦相似度計算形成一個113×113維度的相似度矩陣,根據TextRank算法提取113個摘要句,文章選取排名最前的10個摘要句構成該專利的摘要,其結果如表2所示。

從以上結果可以發現,通過TextRank算法自動生成的摘要,與該專利的原文摘要相比,篇幅較少,描述的文字也不盡相同,但較全面地概括了本文研究的目的、內容及意義,為其他專利長文檔的自動生成提供了一定的借鑒及指導意義。

3? 結? 論

主要以農業大棚用薄膜為研究對象,以Word2Vec和TextRank算法生成摘要為例,主要從分詞,去停用詞,關鍵詞提取,生成摘要四個方面對長文本進行研究,實現自動文本摘要提取。首先對文本數據進行預處理,在用Jieba庫對專利文本進行分詞,然后檢索停用詞表去除無用的停用詞,然后通過Word2Vec進行提取關鍵詞,快速捕獲文本信息,用wordcloud對提取的關鍵詞進行展示,最后通過TextRank算法生成摘要。實驗結果顯示,相對于傳統方法而言,本文提出的基于Word2Vec和TextRank算法的自動文本摘要不易偏離主題,且適應范圍廣,速度快,準確度高,符合實驗預期。

參考文獻:

[1] 趙明輝,張玲玲,顧基發.基于網絡評論文本挖掘的技術預見方法研究 [J].科技管理研究,2022,42(16):176-181.

[2] 熊謙,唐文哲.基于文本挖掘的水利工程建設管理信息化專利分析 [J].清華大學學報:自然科學版,2023,63(2):223-232.

[3] LUHN H P. The Automatic Creation of Literature Abstracts [J].IBM Journal of Research and Development,1958,2(2):159-165.

[4] 劉志明,于波,歐陽純萍,等.基于主題的SE-TextRank情感摘要方法 [J].情報工程,2017,3(3):97-104.

[5] SALTON G,YU C T. On the Construction of Effective Vocabularies for Information Retrieval [J].ACM SIGPLAN Notices,1975,10(1):48-60.

[6] HU P,HE T T,JI D H,et al. A Study of Chinese Text Summarization Using AdaptiveClustering of Paragraphs [C]//the Fourth International Conference on Computer and Information Technology.Wuhan:IEEE,2004:1159-1164.

[7] 王永成,王曉峰.國家信息基礎結構與全息檢索 [J].電子出版,1997(4):57-59.

[8] KCHAOU D,BOUASSIDA N,BEN-ABDALLAH H. UML Models Change Impact Analysis Using a Text Similarity Technique [J].IET Software,2017,11(1):27-37.

[9] LI W,XIAO X Y,LYU Y J,et al. Improving Neural Abstractive Document Summarization with Structural Regularization [C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing.Brussels:Association for Computational Linguistics,2018:4078-4087.

[10] 程園,吾守爾·斯拉木,買買提依明·哈斯木.基于綜合的句子特征的文本自動摘要 [J].計算機科學,2015,42(4):226-229.

[11] 徐飛,彭佳佳,劉軍,楊博.基于多特征融合的TextRank新聞自動摘要模型 [J/OL].計算機系統應用:1-8[2023-01-29].https://www.cnki.net/KCMS/detail/detail.aspx?dbcode=CAPJ&dbname=CAPJLAST&filename=XTYY20221114019&v=MTkxNjlBemxxMkEwZkxUN1I3cWRaT1p1RkNEa1c3dk5KRm89UFRuU2Q3RzRITlBOcm81QlpPb0dZd2s3dkJBUzZqaDRU.

[12] 利潤霖,龍昌敏,李雯蕓,等.基于TextRank算法的項目標簽智能化生成技術研究 [J].信息技術,2022(8):77-82.

[13] 李秀秀,陳海山.基于機器學習的新聞文本分類研究 [J].電腦編程技巧與維護,2021(12):132-135.

[14] 丁敬達,陳一帆,劉超,等.基于共詞和Word2Vec加權向量的文獻-主題語義匹配分析方法 [J].圖書情報工作,2022,66(12):108-116.

[15] 羅婉麗,張磊.結合拓撲勢與TextRank算法的關鍵詞提取方法 [J].計算機應用與軟件,2022,39(1):334-338.

作者簡介:朱玉婷(2001—),女,漢族,甘肅平涼人,本科在讀,研究方向:數據挖掘;劉樂(2004—),女,漢族,甘肅慶陽人,本科在讀,研究方向:圖像處理;辛曉樂(2000—),女,漢族,甘肅臨夏人,本科在讀,研究方向:機器視覺;陳瓏慧(2000—),女,漢族,甘肅慶陽人,本科在讀,研究方向:數據應用;康亮河(1987—),女,漢族,甘肅會寧人,助教,碩士,研究方向:人工智能算法研究。

收稿日期:2022-10-13

基金項目:甘肅省農業大學盛彤笙科技創新基金(GSAU-STS-2021-15);國家自然基金(32060437);甘肅農業大學省級大學生創新創業訓練計劃項目(202216018)

猜你喜歡
提取
射擊痕跡的尋找和提取
法制博覽(2016年12期)2016-12-28 18:50:33
植物基因組DNA提取
濱州市沾化冬棗核中活性多糖的提取
綠色科技(2016年20期)2016-12-27 18:10:47
茶色素生物活性及制備技術研究進展
木犀草素提取工藝的研究概況
現場勘查中物證的提取及應用
淺談涂料墻面上汗液手印的顯現和提取
土壤樣品中農藥殘留前處理方法的研究進展
中學生開展DNA“細”提取的實踐初探
淺析城市老街巷景觀本土設計元素的提取與置換
主站蜘蛛池模板: 亚洲天堂网站在线| 欧美一级在线| 97视频在线观看免费视频| 亚洲精品视频网| 亚洲色成人www在线观看| 午夜福利视频一区| 亚洲最新地址| 亚洲日韩久久综合中文字幕| 五月天婷婷网亚洲综合在线| 国产精品主播| 国产草草影院18成年视频| AV熟女乱| 精品剧情v国产在线观看| 国产麻豆aⅴ精品无码| 中国精品久久| 国产欧美日韩一区二区视频在线| 波多野结衣无码中文字幕在线观看一区二区| 欧美日韩在线成人| 亚洲成人精品| 久久久久九九精品影院 | 91精品在线视频观看| 青草精品视频| 日韩国产黄色网站| 亚洲91在线精品| 国产精品播放| 亚洲成A人V欧美综合| 国产在线观看一区二区三区| 国产欧美专区在线观看| 欧美激情视频一区二区三区免费| www.亚洲天堂| 国产精品福利尤物youwu | 在线国产你懂的| 国产女人综合久久精品视| 欧美色99| 国产女人水多毛片18| 国产午夜小视频| 午夜电影在线观看国产1区| 在线观看网站国产| 四虎成人精品在永久免费| 凹凸国产分类在线观看| 国产18在线| 日本一区高清| 国产精品短篇二区| 国产簧片免费在线播放| 国内老司机精品视频在线播出| 精品人妻一区二区三区蜜桃AⅤ | 中文字幕人成人乱码亚洲电影| 久久久成年黄色视频| aⅴ免费在线观看| 91亚洲精品国产自在现线| 伊人天堂网| 综合亚洲色图| 欧美亚洲第一页| 国产网站免费观看| 亚洲永久精品ww47国产| 99精品国产电影| 国产欧美视频在线| 亚洲人成人无码www| 国产精品成人免费视频99| 国产丝袜91| 欧美日韩免费在线视频| 国产成人区在线观看视频| 亚洲va视频| 婷婷色在线视频| 欧美啪啪视频免码| 国内精自视频品线一二区| 久久婷婷六月| 国产制服丝袜无码视频| 亚洲va在线∨a天堂va欧美va| 国产95在线 | 美女一区二区在线观看| 97综合久久| 国产一区二区福利| 亚洲无码免费黄色网址| 国产aaaaa一级毛片| 久久99蜜桃精品久久久久小说| 国产精品30p| 欧美色综合久久| 国产视频自拍一区| 啊嗯不日本网站| 99久久国产综合精品女同| 婷婷激情五月网|