999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合語步和文本多特征的科技論文結構化摘要生成

2023-11-21 09:48:48習海旭黃純國
情報學報 2023年10期
關鍵詞:特征文本科技

習海旭,何 勝,黃純國

(1. 江蘇理工學院計算機工程學院,常州 213001;2. 南京理工大學經濟管理學院信息管理系,南京 210094)

0 引 言

隨著以科技論文為代表的科研成果呈現爆炸式增長[1],科研工作者在文獻調研和閱讀上需要投入大量時間,科研工作負擔較重,效率不高。信息檢索和推薦技術能夠快速定位重要論文,提高文獻調研效率;借助移動智能終端能夠實現隨時隨地移動閱讀,拓展相關閱讀并方便同行交流,一定程度上提高了文獻閱讀效率。然而,一方面,檢索或推薦系統僅返回匹配論文列表,缺乏對論文內容的概要總結,科研工作者仍需要花費大量時間通讀論文,并提煉論文的核心內容;另一方面,受限于閱讀設備屏幕和操作限制,用戶專注閱讀文獻的質量不高[2]。因此,在海量文獻中抽取關鍵內容并形成摘要,不僅可以適應移動閱讀的速讀化特點[3],還能夠大幅提高知識獲取效率,成為提高科研工作者科研效率的重要途徑[4]。

論文的摘要部分是作者對全文的主觀概括,內容簡潔但不完整[5],而自動摘要技術能夠形成全面、準確表達原文中心內容的有效簡短信息[6],提高科研工作者的文獻閱讀效率。目前,生成式摘要方法的最佳模型常生成大量和原文不一致的內容,缺乏實用性[7],因此抽取式摘要得到研究者們的廣泛關注,尤其是在需確保嚴格符合原文事實的法律、醫學和科學文本的摘要研究中[8]。抽取式摘要方法對單篇文獻或主題相近的文獻集合進行概括[9],從文獻的句子分類或引文上下文聚類等角度[10],基于規則、統計學習或深度學習等方法,抽取摘要句形成文獻摘要或文獻綜述[11]。其中,無監督的抽取式摘要方法因其易用性成為實用選擇。在已有研究中,一方面,該方法沒有對已有文本特征信息進行較好的整合,摘要文本的相關性、多樣性較低且兩者之間平衡性有待提升,連貫性和可讀性不強;另一方面,該方法較少關注科技論文實現學術交流意圖時采用的不同語步元素(如研究目的、方法、結果等),使得所形成的摘要文本難以概括和反映論文研究過程的全文細粒度內容,影響用戶對論文的全面理解。

語步,又稱為修飾功能,是實現交流功能的修飾單位[12]。與篇章結構不同,語步結構主要是從交際意圖的角度對科技文本進行更細粒度的結構劃分[13]。例如,可以把論文全文劃分為研究目的、方法、結果與結論等語步結構。本文基于科技論文全文的語步結構,考慮論文文本的多特征權重融合和摘要文本的可讀性特征,提出一種面向科技論文移動閱讀的結構化摘要改進方法。一方面,該方法利用論文的語步文本分別生成摘要,能夠全方位概括論文的細粒度研究內容;另一方面,不同語步文本中句法結構和句子成分信息的多個特征權重的累加迭代以及文本的冗余和簡化處理,提升了摘要文本的相關性、多樣性和可讀性。

1 相關研究概述

本文旨在研究基于語步的科技結構化摘要生成方法,提高科技論文移動閱讀的效率,涉及領域包括科技論文抽取式摘要和科技論文語步識別。下文對這兩個方面的研究現狀進行綜述。

1.1 科技論文抽取式摘要研究

科技論文抽取式摘要直接從論文原文、施引文獻的引文上下文中抽取句子、關鍵詞、主題詞等信息作為摘要文本,或進一步按照指定模板形成結構化摘要[14],為科研工作者提供信息服務。其主要包括基于規則、基于統計機器學習和基于深度學習的方法。其中,基于規則的自動摘要方法在研究初期被廣泛使用,該方法根據文本中的各種統計特征,按照預定規則確定文檔各句子作為摘要句的可能性[15-17]。隨后,基于統計機器學習的自動摘要方法通過從文本中學習特定的模式來對句子進行分類或排序,選擇成為摘要句概率高的句子形成自動摘要,如TextRank 等無監督機器學習模型[18]和支持向量機等有監督機器學習模型[19];或者進行文本主題建模和關鍵詞抽取,分別把主題詞或關鍵詞列表作為自動摘要。隨著論文-摘要大規模數據集的增加和現代神經網絡模型的發展,基于深度學習的方法得到了廣泛應用,該方法利用多層非線性處理單元的級聯從數據中學習文本特征的高級別抽象表示,再基于文本的層次化語義特征表示,通過序列到序列和融入注意力機制等學習方式建立模型,抽取摘要句。

1.2 科技論文無監督的抽取式摘要研究

在有監督的機器學習方法中,摘要模型的訓練依賴于不同領域、語言和摘要風格下的大規模高質量標注數據,這使得該類方法難以被廣泛應用。因此,基于無監督的抽取式摘要方法的研究成為更現實的選擇。提升摘要句的相關性、多樣性和可讀性是無監督抽取式摘要研究關注的主要問題。其中,相關性是指摘要所選用的句子最能夠表達文本的中心思想;多樣性是指生成的摘要包含的冗余信息盡可能地少,每句話盡可能地單獨表達文本的一層意思且所有摘要句盡可能包含文本表達的所有意思;可讀性是指摘要文本敘述的流暢度、簡潔性和被理解的難易程度。

研究人員利用能夠體現句子重要性的不同特征來提升摘要的相關性。例如,Zheng 等[20]使用BERT(bidirectional encoder representations from transformers)模型編碼句子語義,將句子位置信息引入TextRank 模型的節點中心性計算中,抽取關鍵句以形成摘要;Dong 等[21]針對科學長文本,使用方向性和層次結構擴展了文檔的圖表示,并使用不對稱的邊緣加權函數確定句子重要性;Ju 等[22]提出了一個多視圖信息壓縮框架,使用多個引導信號指導文檔摘要,先通過多信號檢索文檔的關鍵內容,再使用預訓練模型進一步檢索和修改句子以形成摘要。

研究人員加入額外權重信息或采用結構化自動摘要方法提升摘要的覆蓋范圍和多樣性。例如,Liang 等[23]為了避免科學長文檔和多文檔中圖節點中心性計算方面偏差問題,在句子中心性得分中加入句子-文檔權重,實現多面性摘要句的抽取;Gidiotis等[24]分別對科技論文的IMRD(introduction-methodresults-discussion,引言-方法-結果-討論)篇章結構文本訓練摘要模型,綜合不同部分的摘要內容形成結構化摘要;李鯤[25]對科技文本中的每個句子進行事件要素類別識別,并計算其重要程度,選擇各個事件要素類別下重要程度最高的句子以組成結構化摘要;Xu 等[26]從對話中抽取所有字段及其內在關系,并按照模板組織生成結構化摘要。其中,文本的結構分類和信息抽取方法直接影響結構化自動摘要的質量。

研究人員一般使用混合式摘要方法來提升摘要的流暢性、簡潔性和可讀性,即在精心選擇原文檔的子集上應用生成式摘要方法生成摘要文本[27]。例如,Manakul 等[28]使用局部自注意力和內容選擇方法,解決了長文檔摘要生成中的大型模型訓練微調難和長跨度依賴的問題;Pilault 等[29]在使用Transform 模型生成摘要之前執行了一個簡單的提取步驟;譚金源等[4]提出了一種基于BERT-SUMOPN 的抽取-生成式摘要方法,對抽取得到的關鍵句進行端到端訓練以生成摘要結果。

上述研究中,結構化自動摘要研究較少關注科技論文實現學術交流功能時采用的語步結構,而全文的語步文本是實現知識交流功能的主要單位,影響用戶對論文研究過程的全面理解;混合式摘要方法還依賴于有監督機器學習模型。已有研究單方面提升了自動摘要方法的性能,但在整合已有句子特征、從相關性和多樣性之間找出最佳平衡并提升可讀性方面仍值得進一步研究。

1.3 科技論文語步識別研究

科技論文的語步識別是指把科技論文中的句子依次分類到不同的語步結構中,形成相比于篇章結構文本更細粒度的語步文本。已有研究通常采用基于規則匹配、基于統計機器學習和基于深度學習的方法,對科技論文的摘要、引言或全文進行語步識別分類。其中,基于規則匹配方法通過使用不同語步文本中常采用的詞語和典型句式等詞匯與句法特征構建規則模板來識別語步[30]。該方法的規則設計過程專業性強,可移植性差。為此,引入基于統計機器學習方法,以自動發現指定特征的語步文本的識別模式[31],包括樸素貝葉斯、支持向量機等各種經典分類模型,但該方法需要通過特征工程設計大量的特征。受益于深度學習的特征自動學習能力,CNN (convolutional neural network)、LSTM (long short-term memory)等神經網絡模型被應用于語步識別任務[32],但該方法學習到的特征交叉嚴重且不夠全面,通常使用詞向量嵌入表示,導致難以獲得篇章中句間的上下文特征。預訓練語言模型BERT可以同時對詞間關系和句間關系進行學習[13],直接獲得句子向量表示,且可根據特定任務進行參數調優[33-34],已成為語步識別的主流方法。

2 基于語步的科技論文結構化摘要研究框架

為了使讀者通過閱讀科技論文的摘要文本就能夠快速了解該研究各個方面的具體內容,本文提出基于語步的科技論文結構化摘要方法。首先,將科技論文全文按照學術交流的目的劃分成不同的語步文本;其次,提取不同語步文本上的關鍵內容形成文本摘要;最后,組合不同語步文本的摘要生成流暢的科技論文結構化摘要。

2.1 整體架構

本文基于語步的科技論文結構化摘要研究框架如圖1 所示,主要包括科技論文數據處理、語步識別和文本摘要3 個部分。其中,在數據處理步驟中,清洗論文文本中的噪聲數據,解釋論文不同區域的文本內容,將正文文本分割成句子,并對隨機論文句子所屬語步進行人工標注;在語步識別步驟中,使用基于規則和深度學習模型相結合的語步識別方法對論文正文的所有句子進行語步分類;在文本摘要步驟中,基于文本多特征融合的無監督抽取方法,分別形成不同類別語步文本的文本摘要。最后,將不同語步摘要文本填充到摘要模板中生成結構化摘要。

圖1 基于語步的科技論文結構化摘要研究框架

2.2 科技論文數據處理

本文使用生物醫學類科技論文作為語料進行結構化摘要研究。在數據處理階段,需要清除論文噪聲信息并對正文句子進行語步標注,包括語料清洗、內容解析、內容分割和標注數據4 個步驟。在語料清洗步驟中,首先,使用GROBID(generation of bibliographic data)①https://grobid.readthedocs.io/en/latest/工具將PDF (portable document format) 格式的論文轉換為XML (extensible markup language) 格式。其次,使用Python 規則庫②移除圖表、上下標等;③刪除論文中的致謝和參 https://tinyurl.com/q5v9p5d清除論文中的非文本內容,包括:①把論文中的引用和數字內容分別替換成

表1 生物醫學類科技論文語步分類框架

2.3 科技論文語步識別

本文將科技論文語步識別看作句子分類任務,已有研究表明,該任務需主要關注整個句子的特征構建和句間上下文信息。本文采用規則和深度學習模型相結合的語步識別方法。首先,使用基于規則匹配的方法識別具有語步對應詞匯和句法模式的句子,如“目的”語步文本中常有“purpose、objective”等線索詞和“… of … be to, … is to …”等句型。其次,使用BioBERT+Attention-BiLSTM 深度學習模型識別未匹配的句子。

該模型包括7 層:輸入層,特征學習層,前、后向LSTM 層,Attension 層,Softmax 層和輸出層。①在輸入層把詞向量、詞位置向量、句子分段向量和句子位置向量進行拼接,形成文本的多特征融合表示;②特征學習層通過BioBERT 模型[35]訓練,獲得整個句子的語義特征表示;③學習到的句子向量被輸入BiLSTM 模型中,以便捕獲句子中的雙向信息,從而體現句子上下文特征;④在輸出層之前增加Attention 層,生成權重向量對應每個詞的權值,以提升句子中重點詞語的權重;⑤通過Softmax 層輸出句子分類標簽。其中,BioBERT 模型的輸入向量矩陣為

其中,詞嵌入是詞向量表示;詞位置嵌入表明詞在論文中的絕對位置;句子分段嵌入表明詞屬于哪個句子;句子位置嵌入表明句子在論文中的絕對位置。

句子位置向量的計算公式[15]為

其中,pos 為句子在全文的相對位置,例如,第i個句子的pos 值為i/m,m為全文句子總數;dmodel為模型輸入向量的維度。

2.4 多特征融合的科技論文摘要生成

本文對上述操作識別出的語步文本分別進行文本摘要,提出了一種多特征融合的科技論文無監督摘要抽取方法以生成結構化摘要。首先,影響摘要的相關性存在各種外在因素,包括文本的整體框架結構信息和文本信息內容,每種因素在摘要生成過程中帶來了不同的影響,需針對每種因素在TextRank 算法的累加權重迭代計算過程中提出相應的改進措施。其次,考慮到摘要相關性和多樣性的平衡,對獲得的候選摘要句群需做冗余化處理;在摘要的輸出方面需要做相應的優化,以提升最終輸出的連貫性和可讀性。再其次,可以對摘要句做依存句法分析,在特定的場景下,通過提取句子主謂賓或其他內容實現對句子的理解功能,從而對抽取出的摘要進一步精簡。最后,按照語步元素設計模板,分別將不同語步文本的摘要內容進行組合生成結構化摘要。

2.4.1 多特征融合TextRank改進算法

本文在TextRank 算法過程中,綜合考慮文本多特征對迭代計算得到的累加權重WS 進行修正,將WS 與句子位置、句子與文檔相似度和句子有效詞占比3 類權重進行運算得到修正的累加權重WS′,以提升摘要句的相關性,計算公式為

(1)句子位置權重

句子位置影響句子的重要性。諸如新聞類的文章往往會在第一句闡明文本的主旨思想,在電商評論文本中會在最后一句表明買家對該商品的態度。因此,在處理文本時,距離文本開始位置和結束位置的句子應適當提高其權重。另外,有研究結果表明,人工生成摘要時,選擇段落首句當作摘要的概率為85%,選擇段落末句作為摘要的概率為7%[36]。所以,段落首句比段落末句更有可能被選擇成為摘要,可根據句子的位置信息,賦予不同的句子權重得分。本文采用LocScore(Si)表示句子Si的位置權重得分,計算公式為

(2)句子與文檔相似度權重

文本內容所包含的句子都是圍繞中心思想展開的,因此,在文本中與文本內容相似度較高的句子更有可能成為最終的摘要句。本文使用余弦相似度衡量文中句子與整篇文本內容的相似性,計算每個句子與整段文本之間的相似值,若句子與文本內容具有較高的相似度,則對該句子的權重進行調整,調整規則為

其中,Si(w)為句子Si的最終權重;similarity(Si,Pi)為句子Si與文本向量Pi的余弦相似度。

(3)句子有效詞占比權重

句子的有效詞,是指符合一定條件、能夠表達一定含義的獨立詞語。在英文中,有效詞需滿足:①詞語是由字母、連字符和/或標點組成,不能包含數字;②至多一個連字符“-”,且連字符兩側是字母;③至多一個標點符號,且位于單詞末尾。句子的有效詞占比在一定程度上反映了該句子所包含信息的多少,通過對句子進行分詞、去停用詞來統計句子中有效詞個數占整個句子詞語總個數的分數SProportion,作為調整句子權重的調節系數。

2.4.2 基于最大邊緣相關的摘要冗余處理

摘要相關性和多樣性的平衡是指原文本表達的所有意思盡可能在抽取摘要中都有一句話單獨進行表達。因此,對于最終獲得的摘要候選句,為了增加其多樣性,將相似度較高的句子進行權重值減分操作或者去除句子操作。本文引入最大邊緣(maximal marginal relevance,MMR)算法思想,在按句子權重大小排序結果得到的預選摘要集中引入懲罰因子,對所有初次排序后的句子重新打分,計算公式為

其中,i表示排序后句子的順序;vi表示已初步選中的句子;λ表示調整系數,表明該句的主題相關度。第一個句子不需要進行懲罰計算,從第二個句子開始,后面的句子依次與前一個句子的相似度進行懲罰。對于與已選摘要句相似度較大的句子,將其從預選摘要列表中刪除,以保證提取的摘要句之間差異性較大。同時,如果只是把摘要句機械地按照句子權重排序組合在一起,那么不能保證句子間的有效銜接和連貫。為了保證摘要的連貫性和可讀性,本文把選取的摘要句按照原文順序輸出。

2.4.3 基于依存句法分析的摘要文本精簡

為了進一步精簡摘要文本,本文使用依存句法分析各個語法成分之間的語義修飾關系,以獲取距離搭配信息。通過構建句法依存樹模型來提取句子的主干,實現句子語義理解的功能。將句法分析結果依次寫入列表,遍歷列表內容,取出依存關系為“主謂關系”的第一個詞語,即該句的主語,根據該詞所對應的“當前詞語的中心詞”編號取出對應的謂語動詞,最后根據找到的謂語下標再次遍歷列表尋找和謂語動詞構成“動賓關系”的詞語,即該句的賓語。

2.4.4 結構化摘要生成

為了獲得科技論文全文內容的結構化摘要,使移動讀者快速了解論文各語步的主要內容,本文對識別的不同語步文本分別采用多特征融合的摘要生成方法獲得各語步的摘要句,將其分別填入結構化摘要模板中的相應位置,完成摘要生成。結構化摘要模板包含論文標題、作者等元數據,以及背景、目的、方法、結果、結論等內容要素,向讀者展示了論文的研究動機與研究過程、研究結果與研究新發現等這些關鍵內容。

3 實驗與討論

為了驗證科技論文結構化摘要方法的有效性,本文對SumPubMed 數據集進行語步識別后生成每篇論文的結構化摘要,并將兩個子任務的實驗結果與相關基準進行對比與分析。

3.1 數 據

本文從數據來源和數據分布兩個方面介紹實驗數據情況。

3.1.1 數據來源

SumPubMed 數據集來源于PubMed 生物醫學研究論文數據庫,Gupta 等[37]從BioMed Central(BMC)選取了33772 篇論文并進行預處理,形成了XML、原始文本和名詞短語3 個版本。論文涉及醫學、藥學、護理學、牙科、保健、健康服務等學科研究,每篇論文包括摘要和正文,正文部分包含3 個小節:背景、結果與結論。本文使用SumPubMed 數據集的原始文本版本,該版本對摘要和正文的科學實體進行過一致化處理。

3.1.2 數據分布

數據總集和已標注的數據集的數據分布情況如表2 所示,總體標注的科技論文語步句子數量及其占比情況如表3 所示。結果語步的文本明顯多于其他語步文本,表明生物醫學類科技論文更加重視研究結果的描述和分析。

表2 數據總集和已標注的數據集的數據分布情況

表3 標注的科技論文各語步句子數量及其占比情況

3.2 評價指標

本文的評價指標包含語步識別和文本摘要兩個子任務的評價指標。

3.2.1 語步識別評價指標

語步識別本質上是一種經典的分類任務,而分類性能常采用查準率(precision)、召回率(recall)和F1值3 個指標來評價。由于不同語步的識別效果不一定完全相同,故常常采用這3 個指標的宏平均值來對語步識別的整體性能進行評估。

3.2.2 文本摘要評價指標

文本摘要的評價包括相關性、多樣性和可讀性3 個方面。本文采用ROUGE-1 (R-1)、ROUGE-2(R-2)和ROUGE-L(R-L)的查準率、召回率和F1值3 個指標的宏平均值來度量摘要整體的相關性。采用句子語義的不相似性來度量摘要的多樣性,即

其中,n是文本的句子數;MSi是句子Si的詞數;SiWi是句子Si第i個詞的向量表示;sim()表示句子間的余弦相似度;no_Distinct 值越大,文本多樣性就越高。采用句子概率[38]來度量摘要的可讀性,即

其中,N是文本長度;p(wi)是第i個詞的概率;Readable 值越高,文本通順度越好。相關性一般體現在自動摘要包含標準摘要中常見詞與短語的多少,但詞匯重疊少并不代表不好的摘要;多樣性主要體現在語步摘要內冗余文本的多少,但不冗余并不代表涉及文本的多個方面;可讀性主要體現在自動摘要是一個句子的概率,但句子不一定都能清晰表達文本含義。因此,本文結合人工評價,分別對摘要的相關性、多樣性和可讀性做主觀評分。

3.3 科技論文語步識別實驗

3.3.1 實驗設置

按照8∶1∶1 將1000 篇論文標注數據集隨機劃分為訓練集、驗證集和測試集。選擇基于Attention BiLSTM(簡稱“方法一”)、基于BERT 和人工特征結合深度森林(簡稱“方法二”)和基于句子位置向量的SciBERT 結合多層感知機分類器(簡稱“方法三”)與本文方法進行語步識別性能對比。實驗選用Python 3.9.7 版本語言,方法一的模型參數包括詞向量維度為300,隱藏層神經元個數為800,激活函數選擇tanh(),損失函數選擇交叉熵損失函數,批訓練大小為64;方法二中深度森林算法采用DeepForest 實現;方法三的最佳模型參數包括批處理大小為32,學習率為2e-5,訓練期為4,分類器隱含層節點數為128。

3.3.2 結果與分析

不同模型下不同語步的F1值與宏平均F1值如表4 所示。本文提出的規則匹配+多特征向量+BioBERT+Attention-BiLSTM 模型效果最好,宏平均F1值達到0.821。其原因可能在于:相比于方法一,本文使用專門面向生物醫學文本的大規模預訓練語言模型BioBERT,能夠得到區分度較高的句子隱含語義特征表示。相比于方法二,本文采用BiLSTM 模型捕獲上下文詞語之間的語義依賴關系,且Attention 機制能夠自動增加對語步識別起關鍵作用的“線索詞匯”的權重。由于“目的”“結論”語步中通常包含“aim to”等線索詞匯,因此,本文方法和方法一對這兩個語步識別的F1指標排名高于其他方法。相比于方法三,本文在模型中引入了規則匹配和預訓練語言模型BioBERT,通過語法規則、句法表達習慣和特定領域的語言模型提升識別性能,同時,能夠減少模型訓練對語料規模和質量的依賴。使用方法一的宏平均F1值最低,為0.630,其原因可能在于:BERT 模型和方法一一樣,能夠訓練單詞的雙向表征并動態調整詞匯權重。除此之外,方法二使用了擅于學習高維數據隱含模式的深度森林分類算法,方法三與本文方法同時豐富了模型輸入的分類特征。

表4 科技論文語步識別結果(F1值)

相同模型下不同語步識別的F1值存在差別,總體上,所有模型下“結果”語步最高,其次是“方法”語步,其他語步在不同模型下的排名存在不一致現象。例如,“背景”語步在其他模型中均排名第三,但在帶有Attention-BiLSTM 的模型中排名最后。其原因可能在于:首先,“結果”語步文本內容在論文全文中占比較高,可得到較好的分類效果;其次,在生物醫學實驗中,“方法”具有較為規范的專業寫作方式,該語步的分類特征較為明顯。

3.4 科技論文語步文本摘要實驗

3.4.1 實驗設置

把標注好的1000 篇論文作為文本摘要的實驗語料,將作者撰寫的論文摘要作為自動摘要方法評估的金標準,使用評估包pyrouge①https://pypi.org/project/pyrouge/計算各語步自動摘要文本的ROUGE 值;編碼實現各語步自動摘要文本多樣性和可讀性指標值的計算。選擇經典的TextRank 模型[39]、Dong 等提出的HipoRank 模型[21]和Liang 等提出的FAR(functional-coefficient autoregressive)模型[23]這3 種無監督抽取式摘要方法進行自動摘要質量對比。

為了進一步客觀地評估自動摘要的質量,隨機抽取50 篇論文并邀請10 位生物信息學博士對4 種方法產生的論文自動摘要進行評價,每位博士參考15 篇論文的金標準摘要分別對本文方法生成的摘要進行人工評分,每篇論文由3 位博士評分。評分標準包括摘要的相關性、多樣性和可讀性,得分范圍為1~5 分(1 分為最差,5 分為最好)。

3.4.2 結果與分析

不同方法下自動摘要文本的ROUGE-1、ROUGE-2、ROUGE-L 的F1值如表5 所示,大部分方法在語步上的ROUGEF1值基本遵循“方法>目的>結論>背景>結果”的規律。ROUGE-2 的F1值最低,其原因可能在于:文本長短對摘要性能的影響較大,相比于長文本,短文本更容易生成相關性大的自動摘要,且兩個單詞組成的詞組被同時匹配的概率較低。本文方法的ROUGEF1值全面超過TextRank 和FAR 方法,但只在“目的”“方法”語步上高于HipoRank 方法。在其他語步上低于HipoRank 方法。其可能的原因在于:本文方法較關注句子整體特征,對句子的分析粒度較粗,忽視了句子的語義特征以及長距離句子之間的不同關聯權重。本文方法不同語步間的ROUGEF1值差異較大,說明本文方法易受語料文本的長短和句法表達方式的影響。

表5 科技論文各語步自動摘要相關性計算結果(F1值)

不同方法下自動摘要文本的多樣性和可讀性度量值相關統計信息如表6 所示。在可讀性得分上,HipoRank 模型得分最高,本文方法位于第二,TextRank 模型最低;在多樣性得分上,本文方法和FAR 模型分別位于第一和第二,且本文方法的得分顯著高于其他模型,HipoRank 模型最低。HipoRank模型在進行句子語義表征的同時,考慮了句子位置信息,能夠更為準確地抽取摘要句;FAR 模型則考慮了句子-文檔權重,從全局的角度抽取中心度高的句子;本文方法在不同語步文本中使用句子位置以及句子與文檔相似度等多特征,在提升抽取相關性的同時,也提升了摘要句的多樣性。實驗結果表明,本文方法所產生的自動摘要可讀性和多樣性較為均衡,受益于語步識別之后再結合MMR 執行自動摘要,多樣性得到了顯著提升。

表6 科技論文各語步自動摘要多樣性與可讀性計算結果

不同方法下自動摘要文本的人工評分均值和方差值結果如表7 所示。在相關性評價結果上,本文方法低于HipoRank 模型,比FAR 模型略高;在多樣性上,本文方法顯著高于其他模型;在可讀性上,本文方法接近于HipoRank 模型。由此可見,在語步文本的基礎上,結合文本多特征進行自動摘要生成,能夠提升摘要多樣性,并在一定程度上同時提升了摘要的相關性和可讀性。

表7 自動摘要人工評分均值(方差)結果

不同語步識別模型下自動摘要文本的ROUGE-1、ROUGE-2、ROUGE-L 的F1值如表8 所示,各種語步識別模型融合文本多特征的結構化自動摘要方法同樣基本遵循“方法>目的>結論>背景>結果”的規律,且ROUGE-2 的F1值最低。本文提出的語步識別模型所形成的結構化摘要的ROUGEF1值在“背景”語步以外的其他語步上均表現最優,且所有語步識別模型所形成的結構化摘要在所有的語步上均的ROUGE 值均高于TextRank 和FAR 方法,但在“背景”“結果”和“結論”語步上低于Hipo-Rank 方法,上述實驗的結果和分析得到了驗證。但不同語步識別模型的ROUGE 值差異不大,結合表5可以發現,基于所有語步識別模型的摘要方法ROUGE 值和其他摘要方法相差較大,且結合表4 可以發現,不同語步識別模型的F1值差異較大。由此可見,相比于語步識別模型,文本特征的選擇和融合在摘要相關性上具有更重要的影響。

表8 不同語步識別模型下科技論文各語步自動摘要相關性結果(F1值)

4 結論與展望

從科技論文移動閱讀的需求出發,針對現有自動化摘要方法存在與論文原文相關性不高和內容涵蓋范圍不廣的問題,本文在對論文全文進行語步識別的基礎上,綜合考慮句子位置、句子與文檔的相似度等文本多特征實現不同語步文本的自動化摘要,以摘要文本相關性和多樣性平衡以及可讀性的原則最終生成科技論文的結構化摘要。通過融合語步識別、無監督文本摘要和語義分析等技術,拓展了自動結構化摘要的研究思路,豐富了摘要抽取的方法。本文使用規則匹配結合特征向量改進輸入深度學習模型的方法實現了科技論文全文的語步識別,采用句子位置、句子與文檔相似度等文本多特征融合的方法優化TextRank 算法,使用MMR 算法去除了摘要句的冗余,通過依存句法分析簡化了摘要句的表述,最終把不同語步的摘要內容組合生成了結構化摘要。研究結果表明,本文方法在不同語步的相關性、多樣性和可讀性指標提升上具有一定的差異;結合人工評價發現,本文方法在顯著提升摘要多樣性的同時,在一定程度上提升了摘要的相關性和可讀性,能夠自動提供科技論文全文的結構化摘要,促進移動讀者快速了解和掌握論文的核心內容,有助于緩解“信息過載”現象。

本文提出的摘要方法忽略了全文中圖和表的內容,而這些內容往往包含了關鍵知識。此外,本文在摘要句抽取任務中還存在優化空間。因此,后續工作主要包括兩個方面:首先,在全文語步識別過程中,提取圖和表的內容,以識別其中重要的知識實體,并生成相應的摘要;其次,在摘要句抽取過程中,關注句子語義特征的表示,并考慮句子全局上的關聯,從而進一步提升摘要相關性,降低摘要受語料文本長短和表達方式的影響。

猜你喜歡
特征文本科技
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
科技助我來看云
抓住特征巧觀察
科技在線
科技在線
科技在線
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 成人午夜网址| 欧美第二区| 国产男女免费视频| 无码人中文字幕| 国产激爽大片在线播放| 婷婷五月在线| 国产男女免费完整版视频| 青草视频网站在线观看| 天天做天天爱天天爽综合区| 波多野结衣第一页| 久久精品视频一| 狠狠操夜夜爽| 538精品在线观看| 成人欧美日韩| 国产人在线成免费视频| 日韩精品专区免费无码aⅴ| 国产成人一区二区| 国产91线观看| 日日碰狠狠添天天爽| 99热国产这里只有精品9九| 国产91丝袜在线播放动漫| 亚洲国产日韩一区| 欧美日韩中文国产va另类| 刘亦菲一区二区在线观看| 国产主播喷水| 视频二区欧美| 国产欧美日韩专区发布| 91娇喘视频| 亚洲美女高潮久久久久久久| 欧美一区二区三区国产精品| 亚洲黄色视频在线观看一区| 四虎国产精品永久在线网址| 伊人91在线| 超清无码熟妇人妻AV在线绿巨人| 深夜福利视频一区二区| 国产自在线播放| 国产精品无码作爱| 婷婷亚洲视频| 波多野结衣中文字幕久久| 又爽又大又黄a级毛片在线视频| 国产99在线观看| 精品久久国产综合精麻豆| 91精品日韩人妻无码久久| 久久久精品无码一二三区| 另类欧美日韩| 久草中文网| 亚洲无码37.| 极品尤物av美乳在线观看| 亚洲一级无毛片无码在线免费视频| 思思热精品在线8| 最新精品久久精品| 草草线在成年免费视频2| 人妻精品全国免费视频| 无码内射在线| 97国产精品视频自在拍| 美女内射视频WWW网站午夜 | 久久久久夜色精品波多野结衣| 91福利片| 久久动漫精品| 亚洲乱强伦| 真人免费一级毛片一区二区 | 久久亚洲高清国产| 精品三级网站| 午夜a级毛片| 毛片久久网站小视频| 日韩色图在线观看| 国产免费看久久久| 国产在线精品99一区不卡| 欧美精品影院| 亚洲av无码久久无遮挡| 国产97视频在线观看| 国产理论最新国产精品视频| 国产日本一区二区三区| 色综合久久无码网| 波多野结衣一二三| 亚洲国产理论片在线播放| 欧美精品一区在线看| 玖玖精品视频在线观看| 日韩午夜伦| 日韩精品无码免费一区二区三区| 国产精品流白浆在线观看| 国产SUV精品一区二区6|