999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

學術文本詞匯功能識別
——在關鍵詞自動抽取中的應用

2021-03-15 07:52:50夏義堃李鵬程
情報學報 2021年2期
關鍵詞:詞匯特征功能

姜 藝,黃 永,夏義堃,李鵬程,陸 偉

(1. 武漢大學信息管理學院,武漢 430072;2. 武漢大學信息檢索與知識挖掘研究所,武漢 430072;3. 武漢大學信息資源研究中心,武漢 430072)

1 引 言

隨著文本數據的日益增長,關鍵詞自動抽取——從文本中挖掘能夠高度概括其研究內容和主題的關鍵詞[1]——一直以來都是一個備受關注的研究問題。由于對關鍵詞抽取任務理解的不同,關鍵詞抽取研究主要分為基于排序[2-3]、基于分類[4-5]、基于序列標注[6-7]和基于序列生成[8-9]四大類研究模式[1,10]。在上述研究模式的框架下,現有研究所使用的特征主要包括:①候選詞基準特征,如詞頻、長度、位置、外部知識庫等;②圖結構特征,如詞間關系和中心度量等;③主題特征;④詞嵌入向量特征[11]。

上述幾類特征更多地考慮詞匯本身的分布特點,而忽略了詞匯與文獻之間的語義關系。詞匯功能定義了詞匯在學術文獻中所承擔的語義角色,如“問題”“方法”“技術”“數據”[12],這些具有不同語義功能的詞匯從不同的角度反映文獻的研究內容。科學研究被普遍認為是提出問題并解決問題的過程[13-14],在一定程度上,學術文獻可視為科學研究過程的固化,而文獻的核心問題與核心方法則是從文檔層面對研究工作內容的總結[12]。同時,關鍵詞也是對文獻主題和內容的凝練與反應,作者在選擇關鍵詞時有其目的性,其選擇的關鍵詞通常是一些注明研究領域、表征研究主題、描述研究所使用的方法和知識等具有一定語義功能的詞[15]。因此,關鍵詞往往會涵蓋能夠充分表征文獻研究問題和研究方法等內容的詞匯。劉智鋒等[16]通過對信息計量學領域的期刊(Journal of Informetrics)論文統計指出,具有研究主題或研究方法語義功能的關鍵詞數量比例高達74.99%。同樣地,本文對所使用的計算機領域數據集中,作者標注關鍵詞的詞匯功能進行了統計,發現問題和方法詞共占67.99%。因此,從科學研究過程的共性出發,考慮領域數據集的統計特點,本文將詞匯的功能分為“研究問題”“研究方法”和“其他”。從上文可知,作者在標注關鍵詞時對研究問題和研究方法詞具有很強的傾向性,這說明詞匯功能特征可以為關鍵詞抽取提供強有力的線索。

因此,為驗證詞匯功能對于關鍵詞自動抽取的有效性,本文需解決以下三個問題:①如何利用詞匯功能特征進行關鍵詞自動抽取?②詞匯功能特征對于關鍵詞自動抽取是否有效?③在多種關鍵詞自動抽取模式中詞匯功能特征是否有效?

針對上述三個問題,本文使用了兩種關鍵詞抽取模式——基于分類和基于排序的模式,在對現有文獻關鍵詞詞匯功能統計分析的基礎上,抽取候選關鍵詞構建特征數據集,然后,融合詞匯功能特征訓練關鍵詞分類器和排序器,對詞匯功能的效果進行了驗證與分析。

2 相關研究

對于關鍵詞自動抽取,目前已有許多研究對該任務進行了探討,提出了不同的算法和模型,并取得了較好的效果。本節將對學術文本詞匯功能的相關研究進行闡述,并進一步介紹基于不同模式的關鍵詞自動抽取研究。

2.1 學術文本詞匯功能

學術文獻的詞匯功能是指詞匯在“學術文本”這一特定背景下所承擔的功能和意義,也是詞匯作為一個符號在該環境下對應的內容或用途[12]。對于學術文本詞匯功能相關的研究,國內外相關學者已取得了一定的進展。Kondo 等[17]對文獻的標題結構進行分析,將標題中的語義信息劃分為研究主題(head)、研究方法(method)、研究目的(goal)和其他(other)四類,并基于此構建了技術趨勢圖生成系統。Nanba 等[18]對標題和摘要中的技術(tech‐nology)和效果(effect)兩類詞進行了自動識別,其中技術包括算法、工具、材料和數據,效果是屬性和屬性值的組合。Gupta 等[19]將學術文獻的詞匯功能分為話題(focus)、技術(technique)和領域(domain)三類,并進行自動識別,其中,話題是指文獻的主要貢獻,技術包括所使用的方法或工具,領域則為文獻的應用領域。Tsai 等[20]重點關注技術(technique)和應用(application)兩類語義概念,提出了一種無監督的啟發式算法,對文獻中的詞匯進行識別與分類。Heffernan 等[14]認為,科學研究是問題提出和解決的過程,將科學文獻中的詞匯功能分為研究問題和解決方法,并訓練分類模型對短語是否為問題或方法進行二值判斷。

此外,國際語義測評任務SemEval 2017 Task 10[21]基于計算機科學、材料科學和物理學領域的文獻數據,提出了關鍵詞抽取、關鍵詞分類和同種類型關鍵詞的語義關系抽取三個子任務。其中,關鍵詞類型包括過程(process)、任務(task) 和材料(material),過程包括研究方法和研究設備,材料包含實驗語料和物理材料等。程齊凱[12]對學術文本詞匯功能的顯現機理進行闡釋后,對學術文本的詞匯功能進行明確定義,構建了領域相關詞匯功能和領域無關詞匯功能結合而成的學術文本詞匯功能框架,并基于條件隨機場和機器學習排序實現了詞匯功能的自動標注,其中,領域相關詞匯功能依賴于特定的研究領域,并以計算機科學、數學科學和社會科學三個領域為例進行了闡釋;領域無關詞匯功能,則是從科學研究的普遍過程和共同特點考慮,分為研究問題和研究方法兩大類,其中研究問題是科研工作中的問題、主題等對象,研究方法是用于解決問題的技術、手段和途徑。程齊凱等[22]將學術文獻視為研究人員應用研究方法解決研究問題過程的固化,對文獻標題中的研究問題詞(topic)和研究方法詞(method)進行自動標引,在此基礎上構建了領域無關學術文獻詞匯功能的標準化數據集。另外,劉智鋒等[16]結合信息計量學領域的研究特性,將信息計量學領域學術文本關鍵詞的詞匯功能分為領域范圍、研究對象、研究主題、研究方法、數據以及其他六類,并基于此構建了相應的數據集。

2.2 關鍵詞自動抽取方法

2.2.1 基于排序的方法

考慮到關鍵詞和非關鍵詞對于文檔重要程度的差異,基于排序的方法往往按候選詞的重要性大小選擇文檔的關鍵詞,通常利用詞的統計特征或詞圖結構特征通過一定的模式對候選詞進行排序。Salton等[2]提出的TFIDF 算法是典型的基于統計特征的抽取方法,該算法綜合詞匯的詞頻和文檔頻率構造了特征TFIDF,并以該特征對候選詞的重要性進行評分,對得分簡單排序后選擇文檔的關鍵詞。李素建等[23]以候選詞的長度、出現頻數、首次出現位置等七個特征,提出了分類試驗、正例試驗和打分試驗三種基于最大熵模型的關鍵詞標引方法,其中,打分方法綜合考慮在模型中影響正負概率的特征,在三種方法中顯現出可觀的潛力。此外,Campos等[24-25]推出的YAKE 系統也利用了多種統計特征,如詞的大小寫、位置、詞頻以及與上下文的關聯等,通過綜合以上信息對候選詞的重要性進行評估排序,實現了關鍵詞的自動抽取。

基于圖模型的抽取方法中,Mihalcea 等[3]提出的TextRank 算法最具有代表性,該算法以詞和詞的共現關系構建網絡圖,并使用PageRank 算法為每個詞打分并排序,以此獲取文檔的關鍵詞。基于Tex‐tRank 算法衍生出了許多抽取效果更好的改進算法,例如,Liu 等[26]使用LDA(latent Dirichlet allocation)融合主題信息構建的Topical PageRank (TPR) 算法;Florescu 等[27]通過加入位置等信息提出的Posi‐tionRank 模型;方俊偉等[28]利用候選詞的先驗知識實現的PK-TextRank 算法等。

另外,Rose 等[29]提出了RAKE(rapid automatic keyword extraction)算法,先利用網絡中詞的度和詞頻計算詞的得分,再基于詞的得分計算短語的得分并以此排序。隨著機器學習的興起,有監督的學習排序方法逐漸被提出,典型的代表是Jiang 等[30]提出的Ranking SVM(support vector machine)模型。在此基礎上,Zhang 等[31]利用詞匯的TFIDF、引文TFIDF、位置信息以及共現頻次等多種特征,實現了更加先進的機器學習排序算法,取得了較好的效果。

2.2.2 基于分類的方法

以候選詞在關鍵詞抽取任務中的身份類別(是或不是關鍵詞)為研究對象,許多研究者將關鍵詞抽取問題轉化為分類問題,利用文檔中蘊含的信息構建特征來編碼文檔中的詞條,并基于各種特征訓練分類器對候選詞進行判別,從而實現關鍵詞的篩選。Witten 等[4]提出的著名算法KEA 就是典型的基于分類的抽取方法,該算法使用TFIDF 和詞匯首次出現的位置等特征訓練樸素貝葉斯模型,實現候選詞的分類,取得了較好的抽取效果。還有些研究者通過改進或擴充原有特征對KEA 模型進行擴展并提升了模型的抽取性能,例如,Nguyen 等[32]在模型中添加了表征位置信息的向量和詞匯的后綴序列等特征進行關鍵詞抽取;Medelyan 等[5]通過加入包括節點度、語義關聯性、鏈接概率等基于維基百科的新特征,提出了KEA 的擴展模型Maui。

此外,Caragea 等[33]不僅使用TFIDF、首次出現的位置、詞性等特征,還利用引文上下文構造了新特征,提出了樸素貝葉斯二分類模型CeKE,進一步提升了抽取效果。除了樸素貝葉斯模型,Tur‐ney[34]基于C4.5 決策樹提出了GenEx 模型;Hulth[35]在文檔內頻率、位置和詞性等統計特征的基礎上,加入了更多語言學的知識,訓練了一個規則歸納系統實現關鍵詞抽取;Zhang 等[36]利用全局上下文信息和局部上下文信息,實現了基于支持向量機(SVM)的抽取算法;方龍等[37]基于TFIDF 和詞匯首次出現的位置,通過融合學術文本的結構功能提升了基于SVM 的關鍵詞抽取效果。

2.2.3 基于序列標注的方法

從文本的角度出發,關鍵詞抽取也可以視為待抽取文本的序列標注問題,基于序列標注的抽取方法也逐漸被提出。Zhang 等[38]首次將條件隨機場模型(conditional random fields,CRFs)應用到關鍵詞自動抽取任務中,利用局部上下文特征(如前一個詞或后一個詞、TFIDF、詞性、位置等)、全局上下文特征(如是否在文章標題、摘要、段落等文章結構中出現)以及混合上下文特征(如前一個詞加后一個詞等),訓練CRFs 模型對文本進行標注與關鍵詞抽取。近年來,Gollapalli 等[6]以詞的大小寫、是否在標題中出現以及是否為無監督方法抽取結果的前十之一等為特征,以單個特征或組合特征訓練CRFs 標注器抽取關鍵詞;Patel 等[39]將詞嵌入向量作為特征之一,同TFIDF、相對位置等特征一起訓練CRFs 實現關鍵詞抽取。同時,基于神經網絡的序列標注方法也逐漸引起研究者的興趣,例如,Sahrawat 等[7]利 用BERT (bidirectional encoder repre‐sentation from transformers)等預訓練模型獲得上下文信息更豐富的嵌入向量,提出了BiLSTM-CRF 抽取模型;Martinc 等[40]使用Transformer 模型并加入詞性信息對文本進行標注,提出了TNT-KID 模型,這些模型大都取得了不錯的效果。

2.2.4 基于序列生成的方法

由于關鍵詞不一定在文檔中出現,但標注人員可根據對文檔的整體理解,提煉出合適的詞作為文檔的關鍵詞,而深度學習模型恰好能夠實現對文本的理解,因此,不少研究將翻譯模型的思想應用到關鍵詞抽取任務中,提出了基于序列生成的方法。Meng 等[8]提出了生成模型copyRNN,通過深度學習捕獲文本的語義信息,使用Encoder-Decoder 框架預測關鍵詞;Chen 等[9]進一步考慮到關鍵詞生成中的重復問題和覆蓋問題,加入詞匯間的相關性約束提出了CorrRNN 模型;Chen 等[41]著重考慮標題對文檔主題內容的概括作用,提出了利用標題指導關鍵詞生成的TG-Net 模型;Zhao 等[42]通過在模型中加入詞性約束模塊也降低了關鍵詞的重復率,提升了效果。

可見,關鍵詞自動抽取任務已經形成了較為成熟的研究模式,并且各種模式下的成果十分豐富。模型使用的文本特征呈現多樣化趨勢,主要考慮詞匯在文檔中出現的頻次、所處的位置、與其他詞的共現關系以及詞匯的詞向量、上下文等信息,或與源文檔相關的外部知識,如引文、維基百科等,眾多研究結果證明了典型特征(如TFIDF、位置信息等)對于關鍵詞自動抽取的有效性,為本研究的開展提供了堅實的基礎。但是,在語義信息的使用方面,仍然未有研究考慮與文獻內容密切相關的詞匯功能特征。同時,對學術文本詞匯功能的探究大都聚焦于其分類與識別任務,幾乎沒有研究深入討論詞匯功能在關鍵詞自動抽取中的應用。因此,本文擬利用候選詞的詞匯功能構造相關特征參與關鍵詞抽取,從而探究學術文本詞匯特有的語義功能——詞匯功能在關鍵詞自動抽取中的有效性,充分發揮詞匯功能的作用,優化關鍵詞抽取任務的效果。

3 研究方法

詞匯功能是一些特定的詞所具有的語義特征,與關鍵詞緊密相關,而傳統的兩階段抽取方法首先會構建與關鍵詞較為相近的候選關鍵詞集合,在此基礎上直接將候選詞的詞匯功能應用于關鍵詞的選擇,能夠更加直觀地發揮學術文本中關鍵詞的詞匯功能作用。另外,有監督的方法已經較為成熟有效,如方龍等[37]對學術文本結構功能特征在關鍵詞自動抽取中的應用研究,對于本研究也有較好的借鑒作用。因此,本文將基于相同的模式——分類和排序,探究詞匯功能在關鍵詞自動抽取中的作用。

3.1 問題定義

給定一篇學術文獻ai,其摘要表示為Di(w1,w2,…,wli),關鍵詞詞表表示為Ki(k1,k2,…,km)。關鍵詞自動抽取則是學習函數g(z)使得

概率最大,其中f(Di)是基于摘要的特征抽取方法。那么基于分類的關鍵詞自動抽取則可以定義為:假設V(v1,v2,…,vN)為領域關鍵詞詞表,若cj?di且cj∈V,則選擇cj為文獻ai的候選詞,使得Ci=(c1,c2,…,cj,…,cn);然后,學習分類函數h(x)對cj是否為文獻ai的關鍵詞進行判定,若是,則使kp=cj,從而使得

其中,Ki?Ci。類似地,對文獻ai的候選詞集合Ci=(c1,c2,…,cj,…,cn),基于排序的關鍵詞抽取通過學習函數?(x)對cj打分后排序Ci中的全部候選詞得到C'i,即,使得

按一定的閾值返回top_n個候選詞,構成關鍵詞集合Ki。

區別于上述一般的關鍵詞自動抽取規則,在融合詞匯功能的關鍵詞自動抽取中,

特別地,F(Di)表示融合詞匯功能特征的構造函數。在本研究中,不僅要獲得候選詞的基礎特征,還要基于候選詞的詞匯功能構建新特征,進而學習函數h(x)和h?(x),實現對候選詞的分類和排序,從而得到最終的抽取結果。

3.2 關鍵詞自動抽取流程

本文將分為候選關鍵詞集合構建和關鍵詞抽取兩個階段進行實驗,主要包括4 個步驟:①候選關鍵詞集合構建;②特征構建;③模型訓練;④結果評估。整體流程如圖1 所示。

圖1 融合學術文本詞匯功能的關鍵詞抽取流程

3.2.1 候選關鍵詞集合構建

在對特定領域的學術文獻進行關鍵詞抽取時,領域先驗知識具有較好的作用[28,37]。因此,本文利用計算機領域中主要期刊文獻的作者關鍵詞構建領域關鍵詞詞表,基于詞表匹配的方法,對實驗文獻集中的每一篇實驗文獻ai,從其摘要中匹配出n個詞條作為其候選關鍵詞,以此構建文獻ai的候選關鍵詞集合Ci=(c1,c2,…,cj,…,cn),并對每一個候選關鍵詞cj是否為關鍵詞進行標注。

3.2.2 特征構建

如圖1 所示,在特征構建階段,首先基于摘要文檔為候選詞構建基礎特征——詞頻特征和位置特征,同時,對候選詞的詞匯功能類別進行識別,再基于詞匯功能對候選詞的基礎特征進行加權操作,從而構建最終的加權特征。本節將對上述步驟進行詳細介紹。

3.2.2.1 基礎特征

1)詞頻特征(TFIDF)

Salton 等[2]在1988 年將TFIDF 應用于關鍵詞自動抽取,該指標用于評估一個詞對文檔集中某篇文檔的重要程度,是信息檢索領域的重要加權指標之一。TFIDF是詞頻(term frequency,TF)和逆文檔頻率(inverse document frequency,IDF)的乘積,具體計算為

其中,nij表示詞ti在文檔dj中出現的次數;|A|表示文檔集中的文檔總數;|{j:ti∈dj}|表示包含詞ti的文檔數。從上述公式可以看出,詞匯的TFIDF 與其在文檔中出現的頻次成正比,與其在文檔集中出現的頻次成反比。一個詞的TFIDF 越大,表明該詞對于當前文檔的重要性越高。

2)位置特征(FI)

詞匯在文檔中的位置也是重要的特征信息[4],本文采用候選關鍵詞在文檔中首次出現的位置FI(first index) 作為關鍵詞抽取模型的第二個特征,計算公式為

其中,indexij為詞ti在文檔dj中首次出現的位置;|dj|是文檔dj的總長度,即dj包含的總字數。

3.2.2.2 詞匯功能特征

1)詞匯功能識別

雖然學術文本的詞匯功能可以分為多種類別[12],但是通過對本文的研究數據統計發現(數據詳情見第4.1 節),一篇文獻的作者關鍵詞中,作為研究問題或研究方法的關鍵詞較多,占比達到67.99%,而用于表征文獻其他內容的關鍵詞相對較少,僅占32.01%。因此,本文將詞匯功能分為“研究方法”“研究問題”和“其他”三類,其中,“研究方法”“研究問題”即程齊凱[12]定義的領域無關詞匯功能。本文采用人工標注的方法對數據集中的關鍵詞進行詞匯功能標注。每篇文獻的關鍵詞統計結果如表1所示。

表1 每篇文獻的關鍵詞統計結果

2)基于詞匯功能的加權特征

在劉智鋒等[16]的研究中,具有研究主題和研究方法語義功能的作者關鍵詞占比較高,分別達到40.85%和34.14%,而標記為其他語義功能的關鍵詞僅25.01%,本文的統計結果(表1)同樣表明,作者在標注關鍵詞時更偏向于能夠表征文獻主題和方法的詞。因此,在進行關鍵詞抽取時,應該重點關注詞匯功能為“研究問題”和“研究方法”的候選詞。并且,統計結果顯示,以上兩類關鍵詞在數量上存在一定差異,這說明不同詞匯功能的詞被作者標注為文獻關鍵詞的概率是不同的。為此,本文設置了權重wt和權重wf,根據候選關鍵詞的詞匯功能類型(term_func),對基礎特征TFIDF 和FI 按不同的比例進行加權,從而構造加權詞頻特征TFIDF′和加權位置特征FI′,計算公式為

如公式(9)和公式(10)所示,對于具有“研究問題”和“研究方法”功能的候選詞,按一定比例改變其基礎特征的大小;由于仍有部分關鍵詞不是文獻的研究問題或方法,故對于“其他”的候選詞,實驗保持其值不變。綜上所述,基于表1 的統計結果,本文將分別設置參數wt0、wt1、wf0、wf1為1.5、2.0、0.75、0.5,以此計算加權詞頻特征TFIDF′和加權位置特征FI′。

3.2.3 融合詞匯功能的關鍵詞抽取模型訓練

在第3.2.1 節和第3.2.2 節的基礎上,本文將使用 sickit-learn①https://pypi.org/project/scikit-learn/和 TensorFlow Ranking (TF-Rank‐ing)②https://github.com/tensorflow/ranking[43]實現效果穩定且常用的SVM 算法和學習排序算法,以相同的參數,利用不同特征組合的訓練集數據(具體設置見第4.3 節)分別訓練關鍵詞分類器和關鍵詞排序器,從而對比分析融合詞匯功能的加權特征的作用。

3.3 結果評價

對于二分類模型,在以候選關鍵詞為單位的二類分類層次上,采用準確率Acc 評估SVM 模型對關鍵詞的判別能力;在以文獻為單位的文獻層次上,本研究選擇P、R和F[10]為評價指標。假設候選詞總個數為X,模型分類正確的候選詞個數為x,作者關鍵詞集合為,模型抽取的關鍵詞集合為K,那么上述評價指標的計算公式為

對于學習排序模型,本文采用P@n、MAP、NDCG@n[43]對實驗結果進行評價。

4 實驗與結果分析

4.1 數據集與預處理

本研究采用計算機領域核心期刊《計算機工程》2007—2018 年刊載的8511 篇學術文獻數據,以文獻摘要構建關鍵詞抽取的文檔集,并獲取全部作者關鍵詞。同時,實驗收集了計算機領域1998—2018 年發表于中文核心期刊的30 萬篇文獻的作者關鍵詞,經過濾處理后,構建了大小為448474 的領域關鍵詞詞表。實驗使用的文獻集共有作者關鍵詞34554 個(去重后21065 個),平均每篇4.06 個,最多8 個,最少1 個,其中約95.95%的關鍵詞(33155個)在本文使用的詞表中出現,說明本文基于領域關鍵詞詞表進行關鍵詞自動抽取具有一定的合理性。

為了更客觀地評估詞匯功能特征在學術文本關鍵詞自動抽取任務中的作用,本文根據候選詞匹配的結果,對實驗數據集進行了過濾,刪除了關鍵詞集合中不包含作者關鍵詞的文獻數據,共獲得8286篇有效文獻用于后續實驗。經篩選后的數據中,平均每篇文獻的關鍵詞詞數為4.09 個,其中2.96 個在摘要中出現,2.85 個被成功匹配為文獻的候選關鍵詞。

對于候選詞的詞匯功能,本文根據人工標注的關鍵詞詞匯功能進行標注,若候選詞為關鍵詞,則其詞匯功能同關鍵詞;反之,則標注為“其他”。對于位置特征FI,本文直接按公式(8)進行計算;對于詞頻特征TFIDF,本文使用中文分詞工具jieba①https://pypi.org/project/jieba/,在用戶詞典中加入領域詞表V,并采用全模式對摘要文本進行分詞,在此基礎上按公式(5)~公式(7)進行計算。

4.2 特征分析

本研究對實驗使用的8286 篇文獻的候選詞的詞頻特征和位置特征進行了統計,結果如表2 所示。其中,正例的TFIDF 均值為0.088,約為負例的2倍,正例的FI 均值為0.280,遠小于負例均值0.430。可以看出,相較于非關鍵詞,關鍵詞在摘要中出現的位置更靠前,并且具有更大的TFIDF 值,因此,對于更有潛力成為關鍵詞的詞——具有“研究問題”和“研究方法”功能的候選詞,本研究將通過一定的加權策略增大其TFIDF,并減小其FI,從而增強基礎特征在關鍵詞抽取中的作用。

表2 候選詞基礎特征統計結果

4.3 實驗設置

對于二分類模型,本文基于數據集大小對其進行了5 折交叉驗證處理;同時,為了降低正例(23652)和負例(459111)數據不平衡對分類器的影響,實驗選擇訓練文獻中全部標記為1 的候選詞及其特征數據和隨機抽取的等量標記為0 的候選詞及其特征數據作為訓練集,抽取每篇測試文獻中所有標記為1 的候選詞及其特征數據和等量的標記為0 的候選詞及其特征數據作為測試集,以此訓練SVM 分類器。對于學習排序模型,實驗按8∶1∶1 的比例劃分訓練集、驗證集和測試集,以默認參數進行訓練,訓練步數設為10000。另外,實驗分別對基礎特征和加權特征進行歸一化處理。

本文以使用詞頻特征TFIDF 和位置特征FI 的實驗為基準實驗,設置了10 組不同的特征組合進行二分類實驗和學習排序實驗,分別為:實驗①,僅使用詞頻特征;實驗②,僅使用加權詞頻特征;實驗③,使用詞頻特征和加權詞頻特征;實驗④,僅使用位置特征;實驗⑤,僅使用加權位置特征;實驗⑥,使用位置特征和加權位置特征;實驗⑦,使用兩個加權特征;實驗⑧,使用兩個基礎特征和加權詞頻特征;實驗⑨,使用兩個基礎特征和加權位置特征;實驗⑩,使用兩個基礎特征和兩個加權特征。

4.4 實驗結果與分析

表3 是分類實驗的評價結果。從表中可以看出,在二分類層次上,相較于基準實驗,所有使用加權特征的實驗的Acc 指標均有所提高,其中實驗⑩效果最好,達到0.840,相對于基準實驗(0.674)提高了約24.63%;在文獻層次上,從F值來看,有多組實驗的效果均優于基準實驗(0.532),包括僅使用單個加權特征的實驗⑤(0.596),并且最優實驗(實驗⑩)的F值提升至0.666,相對提升幅度達到25.19%。以上結果說明,融合詞匯功能的特征能夠有效地提高基于分類的關鍵詞自動抽取效果。

表3 SVM二分類結果評價

鑒于每篇文獻的作者關鍵詞約為4.09 個,本文選擇n= 5 時的P@n和NDCG@n以及MAP 對基于排序的抽取結果進行了評價,評價結果如表4 所示。從表4 可以發現,除了實驗①、實驗④和實驗⑤外,其他實驗組相較于基準實驗在三個指標上都有明顯的提升,其中效果最好的實驗⑩在MAP、NDCG@5 和P@5 上依次達到0.813、0.828 和0.447,相對提升高達168.32%、189.50%和148.30%。提升效果最弱的實驗②也達到0.490、0.500 和0.300,相對提升61.72%、74.83%和66.67%。這些結果充分說明,在基于排序的關鍵詞自動抽取中,詞匯功能特征具有積極的作用。

表4 TF-Ranking學習排序結果評價

4.5 討 論

本研究對二分類實驗中僅使用基礎特征的基準實驗和融合詞匯功能特征后的最佳實驗(實驗⑩)的預測錯誤進行了統計分析。實驗⑩預測錯誤的詞共有1468 個,根據表5 可知,有1173 個詞(約79.90%)是在僅使用基礎特征時就出錯的,且關鍵詞比非關鍵詞少,分別有441 個和732 個。在這些關鍵詞中,詞匯功能為“其他”的關鍵詞有298 個,為“研究方法”和“研究問題”的分別僅有134 個和9 個,也就是說,兩次實驗均未被正確分類的關鍵詞中,大部分(約67.57%)的關鍵詞并不具有問題或方法功能,根據加權策略,這些關鍵詞的加權特征與基礎特征并無差別,并沒有改變對關鍵詞的區分能力,因此在基準實驗中無法被正確分類,在實驗⑩中仍無法被預測正確。而在基準實驗預測錯誤的3060 個詞中,共有1887 個詞(約61.67%)在融合詞匯功能特征后被預測正確,包括774 個非關鍵詞和1113 個關鍵詞。從表6 可以看出,重新預測正確的關鍵詞比非關鍵詞多,并且預測正確的關鍵詞全部具有問題或方法功能,進一步說明通過詞匯功能增強關鍵詞的基礎特征后,關鍵詞更容易正確地被識別出來,分類效果自然得到較好的提升。

表5 基準實驗和實驗⑩均預測錯誤的結果統計

表6 基準實驗預測錯誤但實驗⑩預測正確的結果統計

另外,對于排序實驗,本文對相較于基準實驗(TFIDF+FI)有明顯提升的實驗增加P@3 和P@8 指標對實驗結果進行了評估,評估結果如圖2 所示。從圖中可以看出,無論n取何值,融合詞匯功能的實驗評價結果均優于基準實驗;更重要的是,雖然所有實驗的P@n都隨著n的增大而降低,但是明顯地,相較于基準實驗,融合詞匯功能實驗的下降幅度更大,并且n越小,與基準實驗的差距越大,各實驗與基準實驗在P@3 上的差距顯著大于P@8,說明融合詞匯功能的排序模型能將更多的關鍵詞排到更靠前的位置,從而更高效地實現關鍵詞抽取。

圖2 P@n評價結果

表7 為基準實驗和實驗⑩分類結果的部分示例。從表7 可以看出,基準實驗分類正確的候選詞,實驗⑩均分類正確,并且實驗⑩能夠有效地將基準實驗中分類錯誤的候選詞正確分類,在一定程度上,這說明融合詞匯功能的新特征的加入并沒有削弱基礎特征對關鍵詞的區分能力,反而提升了分類效果。

表7 分類抽取結果示例

由表2 可知,關鍵詞的TFIDF 值一般更大,在文中出現的位置更靠前。在文獻147 中,關鍵詞“前景”和“背景”的TFIDF 值(0.049,0.038)都相對較小,而FI 值(0.513,0.603)相對較大,但是作為文章的“研究問題”,經過加權后,TFIDF′值(0.067,0.051)變大,FI′值(0.257,0.301)減小,使得其更容易被識別為文章的關鍵詞;文獻4942 的關鍵詞“性能評估”也同樣重新被實驗⑩判斷正確。從文獻21 也能看出,具有“研究問題”或“研究方法”功能的詞能夠通過加權特征與其他相近的非關鍵詞區別開來,如具有相似特征的關鍵詞“誤碼率”(TFIDF = 0.071,FI = 0.694)和候選詞“碼率”(TFIDF = 0.061,FI = 0.701),其中“誤碼率”具有“研究方法”功能,因此其加權特征得到相應的改善,使得兩者的加權特征有了明顯的差異(“誤碼率”:TFIDF′ = 0.072,FI′ = 0.521;“碼率”:TFIDF′ = 0.041,FI′ = 0.701),從 而 被 正 確分類。

從表7 數據可知,通過對“研究問題”和“研究方法”詞進行加權后,其他候選詞的加權特征(數據歸一化后)相應地也會朝著相反方向有所改變,即詞頻特征變小,位置特征變大,使得上述兩類關鍵詞和其他詞具有更大的距離,從而同時提高分類器對正例和負例的區分能力。但是,對于某些詞頻特征和位置特征較為反常的詞,如文獻4942 中的“新型”一詞,雖然不是關鍵詞,但FI 值很小,TFIDF 值較大,加權特征也不明顯,無論是基準實驗還是實驗⑩都難以判斷正確,這說明本文提出的融合詞匯功能的關鍵詞自動抽取方法雖然有較好的效果,但對“其他”功能的候選詞的識別仍需進一步改進。

5 結 語

本文采用基于分類和基于排序的關鍵詞抽取方法,基于領域關鍵詞詞表獲取候選關鍵詞,在基礎特征中融合候選詞在文獻中的詞匯功能,以SVM二類分類模型和學習排序模型實現學術文本的關鍵詞自動抽取。實驗結果表明,詞匯功能有效地提升了關鍵詞的抽取效果,在關鍵詞自動抽取中具有積極的意義。

本文提出的融合詞匯功能的關鍵詞自動抽取方法具有較好的效果,但仍存在一定的缺陷:首先,詞匯功能包括且不限于“研究問題”和“研究方法”,而本文僅以這兩種功能增強關鍵詞的基礎特征,討論詞匯功能在關鍵詞抽取中的作用;其次,關鍵詞抽取具有多種模式,但本文僅驗證了詞匯功能對分類模型和排序模型的提升效果;最后,本文只在計算機領域的部分文獻數據上進行了探究,相關結論具有一定的領域局限性。在以后的工作中,考慮將對詞匯功能類別進一步細分,并基于更多的關鍵詞抽取模式驗證其效果。此外,應進一步考慮學術文獻詞匯功能在更多領域中的應用場景,充分利用其價值,發揮其作用。

猜你喜歡
詞匯特征功能
也談詩的“功能”
中華詩詞(2022年6期)2022-12-31 06:41:24
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
如何表達“特征”
本刊可直接用縮寫的常用詞匯
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關于非首都功能疏解的幾點思考
中西醫結合治療甲狀腺功能亢進癥31例
辨證施護在輕度認知功能損害中的應用
主站蜘蛛池模板: 欧洲极品无码一区二区三区| 亚洲成aⅴ人片在线影院八| 国产麻豆精品手机在线观看| 91精品专区国产盗摄| 久久福利片| 精品99在线观看| 国产白浆在线| 色婷婷狠狠干| 在线欧美日韩国产| 无码视频国产精品一区二区| 无码免费视频| 在线观看国产精美视频| 九九热精品免费视频| 午夜一区二区三区| 91小视频版在线观看www| 极品私人尤物在线精品首页| 亚洲看片网| 成人字幕网视频在线观看| 亚洲免费毛片| 波多野结衣一区二区三区四区| 九九热在线视频| 好吊日免费视频| 国产精品19p| 午夜视频免费试看| 蜜臀AVWWW国产天堂| 欧美精品在线免费| 国产精品无码作爱| 精品无码专区亚洲| 日韩国产欧美精品在线| 色婷婷成人网| 内射人妻无码色AV天堂| 精品欧美一区二区三区久久久| 91网在线| 国产本道久久一区二区三区| 精品小视频在线观看| 午夜激情福利视频| 亚洲国产理论片在线播放| 她的性爱视频| 女人av社区男人的天堂| 美女被躁出白浆视频播放| 噜噜噜综合亚洲| 国产亚洲日韩av在线| 国产乱人激情H在线观看| 一级做a爰片久久免费| 国产国产人成免费视频77777| 久久精品欧美一区二区| 久久国产精品麻豆系列| 美女内射视频WWW网站午夜 | 国产精品亚洲一区二区三区在线观看| 中文国产成人精品久久| 一级香蕉视频在线观看| 在线观看国产一区二区三区99| 噜噜噜久久| 日韩天堂在线观看| 国产九九精品视频| 国产门事件在线| 日韩AV无码一区| 欧美特黄一免在线观看| 国产理论精品| 99精品久久精品| 欧美区一区| 欧美日韩在线国产| 国产欧美日韩91| 狠狠做深爱婷婷综合一区| 妇女自拍偷自拍亚洲精品| 亚洲综合色婷婷中文字幕| 欧美色亚洲| 国产不卡国语在线| 亚洲欧美不卡中文字幕| 国产在线观看成人91| 日本尹人综合香蕉在线观看| 欧美成人精品在线| 99久久精品国产麻豆婷婷| 成人日韩视频| 中国国产A一级毛片| 国产成人区在线观看视频| 永久成人无码激情视频免费| 亚洲成人福利网站| 青草精品视频| 免费激情网址| 天堂成人在线| 国产精品自在在线午夜区app|