徐琳宏 丁堃 林原 楊陽



摘 要:[目的/意義]引文情感分析揭示施引文獻對被引文獻的褒義、貶義和中性的情感傾向性,解析文獻之間深層語義關系,能夠幫助更加準確地評價被引文獻和作者。[方法/過程]以自然語言處理領域文獻的引文情感為數據集,利用引文中情感表達的引文標識位置指引和情感詞匯等特征,采用支持向量機(SVM)構建引文情感的自動識別系統,探索生成更大規模數據的方法。[結果/結論]實踐應用證明,該系統特征的區分度較強,準確率達到93.4%,識別效果較好。引文情感的自動識別系統實用價值較強,拓寬了引文網絡分析的研究方法和內容,能夠完善論文評價體系。
關鍵詞:機器學習;引文情感分析;自動識別系統;支持向量機;自然語言處理;情感分析
DOI:10.3969/j.issn.1008-0821.2020.01.004
〔中圖分類號〕TP312 〔文獻標識碼〕A 〔文章編號〕1008-0821(2020)01-0035-06
Citation Sentiment Identification Based on Machine Learning
——Natural Language Processing as an Example
Xu Linhong1,2 Ding Kun1 Lin Yuan1 Yang Yang1
(1.Institute of Science and Management of Science and Technology and WISE Laboratory,
Dalian University of Technology,Dalian 116024,China;
2.Research Center for Language Intelligence,Dalian University of Foreign Languages,Dalian 116044,China)
Abstract:[Purpose/Significance]Citation affective analysis reveals the positive,negative and neutral emotional tendencies of citation documents,which includes the deep semantic relationship between them and helps evaluate the cited documents and authors more accurately.[Method/Process]This paper took the citation sentiment of the literature in the field of natural language processing as the dataset and analysed the characteristics of citation mark location guidance and emotional vocabulary of emotional expression in citation and constructd an automatic recognition model of citation emotion by using support vector machine(SVM)to explore the method of generating larger-scale data.[Result/Conclusion]The practical application proved that the classification features were highly differentiated,F1 value was 5% higher than the original model,and the recognition effect was better.The characteristics of citation sentiment enriched citation network analysis and can improve the paper evaluation system.Automatic recognition model can improve the recognition effect of citation sentiment classification and has high practical value.
Key words:machine learning;citation sentiment analysis;automatic recognition system;support vector machine;natural language processing;sentiment analysis
學術論文作為科學研究活動的主要產出形式,是我們度量科學貢獻的最有效的載體。因此,如何評價論文的影響力一直受到了科技界和社會各界的廣泛關注。在依據引用頻次衡量論文質量的評價體系中,通常認為被引文獻對施引文獻的影響程度相同,沒有考慮一篇論文中的引用次數、引用的傾向性和引用位置。這樣的計量方式比較簡單,掩蓋了論文之間的差異,缺乏對引用極性和強度的分析。因此,簡單的被引頻次不能準確地衡量學術影響力的高低,需要更加全面地分析引文的內容。引文情感分析是指分析論文中施引文獻對被引文獻褒義、貶義和中性的情感傾向性,它能通過抽取引文中包含的顯示和隱式的情感信息,解析文獻之間深層語義關系,分析作者對被引文獻的態度,從而更客觀地評價被引文獻的影響力。
雖然引文的情感能細致地區分引文的性質,與單純依靠頻次相比能更加準確地評估論文的質量,但是隨著出版物數量的不斷增加,人工區分每條引文情感需要耗費巨大的人力資源,困難重重。為了解決人工標注耗時費力的問題,本文采用人工智能輔助的方式,選取合適的特征,依靠機器學習算法自動實現引文的情感分類,這樣只需少量的引文情感樣本,就能建立起相對高效的自動識別系統。接下來的內容安排如下:第二節介紹了國內外引文情感分析的研究進展,第三節構建引文情感的自動識別模型,第四節報告了應用的案例及效果,第五節給出了研究的結論和未來的改進方向。
1 研究進展
引文情感分析能夠在全文語義分析和理解的基礎上解決引用的同一化問題,矯正單純引用頻次分析帶來的偏差,是引文內容分析的重要組成部分。相關的研究工作主要分為兩部分:一方面是引文情感分析在學科評價中的應用;另一方面通過機器學習模型自動識別引文中的情感,兩者互為補充。因此,下面分別從引文情感分析的應用及自動識別兩個方面介紹相關的研究工作。
引文情感分析是引文內容分析的熱門研究領域,早在1982年,Small H[1]就將引文內容定義為“Citation Context”,指的是文獻正文中在參考文獻標簽周圍的文本內容。2006年,Teufel S等通過設置文本窗口的方式調整引用內容的大小[2]。Abujbara A等進一步將引文分為顯式和隱式兩類,認為包含特定引文標記的句子稱為引文句或顯式引文上下文,其他形式為隱式引文上下文[3]。徐健等研究表明有96%的被引片段少于3句[4]。近幾年引文情感分析在很多方面都有廣泛的應用,2011年,Small H利用共被引的引用內容進行了情感分析[5]。2014年,Sula C A分析情感傾向的表述規律,認為引文功能的分類可以與情感傾向對應[6]。2015年,Christian C等關注負向引用的作用,發現了負向引用與高質量文獻之間的關系[7]。2017年,尹莉引入“極性”概念,將引用內容分為正、負和零3類,并分析引用發生的語境,指出引用的位置與論文的一般結構有關[8]。Yousif A等綜述了最近幾年英文引文情感分析方面的工作[9]。2018年,遲玉琢等嘗試創建一套引用內容分析框架,并選擇32篇英文文獻樣本進行了實證分析[10]。劉盛博等提出引文評價的3個指標,其中引文情感分為正面引用、負面引用和中立引用[11]。
除了上述分析引文情感特點的文獻,近幾年也出現一些引文情感自動識別的研究。2006年,Teufel S等[2]對引用內容進行情感分類,構建引用功能的自動識別系統。2011年,Awais A等選擇Ngram、否定窗口和依賴關系等特征利用SVM和樸素貝葉斯等機器學習算法實現引文情感自動識別[12-13]。2013年,Bei Yu分析了人工引文情感分析與自動引文情感識別的不同[14]。2014年,Wan X等分析引文的重要性,模型在SVM分類器中融入引用次數、引用位置、引文與被引文時間差、引用句平均長度、引用句平均密度、是否為自我引用等特征[15]。Jochim C等采用領域自適應的方法,在產品評論數據集上訓練,將模型遷移到引文極性分類[16]。2016年,Ma Z等選擇極性分布、作者單位、作者名和P-index 4個特征,利用SVM進行引文極性分類,擴展H指數和作者聲譽度研究[17]。Munkhdalai T等人采用包含多層Attention的雙向LSTM的方法分別對引文的功能和情感分類[18]。Hernández-Alvarez M等在自建的25篇論文中自動分析引文的重要性[19]。中文方面,2012年,許德山[20]利用引文上下文信息進行引用的觀點傾向性識別。2018年,遲玉琢等提出了引用內容分析的框架包括引用功能、引用數據類型和引用強度等屬性[10]。廖君華等從PubMed中獲取全文,利用TF-IDF算法篩選出引用情感特征詞,展示引用情感的整體分布情況[21]。國外引文情感分析的研究開展的較早,而國內相關研究開展的較晚,尤其是自動識別方面,還處于起步階段。
2 引文情感自動識別系統的設計與實現
引文情感自動識別功能就是將少量的引文情感通過人工標注,作為系統的原始語料,利用機器學習的算法,自動產生更大規模的數據,為引文情感分析提供語料支撐。這種方法解決人工標注耗時費力的問題,只需少量的引文情感樣本,就能建立起相對有效的模型,為引文情感分析向更多領域推廣提供了有利的技術支持。
2.1 數據準備
無論是引文情感的分析還是自動識別,都是以帶標注的數據集為基礎的。標注質量越好,規模越大,數據分析的準確性越高。但引文的情感信息與引文網絡的數據不同,前者不能通過網絡直接下載得到,需要先制定規范的標注準則,經過多輪的人工標注才能完成,耗時費力。目前國內外引文情感標注的數據較少,本文選擇Awais的數據集作為引文情感分析的研究對象。Awais數據集中的引文來源于ACL Anthology NetWork(AAN)[22]。AAN論文集收錄了計算語言學領域歷年的多個國際頂級會議的論文,包括ACL、EMNLP和COLING等。該數據手工標注了每個引用句的情感、重要性和引文上下文,共8 736條引文信息。
2.2 實體及特征抽取
引文情感包含對誰發出情感和情感類型兩部分,實體抽取就是識別引文情感的受體,即被引文獻。而特征抽取是選取有效的特性幫助系統甄別情感的類型,褒義、貶義還是中性。兩部分的信息抽取互相依賴,互為補充。
2.2.1 實體抽取
實體抽取就是找出一段引文中的被引文獻,在一段引文中被引文獻通常具有一定的習慣寫法和特點,稱為引文標識。引文標識有多種表現形式,有的使用作者名,有的使用作者名和發表年份,還有的使用參考文獻列表中的數字等。在ANN的數據集中,一般采用作者名和發表年份的方式,例如“McKeown(2000)”或者“(Jing and McKeown,2000)”等。本文的引用標識采用以上多種形式的復合,即任意一種存在都被識別為引用標識,識別出的引文標識統一用“〈CIT〉”標簽替換和表示。確定引文標識的位置,對后續系統的情感識別作用較大,可以使學習算法特別關注引文標識前后的單詞,增加這些單詞的權重。
2.2.2 特征抽取
1)引文Ngram值和引文依賴關系
引文的Ngram值是指將整個引文段落中的詞匯按Ngram進行劃分,切分出多個單詞片段,計算每個片段在語料中Ngram值。引文依賴關系是利用斯坦福依存分析器[23],分析引文語句中的依存關系,最后采用關系—詞對的方式標識,再計算各關系—詞對在語料中出現的Tf*idf值。這兩個特征都是沿用Awais文本情感分類模型[13]中提供的方法。
2)引文標識位置指示
引文標識位置指示的特征就是加大引文標識(用“〈CIT〉”表示)周圍詞匯的權重,因為引文一般是一句或者幾句話組成的段落,與引文標識越近的詞匯則和被引文獻越相關,也就越可能是施引文獻表達對被引文獻情感的詞匯。需要指出的是引文標識周圍的詞匯并不是指在原始引文中“〈CIT〉”前后的單詞,而是選擇在依存分析樹中與引文標識直接相鄰的節點。
3)引文情感詞匯
情感詞匯通常是表達情感的重要方式,是機器識別情感類型的重要依據。引文的情感傾向性雖然有科技論文本身獨有的特點,但很多也是通過情感詞匯體現的。引文情感詞匯特征就是提取原始引文中包含的情感詞匯,在依存分析樹中找到該情感詞匯修飾的目標詞,最后將包含情感詞匯的關系—詞對作為特征值。
抽取引文中的情感詞匯需要用到專業的情感詞典。英文方面的情感詞典比較多,主要的情感詞典有普林斯頓大學的SentiWordNet情感詞典[24]、GI(The General Inquirer)詞典[25]、LIWC(Linguistic Inquiry and Word Count)詞典[26]、MPQA詞典[27]和伊利諾伊大學的Bing Liu提供的情感詞典[28]。這些詞典基本都給出了每個詞條的詞性和褒貶含義等,只是數量上有所差別。本文使用的情感詞匯表是Srijan Kumar[29]從引文數據中抽取的,貶義詞匯4924個,褒義詞匯2 789個,標注的詞匯情感傾向性比較適合科技論文的引文情感分析。
2.3 自動識別模型
將提取出的實體和特征與機器學習算法融合,通過人工標注的少量引文情感信息,使用機器學習的方法,訓練模型,從而完成大規模引文情感傾向性的自動識別系統。為了能夠完成引文情感的自動標注,本文構建了如圖1所示的整體功能框架圖。
第一步將原始的引文信息經過分詞、去噪等處理后,采用正則表達式匹配的方式標識出引文中被引文獻的位置。第二步提取分類特征,將一部分數據作為訓練集融入SVM和卷積神經網絡等機器學習算法中,開始模型訓練。第三步將測試集中的數據裝填到模型中,進行自動識別,最后評估算法及特征的有效性。訓練出的模型是否有效,主要依賴于選取的特征和機器學習算法,本文采用的分類模型是支持向量機(Support Vector Machine,SVM)[30],它是機器學習領域一個有監督的學習算法,通常在特征空間上找到最佳的分離超平面使得訓練集上正負樣本間隔最大。
支持向量機是一種基于統計的學習方法,它是由Vapnik V[31]于1995年首次提出的。該方法是進行二元分類的廣義線性分類器,它的主要思想是建立一個超平面作為決策曲面,使得正例和反例之間的間隔邊緣被最大化,其理論基礎是統計學習理論。對于二維數據來說,支持向量就是分布在兩條分割線上的點。當有少數樣本點存在于最大間隔之間,則成為噪音數據,需引入懲罰參數。
對于線性可分的分類問題,求最優分類超平面的問題即求:
其中,{x1,x2,…,xn}∈X為數據集,yi∈Y∈{-1,1}為xi的類標記。對于線性不可分的問題,SVM通過核函數映射的方法解決,將二維數據映射到高維空間,常用的核函數包括多項式核(Polynomial Kernel)、高斯徑向基函數核(RBF Kernel)、線性核(Linear Kernel)和Sigmoid核(Sigmoid Kernel)。通過核函數,可以將非線性可分的數據轉換為線性可分數據,它的選擇一般和具體的應用相關,在不同的領域應用核函數可能也不相同,一般來說高斯徑向基函數核應用的范圍更廣。
SVM不僅可以用于二分類,也可以用于多分類問題,如本文的引文極性分類,就是一個典型的三分類問題。它用于多分類是主要有兩種實現方法:一是直接修改目標函數,一次性實現多分類。這種方法計算復雜度比較高,只適合小樣本的數據集。二是組合多個二分類器來實現多分類器的構造,采用這種方法的比較多。SVM方法具有完善的理論基礎,在少量樣本時能夠獲得較好的分類效果,分類速度較快,且沒有分類重疊和不可分類現象。本文的引文情感分類是一個典型的三分類問題,從類別上看,中性類別數據較多,褒義和貶義數據較少,有明顯的不平衡特性。同時,引文情感數據需要人工標注獲得,一般數據規模較少,綜合以上實際問題,SVM模型更適合該類型的分類工作。
3 案例及效果分析
目前,本文將引文情感自動識別系統應用于自然語言處理領域,選擇該領域是因為它既與目前的大數據等許多研究熱點密切相關,同時也是人工智能方向一個重要的分支,具有較高的應用價值和廣泛的應用前景。
3.1 數據預處理
本文選擇Awais的數據集作為引文情感分析的研究對象,該數據手工標注了計算語言學方向194篇頂級會議論文的被引信息,包括每個引用句的情感和引文上下文等,共8 736條引文信息。原始數據如圖2所示。
由圖2可見,數據集中給出了施引文獻、被引文獻、情感極性和引文原文,在此基礎上想完成引文情感的自動分類還需要進一步做數據的預處理。本文主要的數據預處理工作有解析論文信息、識別引文標識、獲取引文中詞匯的依賴關系、詞性標注和識別情感詞匯及極性。Awais的數據集只給出了被引文獻的ID,如果想在引文中解析出被引文獻的位置,需要提取被引文獻的作者和年份等信息。因此,我們首先從網上下載了包含被引文獻信息的XML文件,使用XML解析器解析出文獻的編號、所有作者和年份。然后通過正則表示的方式分級匹配被引文獻標識,優先查找是否有作者名和年份都匹配的標識,如果不存在則繼續查找存在僅作者名匹配的標識。需要說明的是作者名的使用包括3種情況,先用第一作者和第二作者名匹配,然后再用第一作者名單獨匹配,最后再用其他作者名順序匹配,這樣可以最大限度地找到所有的被引文獻標識。詞法和句法分析方面,本文采用斯坦福的語法分析器[23]完成引文中的依賴關系和詞性標注,并將依賴關系樹中距離引文標識結點較近的依賴關系權重。取引文中詞性標注后的形容詞、名詞、動詞和副詞與情感詞匯表中的詞匯匹配,獲取情感極性信息。
3.2 參數設置及結果分析
我們使用WEKA軟件包中的LibSvm分類,參數Cost設置為1 000,采取10倍交叉驗證的方式,即將數據集分成10份,輪流將其中9份作為訓練數據,1份作為測試數據,進行試驗。最后,評估方法選擇分類中準確率和召回率的綜合指標F1值,評估褒義、貶義和中性的分類質量。
特征是一個分類模型重要的知識來源,特征的好壞直接影響系統的分類效果。在引文情感分類的系統中,本文分別選取了引文Ngram值(Ngram),引文依賴關系(Dependency),引文標識位置指示(Identification),引文情感詞匯(SentimentWords)4個特征。為了全面客觀地衡量識別結果,我們采用綜合準確率和召回率的F1值作為評估指標。融合4個特征的系統情感分類的F1值達到81%,比Awais系統的F1值提高了5%,其中中性引用的識別準確度高達97%。
同時,為了驗證這4個特性各自的作用,我們還采用依次逐步添加的方法,添加引文標識位置指示后,總體的F1值增加了5%,尤其是褒義的F1值提高了13%,提升幅度較大。說明與引文標識臨近的詞匯比距離較遠的詞匯更可能體現引文的情感,應加大關注的權重。從總的實驗結果來看,這套自動識別引文情感的系統,其區分度較強,分類性能較好,能夠滿足特定領域引文情感自動分析的功能,基本可以達到實際使用的標準。
4 結 語
引文情感分析在諸多研究領域有廣泛的應用,尤其在對科技論文的評價和檢索方面,具有較高的應用價值和廣闊的前景。為了探索大規模引用情感數據的生成方法,本文在分析引文情感特征的基礎上,嘗試構建一個引文情感自動識別的模型,為更準確地揭示引文情感的特點和作用提供數據支撐。采用SVM等機器學習方法,在自動鑒別引文的情感傾向性中取得了較好的效果,F1值達到81%,準確率達到93.4%,能夠滿足引文情感分析的基本需求。
引文情感分析從引文內容分析的角度,嘗試解決引文的同一化問題,是對傳統引文分析和現有的科技論文評價方法的擴展。從目前文獻的規模和增長速度看,單靠人工完成難以處理,因此本文設計了自動識別引文情感的系統。但系統還需要嘗試應用在更多研究領域,進一步提高系統的準確率和魯棒性。下一步計劃利用更多的自然語言處理的技術手段和機器學習算法,通過深入交叉研究更好地處理文獻數據,提高引文情感分析的效果,為情感分析的指標用于學術論文評價打下堅實的基礎,最終將引文情感分析實際應用于特定領域的科技管理和科技評價工作中。
參考文獻
[1]Small H.Citation Context Analysis[J].Progress in Conununication Sciences,1982,(3):287-310.
[2]Teufel S,Siddharthan A,Athar D.Automatic Classification of Citation Function[C]//Proceedings of the 2006 Conference on EmPirical Methods in Natural Language Processing.Sydney:Association for Computational Linguistics,2006:103-110.
[3]Abujbara A,Ezra J,Radev D.Purpose and Polarity of Citation:Towards NLP-based Bibliometrics[C]//Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,2013:596-606.
[4]徐健,李綱,毛進,等.文獻被引片段特征分析與識別研究[J].數據分析與知識發現,2017,1(11):37-4.
[5]Small H.Interpreting Maps of Science Using Citation Context Sentiments:A Preliminary Investigation[J].Scientometrics,2011,87 (2):373-388.
[6]Sula C A,Miller M.Citations,Contexts,and Humanistic Discourse:Toward Automatic Extraction and Classification[J].Literary and Linguistic Computing,2014,29(3):452-464.
[7]Christian C,Nicola Lacetera,Alexander Oettl.The Incidence and Role of Negative Citations in Science[J].PNAS,2015,112(45):13823-13826.
[8]尹莉.“極性”概念在引文分析中應用的一個實證研究[J].情報雜志,2017,36 (8):124-143.
[9]Yousif A,Niu Z,Tarus J K,et al.A Survey on Sentiment Analysis of Scientific Citations[J].Artificial Intelligence Review,2017:1-34.
[10]遲玉琢,王延飛.面向科學數據管理的科學數據引用內容分析框架[J].情報學報,2018,(1):43-51.