效用視角下核心引文識別方法初探*

2023-12-05 10:29:04李凌張若楠崔佳楠李鑫鑫

大學圖書館學報 2023年6期

□李凌張若楠崔佳楠李鑫鑫

引文分析是一種通過對學術文獻之間的引用關系進行分析,進而對研究成果的價值做出判斷的科學評價方法,其基本原理是通過分析文獻被引用的次數和引用關系,揭示學術文獻之間的聯系和影響力[1]。學術界也將引文分析結果作為文獻或學者學術影響力、資源績效評估的重要參考依據之一。傳統引文分析主要基于引用頻次來量化分析文獻間的引用關系,或將引用頻次作為評判資源質量、保障率、甚至學術影響力的重要標準,雖簡單直觀,卻無法揭示文獻間深層次引用關系,忽略了引文在研究中發揮的實際效用[2]。

從內容效用的角度,引文對施引文獻研究論點、研究結果的創新性、科學性、可靠性的論證和支持作用,及對論據充分性、論證合理性具有直接貢獻,可充分體現出引文的必要性及其引用價值[3]。因此,在論文中所引用的起到關鍵性學術論證作用、對施引文獻研究的內容、方法、觀點發揮了重要支撐或參考作用的引文,可視為“核心效用引文”。通過引文效用分析可盡量降低“低效”甚至“無效”的引文干擾,從而為深入開展更加科學、客觀的測度和評價工作奠定基礎,對科學計量學和科學學的發展大有裨益[4]。文章以學科期刊論文的參考文獻作為研究對象,從引文效用的視角,選擇引文屬性、引文功能、引用對象、引用情感等特征,建立引文標注框架;并依此進行人工標注及大規模預訓練語言模型的對話系統(Chat Generative Pretrained Transformer, ChatGPT)自動分類標注;測試邏輯回歸分析、支持向量機等方法對引文效用分類的效果,擇優構建“效用視角下核心引文識別模型”,并探討該方法應用拓展的可行性。

1 相關研究

傳統引文分析法主要基于引用頻次來量化分析文獻間的引用關系,但為深入揭示文獻間深層次引用關系,學者們將引文分析逐步拓展至內容層面,通過對引用位置、引用頻次、引用深度、引用對象等方面的分析,揭示引文之間語義關聯或引用行為特征,也證實了引用效用的差異性[5]。同時,結合不同角度對引文分類的體系、方法及相關應用的研究也在不斷推進。

1.1 引文分類體系研究

為深入揭示文獻間的引用關系或引用行為,國內外很多研究分別從“引用動機”“引用目的”“引文功能”等角度對其進行分類并構建相應的引文分類體系[5]。早期,尤金·加菲爾德(Eugene Garfield)[6]提出基于15種引用動機構建引文索引,包括支撐、批判、評價等,為后續引文分類研究奠定了基礎。隨后幾十年發展過程中,引文分類體系內容逐步擴充及深入。芬尼(Finney)[7]與博尼茨(Bonzis)[8]分別將引文位置、引用強度等特征引入了引文分類體系。奧彭海姆(Oppenheim)[9]將引文功能細分為“歷史背景”“相關工作的描述”“提供信息或數據”“比較”等7種類別。二十一世紀后,引文分類體系在指標的深度與廣度方面進一步延伸,也不斷推動著引文內容標注框架的發展。西蒙·泰弗(Simone Teufel)[10]提出“議論文式的分區”引文分類法,將引文區域進一步細分為結論、證據、方法、背景、目標、未來工作等,并將該分類法應用于自動化文本信息提取。國內也有學者提出“要結合引文分布、引文次數及被引內容”綜合判斷引文效用[11],并從語法和語義方面對引文屬性、被引屬性及兩者間屬性展開深入分析,構建相對全面的引文內容分析框架[12],還出現了包含引文分類標注體系、引用對象標注體系及引文屬性標注體系的面向引用關系的引文內容標注框架[13-14],較為全面地揭示出文獻引用關系及引文客觀特征。

1.2 引文標注及分類方法研究

引文標注是進行合理分類的前提,早期研究均采用人工標注,雖準確率高,但難以兼顧樣本量和標注效率。隨著計算語言學、自然語言處理的成熟,從大規模科學文本中自動化抽取引文內容進行語義分析成為可能。隨之涌現出基于規則、基于機器學習、基于深度學習、基于語義相似度的引文自動分類方法。

基于規則的引文自動分類方法通常使用手工設計的規則集進行引文分類[15]。其優勢在于專人設計和維護規則集,能提供高度的可解釋性和可控性,且不需要大量的標注數據。但規則集設計受限于編輯者的知識水平,在多種復雜的關系和模式時,規則集的設計不僅難度大幅增加,可能會出現疏漏和錯誤,需采用有效的設計和維護策略,以確保規則集的可靠性和適應性。因此,在現實應用中,基于規則的引文自動分類方法通常需與其他自動分類方法結合使用,以提高分類準確率和可靠性[16]。

機器學習是引文自動分類領域中最常用的技術之一。通過使用分類器模型和特征工程等技術,研究人員可以自動將引文分為不同的類別。其中,支持向量機(Support Vector Machine,SVM)、決策樹(Decision Tree,DT)、樸素貝葉斯(Naive Bayes,NB)和隨機森林(Random Forest,RF)等算法得到了廣泛應用[17-18]。一些研究還探索了使用多個分類器模型進行集成的方法,以進一步提高分類的準確率[19]。

深度學習是引文自動分類領域中的新興技術,可自動地從數據中提取特征。其中卷積神經網絡(Convolutional Neural Network,CNN)[20]、循環神經網絡(Recurrent Neural Network,RNN)[21]等深度學習模型得到了廣泛應用。近年來,使用預訓練模型的方法也成為了引文自動分類的熱門研究方向。但基于機器學習和深度學習的分類效果依賴于前期語料庫質量及規模,訓練數據質量差或語料庫規模小,均會導致訓練模型效果不穩定,分類優勢無法發揮[5]。

1.3 引文分類應用研究

引文分類應用主要體現在引用規律及行為揭示、引文識別、學術影響力評價等方面。如采用情感詞匹配法識別論文引文的引用情感,并發現其引用行為特點及變化[22],或采用基于詞袋特征的SVM分類器對引文進行情感分類[23]。還有通過人工標注中文圖書在施引文獻中引文位置、情感并計算其長度和強度,發現不同學科領域對中文圖書的引用行為差異[24]。在學術影響力評價應用中,相關研究通過對引用主題、功能和情感進行手工識別與分類,定性分析其學術影響力[25],或基于引用情感等特征進行引文分類后加權計算單篇論文的學術影響力[23],還有研究加入引用強度、引用位置、引用情感等因素,利用層次分析法確定引用強度、引用位置的權重,結合引用強度計算作者學術影響力AAI指標[26]。

綜上所述,學術界不斷探索引文分類體系與方法,發現引文行為特征、引文規律,并以此為基礎開展引文評價、學術成果影響力、學者影響力評估。但依然存在以下問題:分類體系缺乏統一標準、通用性不高,實踐中仍以引用頻次為主要依據,基于引文效用分析的應用場景較少。再者,現有應用類研究中多采用先人工標引后引文分類的方法,雖已有利用深度學習進行自動分類的嘗試,但由于深度學習模型更依賴于語料的規模和質量,鑒于目前訓練數據偏少,其模型的優勢無法發揮,效果還有待于進一步驗證。

2 問題提出與方法設計

2.1 擬解決的關鍵問題

問題一:引文效用分類特征選擇與自動提取。已有研究中提出的多樣化引文特征包括:引文的年份、內容、上下文語句、頻次/強度、目的、動機、功能、位置、情感等。對引文以上特征展開全面細致的標注無疑會增加標注難度,對標注者學科專業知識與信息專業技能要求較高,引文標注的準確性與特征提取的高效性很難兼顧。

問題二:效用視角下核心引文識別模型構建。在選取引文分類關鍵特征的前提下,構建高質量分類模型是實現引文效用精準識別的關鍵。現有研究中雖已有基于引文功能和情感、利用傳統機器學習方法或深度學習方法進行引文自動分類,但其目的在于發現引文功能和情感的相關性,深入揭示科學發展規律、發現知識傳播路徑[5],缺少對引文效用的關注及其價值的利用。

2.2 方法設計

研究以引文效用分類與核心文獻提取為目標,利用相關性矩陣和散點圖矩陣選擇關鍵特征構建分類模型。再嘗試利用大規模預訓練語言模型、模式匹配等技術實現關鍵特征的自動提取。在此基礎上,利用邏輯回歸分析、支持向量機的方式,分別測試其對引文效用的分類效果,擇優構建“效用視角下核心引文識別模型”,進而提升“核心引文”的識別效率,探索排除“低效”甚至“無效”的引文干擾的方法,為進一步的測度和評價工作奠定科學基礎。研究主要分為數據獲取、引文內容標注框架設計及標注、關鍵特征選取、分類模型建立、效果對比與分析等步驟。

在方法準確性方面,研究方法聚焦于模型對引文效用的判斷與自動分類,模型的準確性由訓練數據質量及模型質量決定。一方面訓練數據采用人工標引方式,館員判斷引文特征,專業師生判斷引文效用,充分發揮人員專業特長,最大限度確保訓練數據的詳細與準確,進而保證模型效用判斷的準確。另一方面,模型質量通過科恩卡帕系數及正確率評價,可判斷模型是否具備良好的引文效用預測功能。

在數據保障方面,利用西安交通大學機構知識庫,選取醫學部2022—2023年部分高質量(ESI收錄、Q1等)論文的引文作為研究對象。考慮到綜述性文章的引文效用相似性較高,故去掉“綜述(Review)”類型文章,選擇“文章(Article)”的引文,經篩選,最終選擇1778篇引文作為此次研究數據,并將原始數據分為訓練集、測試集和預測集三部分。其中隨機選取1424篇用作模型構建,其中75%的數據(1068篇)用于識別核心引文關鍵特征的發現以及模型訓練,25%的數據(356篇)用于模型效果測試。最后,選擇354篇引文用于核心引文的識別預測。

3 引文效用分類原則

3.1 引文效用分類標準

“核心”引文在不同應用背景下具有不同內涵。一指被SCI、EI等權威索引收錄可稱之為核心;另有從文獻利用的角度指被使用次數較多的高需求文獻。而文章中“核心引文”指在論文中所引用的起到關鍵性學術論證作用,對施引文獻研究的內容、方法、觀點發揮了重要支撐或參考作用的引文。其重要程度需依據專業知識與信息素養綜合判斷,并通過五級分類法表示,即“非常重要”“重要”“一般”“不重要”“非常不重要”(具體描述見表1)。

表1 引文效用分類標準

在模型構建階段,需將引文效用作為目標值,進行二分類處理,故需對定義進行調整,其中非常重要、重要、不重要、非常不重要的分類傾向較為明確。“一般”通常為引文效用表現不突出,且容易出現效用的爭議,故歸為“非核心引文”。

3.2 引文內容標注框架設計及標注

本研究從引文效用角度出發,設計了包括引文特征屬性、引文功能屬性、引用對象屬性、引用情感屬性在內的引文內容標注體系(如表2所示)。引文特征屬性包括:引文年份、引文所在期刊、引文出現章節名稱、引文出現頻次、引文所在語句。引文功能劃分為“基于、使用、支撐、比較、相關研究、未來啟發、背景介紹”。引用對象是指施引文獻引用引文的對象,由于醫學類論文引用對象相較社科類引用對象更為簡單且形式固定,故本研究將引用對象歸納為“概念理論、方法、數據、其他”。引用情感分為積極、消極、中立三種情感。由于醫學論文多在于客觀論證或描述,因此,對施引文獻起正面支撐作用的引文均屬于積極,與研究結果相悖、指出現有成果不足、研究局限等引文表示消極,其余則均標注為中立。

表2 引文內容標注框架

由于引文特征的判斷既需要文獻所涉及的學科專業知識,也需要信息專業技能,因此,選擇館員與專業師生兩組人員對引文的不同類特征分別標注,有助于提升標注結果的準確性。由不同專業背景的學科館員依據引文標注框架,分別對原始數據所有引文特征屬性、功能屬性、引用對象、引用情感等屬性進行標引。醫學專業教師及研究生若干,依據引文效用分類標準(表1)對訓練集與測試集引文僅進行引文效用判斷及標注。

4 自動分類模型設計與效果對比

引文特征眾多,但并非所有特征都會對核心引文的判斷產生影響。筆者發現,在眾多引文特征中,與“引文效用”相關性較強的部分特征作為模型建立的基礎尤為關鍵。在此基礎上,進一步利用機器學習的方法構建核心引文識別模型,既可以一定程度簡化引文特征標注體系,也可以提升核心引文識別效率。研究通過KNIME軟件進行邏輯回歸及支持向量機(SVM)模型的設計及訓練,包括:數據讀取及觀察、特征篩選、模型訓練、模型驗證及評價4個模塊(如圖1所示)。

圖1 邏輯回歸與支持向量機模型訓練流程圖

4.1 特征篩選

引文標注體系包括引文題目、引文期刊、引文年份、引文所在章節名稱、引文出現頻次、引用情感、引文功能、引用對象類型、引文是否重要等9種引文特征指標,其中引文是否重要為目標指標,通過相關性矩陣(如圖2所示)和散點圖矩陣(如圖3所示),觀察各指標和目標間的相關性。在相關性矩陣中,引文效用通過“是否重要”表示,依據表1中的五級分類法分為非常重要、重要、一般、不重要、非常不重要。在二分類處理后,其中非常重要、重要歸為“核心引文”,一般、不重要、非常不重要歸為“非核心引文”。

圖2 指標相關性矩陣圖

圖3 各指標散點圖

從相關性矩陣發現(如圖2與圖4所示)引文出現頻次和引文效用幾乎沒有相關性,引文所在章節名稱、引用情感、引文功能、引用對象類型等特征與引文效用相關性較強,其中引文功能相關性最高,故以此特征值為起點,依次加入其他特征值進行測試,最終選定的特征為:引文所在章節名稱,引用情感,引文功能,引用對象類型。

圖4 指標相關性矩陣參數圖

4.2 邏輯回歸模型訓練及驗證評價

邏輯回歸(Logistic Regression,LR)算法是一種廣義的線性回歸分析模型,用于解決二分類問題的機器學習方法,可預測某種事物的可能性[27]。在本研究中即通過LR算法訓練出的模型對某引文是否為核心引文進行預測,并選用混淆矩陣(Scorer節點),預測準確率(Accuracy)、科恩卡帕系數(Cohen’s Kappa)值以及受試者工作特征曲線 (Receiver Operating Characteristic Curve,ROC)[28]進行評價。其中,科恩卡帕系數是可用于衡量分類效果的指標,即模型預測結果和實際分類結果是否一致,值越高表示該模型的分類結果與實際分類結果一致性越高。預測準確率代表模型分類正確的樣本數除以所有樣本數,準確率越高分類器越好。訓練過程中選用梯度下降算法 (Stochastic Average Gradient),設置學習率為0.001,最終訓練的模型應用到測試數據集上的結果如圖5及圖6所示。

圖5 邏輯回歸預測結果

圖6 邏輯回歸ROC曲線

訓練結果發現,邏輯回歸訓練模型對核心引文預測結果與人工判斷結果相似度已達到較高水平,在356條數據中,誤將核心判定為非核心14篇,誤將非核心判定為核心18篇,預測準確率為91.011%, 科恩卡帕系數值達到0.82,提示該預測模型與人工判斷的結果具有較高一致性。從受試者ROC曲線來看,曲線下方部分的面積(Area Under Curve,AUC)很大,說明此模型預測準確率較高。

4.3 支持向量機模型訓練及對比

支持向量機(SVM)是按監督學習方式對數據進行二元分類的廣義線性分類器,通常用來進行模式識別、分類以及回歸分析[29],在本研究中同樣通過該算法訓練出的模型對某引文是否為核心引文進行預測。SVM算法與LR算法原理不同,故將兩種算法訓練出的模型進行對比后,擇優選擇。SVM算法進行訓練的流程和LR基本一致,但由于該算法需要所有的特征是數值,所以針對類型特征,要通過獨熱編碼(One-hot Encoder)進行數據轉化處理。在使用相同訓練數據集以及測試數據集的情況下,LR算法和SVM算法的模型評價結果對比如圖7所示。

邏輯回歸(LR) 支持向量機(SVM)圖7 LR與SVM預測結果對比圖

從SVM算法訓練結果可見,該算法對核心引文預測結果較LR更高,在356條數據中,該算法誤將核心判定為非核心21篇,誤將非核心判定為核心6篇,預測準確率為92.416%, 科恩卡帕系數值為0.848。

對比可見,兩個模型對“核心引文”預測準確率都很高,其中SVM算法在準確率以及科恩卡帕系數值上表現略好。故本研究選擇使用SVM算法建立的模型對預測集進行預測,并根據預測的結果進行后續研究分析。

4.4 ChatGPT自動提取引文特征及模型分類效果對比

此次建模所需的4項關鍵指標中,除引文所屬章節名稱可通過讀取全文后進行模式匹配獲取,引用情感、引文功能、引用對象類型均屬自然語言處理(Natural Language Processing,NLP)范疇,其中引用情感主要是情感分析,引文功能可理解為對引用意圖識別分類,引用對象類型則屬于文本分類問題。這些均可通過深度神經網絡進行學習并自動識別[5]。2022年底,隨著ChatGPT的“出圈”,ChatGPT在自然語言處理任務中文本分類、語義角色標注、機器閱讀理解等方面的優勢[30]與引文內容特征分析、提取、標注與分類的需求較為契合。因此,本研究進一步測試了利用ChatGPT技術完成指標自動獲取及標注的效果。

4.4.1 特征指標自動提取及問題設計

研究始于2023年2月,使用ChatGPT 3.5版本。測試ChatGPT能否直接根據引文內容對其效用進行分類,發現效果并不理想。后對整個提取流程進行分解,先將施引文獻作為背景信息,再設計特征分類提示詞(Prompt),然后利用ChatGPT識別引文特征,最后寫入表格文件Excel,完成特征自動提取。

首先,將施引文獻作為背景信息通過共享pdf鏈接的方式輸入ChatGPT,以確保ChatGPT完全基于施引文獻背景輸出特征分類。

再進行Prompt設置。Prompt可理解為分類標準的“提示語”,指輸入的文本段落或短語,作為生成模型輸出的起點或引導,可以是一個問題、一段描述或任何形式的文本輸入[31]。Prompt需針對“引用情感、引文功能、引用對象類型”屬性及分類特征分別設置。分類依據引文內容標注框架,但為方便機器識別,將框架中引文功能簡化為研究基礎(基于、使用、支撐)、相關研究(比較、相關研究)、背景資料(背景介紹、未來啟發)3類,經多次交互提問及分類輸出效果測試后,確定關于“引用情感,引文功能,引用對象類型”特征的Prompt(如圖8所示)。

人工標引數據SVM評價結果自動獲取數據SVM模型評價結果圖8 自動獲取數據與人工標引數據SVM算法預測結果對比圖

在數據輸入階段,輸入引文功能及引用對象的特征分類提示詞及引文列表即可識別相關特征,情感特征提取需輸入情感特征分類提示詞及引文所在語句。最后,對輸出結果進行格式化處理,分別輸入到Excel文檔,完成特征自動提取。

4.4.2 模型分類效果對比

為檢測自動特征提取的分類效果,使用SVM算法及相同的訓練集和測試集,分別對自動化處理后的數據和人工標記數據進行模型訓練,對比發現,雖然ChatGPT對于引文特征的自動分類無法達到人工標引的高準確率,但在保證較好的預測效果的同時,可有效提升特征提取效率。

5 研究結果與討論

5.1 特定應用場景下,引文效用分析比頻次分析更加合理

研究核心在于排除僅依據頻次無法排除的“無效”引文。故針對研究全數據集,將基于效用與基于頻次的引文分析結果進行對比發現,集合1和2共有212種期刊重復(如圖9所示),說明區域2的212種期刊不僅引用頻次靠前,也屬于核心效用引文期刊。其中,集合1(實線部分)為利用本模型識別出核心效用引文分布的315 種期刊;集合2 ( 虛線部分) 為1778篇引文分布的570 種期刊按引用頻次降序排列的前315 個期刊。區域1的103種期刊雖然頻次較高,但從內容效用的角度并非核心效用引文,不排除存在無效甚至惡意引用的干擾。區域3的103種期刊上的引文雖引用頻次不高,但卻對施引文獻發揮了相對較高的學術效用。由此可見,基于效用與基于頻次的引文分析結果存在一定差異,單純基于頻次的引文分析無法排除無效引文干擾,也存在丟失部分有效引文的風險。基于效用的引文分析可排除部分非核心效用引文,更客觀地反映出“有效”引用,而依此開展的各項應用也將更加科學。

圖9 高引用頻次期刊與核心引文期刊對比結果

在特定場景下,如資源保障評估、學術影響力評價等,有效引文才是評價結果科學客觀的基礎。行業中“他引”標準的提出與嚴控也正是引文效用價值的體現。由此,單純的頻次分析做出的判斷必然有失偏頗。同樣,在學術熱點追蹤、合作網絡發現過程中,過多的無效、虛假引用也將成為干擾導致“迷航”。因此在這類應用場景下,引文效用所體現出的學術論證作用尤為重要,以此為基礎的數據分析也更加科學。

5.2 “ChatGPT+SVM”為高效引文特征識別與自動分類提供新思路

研究中通過LR方法與SVM訓練結果對比發現,兩個模型對核心引文預測的準確率都很高,其中SVM預測效果相對更好。對比人工與自動分類標引,自動分類雖需經過輸入背景文獻、提示語、相關文本,導出并格式化輸出結果等步驟,但完成效率較人工逐條判斷仍有大幅提升。其預測結果準確率雖略低于人工,但準確率及科恩卡帕系數值也仍處于較為理想的范圍,可見“ChatGPT+SVM”模式可在保證較好預測效果的同時,顯著提升特征識別與分類效率,這為批量引文特征自動提取與分類提供了新思路。

5.3 ChatGPT的發展將為大規模引文自動分類模型提供可能

本研究針對醫學學科論文使用ChatGPT3.5版本進行引文特征的自動提取及分類,雖然數據量及學科范圍有一定局限,但其提取及分類效果已初現端倪。研究中采用少樣本學習(Few-shot Learning)模式,需反復給出提示詞進行預訓練。而問答字數的限制,也使問答過程中出現“記憶缺失”的現象,影響分類效率。

2023年3月,隨著GPT-4的發布,ChatGPT對話生成能力、語言理解能力、模型可定制性等有所提升。于本研究而言,一方面,要客觀看待ChatGPT對于引文自動分類的作用。引文效用分類首要依據便是施引文獻內容,其次仍需相關專業及信息知識。ChatGPT在語料庫增加、對話能力增強等方面的進步,提升了其對文獻的理解能力,但對文獻內容并無影響。換言之,在施引文獻內容、引文相關屬性、分類原則確定的前提下,引文效用具備一定的客觀性,不會發生較大偏差。另一方面,ChatGPT所具備的微調(Fine-tuning)功能為構建大規模引文自動分類模型提供了可能。微調功能相當于利用在大數據集上預訓練好的模型,通過自有的數據進行模型微調,即在底層數據上進行模型的“特殊訓練”。因此,可根據引文效用分類的具體應用場景,準備一定量訓練數據,設定引文分類標準,實現引文分類定制化模型微調模型(Fine-tuned Model),既降低了構建超大規模模型訓練語料庫的操作難度,又可得到比直接用自己數據訓練更好的效果。

6 結語

本文從引文效用的角度構建核心引文識別模型并探索了利用ChatGPT實現過程自動化的可行性。為基于引文內容分析、引文自動分類及應用提供了一種新思路。但本研究尚在探索階段,一方面數據選取存在學科與數據量的局限性,可能導致學科資源呈現不全面。另一方面,利用ChatGPT 3.5版本尚未充分挖掘并呈現出其對于引文特征識別與分類的顯著優勢,對引文特征識別與提取的自動化程度也有待深入探索。在后續研究中,將擴大取樣范圍及數量,也會進一步探索基于各種大型語言模型提高引文自動化分類的效率與質量的方法與路徑。