操玉杰,向榮榮,毛 進,王施運
(1. 華中師范大學信息管理學院,武漢 430079;2. 武漢大學信息管理學院,武漢 430072)
當代社會重大科技突破和研究成果越來越依賴于多個學科的交叉融合。學科交叉本身已成為一個重要的科學研究對象,開展“跨學科學”[1]研究,探索學科交叉一般規律和方法,有助于充分發揮學科交叉在科技創新中的作用和價值。已有較多定量研究利用引文關系、作者合著等從學術出版物中揭示跨學科研究活動的知識交互特征和規律[2]。然而,引文關系、作者合著等信息僅是知識關互關系的間接測度,即文獻和作者并不是知識的直接承載物。相較而言,部分學者近年來開始從文獻文本中直接提取能夠反映細粒度知識內容的知識單元,進而從知識內容角度來量化測度學科之間的知識傳播和知識整合,以期更準確地揭示學科交叉規律[3-4]。同時,情報學研究中基于文獻的跨學科知識發現,旨在從跨學科領域的文獻中挖掘得到來自不同學科的知識內容之間的關聯關系,其研究對象也是細粒度知識內容。結合已有研究[5-6],本文使用知識單元作為細粒度知識內容的度量單位,認為其是指具有獨立知識含義和完整知識內容的詞或詞組,是相關概念的統稱:知識元是不可再分、最小粒度的知識單元[7],知識實體是微觀層面上的部分知識單元[8],術語是表達特定概念的詞或詞組[9]。基于細粒度知識內容的跨學科學研究和知識發現研究,能夠服務于學科交叉相關的科技政策、科研管理和科研活動,促進交叉學科和交叉科學的發展。
無論是基于知識內容的跨學科學研究,還是基于文獻的跨學科知識發現,知識單元的學科歸屬判定均是重要的基礎性工作和任務。結合學科關聯視角[10],本文將知識單元的學科歸屬理解為知識單元依托于某一學科的程度,知識單元的學科歸屬度越高,則其與該學科的知識關聯性越高,其知識產生背景、知識應用過程均與該學科具有較高關聯,同時與學科中其他知識也具有高度的連接性。有效判別知識單元的學科屬性,能夠保障學科間知識關系測度和知識單元關聯發現的準確性。然而,目前交叉研究領域的知識單元學科歸屬判定仍然是一個難點,面臨著多方面的挑戰。現有方法主要針對文獻或機構等粗粒度知識對象,而關于如概念、術語、詞語等知識單元[5]的學科歸屬識別研究相對較少,鮮有研究針對知識單元提出適應性的優化方法。目前,相關研究一般借鑒相似任務中的識別方法,在文獻的學科分類基礎上,進一步采用多種統計指標或機器學習方法來判定知識單元學科歸屬。知識單元的學科歸屬與術語領域歸屬度計算存在一定的關聯:術語領域歸屬度通過測度術語的領域專業性和區分性來反映術語自身在特定領域中的重要程度。然而,這些研究尚存在如下不足:一是現有研究一般僅實現了知識單元的學科歸屬方法,進而應用在后續任務之中,較少在同一數據集上對比不同方法的性能;二是在理論層面,已有方法一般只依賴知識單元的部分特征來設計方法,未能系統地梳理知識單元的特征體系并評估特征的重要性。
鑒于此,本文借助16 種可用于判定知識單元學科歸屬的常用測度模型,解析出知識單元的學科重要度、學科相關度和學科區分度3 種學科維度特征體系,厘清各個方法所使用的特征組合情況,進而構建交叉研究領域測試集開展方法對比實驗,根據詞頻和學科覆蓋度區分不同類型的知識單元,對比分析不同方法對不同類型知識單元的學科歸屬判定性能,從而挖掘出對學科歸屬判定性能有貢獻和價值的知識單元特征及其組合。本文系統性地揭示了對于學科歸屬判定方法產生影響的知識單元特征體系,有利于優化知識單元的學科分類方法,提升細粒度知識內容計量的精確性,促進跨學科學發展,也有助于改進跨學科知識發現方法,以促進交叉科學研究活動的開展。
科學研究具有結構特征,學科分類有利于人類對知識體系形成清晰認識[11]。現有學科分類體系繁多,常見的包括Web of Science (WoS) 學科分類[12]、Scopus 學科分類[12]、ESI (Essential Science Indicators)學科分類[13]和《中國圖書館分類法》[14]等。不同分類體系的差異體現在學科覆蓋范圍、學科分類層級、學科與期刊的關聯3 個方面。其中,在學科覆蓋范圍方面,當前學科分類體系均覆蓋較廣,基本覆蓋自然科學、社會科學、生命科學、醫學等;在學科分類層級方面,較多學科分類體系包括2 個或3 個層級;在學科與期刊的關聯方面,以Web of Science 為代表的英文學科分類體系均提供學科與期刊的對應關系,以多對多為主,而《中國圖書館分類法》未提供學科與期刊關聯關系。上述學科分類體系為知識的學科分類和跨學科研究提供了數據基礎。WoS 學科分類體系因期刊的學科類別獲取難度低、學科覆蓋面廣而在跨學科研究中使用最為廣泛[15]。
在科學計量和科技知識發現研究領域,學者們嘗試對不同粒度的知識對象識別其學科歸屬,包括研究領域、期刊、論文、作者和關鍵詞等知識對象。多數研究基于學科分類體系中的期刊學科對應關系,通過“學科-期刊-論文”關聯獲得知識對象的學科分類[16-17]。這種簡單承襲方法認為論文及論文中的作者、關鍵詞等均隸屬于論文刊載期刊的學科分類,但對于論文和更細粒度的知識對象而言,這種方法具有較大的隨機性:其默認知識只要在學科中出現過即歸屬于該學科。為了優化這種學科分類方法,學者們嘗試利用統計閾值來提升知識的學科專指性。例如,呂雙[18]認為一個前沿領域發表在某個學科的核心論文數超過該領域總論文數的20%時,可判定這個前沿領域屬于該學科;華萌等[19]提出文獻數分類法來確定期刊的學科分類,認為期刊隸屬于文獻占比超過20%的學科;范晴晴等[20]通過論文參考文獻期刊的學科類別統計出占比10%以上的一種或多種學科作為論文所歸屬的學科。除了期刊的學科信息外,作者通信信息中的機構名稱也可以用于判定作者和論文的學科歸屬[21]。
為進一步提升學科分類的精度,部分研究者嘗試利用知識在學科語料中的統計信息來挖掘知識與學科之間的關聯特征。計算原理來自Kageura 和Umino 于1996 年提出的“術語度”,認為術語在給定領域和背景語料庫的統計信息可區分與領域關聯度較大和較小的術語,并以此識別領域術語[22]。基于這種對比不同語料中統計信息的思路,學者們提出了相關方法衡量知識單元的學科歸屬。呂雙[18]在詞頻基礎上考慮學科論文在背景語料庫的詞匯覆蓋度特征,設計關鍵詞的學科隸屬度指標。Fattah[23]利用詞匯在學科內外的分布差異比例衡量詞匯對某學科的重要性,認為該比值最大的學科為詞匯的歸屬學科。劉麗帆等[24]使用卡方值觀察名詞塊與學科的相關性特征,認為名詞塊與學科相關度越高,其能代表學科的可能性越大。
除了上述統計方法外,機器學習也被應用于知識的學科分類。Uysal 等[25]提出區分特征選擇器(distinguishing feature selector,DFS),綜合考慮學科詞頻占比、詞匯與學科相互依賴程度和詞匯在學科內外的分布差異,用機器學習方法篩選出具有學科獨特性的詞匯。杜濤[26]在詞頻逆文檔頻率(term frequency-inverse document frequency,TF-IDF)特征基礎上,借用機器學習方法對SCI(Science Citation Index)論文進行一級學科歸屬判別。部分學者也開始關注知識單元的類型對學科分類的影響,如胡昌平等[27]認為高頻詞對領域代表性存在天然缺陷。在知識單元學科分類實現基礎上,學者們進一步引入上下文語境、結構位置、引文內容等特征開展了知識單元的語義分類研究。例如,陸偉等[28]認為學術文本詞匯在特定上下文環境中承載了特定的語義功能,結合機器學習方法將關鍵詞劃分為研究問題、研究方法和其他;Wang 等[29]考慮了引文內容及篇章結構特征,將方法章節引文內容中的知識對象進行人工分類標注,包含14 類計算機方法。
綜上所述,知識的學科分類方法研究整體呈現研究對象細粒度化、分類模糊性降低、分類方法復雜度升高的趨勢。知識單元的學科歸屬判定不僅是大勢所趨,也需要進一步提升方法性能。進行特征挖掘以尋找影響知識單元的學科歸屬判定性能的關鍵特征,對優化學科分類方法至關重要。
知識單元的學科歸屬判定可視為一個分類任務:已知一個給定的學科集合,根據知識單元的特征由分類算法自動賦予其一個學科標簽。識別和發現關鍵特征對提升知識單元學科分類性能具有重要影響。為此,本文嘗試借助16 種知識單元學科歸屬測度模型,分析模型所納入的特征,并對比不同方法的效果,以挖掘出有效的關鍵知識單元特征或特征組合。本文梳理了現有學科歸屬測度方法及其特征維度,設計了對比研究框架,如圖1 所示。

圖1 詞匯學科歸屬判定方法對比研究框架
該對比研究框架包括3 個環節:①測試集構建。選擇一個交叉研究領域,識別詞匯及其學科信息,構建一個知識單元學科歸屬測試數據集。②學科歸屬判定。分別將16 種方法應用在測試數據集上,判定測試集中每個詞匯在背景語料庫中的學科歸屬,并轉換為是否屬于醫學的二分類結果。③特征組合性能對比。本文歸納了所梳理的學科歸屬判定方法涉及的知識單元特征及特征組合,通過對比分析,探討不同特征或特征組合對學科歸屬判定效果的影響。
本文針對交叉領域的知識單元,識別其所歸屬的學科。因此,需要構建一個交叉領域的數據集,獲取該領域的知識單元,并進行學科分類。由于學科歸屬判定方法一般會利用知識單元在關聯學科中的統計信息,因此,除了獲取交叉領域數據之外,還需要收集該領域的關聯學科的數據集。本文構建知識單元學科歸屬測試集的操作如下:在評價和比較學科歸屬測度方法性能時,需要構建包含面向學科歸屬判定需求的交叉領域知識單元集、標準學科相關知識單元集的測試集,以及支持學科歸屬測試方法計算的學科知識單元集。
(1)交叉領域及關聯學科數據集
選取近年新興醫學交叉領域“計算醫學”[30],對該領域知識單元進行學科分類。在WoS 核心合集中以主題詞computational medicine 進行檢索,時間范圍為1999—2022 年,檢索時間為2022 年8 月15日,共獲得文獻6113 篇。分別統計計算醫學領域發文分布和WoS 學科分布,如圖2 和表1 所示。可以看出,計算醫學領域文獻數量呈現指數增長趨勢,處于蓬勃發展態勢中,發文量排名前20 位的學科主要分布在醫學、生物學、計算機科學和化學等學科大類中,數量分布較為均衡,具有典交叉領域特性。從表1 中選擇歸屬于不同學科大類且發文量較高的4 個關聯基礎學科,即放射學、核醫學和醫學成像(radiology, nuclear medicine & medical imaging),計算機科學跨學科應用(computer science, interdisciplinary applications),基因遺傳學(genetics heredity) 和化學- 多學科(chemistry, multidisciplinary)。基于JCR(Journal Citation Reports)獲取4個學科的核心期刊列表,按照“放射學、核醫學和醫學成像”前25 本期刊所占該分類論文比例(27.67%)進行等比抽樣,采集期刊論文題錄數據。

表1 計算醫學領域文獻的WoS學科分布

圖2 計算醫學領域文獻的時間分布
分別針對計算醫學領域和4 個學科的文獻數據集,利用python 的spaCy (https://spacy.io) 程序包從能夠表征文獻核心內容的標題、摘要和關鍵詞等題錄文本中抽取名詞短語,進行清洗和詞形還原等預處理,作為最終的知識單元。本文將計算醫學領域文獻數據集稱為交叉領域語料庫,將其所關聯的4 個學科基礎文獻數據集作為背景語料庫。交叉領域語料庫和背景語料庫的基礎情況如表2 所示。

表2 學科領域語料庫基本情況
(2)知識單元學科歸屬測試集
構建知識單元學科歸屬測試集的目標是收集一個詞匯集合,并賦予每個詞匯相應的學科歸屬標簽。然而,目前較難獲取詞匯的學科標簽,也無相應的數據集可以借鑒和使用。根據計算醫學領域論文涉及的WoS 學科分類來看,主要涉及的學科大類包括醫學、計算機科學、生物學、化學等。鑒于可操作性,本文以醫學學科為知識單元歸屬的目標學科,構建數據集。由于數據規模和數據獲取難度問題,本文僅使用4 個關聯學科來表征這幾個學科大類。
首先,從計算醫學領域知識單元中選取現在多個學科(需包括醫學)中的數量將詞匯視為待判定交叉領域知識單元,共獲得31366 個詞匯。只出現在一個學科中的詞匯,其學科歸屬較為簡單,可將知識單元出現的學科視為其歸屬學科。
其次,利用MeSH(medical subject headings)醫學主題詞表來判定上述知識單元是否歸屬于醫學學科,認為在MeSH 詞表中出現的詞匯屬于醫學學科。醫學主題詞表[31]是美國國立醫學圖書館(National Library of Medicine,NLM)編制的最具權威性的醫學領域動態主題詞表,其覆蓋了醫學領域的規范性敘詞概念,該詞表每年都會進行版本升級、主題增刪,主題詞表收錄時考慮了詞匯的穩定性和新穎性[32]。對31366 個詞匯依次使用MeSH 在線文本匹配功能(https://meshb-prev.nlm.nih.gov/MeSHon-Demand),判斷其是否為MeSH 主題詞。通過以上操作,共發現4348 個詞匯屬于醫學學科,占總量的13.86%。由此可知,知識單元學科歸屬測試集共包括31366 個詞匯,其中4348 個屬于醫學學科,27018 個不屬于醫學學科。
知識單元學科歸屬判定方法一般是根據知識單元即詞匯在各個學科中的統計特征來確定該知識單元最可能從屬的學科。本文在統計分析詞匯信息基礎上,實現學科二分類任務,即根據詞匯的統計指標,結合判定規則判定一個詞匯是否屬于學科“醫學”。本文基于現有研究[10,13,33-34]梳理了16 種可用于知識單元學科歸屬的判定方法。本節分析了這些方法所考慮的詞匯特征或特征組合,以及具體的學科歸屬分類判定規則。
2.3.1 16種方法的計算公式和判定規則
表3 梳理了16 種知識單元學科歸屬方法的計算公式和判定規則。其中,計算公式以學科內外詞頻和文檔頻為基礎計算知識單元與學科的某種關系指標。判定規則用于判斷知識單元是否屬于某個學科,其依據主要有兩種:一種是根據某學科內的指標值排名情況進行判定,如熱度、期望交叉熵和領域相關度3 種方法均是將某學科中指標值靠前的知識單元視為歸屬于該學科。靠前閾值取學科歸屬測試集中屬于醫學的詞匯占比(前13.86%)。另一種是通過對比不同學科間的指標值進行判定,如在互信息方法中,分別計算知識單元與多個學科的互信息值,然后選擇指標值最大的學科視為該知識單元的歸屬學科。根據判定規則獲得知識單元在背景語料庫中的對應醫學、生物學、計算機科學和化學4 個學科的學科歸屬,并轉化為是否屬于醫學的二分類結果。

表3 知識單元學科歸屬測度方法
2.3.2 知識單元的特征維度
根據學科歸屬測度指標涉及的統計項和指標設計原理,將知識單元特征歸納為學科重要度、學科相關度和學科區分度3 個方面。
(1)學科重要度
學科重要度(importance,I)主要描述詞匯對特定學科知識內容表征的重要性,學科內出現越多或者相對越多的詞匯對學科越重要。詞匯出現情況通常可以用學科語料庫中詞匯熱度或詞匯論文覆蓋率來描述,即
其中,IF(i,j)表示詞匯i在學科j內的熱度;freq(i,j)表示詞匯i在學科j內的出現頻次;freq(all,j)表示學科j內所有詞匯的累積頻次。
其中,ID(i,j)表示詞匯i在學科j內的詞匯論文覆蓋率;doc(i,j)表示學科j內包含詞匯i的論文數;doc(all,j)表示學科j的所有論文數。
(2)學科相關度
學科相關度(relevance,R) 主要描述詞匯在統計語料庫中與特定學科的關聯程度。在背景語料庫中詞匯在特定學科中的出現占比越大,詞匯與學科的相關性越高。詞匯的學科占比通常可通過學科詞頻占比和學科論文占比來描述,即
其中,RF(i,j)表示詞匯i在學科j內的學科詞頻占比;freq(i,j)表示詞匯i在學科j內的出現頻次;freq(i,all)表示背景語料庫中詞匯i的所有累積頻次。
其中,RD(i,j)表示學科j內包含詞匯i的學科論文占比;doc(i,j)表示學科j內包含詞匯i的論文數;doc(i,all)表示背景語料庫中包含詞匯i的所有論文數。
(3)學科區分度
學科區分度(discriminability,D)是詞匯對學科特性的表征能力。對學科特性表征能力高的詞匯,應該在學科內盡可能多地出現,同時在學科外盡可能少地出現[35]。借鑒術語度計算原理[36-37],學科區分度可以通過詞匯在給定學科和背景語料庫中的統計信息來計算。以詞頻和文檔頻率來計算的兩種方式分別為
其中,DF(i,j)表示詞匯i在學科j內外的學科詞頻占比;freq(i,j)表示詞匯i在學科j內的出現頻次;freq(all,j)表示學科j的詞匯累積頻次;freq(i,all)表示詞匯i在背景語料庫中的所有累積頻次;freq(all,all)表示背景語料庫中所有詞匯的累積頻次。
其中,DD(i,j)表示學科j內外包含詞匯i的學科論文占比;doc(i,j)表示學科j內包含詞匯i的論文數量;doc(all,j)表示學科j的論文數;doc(i,all)表示背景語料庫中包含詞匯i的所有論文數;doc(all,all)表示背景語料庫中的所有論文數。
2.4.1 性能評價方法
在實驗時,統計31366 個詞匯在醫學、計算機科學、生物學和化學等學科數據集中的詞頻和文檔頻率,運用16 種方法判定每個詞匯的學科歸屬,轉換為是否屬于醫學的二分類結果,進而與測試集進行匹配評估方法性能。
本文采用精準率(precision)、召回率(recall)和F1 指標進行性能評價。測試集知識單元數量為S,學科歸屬判定方法得到的醫學知識單元數量為T,所命中的測試集醫學知識單元數量為St。
精準率衡量學科歸屬判定方法的準確程度,其公式為
召回率衡量學科歸屬判定方法的完備程度,其公式為
F1 是精準率和召回率的調和平均值,用于綜合評價指標分類性能,其公式為
需要注意的是,事實上16 種方法在本文數據集中判斷的結果是詞匯是否屬于放射學、核醫學和醫學成像,而不是醫學大類。本文構建的基于MeSH的測試集中可能存在部分概念屬于醫學領域,但不屬于該二級領域,故所得到的指標值比真實指標值偏大。盡管如此,本文認為這種評價方法也有其合理性,因為可以認為,不屬于MeSH 中的詞匯也不能歸屬于該二級領域,即對負樣本的評價相對準確。
2.4.2 知識單元分組
詞頻和學科覆蓋是兩種公認的與知識單元的學科特征表征能力緊密相關的屬性特征。在實驗結果分析時,本文將對不同詞頻和學科覆蓋的知識單元進行分組分析。
現有研究認為處于不同詞頻區間的知識單元對學科領域代表性存在差異,如高頻詞對領域代表性存在天然缺陷[31],而非高頻詞更能反映類別的特征[38]等。本文借助基于詞頻、詞量、累計詞頻占比動態取值的方法[39],依據交叉領域知識單元集在學科知識單元集中的頻次統計,將詞匯劃分為高頻詞、中頻詞和低頻詞3 種。
知識單元同時出現的學科數量,即學科覆蓋情況,在一定程度上反映了知識單元的學科通用性或專業性[40]。該特征同樣可理解為知識單元對學科領域特征的表征能力,從而影響知識單元的學科歸屬判定。本文統計了交叉領域知識單元集中詞匯在學科知識單元集中同時出現的學科數量。本文的實驗將詞匯按學科覆蓋情況劃分為覆蓋二學科、覆蓋三學科和覆蓋四學科3 種類型。
2.4.3 對比分析的總體思路
為進一步挖掘究竟哪些特征或特征組合用于知識單元的學科歸屬測度能夠獲得較好的學科判定性能,本文分析了現有的16 種學科測度方法所考慮的具體特征或特征組合,如表3 所示。在知識單元的詞頻分組和學科覆蓋分組基礎上,本文設計了對比分析思路,包括3 項具體對比分析:①針對所有知識單元,對比分析不同特征組合下的性能差異。②針對不同詞頻分組知識單元,對比分析不同特征組合下的性能差異,并分析不同詞頻分組知識單元間的性能差異。在領域知識分析中,不同詞頻的知識單元的判別難度不同,對于領域知識分析的價值也不一樣。分別考察學科歸屬方法在高頻詞、中頻詞和低頻詞中的性能,有助于理解特征組合對于不同詞頻知識單元的學科歸屬區分性能影響。③針對不同學科覆蓋知識單元,對比分析不同特征組合下的性能差異,并分析不同學科覆蓋知識單元間的性能差異。通過以上對比分析進行特征挖掘,以獲得通用情境下和特定情境(如不同詞頻或學科覆蓋)效果最好的特征或特征組合。
為了比較不同特征組合下的知識單元學科歸屬測度方法的性能,分別運用16 種學科歸屬測度方法進行學科歸屬判定,并計算性能評價指標值,進而結合各方法考慮的知識單元特征組合進行分組分析。對相同特征組合的各方法性能進行統計,得到7 組特征組合的性能。圖3 列出了每組特征組合的精準率、召回率和F1 值的箱型圖,表4 列出了每種特征組合下各方法的精準率、召回率和F1 值的排名與指標值。

圖3 7種特征組合下的學科歸屬測度方法性能(四分位箱型圖)
由圖3 和表4 可以觀察得到不同特征組合對于學科歸屬測度方法的影響,相關發現如下:
(1)對于測試集中所有詞匯而言,知識單元學科歸屬測度效果最好的3 組特征組合依次為I、I+R+D 和I+D。其中,只考慮特征組合I 的綜合性能遠高于后兩種,而在加入學科區分度D 后性能有所下降,但在綜合考慮加入學科相關度R 時則性能有所回升。特征組合I 和特征組合I+D 兩種組合性能優勢體現在精準率上,而特征組合I+R+D 的組合性能在精準率和召回率上均較為靠前。由此可以認為,能帶來高精準率的特征組合I 是知識單元學科歸屬測度方法的必要特征選擇,3 種特征的綜合考慮則能夠在保障精準率的同時也提升查全率,以保障較為均衡的整體性能。
(2)效果較好的學科特征組合中排名靠前的學科歸屬測度方法為TF、DR、DP、FW 和DFS。前3種指標同時考慮詞頻和文檔頻,會獲得較高精準率和低召回率,且體現為僅考慮學科內的情況下精準率和綜合性能更高。后兩種指標當只考慮詞匯在學科內外的文檔覆蓋情況時,能夠獲得較為均衡的精準率和召回率。同時還觀察到,即使考慮相同的特征組合,具體方法設計也能較大程度地影響方法性能。例如,在考慮學科重要性I 的方法中,TF 和DR 方法明顯優于ECE 方法。
(3)受數據不平衡分布影響,排名靠前學科特征選擇與方法性能評估通常體現為高精準率和低召回率。在測試數據集中,屬于醫學與不屬于醫學兩種分類詞匯數量比約為1∶6。這決定了交叉領域知識單元集中實際屬于醫學的詞匯較少,降低了判定結果中屬于醫學的概率,在性能上表現為召回率較低。
為了探討特征組合對不同詞頻區間知識單元的學科歸屬測度性能影響,本文進一步分組對比了16種學科歸屬判定方法在不同詞頻區間知識單元上的性能。表5 列出了測試數據集中的詞頻區間劃分結果,共識別出高頻詞222 個、中頻詞7570 個和低頻詞23574 個。

表5 知識單元詞頻區間劃分
從圖4 列出的不同詞頻區間的學科歸屬測度方法性能來看,不同頻次詞匯的綜合性能排序為中頻區>高頻區>低頻區,F1 值分別為26.61%、22.43%和16.50%。這一觀察部分佐證了高頻詞與非高頻詞對于學科領域代表性存在差異的觀點。在此基礎上,進一步發現了高頻詞的學科歸屬測度結果沒有中頻詞的表現好,但優于低頻詞。高頻次可能是概念范疇較大的通用型詞匯,也可能是領域中非常重要的詞匯;對于前一種情況,其可能涉及多個學科,因而區分難度較大。對于低頻詞而言,其出現頻次信息較少,相關指標值可能受到隨機因素影響,因而區分難度最大。

圖4 不同詞頻區間的學科歸屬測度方法性能
如圖5 所示,進一步對3 種詞頻區間的知識單元考察7 種特征組合下的學科歸屬測度方法性能,結合縱向詞頻對比和橫向特征組合對比,可以看出:①特征組合I+R+D 在3 種頻次中綜合性能均排在前3 位,并且3 種頻次區間的F1 值排序為中頻區>高頻區>低頻區;②一些特征組合有性能優勢詞頻區間,其中特征組合D 和特征組合R+D 僅在高頻詞中綜合性能F1 值排名第一和第二,特征組合R 在中頻詞綜合性能F1 值排名第三,特征組合I 在低頻詞綜合性能F1 值排名第一;③從不同特征組合的方法性能分布來看,大部分特征組合在中頻詞上能夠獲得較好的性能。

圖5 不同詞頻區間的特征組合性能對比
由此可知,針對不同頻次區間知識單元,可以采用不同的特征組合方法來進行更好的學科歸屬判定。對于高頻詞而言,注重學科區分度(D)的特征組合表現出了相對較好的性能,即需要進一步判定高頻詞是否具有高學科區分度。對于低頻詞,其涉及的學科相對較少,注重知識單元對于學科的重要性(I)能夠表現出較好的學科歸屬性能。
本文進一步對比不同學科覆蓋的知識單元學科特征組合效果。按照學科覆蓋情況將測試集中的知識單元劃分為二學科、三學科和四學科,分別包含5636 (占17.97%)、8417 (占26.83%) 和17313(占55.20%)個詞。3 組知識單元的整體性能如圖6 所示。綜合性能F1 值排序為四學科(25.39%) >三學科(16.68%) >二學科(7.82%),整體呈現出詞匯所覆蓋的學科越多,學科歸屬判定效果越好。可以推測,詞匯出現的學科越多,其學科間的差異性更能被統計指標所捕獲,因此,這些學科歸屬判定方法能更加準確地給出判定結果。

圖6 不同學科覆蓋知識單元的學科歸屬判定性能
分組計算7 種特征組合對應的學科歸屬判定方法性能。圖7 為這3 組不同學科覆蓋詞匯列出了不同特征組合方法的性能結果,可以看出:①特征組合I 和I+R+D 在3 種學科覆蓋類型下有較好的精準率和F1 指標值,尤其在四學科覆蓋情況下最好,說明了學科重要性對于判斷學科歸屬的重要性;②特征組合R、I+R 和I+R+D 的召回率較高,說明從學科覆蓋視角,對于涉及多學科的知識單元而言,依據學科相關性能夠發現更多的知識單元;③各組加入學科區分度D 的特征組合在四學科覆蓋的知識單元組中的相對性能顯著提升,說明針對涉及多個學科的知識單元而言,在學科重要度基礎上應重點補充學科區分度。

圖7 不同學科覆蓋特征組合下的性能對比
為進一步挖掘在不同情況下性能表現較好的通用特征選擇,本文匯總知識單元特征組合與不同知識單元分組下的49 種“分組-特征組合”性能,并進行對比分析。表6 歸納了7 種特征組合在整體、高頻、中頻、低頻、二學科、三學科和四學科7 種情況下的整體性能F1 值的排名,并以粗體突出每種知識單元類型中排名前3 位的特征組合。排名靠前的特征組合反映了其在該情況下的適用性。由表6 可以看出:①特征組合I 和I+R+D 的通用性較強,I 的性能最優,I+R+D 在更多場景中表現較好;②特征組合D 的通用性弱,但在特定知識單元類型高頻詞中性能突出;③特征組合I+R 在各場景性能均較差,是可以優先剔除的特征組合選擇。

表6 49種分組中學科特征組合綜合性能的F1值排名
相較于引文內容和引文關系這種間接的測度方式,論文研究內容如知識單元,可以更好地揭示學科特征[41]。其前提是需要篩選能夠代表學科領域的知識單元特征以更好地判定知識單元學科歸屬。本文從學術文獻的知識單元出發,梳理了現有學科歸屬測度方法及其利用的知識單元學科特征,并在不同詞頻區間和不同學科覆蓋度的知識單元分組中進行性能對比,以挖掘特征對學科歸屬測度的影響,為優化學科歸屬判定或分類方法提供支持。
在“計算醫學”領域開展實證研究,構建了待分類詞表和測試數據集,判定詞匯是否屬于醫學學科,借助學科歸屬測度模型性能的對比分析,進行影響知識單元學科歸屬判定的特征挖掘:①總體來看,綜合使用學科重要度、學科相關度和學科區分度指標的方法在各組分析中均表現出較好的性能,同時學科重要度在多個分組的表現都較好,由此說明學科重要度是3 種特征中最重要的一項;②高頻詞和低頻詞的學科歸屬難度大于中頻詞,對于不同詞頻區間知識單元,可以選擇不同的策略,高頻詞需要注重學科區分度,低頻詞需要重點考慮學科重要性;③針對涉及多個學科的知識單元而言,在學科重要度基礎上加上學科區分度能夠顯著提高精準率,從而提升整體性能,學科相關性則有助于提高召回率。
本文的理論意義與實踐啟示:①系統梳理了16種文本重要性和文本分類相關的指標方法,并移植于交叉領域知識單元的學科歸屬研究,從理論上對這些方法進行了剖解;②通過對16 種方法的學科重要度、學科相關度和學科區分度組合特征對于其性能的影響分析,揭示了知識單元學科歸屬的知識單元特征影響機理,能夠對未來的研究方法提供理論指導;③發現了不同詞頻和不同學科覆蓋度詞匯適用的特征,能夠為學科分類判定實踐提供具體建議。
本文尚存在一些局限。一是受MeSH 詞表參照標準的限制,僅能進行面向醫學的二值學科判定,無法對尚未被MeSH 詞表收錄的新興醫學概念進行判斷;二是受到研究數據規模和處理能力的影響,在構建測試數據集時,僅抽樣醫學、計算機科學、生物學和化學的二級學科的部分論文,無法完全反映知識單元在學科中的真實分布情況。未來,將進一步借助機器學習方法在知識單元特征組合的基礎上優化知識單元學科歸屬判定方法,并在跨學科知識流動、研究領域跨學科交叉程度研究等場景中展開應用研究。同時,需要指出的是,知識單元與學科的關聯性也可以通過其與學科中其他知識單元的關聯關系進行判斷,本文僅關注了知識單元自身,而未考慮這種結構關聯性。