面向特定科研任務(wù)的著者姓名消歧方法

2021-08-23 05:24:48吳柯燁孫建軍權(quán)昭瑄

情報(bào)學(xué)報(bào) 2021年7期

吳柯燁，閔超，孫建軍，權(quán)昭瑄

（1.南京大學(xué)信息管理學(xué)院，南京 210023；2.南京大學(xué)人文社會科學(xué)大數(shù)據(jù)研究院，南京 210023）

1 引言

近年來，科研人員數(shù)量不斷增加，論文數(shù)量呈現(xiàn)指數(shù)級增長，隨之而來的論文著者重名的問題頻頻出現(xiàn)。尤其是某些特定的研究任務(wù)，雖然不以著者姓名消歧為主要研究工作，但是著者姓名消歧是其基礎(chǔ)性的重要環(huán)節(jié)。譬如，科學(xué)家流動(dòng)、技術(shù)人才遷移、學(xué)術(shù)評價(jià)等人文社科類研究課題[1-4]。這類研究大多數(shù)從論文數(shù)據(jù)入手，依賴于準(zhǔn)確的科學(xué)家-出版物對應(yīng)關(guān)系，然而，姓名歧義問題始終在兩個(gè)方面掣肘著相關(guān)研究的開展：第一，由于特定研究的最終目的不是為了解決姓名歧義問題，因此，在研究數(shù)據(jù)中，關(guān)于人本身的信息可能十分稀疏，甚至在論文數(shù)據(jù)中存在缺失著者機(jī)構(gòu)等關(guān)鍵消歧依據(jù)的現(xiàn)象；第二，特定研究中的姓名消歧相較于一般消歧技術(shù)難度不高，但效果要求較高。如果歧義問題不能較好地解決，那么對于這些研究任務(wù)存在毀滅性地打擊。譬如，姓名歧義可能導(dǎo)致科學(xué)家流動(dòng)識別不準(zhǔn)確，學(xué)術(shù)評價(jià)不客觀等問題。因此，本文提出了一個(gè)簡單易行且效果良好的面向特定任務(wù)、特定數(shù)據(jù)集的姓名消歧方法，為人才評價(jià)、人才流動(dòng)等研究與實(shí)踐任務(wù)提供相對可靠的方法支持。

姓名消歧作為實(shí)體消歧的子任務(wù)之一，其復(fù)雜性較為突出。普遍意義上的姓名歧義包含兩方面：一是同名異人，即不同的人擁有相同的姓名；二是同人異名，即同一個(gè)人的姓名有不同的書寫形式或是存在別名。然而，同人異名問題往往不需要借助其他信息。消歧直接從姓名本身入手，如尋找別名中的最長公共子序列的方式，來判定不同的姓名是否指代同一個(gè)人[5-6]。但是，同名異人問題則涉及相同研究領(lǐng)域、相同姓名，甚至是相同供職機(jī)構(gòu)中不同的人，這就需要根據(jù)現(xiàn)有信息深度挖掘出更細(xì)粒的、更多源的、更權(quán)威的信息作為消歧依據(jù)，有時(shí)還需要進(jìn)行語義挖掘才能達(dá)到精準(zhǔn)消歧[7-8]。因此，如何充分利用有限的本地?cái)?shù)據(jù)進(jìn)行關(guān)系發(fā)現(xiàn)，并結(jié)合外源數(shù)據(jù)進(jìn)行消歧依據(jù)補(bǔ)充就成了姓名消歧的研究重點(diǎn)。

本文充分結(jié)合本地關(guān)聯(lián)數(shù)據(jù)和外部權(quán)威數(shù)據(jù)，提出二階段著者姓名消歧框架，為學(xué)者層面的研究奠定了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。其中，一階段：本地關(guān)系發(fā)現(xiàn)，組織論文間關(guān)系網(wǎng)絡(luò)；二階段：外部數(shù)據(jù)爬取，補(bǔ)充權(quán)威消歧依據(jù)。兩階段相輔相成，互相補(bǔ)充，達(dá)到全面客觀消歧。為了體現(xiàn)該框架的實(shí)際效用，本文聚焦人工智能領(lǐng)域頂尖學(xué)者，抽取微軟學(xué)術(shù)知識圖譜（Microsoft Academic Graph，MAG）中人工智能領(lǐng)域的論文數(shù)據(jù)進(jìn)行驗(yàn)證。經(jīng)過抽樣統(tǒng)計(jì)證明，一階段解決數(shù)據(jù)中大部分同名異人問題。二階段在一階段的基礎(chǔ)上，不僅在準(zhǔn)確率和F1 score等聚類評價(jià)指標(biāo)上有進(jìn)一步提升，而且解決了部分同人異名的問題。此外，為了證明該方法的普適性，本文還選取了Aminer姓名消歧數(shù)據(jù)集進(jìn)行有效性驗(yàn)證，同樣在準(zhǔn)確率和F1 score上取得了良好的效果。

2 文獻(xiàn)綜述

姓名消歧本質(zhì)上是關(guān)系發(fā)現(xiàn)的過程，將關(guān)聯(lián)性強(qiáng)的文章聚集為一類。由此出發(fā)，大多數(shù)研究均將姓名消歧具體為出版物聚類問題[9-17]。其中，同名異人的消歧流程大致分為三個(gè)步驟：特征抽取、相似度計(jì)算和聚類[18]；而同人異名消歧則在特征抽取之前，增加了一步模塊映射操作，即將可能是同一個(gè)人的別名下的出版物均映射到一個(gè)模塊上[12,19-20]，再進(jìn)行消歧。針對每一個(gè)步驟，不同的研究有其自己的創(chuàng)新點(diǎn)。從本文的二階段劃分角度出發(fā)，本章節(jié)分別從本地關(guān)系發(fā)現(xiàn)和外部數(shù)據(jù)關(guān)聯(lián)兩個(gè)層面對現(xiàn)有研究進(jìn)行歸納總結(jié)。

2.1 本地關(guān)系發(fā)現(xiàn)

從姓名消歧一般流程來看，每個(gè)階段都在盡可能揭示出版物之間關(guān)系。

在特征抽取方面，大多數(shù)研究選取了關(guān)聯(lián)性較強(qiáng)的特征。譬如，尚玉玲等[21]選取了合作者和隸屬機(jī)構(gòu)信息進(jìn)行同名排歧；Saha等[13]和Zhang等[22]為保護(hù)作者隱私，選取了論文題目和合作者等特征進(jìn)行消歧任務(wù)。有些研究則加入對消歧有顯著效果的其他特征作為消歧項(xiàng)。例如，Louppe等[19]利用種族特征作為消歧依據(jù)；周杰等[23]通過一些關(guān)鍵的關(guān)聯(lián)證據(jù)為增量數(shù)據(jù)生成消歧候選集。此外，有些研究為更好地體現(xiàn)出版物之間的語義關(guān)聯(lián)，采用諸如摘要等能體現(xiàn)文章語義的特征作為消歧項(xiàng)。譬如，翟曉瑞等[24]用稀疏矩陣組織摘要文本特征；Han等[7]和Jia等[8]根據(jù)上下文的語義信息來對命名實(shí)體進(jìn)行消歧。因此，在進(jìn)行消歧任務(wù)時(shí)，能夠揭示出版物之間關(guān)聯(lián)性的消歧特征受大多數(shù)研究的青睞。

在相似度計(jì)算方面，最直接的是將特征映射到向量空間上，進(jìn)行向量間距離計(jì)算。但是僅依據(jù)文章本身的特征可能無法做到精準(zhǔn)的關(guān)系發(fā)現(xiàn)。因此，圖模型和網(wǎng)絡(luò)表示[25]等框架常常被應(yīng)用于組織關(guān)聯(lián)出版物特征上。被稱為“GHOST（GrapHical framewOrk for name diSambiguaTion）”的方法[26]，利用合作者信息構(gòu)建無向圖，并利用關(guān)聯(lián)傳播算法進(jìn)行聚類。此外，圖模型還可以靈活地加入概率，Tang等[27]提出將隱馬爾可夫模型應(yīng)用在組織各個(gè)出版物的特征上。也有學(xué)者利用多圖嵌入的方式學(xué)習(xí)出版物的嵌入向量。譬如，Zhang等[22]基于表征構(gòu)建paper-paper、author-paper、author-author三個(gè)子圖，再用網(wǎng)絡(luò)嵌入的方式學(xué)習(xí)，得到每個(gè)出版物包含這三層關(guān)聯(lián)信息的語義向量。

最后的聚類效果是建立在前兩個(gè)階段基礎(chǔ)之上。由傳統(tǒng)的特征向量出發(fā)，大多數(shù)學(xué)者采用無監(jiān)督學(xué)習(xí)中的聚類算法進(jìn)行聚類操作[9-11,16,28]。譬如，鄧可君等[28]發(fā)現(xiàn)，相較于其他機(jī)器學(xué)習(xí)算法，K近鄰和Softmax分類器更適應(yīng)于其數(shù)據(jù)集。又如，為解決無法確定聚類數(shù)目這一問題，章順瑞等[9]和陽怡林等[10]基于自適應(yīng)閾值的凝聚層次聚類算法進(jìn)行消歧。另外，為進(jìn)一步揭示關(guān)聯(lián)信息，有些學(xué)者在圖模型的基礎(chǔ)上進(jìn)行了聚類操作。譬如，On等[16]在聚類階段提出多級圖劃分和合并算法，通過不斷合并和拆分子圖的方式，得到給定聚類數(shù)目k下的最優(yōu)解；Shin等[5]利用合著者和標(biāo)題信息，提出GFAD（Graph Framework for Author Disambiguation）圖模型框架，對已知圖進(jìn)行結(jié)點(diǎn)拆分和循環(huán)探測，將每個(gè)非重疊子環(huán)對應(yīng)到每一個(gè)人。

總而言之，消歧研究的每個(gè)階段都在盡可能地挖掘出版物之間的關(guān)系，具體體現(xiàn)為利用圖模型和網(wǎng)絡(luò)表示組織出版物特征，使出自同一位學(xué)者的不同論文具有較高的相似性。雖然這種方式能夠有效直觀地體現(xiàn)了出版物之間的關(guān)聯(lián)信息，但是復(fù)雜的圖模型對于自然語言處理技術(shù)以及計(jì)算機(jī)算力提出較高的要求。如果數(shù)據(jù)量大，那么對應(yīng)的出版物關(guān)聯(lián)圖也會隨之增大，圖模型推理計(jì)算的復(fù)雜度同樣會呈現(xiàn)指數(shù)級的增長。然而，綜合過往研究發(fā)現(xiàn)，姓名消歧中圖模型和網(wǎng)絡(luò)構(gòu)建也都依賴以下假設(shè)：①每個(gè)學(xué)者都擁有較為穩(wěn)定的合作學(xué)術(shù)圈；②每個(gè)學(xué)者的研究領(lǐng)域相對穩(wěn)定。本文基于這兩條原則，簡化了圖模型復(fù)雜的計(jì)算過程，做到高效率的組織文獻(xiàn)關(guān)系。

2.2 外部數(shù)據(jù)關(guān)聯(lián)

由于現(xiàn)有的姓名消歧研究大多都面向機(jī)構(gòu)知識庫，為學(xué)術(shù)資源庫提供更高質(zhì)量的數(shù)據(jù)[10,29-31]。這就帶來本地?cái)?shù)據(jù)覆蓋面有限的問題，因此，需要加入外部來源的數(shù)據(jù)進(jìn)行補(bǔ)充。譬如，Han等[7]為解決數(shù)據(jù)缺失的問題，利用多源網(wǎng)絡(luò)知識信息來挖掘出版物之間的語義層面的關(guān)聯(lián)信息。Zhu等[32]提出基于的姓名消歧框架，不僅包含了本地?cái)?shù)據(jù)中的隱含信息，也包含了網(wǎng)頁類型信息。另外，有學(xué)者采取其他方式補(bǔ)充元數(shù)據(jù)缺失，譬如，孫笑明等[33]搜集專家意見為消歧提供依據(jù)；柯昊等[34]利用BP（Back Propagation）神經(jīng)網(wǎng)絡(luò)為元數(shù)據(jù)中的字段進(jìn)行貢獻(xiàn)度打分，從而選取最有價(jià)值的字段進(jìn)行消歧。

但是，外部數(shù)據(jù)源對于姓名消歧任務(wù)在帶來更多依據(jù)的同時(shí)也帶來一些問題：一是外部數(shù)據(jù)源，大多是網(wǎng)頁數(shù)據(jù)或是非結(jié)構(gòu)化數(shù)據(jù)，處理起來很難做到精準(zhǔn)；二是網(wǎng)絡(luò)信息的可利用率較低，與需要消歧的姓名相關(guān)的信息可能很少，即使有，可能也是不完整的或是無法考證真實(shí)性的。

為了解決圖模型計(jì)算復(fù)雜和外部數(shù)據(jù)利用率不高的問題，本文將面向人文社科領(lǐng)域的特定研究任務(wù)，提出一個(gè)簡便易行的學(xué)術(shù)論文作者姓名消歧方法。第一階段，本文將結(jié)合圖模型背后的原則，對于本地論文數(shù)據(jù)的表征關(guān)聯(lián)特征項(xiàng)選擇抽取，并進(jìn)行預(yù)處理，為姓名實(shí)體所對應(yīng)的論文集建立同作者合并機(jī)制；第二階段，為解決本地?cái)?shù)據(jù)覆蓋率有限，且外部數(shù)據(jù)利用率不高的問題，本文將利用專注于區(qū)分不同學(xué)者的平臺——ORCID（Open Re‐searcher and Contributor Identifier），更權(quán)威、更客觀地進(jìn)行逐個(gè)姓名的消歧。

3 姓名消歧框架與流程

3.1 姓名消歧整體框架

3.1.1 消歧特征項(xiàng)選擇

與過往研究一樣，在面向科研任務(wù)的姓名消歧任務(wù)中，需要篩選合適的消歧依據(jù)。這些依據(jù)應(yīng)該盡可能凸顯學(xué)術(shù)論文的本質(zhì)屬性，又能與相關(guān)論文產(chǎn)生較強(qiáng)的聯(lián)系。

根據(jù)過往研究中對于消歧特征項(xiàng)的選擇[21-22,31]，本文將所有與論文相關(guān)的字段分為兩類。第一類是有助于直接揭示出版物之間關(guān)系的強(qiáng)關(guān)聯(lián)特征項(xiàng)，如合著者、隸屬機(jī)構(gòu)、發(fā)表年份等信息[21]。這些信息不需要深入挖掘其內(nèi)涵，只需要通過表征就可以組織關(guān)系。例如，同名的兩位學(xué)者如果合作圈有較多重合，那么這兩位學(xué)者大概率是同一個(gè)人，無需深究其每個(gè)合作者更細(xì)粒度的信息。因此，這些字段在本地?cái)?shù)據(jù)中就可以加以利用，達(dá)到消歧的效果，適用于本研究的一階段關(guān)系發(fā)現(xiàn)。

第二類則是間接揭示出版物之間關(guān)系的弱關(guān)聯(lián)特征項(xiàng)。例如，關(guān)鍵詞、題目、摘要等。這些特征項(xiàng)往往隱藏著論文所屬的研究領(lǐng)域，而每位科研工作者一般又會專注于固定的研究領(lǐng)域。因此，如果能夠充分挖掘弱關(guān)聯(lián)特征項(xiàng)的內(nèi)涵，揭示論文所屬的研究領(lǐng)域，那么將會給消歧任務(wù)帶來巨大的便利。在本文提出的消歧框架第二階段中，在原本的消歧依據(jù)上，增加弱關(guān)聯(lián)特征項(xiàng)，通過與外源數(shù)據(jù)關(guān)聯(lián)的方式進(jìn)行深入挖掘。

3.1.2 二階段消歧框架

根據(jù)上述兩類消歧特征項(xiàng)，本文提出了二階段消歧框架①代碼網(wǎng)址：https://github.com/wukeye/Two-stage-author-name-disambiguation，分別對應(yīng)本地關(guān)系發(fā)現(xiàn)與外源權(quán)威數(shù)據(jù)關(guān)聯(lián)，操作簡便，且提高了姓名消歧的準(zhǔn)確率。二階段消歧的整體思路和框架如圖1所示。

圖1 二階段姓名消歧框架

第一階段首先為所有消歧特征項(xiàng)做數(shù)據(jù)清洗工作，其次基于高質(zhì)量的強(qiáng)關(guān)聯(lián)特征項(xiàng)組織論文間的關(guān)系網(wǎng)絡(luò)。在此過程中，為彌補(bǔ)原數(shù)據(jù)中某些強(qiáng)關(guān)聯(lián)項(xiàng)的缺失，通過原始數(shù)據(jù)中的其他信息進(jìn)行深入挖掘補(bǔ)充。例如，本文通過經(jīng)緯度信息定位著者所在地，彌補(bǔ)著者所屬機(jī)構(gòu)的缺失。

接下來，利用第一階段的消歧結(jié)果以及經(jīng)過處理的消歧特征項(xiàng)，進(jìn)行第二階段消歧，將無法在本地發(fā)現(xiàn)的相關(guān)文檔，通過與外部數(shù)據(jù)連接的方式聚為一類。首先制定ORCID半模糊檢索策略，對消歧特征項(xiàng)進(jìn)行優(yōu)先級抽取，最大限度保證檢索精度。其次，利用半模糊檢索式在ORCID官網(wǎng)提供的API（Application Programming Interface）接口實(shí)施數(shù)據(jù)爬取。最后，將外源數(shù)據(jù)與本地?cái)?shù)據(jù)關(guān)聯(lián)，把具有相同ORCID號的作者合并為同一個(gè)人。至此，得到了同姓名下屬于不同學(xué)者的論文集。接下來的第3.2節(jié)和第3.3節(jié)將分別介紹兩個(gè)階段的詳細(xì)步驟與算法。

3.2 第一階段消歧

3.2.1 消歧特征項(xiàng)預(yù)處理

在大多數(shù)學(xué)術(shù)領(lǐng)域的姓名消歧任務(wù)中[14,19,22-23,25,28,30]，原始數(shù)據(jù)都以論文為單位，然而，對姓名歧義的研究，則需要將數(shù)據(jù)重組成以姓名為單位的形式，便于發(fā)現(xiàn)同一姓名下所著的兩篇文章是否屬于同一個(gè)人。在某些原始數(shù)據(jù)中難免存在一些錯(cuò)誤，為保證數(shù)據(jù)一致性，對消歧所需的特征項(xiàng)進(jìn)行數(shù)據(jù)清洗和正則化工作。本文就以姓名A.Ad‐am為例，展示部分包含這一著者姓名的論文數(shù)據(jù)重組與特征項(xiàng)預(yù)處理過程，如圖2所示。

如圖2所示，原始數(shù)據(jù)中的一條論文數(shù)據(jù)被分解為多條數(shù)據(jù)②這里每一篇論文應(yīng)該分為多條數(shù)據(jù)，每條數(shù)據(jù)表示一位作者的有關(guān)信息，為方便敘述，這里只展示了拆分后關(guān)于A.Adam的部分?jǐn)?shù)據(jù)。，這里展示了論文著者姓名包含A.Adam的三篇論文拆分情況。其中，Aff Nor是對于原數(shù)據(jù)中Aff的正則化結(jié)果，Key_in_title則是抽取論文題目中關(guān)鍵詞組織而成，其中可能包含名詞和形容詞，在第二階段還將進(jìn)一步處理利用。最終，得到關(guān)于A.Adam所有的論文集publication_set，下一步需要將這些論文聚為幾類，分別對應(yīng)幾位同名的不同學(xué)者。

圖2 某篇論文的數(shù)據(jù)重組與特征項(xiàng)預(yù)處理

3.2.2 構(gòu)建關(guān)系網(wǎng)絡(luò)

經(jīng)過初步的數(shù)據(jù)重組與預(yù)處理之后，將過往研究中圖模型的假設(shè)經(jīng)過改編應(yīng)用到本研究場景中，將同名作者的論文關(guān)系組織起來，總結(jié)為以下兩個(gè)規(guī)則。

（1）由于學(xué)術(shù)圈每個(gè)人有自己的合作網(wǎng)絡(luò)或是學(xué)術(shù)圈子，合作者信息可以用來協(xié)助判斷同名的兩個(gè)人是否是同一個(gè)學(xué)者。

（2）從論文數(shù)據(jù)來看，同一位作者幾乎不可能短時(shí)間內(nèi)在不同的機(jī)構(gòu)下以第一作者發(fā)表文章。作者論文的所屬機(jī)構(gòu)信息和發(fā)表年份信息，也可以協(xié)助判斷兩個(gè)同名的人是否為同一作者。

由于學(xué)者在職業(yè)生涯中可能會輾轉(zhuǎn)多個(gè)工作單位，在第二條規(guī)則中，本文特意添加了年份信息進(jìn)行聯(lián)合篩選。也正是充分考慮到學(xué)者流動(dòng)的情況，本文認(rèn)為第一條規(guī)則較第二條而言更加客觀。因此，在算法實(shí)現(xiàn)時(shí)優(yōu)先考慮第一條原則，當(dāng)?shù)谝粭l原則無法判斷時(shí)，再采取第二條原則。算法偽代碼如下。

算法1Constrcut Relationship Network

輸入：數(shù)據(jù)重組與特征項(xiàng)預(yù)處理后的結(jié)果。其中每一行代表當(dāng)前需要消歧姓名下的每一篇論文信息。

輸出：出自同一位學(xué)者的論文索引號集合。

Step1.對每個(gè)姓名下的publication_set中每一篇論文進(jìn)行遍歷for p in publication_set:尋找可能與當(dāng)前論文p_index為同一人所著的論文行號集合p_set。Step1.1.遍歷除p以外的所有論文，逐一對照合著者Coauthor字段，如果有重復(fù)就將其行號加入集合p_set中。如果沒有重復(fù)就跳入Step1.2，否則進(jìn)入下一跳。Step1.2.比較當(dāng)前論文與沒有合著者重復(fù)論文的年份Year字段和正則化機(jī)構(gòu)AffNor字段，若正則化機(jī)構(gòu)信息相同且年份在前后兩年內(nèi)，則加入集合p_set。

Step2.對publication_set中每一篇論文的相關(guān)論文集p_set進(jìn)行重復(fù)元素探尋，最終由局部關(guān)系網(wǎng)絡(luò)組織成全局關(guān)系網(wǎng)絡(luò)。

算法中，Step1實(shí)現(xiàn)了根據(jù)強(qiáng)關(guān)聯(lián)特征項(xiàng)構(gòu)建出需要消歧姓名下所有論文的關(guān)系網(wǎng)絡(luò)，具體操作是為每一篇論文找到一個(gè)相關(guān)論文集合p_set。以A.Adam的論文集為例，由于p_index為9766與32931兩篇論文中合著者有重復(fù)，因此，p_index為9766的相關(guān)文檔集就包含索引號32931以及其自身索引號9766。Step2則是將論文級別上的相關(guān)文檔集組織成姓名級別上的關(guān)系網(wǎng)絡(luò)，最終9766與32931兩篇論文被認(rèn)為是出自同一個(gè)人，而p_index為56272的作者暫時(shí)被認(rèn)為是另一位學(xué)者，需要外部數(shù)據(jù)進(jìn)行第二階段的消歧。整體來看，一階段消歧在原數(shù)據(jù)上進(jìn)行了預(yù)處理、構(gòu)建關(guān)系網(wǎng)絡(luò)等操作，實(shí)現(xiàn)了將有相同學(xué)術(shù)合作圈的學(xué)者或是隸屬于同一機(jī)構(gòu)較長時(shí)間的學(xué)者合并為同一作者。

3.3 第二階段消歧

一階段消歧在本地?cái)?shù)據(jù)的基礎(chǔ)上充分挖掘了關(guān)聯(lián)信息，但是只依賴本地?cái)?shù)據(jù)存在一些弊端，具體體現(xiàn)為以下三點(diǎn)：①本地?cái)?shù)據(jù)來源學(xué)術(shù)資源數(shù)據(jù)庫，其中難免存在數(shù)據(jù)缺失問題。如果缺失情況嚴(yán)重，那么就無法利用本地?cái)?shù)據(jù)進(jìn)行關(guān)系發(fā)現(xiàn)。②同人異名問題沒有得到解決。同一學(xué)者在發(fā)表不同論文時(shí)的署名會有不同程度的縮寫，僅僅依靠本地?cái)?shù)據(jù)無法準(zhǔn)確合并同人異名的學(xué)者。③除本地?cái)?shù)據(jù)中合著者、機(jī)構(gòu)、年份等強(qiáng)關(guān)聯(lián)字段，本地?cái)?shù)據(jù)中還有許多揭示學(xué)者研究方向的弱關(guān)聯(lián)項(xiàng)沒有得到充分利用，如摘要和關(guān)鍵詞信息。需要進(jìn)一步加工和處理才能挖掘出不同論文之間的關(guān)系。

針對上述問題，第二階段的消歧任務(wù)主要圍繞外源數(shù)據(jù)展開。在補(bǔ)充本地缺失數(shù)據(jù)的同時(shí)，利用關(guān)鍵詞等弱關(guān)聯(lián)項(xiàng)揭示學(xué)者的研究領(lǐng)域，將同一研究領(lǐng)域的學(xué)者指向同一個(gè)外源標(biāo)識符——ORCID。因此，為了更好地利用外援權(quán)威數(shù)據(jù)為本論文中的姓名消歧服務(wù)，本文制定了ORCID數(shù)據(jù)的檢索策略。根據(jù)爬取到的ORCID數(shù)據(jù)，將具有相同OR‐CID號的作者合并為同一個(gè)作者。

3.3.1 ORCID半模糊檢索

ORCID是國際上公認(rèn)的研究人員唯一數(shù)字標(biāo)識符，并建立了學(xué)者及其研究貢獻(xiàn)之間的直接聯(lián)系，解決了部分學(xué)者的姓名歧義問題。許多學(xué)者在OR‐CID網(wǎng)站上公開其個(gè)人信息，對于姓名消歧來說，這些是非常寶貴的消歧依據(jù)。因此，本文利用開放研究者與貢獻(xiàn)者身份官網(wǎng)提供的API，根據(jù)已知有關(guān)作者的信息，爬取相應(yīng)作者的ORCID號。

為解決數(shù)據(jù)缺失以及利用率不高等問題，本文通過半模糊檢索的方式得到作者的ORCID號。之所以稱之為“半模糊檢索”，是因?yàn)樵跈z索時(shí)加入了Keywords字段進(jìn)行模糊檢索。但是與模糊檢索不同的是，半模糊檢索首先在原始數(shù)據(jù)上抽取強(qiáng)關(guān)聯(lián)特征項(xiàng)，做到精確字段限定，如明確作者的Familyname、Given-names以及Affiliations等。如果精確字段有缺省的話，再抽取其他字段信息作為Keywords進(jìn)行限定條件下的全局檢索，保證半模糊檢索的精度。圖3為構(gòu)建半模糊檢索式的流程。

圖3 半模糊檢索式構(gòu)建

在爬取過程中，明確了不可空缺的為姓名字段。除此之外，利用位置信息進(jìn)行了原數(shù)據(jù)的擴(kuò)充，并且依據(jù)豐富后的原數(shù)據(jù)和一次消歧結(jié)果充分挖掘論文作者的所在地和揭示論文研究領(lǐng)域的關(guān)鍵詞。依舊以A.Adam為例，在該階段，A.Adam會與ORCID進(jìn)行兩次關(guān)聯(lián)，一是檢索在第一階段已經(jīng)聚為一類的學(xué)者的相關(guān)信息，該學(xué)者著有p_in‐dex為9766與32931兩篇論文，并且隸屬于Israel In‐stitute of Technology，因此Affiliates字段限定為Isra‐el Institute of Technology。第二次檢索則是尋找有關(guān)p_index為56272的著者的相關(guān)信息，通過地理位置信息找到其所在地也為Israel，因此，限定Key‐words為Israel，而機(jī)構(gòu)信息為空值。最終，比較兩次檢索所獲得的ORCID號。

3.3.2 二次消歧

由于在論文數(shù)據(jù)中，同一姓名下論文的所屬機(jī)構(gòu)信息或者關(guān)鍵詞信息有所不同，但可能均是出自同一作者在不同時(shí)期的工作、學(xué)習(xí)場所，或是由于每篇發(fā)表論文中所填寫信息并不完全一致。因此，本文發(fā)現(xiàn)在同一姓名下，原本被認(rèn)為是不同學(xué)者的數(shù)據(jù)被賦予了相同的ORCID號。

二次消歧的主要工作就是將具有相同ORCID號的作者信息做合并處理，將同一作者的機(jī)構(gòu)信息和發(fā)表論文信息做時(shí)間線的梳理工作，更有利于后續(xù)分析該作者與其他同名作者的關(guān)系，評估消歧質(zhì)量真實(shí)性。

4 實(shí)證研究與結(jié)果分析

4.1 研究任務(wù)與數(shù)據(jù)來源

著者姓名消歧是許多科學(xué)研究的基礎(chǔ)性任務(wù)，不同的科學(xué)研究對于姓名消歧的要求不相同，因此，結(jié)合具體的研究任務(wù)才能體現(xiàn)姓名消歧的價(jià)值。假定有一個(gè)研究任務(wù)，主要研究某領(lǐng)域高端科學(xué)家的流動(dòng)模式與影響因素，如劉瑋辰等[4]的研究。為了完成該研究任務(wù)，需要從學(xué)術(shù)出版物中采集該領(lǐng)域論文，從中析出科學(xué)家的任職與流動(dòng)信息。其中，一個(gè)關(guān)鍵的前提工作就是對論文中的作者進(jìn)行姓名消歧。對于這個(gè)任務(wù)，可以采用本文提出的二階段姓名消歧方法。為驗(yàn)證該方法的實(shí)際效用，本文以人工智能領(lǐng)域高端人才流動(dòng)為研究任務(wù)，采集微軟學(xué)術(shù)知識圖譜中的頂級會議與期刊論文數(shù)據(jù)集，對數(shù)據(jù)集中的所有著者進(jìn)行姓名消歧，為后續(xù)流動(dòng)研究提供高質(zhì)量數(shù)據(jù)支持。

4.1.1 數(shù)據(jù)范圍限定

由于研究任務(wù)中限定了人工智能領(lǐng)域“高端人才”，因此，限定數(shù)據(jù)范圍在頂級期刊與頂級會議內(nèi)的論文數(shù)據(jù)，為人工智能領(lǐng)域?qū)W者進(jìn)行姓名消歧工作。根據(jù)2019年中國計(jì)算機(jī)學(xué)會推薦國際學(xué)術(shù)會議和期刊目錄，具體落實(shí)到人工智能（Artificial In‐telligence，AI）領(lǐng)域的4本A類期刊和7個(gè)A類會議。詳細(xì)信息如表1與表2所示。

表1 中國計(jì)算機(jī)學(xué)會推薦國際學(xué)術(shù)期刊（人工智能A類）

表2 中國計(jì)算機(jī)學(xué)會推薦國際學(xué)術(shù)會議（人工智能A類）

4.1.2 微軟數(shù)據(jù)介紹

在數(shù)據(jù)源方面，本文選擇了微軟學(xué)術(shù)圖譜數(shù)據(jù)。目前，微軟學(xué)術(shù)知識圖譜是全球最大的學(xué)術(shù)論文公開數(shù)據(jù)集，經(jīng)過長期發(fā)展，數(shù)據(jù)質(zhì)量，尤其是作者字段數(shù)據(jù)，得到了較大的提高。其對此類研究任務(wù)有十分明顯的優(yōu)勢：①數(shù)據(jù)完全公開，可以免費(fèi)獲取；②提供API接口，方便采集；③微軟公司利用先進(jìn)的AI技術(shù)，如自然語言理解（Natural Language Understanding，NLU）、知識推理、強(qiáng)化學(xué)習(xí)等方法，進(jìn)行一定程度的數(shù)據(jù)清洗工作，數(shù)據(jù)質(zhì)量較高；④數(shù)據(jù)字段豐富，如包含作者機(jī)構(gòu)經(jīng)緯度信息。

根據(jù)上述限定的范圍，本文在微軟學(xué)術(shù)知識圖譜中檢索到了91557條論文數(shù)據(jù)，其中每條數(shù)據(jù)包含作者ID、作者姓名、作者隸屬機(jī)構(gòu)等20個(gè)的字段。在所有字段中，與姓名消歧任務(wù)直接相關(guān)的是AuthorId字段。首先，將所有論文中出現(xiàn)的作者都分配一個(gè)AuthorId，再根據(jù)其他信息對同名作者進(jìn)行一定程度的合并，最終被分配相同ID號的同名作者大概率是同一個(gè)人。這一過程類似于層次凝聚算法[9]的自下而上的聚類過程。然而，由于該數(shù)據(jù)普遍存在過擬合現(xiàn)象，因此，姓名消歧框架是在該數(shù)據(jù)基礎(chǔ)上進(jìn)行二階段消歧，提高了姓名消歧的準(zhǔn)確率。

4.2 效果評估

根據(jù)微軟知識圖譜數(shù)據(jù)，對學(xué)術(shù)論文的著者進(jìn)行初步的ID分配工作，總體來看，作者姓名有91683個(gè)，分配了103022個(gè)AuthorId，即有11339個(gè)學(xué)者被初步認(rèn)為是同名異人的情況。為探究原數(shù)據(jù)的ID分配情況和二階段消歧框架的效果，針對部分有歧義的姓名數(shù)據(jù)進(jìn)行人工標(biāo)注。本文的標(biāo)注策略是根據(jù)上述第4.1節(jié)所介紹的MAG數(shù)據(jù)中可利用的字段信息，進(jìn)行開放網(wǎng)絡(luò)信息資源的考證，主要在IEEE、Web of Science和Springer等數(shù)字學(xué)術(shù)資源平臺上對論文著者進(jìn)行深度挖掘。

經(jīng)過評估發(fā)現(xiàn)，初步被認(rèn)為是同名異人的11339個(gè)學(xué)者中，少部分存在同名異人的情況，大部分是同名同人被誤分配不同ID的情況。這表明該分配工作沒有經(jīng)過太多的消歧工作，存在過擬合的情況，即實(shí)際上為同一人所著的兩篇文章，卻被認(rèn)為是不同的兩個(gè)人。因此，本文的消歧主要針對這11339個(gè)著者所對應(yīng)的7254個(gè)姓名中誤分配ID情況，進(jìn)行同名同人著者的ID“聚類”操作。

由于第二階段消歧是建立在ORCID數(shù)據(jù)的基礎(chǔ)上，因此，在對消歧框架效果評估之前，對ORCID數(shù)據(jù)進(jìn)行了簡單評估。在91683個(gè)姓名中，從OR‐CID官網(wǎng)抽取到了9821條數(shù)據(jù)。在數(shù)據(jù)的召回率上只有12%，這是因?yàn)椴⒎撬袑W(xué)者都注冊了ORCID號，導(dǎo)致檢索不到關(guān)于作者的相關(guān)信息。另外，有些作者的ORCID只展示了該作者所發(fā)表過的論文，并沒有添加相關(guān)的機(jī)構(gòu)等背景信息。同時(shí)，也驗(yàn)證了檢索結(jié)果的準(zhǔn)確性，通過抽樣比較爬取到的OR‐CID數(shù)據(jù)與原始數(shù)據(jù)，發(fā)現(xiàn)爬取到的著者與原數(shù)據(jù)中的著者確為同一個(gè)人。這證明了本文的檢索策略是精準(zhǔn)的。

在準(zhǔn)確的外部數(shù)據(jù)的支持下，對經(jīng)過消歧后的ID抽樣評估發(fā)現(xiàn)，本文所提出的框架在三個(gè)方面對姓名歧義問題起到積極的作用，分別是聚類數(shù)目、聚類準(zhǔn)確率以及同人異名問題解決。

4.2.1 聚類數(shù)目效果評估

在所有數(shù)據(jù)中，本文抽取了30個(gè)發(fā)文量較多的姓名評估。在表3中，列舉了10個(gè)姓名下現(xiàn)實(shí)社會中對應(yīng)的人數(shù)，以及原始數(shù)據(jù)、一階段、二階段分別對應(yīng)的類別數(shù)，可發(fā)現(xiàn)每個(gè)姓名對應(yīng)的真實(shí)人數(shù)都比原始數(shù)據(jù)中分配的ID個(gè)數(shù)（聚類的類別數(shù)目）少，這種過擬合現(xiàn)象可能是由于限定了數(shù)據(jù)集的范圍，在小范圍下的姓名歧義并不普遍。經(jīng)過一二階段消歧之后，聚類數(shù)目減少，并且與真實(shí)人數(shù)更加接近。

表3 聚類數(shù)目分析

4.2.2 聚類準(zhǔn)確率分析

經(jīng)過一階段消歧之后，本文對7254個(gè)姓名改動(dòng)了6779條數(shù)據(jù)的AuthorId。二階段在ORCID數(shù)據(jù)的支持下，消除了203個(gè)AuthorId，并將其合并到已知的作者類別中。同樣地，在所有姓名中隨機(jī)抽取15個(gè)姓名進(jìn)行準(zhǔn)確率（precision，P）、召回率（re‐call，R）、F1 score計(jì)算。這一過程借鑒了Zhang等[22]的驗(yàn)證方法。效果如表4所示。

由表4可知，消歧框架在原始數(shù)據(jù)的基礎(chǔ)上，在經(jīng)歷了第一、二階段消歧后，各項(xiàng)聚類指標(biāo)大致呈現(xiàn)遞增的趨勢。尤其是第二階段，在經(jīng)過字段補(bǔ)充，并與外部數(shù)據(jù)進(jìn)行關(guān)聯(lián)后，消歧結(jié)果的F1 score達(dá)到最高點(diǎn)。這表明了本文的消歧框架在MAG數(shù)據(jù)集上取得了顯著的效果。

表4 聚類準(zhǔn)確率分析

4.2.3 同人異名問題解決

在評估過程中，本文發(fā)現(xiàn)同名異人問題也在一定程度上被解決了。在不同論文中，同一位學(xué)者的姓名寫法可能不盡相同，會出現(xiàn)諸如簡寫Middle name甚至省略的情況，故在MAG數(shù)據(jù)中存在同一人姓名的不同寫法被賦予不同AuthorId的現(xiàn)象。然而，恰好ORCID檢索策略是根據(jù)著者的Familyname和Given-names，再結(jié)合關(guān)聯(lián)特征項(xiàng)進(jìn)行爬取，可發(fā)現(xiàn)不同寫法的姓名其實(shí)指代的是同一名作者。譬如，在MAG數(shù)據(jù)中，署名為Jin H.Kim和Jin Hyung Kim分別發(fā)表了一些論文，且兩者在中某些論文中標(biāo)注的隸屬機(jī)構(gòu)都為KAIST（Korea Ad‐vanced Institute of Science and Technology，韓國科學(xué)技術(shù)院）。經(jīng)過ORCID的檢索發(fā)現(xiàn)，兩者的ORCID相同，經(jīng)過驗(yàn)證發(fā)現(xiàn)兩篇論文也的確為同一人所著。表5列舉了同一作者、不同姓名寫法經(jīng)過本文的消歧方法處理之后合并的幾個(gè)案例。

表5 同人異名合并

4.2.4 Aminer數(shù)據(jù)驗(yàn)證

除了在固定的研究任務(wù)中，本文還驗(yàn)證了該消歧框架在Aminer數(shù)據(jù)集上的效果，以驗(yàn)證該框架的普適性。Aminer是科技情報(bào)分析與挖掘平臺，其姓名消歧數(shù)據(jù)集①Aminer姓名消歧數(shù)據(jù)集：https://www.aminer.cn/disambiguation提供了110個(gè)經(jīng)過實(shí)際標(biāo)注的學(xué)者姓名以及其出版物集合。這些出版物可能來自不同學(xué)科的同名學(xué)者，根據(jù)本文的消歧原則，利用強(qiáng)弱關(guān)聯(lián)項(xiàng)為每篇論文找到相應(yīng)的著者，最終取得了良好的結(jié)果，部分結(jié)果如表6所示。

表6 Aminer消歧結(jié)果

由表6可知，一階段利用強(qiáng)關(guān)聯(lián)項(xiàng)取得了較高的準(zhǔn)確率，但是召回率普遍較低，拉低了F1的表現(xiàn)。其可能的原因是學(xué)術(shù)圈的同名著者發(fā)文量存在分布極其不均勻的情況，譬如，幾位同名的作者只有一篇發(fā)表的論文，而有個(gè)別學(xué)者擁有上百篇論文。因此，在第二階段，本文通過強(qiáng)弱關(guān)聯(lián)項(xiàng)互相補(bǔ)充的方式與ORCID數(shù)據(jù)進(jìn)行關(guān)聯(lián)，最終在犧牲一些準(zhǔn)確率的情況下，提高了召回率，在整體F1 score的表現(xiàn)上也有所提升。

5 結(jié)語

經(jīng)過多輪的相互補(bǔ)充，二階段姓名消歧策略采取內(nèi)外部數(shù)據(jù)相結(jié)合的方式，進(jìn)行了本地關(guān)系發(fā)現(xiàn)、外部數(shù)據(jù)關(guān)聯(lián)等任務(wù)，為學(xué)者層面的研究任務(wù)提供姓名消歧的簡易方法。該消歧框架具有以下優(yōu)勢：首先，本文的消歧算法不需要深入挖掘過多的作者信息，在簡化了復(fù)雜的圖模型基礎(chǔ)上，只需要利用公開的作者信息和論文間的關(guān)聯(lián)信息就可以做到相對準(zhǔn)確消歧；其次，本文在挖掘消歧特征項(xiàng)方面，將外部作者信息源鏈接到本地?cái)?shù)據(jù)中，充分補(bǔ)充本地?cái)?shù)據(jù)缺失值，擴(kuò)展消歧依據(jù)；最后，本文為相關(guān)科研人員集成了簡便易行的二階段消歧框架和代碼，為人才流動(dòng)、人才評價(jià)等研究提供高質(zhì)量的方法支持。

未來，該框架對于科研圈的其他研究任務(wù)同樣可以發(fā)揮實(shí)際效用。譬如，學(xué)術(shù)推薦、科研能力評估和學(xué)者社會網(wǎng)絡(luò)構(gòu)建等研究對于科學(xué)家姓名的準(zhǔn)確性要求較高。本文提出的一階段消歧可以適應(yīng)于任何形式數(shù)據(jù)做到關(guān)系發(fā)現(xiàn)，二階段則提供了借助異源數(shù)據(jù)豐富消歧依據(jù)的思路。

由于采用了簡易化的原則，本方法在特征抽取以及數(shù)據(jù)的語義信息抽取方面還有提升空間。在未來研究中，對于更頑固的姓名歧義問題，可以嘗試使用語義信息與關(guān)聯(lián)語義信息相結(jié)合的方式，更準(zhǔn)確地表達(dá)數(shù)據(jù)特征。