王 楊,余敏櫧,單桂華,陸忠華
(中國科學院 計算機網絡信息中心,北京 100190)
(中國科學院大學,北京 100049)
如今,各種學術組織和學術機構遍布世界.像中國科學院這種大型研究機構,清華大學、浙江大學這樣的大型高等學校,中華人民共和國科學技術部、中國科協技術協會這樣的大型科學組織,人員眾多,內部結構復雜.這些機構的管理者和決策者們希望全面掌握其研究人員的學術水平和質量.投資者們也需要根據研究人員的研究方向、學術競爭力、研究團隊等多方面的信息來選擇投資對象[1].一個研究人員所發表論文情況是描述其科研水平和核心競爭力的最重要的因素之一.
隨著每年出版的大量出版物,學術數據迅速增長.到目前為止,全球至少有出版物2.3 億份,作者2.3 億人,研究領域71 萬個,會議4.4 萬個,期刊4.9 萬種,機構2.6 萬個.這使得我們很難找出誰是某個研究領域中最有價值的專家,或者誰是完成某項特定任務的最佳研究人員.因此,如何通過已發表的論文數據來準確、全面的呈現這些信息,使用戶快速定位合適的目標,已成為文獻可視化研究的熱點.
常用的論文數據庫有Web Of Science (WOS)、Scopus、IEEE Xplore、谷歌學術、微軟學術等.數據庫中的每條記錄都有標題、作者姓名、作者單位、發表時間、發表的期刊/會議、摘要、參考文獻、被引次數等.然而,記錄中的作者姓名和作者單位的消歧面臨著巨大的挑戰.一個作者姓名可能對應現實生活中多個作者;一個現實生活中的作者在不同的論文中的署名方式可能不同.一個單位的名稱和地址在不同論文中的寫法不同,有使用全稱的,也有使用縮寫甚至省略部分信息的,并伴隨一定比例的筆誤.這些數據問題會導致統計值不準確,從而失去輔助決策的意義.因此,數據質量是數據驅動決策系統中極其關鍵的部分.目前,結合算法和交互式可視化的數據質量管理方法已成為可視分析領域的研究熱點之一[2–4].
基于論文數據構建學者畫像是近年來的研究熱點問題.學者畫像的目標是提取研究人員各維度的屬性信息進行信息挖掘和分析應用.學者畫像技術是大型智庫實現專家發現、學術影響力評估等功能的關鍵.如何選擇反映研究人員學術競爭力的評估指標,挖掘其科研團隊,并通過可視化為其全方位、高精度地構建畫像,是目前文獻大數據分析需要解決的問題.
本文基于WOS 數據,包含了標題、作者姓名、作者單位、研究領域、參考文獻、引文、會議或期刊、發表時間等豐富的信息,設計了實體分組算法和分組可視化校正工具,為分析提供盡可能準確的人名和機構名;根據常用的學術競爭力指標,設計了學者畫像可視化方法;基于合作關系挖掘學者的潛在研究團隊.最后,研發了一套基于論文數據的學者學術狀態及競爭力可視化系統,并通過具體的真實案例證明了該系統的實用性和有效性.
文獻數據中作者姓名的歧義主要由兩方面導致.一是由于沒有統一的署名標準,同一作者在不同文獻中署名不同;二是不同作者的姓名可能相同.人名消歧從19 世界60年代開始就備受關注.早期多采用人工消歧的方法.但隨著學者數量的快速增長,人工消歧變得越來越不現實.因此,學者提出了大量先進的人名消歧算法模型來自動識別作者[5,6].目前大多數方法預先篩選出各種強特征,計算它們的相似性,以此來識別由同一個作者發表的論文.例如,Milojevi′c[7]驗證了首字母在人名消歧中的有效性.也有學者使用標題信息[8],自引信息[9],公共參考文獻信息[10],人名特征[7],網頁信息[11–13]等增加人名消歧的準確性.其中,合作關系被證明是最易獲取且最有效的特征[14].雖然,隨著特征的增加,準確性可能會隨之提高,但只有很少一部分特征是普遍適用的.有些挖掘算法模型需要的數據并不能輕松獲取,即使獲取到了,質量未必滿足要求.因此,Shen 等[15]提出了一個新穎的可視分析系統,用于交互式地對論文數據中的作者姓名進行消歧.該系統量化了歧義姓名和確定姓名之間的相似度,并將其可視化.其相似度通過合作關系、發表論文期刊/會議、時間信息3 個關鍵因素來計算.該系統提供了可視化線索,以幫助用戶檢查每一個有歧義的案例.通過將用戶引入消歧的過程中,系統可以獲得比采用挖掘算法模型更可靠的結果.
文獻中單位實體的歧義主要是由于沒有統一的書寫標準以及筆誤導致.目前英文單位實體消歧相關的學術研究較少,在工業界,通常采用關鍵詞規則匹配和上下文特征信息進行消歧.
本文涉及人名消歧和單位名消歧.采用算法與交互式可視化相結合的方式來獲得較高質量的數據.人名消歧算法主要使用人名特征、合作關系、單位、研究領域等關鍵特征進行設計;單位名消歧采用關鍵詞規則匹配和基于萊文斯坦距離的相似度進行設計.此外,本文設計了分組可視化工具,使專家可以實時查看經過算法分組后的人名和單位名,并通過簡單地拖拽實現對算法結果的校正.
ACM Digital Library、DBLP、Google Scholar、ResearchGate、Scopus、Semantic Scholar 等系統羅列了學者的基本信息,包括學者單位、論文列表、被引次數、合著者等.但這些系統通常僅僅列出了上述信息,或用少量基礎圖表展示上述信息,用戶需要通過鏈接訪問不同的頁面,通過過濾器篩選感興趣的數據,才能獲得需要的信息.
在學者畫像的可視化方面,AMiner 從h 指數、論文引用數、學者論文數等多個方面來評價學者的研究水平和研究狀態,為學者創建了包括學者簡介、研究興趣、論文列表、合著者網絡、相關作者等信息的知識圖譜.Latif[16]分析了學者畫像的可視化需求,在對比了ACM Digital Library、AMiner、DBLP、Google Scholar、ResearchGate、Scopus、Semantic Scholar 提供的列表式的學者畫像的基礎上,提出了一種集成文本和視覺描述的信息呈現方法,以突出論文數據中的模式.他們利用基于模板的自然語言生成技術來總結顯著的統計信息、研究主題的演變和合作關系;無縫集成的可視化圖表增強了文本描述的表現力,并可以在圖表間、文本間交互連接.
本文用直觀的可視化圖表從基本評價指標、研究興趣、合著者和學術論文等方面呈現學者的研究狀態和競爭力,還通過交互式關系可視化方法呈現學者的論文、合著者、合作單位之間的關系,并設計科研團隊可視化方法,幫助用戶洞察學者的科研團隊.
學者學術狀態及競爭力可視化系統(圖1)主要由4 大模塊組成:關鍵詞提取模塊,實體消歧模塊,團隊挖掘模塊和學者畫像可視化模塊.關鍵詞提取模塊基于n-gram 模型,采用了自然語言處理技術,從論文的標題、摘要、作者指定的關鍵詞中提取名詞性短語,根據逆文檔頻率 (TF-IDF)、共現頻次等特征對名詞性短語進行排名.最終取排名靠前的名詞性短語作為論文的關鍵詞.實體消歧模塊針對WOS 數據質量問題,對論文作者姓名和單位進行了特殊處理.主要采用了結合基于算法的自動分組和基于交互式可視化的專家校驗的方法.團隊挖掘模塊主要負責從合著網絡中發現專家學者穩定的合作團隊.學者畫像可視化模塊為用戶提供了可交互的信息呈現和探索方法,便于用戶全方位地了解學者的學術狀態和競爭力.

圖1 系統流程圖
作者的單位名稱從單位地址中提取得到.通常,同一個單位地址有不同的寫法.通過對數據集中單位地址的分析,總結出單位地址的組成成分.單位地址通常包含單位名、研究所名、學院名、部門名、實驗室名、郵編、城市、省份、國家等元素.通常有些單位地址會缺省其中部分元素,如實驗室名、郵編、省份、國家等信息(本文簡稱可缺省元素),但主要的單位名稱、研究所名不會全部缺省(本文簡稱主要元素).比如表1中,地址0,1,2 實際上是同一單位,但地址0 省略了實驗室名稱,地址2 省略了郵編;地址8和地址6,7,9 單位名相同,但所在城市不同,不應該是同一個單位.本文認為同一個單位應該具有相同的郵編,位于相同的城市、省份或國家.此外,數據集中存在一定的筆誤,如地址10和地址11 僅僅差了一個英文字母“h”.這應該是書寫時遺漏的.本文認為這兩個地址指代同一單位.類似的書寫錯誤在數據集中非常普遍,尤其當單位名中包含英文字母“n”或“m”時,將“n”寫成“m”或將“m”寫成“n”的情況大大增加.

表1 原始單位地址
本文首先通過“inst”,“univ”,“corp”等關鍵詞提取了單位名,通過正則表達式提取郵編,通過詞典提取城市、省份、國家.接著,為了降低因筆誤導致單位名不能精確匹配而帶來的影響,通過基于萊文斯坦距離的相似度來對單位名進行分組,同一組的單位名很可能指代同一個單位.然后通過郵編、城市、省份、國家來自動校正分組結果.此外,由于不同的機構在不同的時期名稱可能不同,兩個相似度很高的單位名可能指代不同的單位.比如:NSF 指代美國國家科學基金會,NSFC 指代中國國家科學基金會,兩者的差異非常小.而由筆誤引起的單位名差異也非常小,如前面所舉的例子.這種情況下,尤其是其它可缺省元素缺省比較嚴重時,算法難免會把一些名字差異非常小但實際上指代不同一單位的字符串分成一組,因此有必要進行人工驗證及校正.為了便于對分組結果進行驗證和校正,本文設計了分組結果可視化工具.通過該工具,可以調整閾值并查看對應閾值下分組的結果以尋找最合適的閾值.同時,可以直接通過該工具對不合理卻無法通過算法得到正確分組的結果進行校正.下面以表1中的地址為例說明單位名稱處理的具體步驟:
步驟1.地址預處理.在該步驟中,郵編、城市、省份、國家首先被單獨提取出來,作為后續步驟的校正信息.然后將地址字符串中的郵編刪除,避免由數字組成的郵編對單位名提取造成干擾.因為存在若干名稱包含數字的單位,如“Univ Paris 06”.此外,地址字符串中的無用字符也在該步驟中被刪除.
步驟2.單位地址分組.在該步驟中,通過“inst”,“univ”,“corp”等關鍵詞提取地址字符串中的單位名,作為該地址指代的單位名,如地址0 中的“Inst Geochem”,地址5 中的“Anhui Inst Opt &Fine Mech”.然后將提取出來的單位名中的“&”和空格刪除,并將其統一轉成小寫.接著我們用式 (1)兩兩計算單位名的相似度,得到一個相似度矩陣,如表2所示.根據相似度矩陣,可以對單位地址進行分組.依次遍歷未分組的單位地址,篩選相似度大于閾值T的單位名對應的地址,形成一個臨時組.如表2中,當遍歷到地址0 時,地址1,2,11和地址0的相似度很高 (用紅色框高亮),他們形成一個臨時組.然而,不難發現地址11與地址10的相似度比其與地址0的相似度更高 (用綠色框高亮).地址11與地址10 應當分為一組.因此,需要從臨時組中剔除并不是與當前地址最相似的地址,從而得到最終的分組.繼續遍歷,直到所有單位地址均有分組.最終,表1中的地址在閾值T=0.7時的分組如下:[0,1,2,],[3,4],[5],[6,7,8,9],[10,11].

步驟3.分組結果自動校正.在該步驟中,通過步驟1 中提取的郵編、城市、省份、國家對分組結果進行糾正.如步驟2 中的地址6,7,8,9 被分為一組,但地址8 指代的單位在北京,地址6,7,9 指代的單位在廣州.地址8與地址6,7,9 應當是兩個不同的分組.因此,通過郵編和城市名稱對分組結果進行糾正非常必要.通過糾正后,表1中的地址的分組如下:[[0,1,2,],[3,4],[5],[8],[6,7,9],[10,11]].

表2 單位地址相似矩陣
步驟4.單位地址標準化.在該步驟中,本文使用每一個分組中使用最頻繁的單位地址作為該分組的標準單位地址.
步驟5.分組結果可視化校正.如圖2(a)所示.通過對單位地址的拖拽,專家可以將單位地址拖至更合適的分組或者新建一組.如圖2(b)所示,把單位地址拖到Affiliation address 節點,自動連線成功即表示成功新建分組.也可以把單位地址拖到別的圓圈處,連線成功即表示成功調整分組.確認無誤后進行單位名稱的提取,更新數據庫.

圖2 分組結果可視化校正工具
文獻數據中作者姓名主要存在兩大問題.一是同一作者在不同論文中署名不同,二是不同作者擁有相同的署名.在描述本文解決方案之前,需要先分析中文名和英文名的結構,以幫助理解后面的算法.
英文姓名主要有名,中間名,姓組成.在文獻中,姓不會簡寫;名會寫成全名或首字母,但不會省略;中間名會寫成全名,首字母,或直接省略.因此,名,中間名和姓的不同形式的組合導致了作者英文署名的多樣化.此外,有的期刊要求先名后姓,有的要求先姓后名,這也增加了作者識別的難度.比如:“Craig Brian,Agnor”,“Agnor,Craig Brian”,“Agnor,Craig B.”,“Agnor,C.Brian”,“Agnor,C.B.”,“Agnor,C.–B.” and “Agnor,C.”等都可以指代同一個作者.
中文名主要由姓和名組成,有時先名后姓,有時先姓后名.文獻中,作者的名有時全寫,有時只寫名的拼音的首字母.如表3所示,當作者的名由兩個及以上的字構成時,字之間可能會用“-”,“,”或空格以及它們的組合來分隔,且字也會采用拼音首字母,有時甚至只保留名中第一個字的拼音首字母.此外,作者署名中還存在復姓,如“Pu Yang”,“Ou Yang”,“Ai Xing Jue Luo”等

表3 一個中文名的不同寫法
在對作者姓名結構進行分析的基礎上,本文設計了基于規則的作者姓名識別算法,并用3.1 節中提到的分組可視化工具輔助專家校正算法結果.姓名識別算法步驟如圖3所示.其中,涉及的主要的方法如下.

圖3 姓名處理流程圖
方法1.分割大寫字母.連續大寫字母的數量通常情況下與組成名或姓的字的數量一致,每個大寫字母是對應字的拼音的首字母.因此,這個重要特征可以用來識別作者名字的結構,從而進一步計算兩個名字的相似度.尤其當作者姓名中存在多個縮寫時,分割大寫字母的重要性更顯凸顯.如“White,Simon D.M.”經常會寫成“White,SDM”.如果沒有對大寫字母進行分割,“SDM”會被識別成一個名.
方法2.中文名的識別和預處理.由于拼音數量和中文名結構有限,可以通過有限的詞典和規則來識別中文名.優先處理中文名不僅可以縮小后續匹配的數據范圍,還可以降低識別規則的復雜度.在該步驟中,首先識別中文名,并根據結構特點區分姓和名.接著將多個字組成的名中間的分隔符去掉并轉成小寫.如“Wang,Xiao-ming”會處理成姓“wang”名“xiaoming”,這樣可以時后續字符串匹配和相似度計算提供幫助.
方法3.姓名歸一.文獻中,作者的姓一定排在最前面或最后面,第一個名一定排在中間名前面.因此,當識別兩個作者姓名A={A1,A2,···,An}和B={B1,B2,···,Bm}是否指代同一個人時,可以通過如下規則判斷,其中m≤n:
(1)若{A1,An}∩{B1,Bm}=?,那么A和B的姓不同,A和B指代的不是同一個人;
(2)若{A1,An}∩{B1,Bm}≠?,刪除A和B中完全相同的部分,剩余部分標記為A'和B',表示為如果A'和B'都是空集,那么這兩個名字被認為指代了同一個人.否則,A和B指代同一人的必要條件是A'和B'中留下的是名,即刪除的完全相同部分是姓或姓和部分名.
方法4.額外信息自動校正.由于不同的作者的姓名可能相同,所以不能認為相同的姓名指代了同一個人.為了區分出同名作者,本文用單位、研究領域、合著者等額外信息來驗證同名作者是否是同一個人.
研究團隊挖掘可以轉化為在以作者為節點,以合著論文數為邊的合作關系圖上發現社團的問題.Louvain 算法[17]是性能最好的社團發現算法之一,是一種層次模塊度優化算法,具有快速、準確的特點.模塊度最初用于衡量社團發現算法結果的質量,它的本質是刻畫社團的緊密程度,即社團內部緊密度越高,社團之間緊密度越低,社團劃分的質量越高.本文直接采用Louvain算法進行社團發現,其它社團發現算法也可以用于挖掘本文所指的研究團隊.
學者的競爭力評價是一項相當復雜的工作,應當從盡可能多的維度開展評價.Keathley-Herring 等[18]通過研究1983~2016年期間發表的123 篇領域成熟度評估相關文章,提出了一個通用的領域成熟度評估指標體系,包括研究主題、論文質量、論文數量、合作交流、任職情況、學歷、專利、項目、成果轉化、學術影響力、社會影響力等多個維度的指標.該指標體系不僅可以用于評估一個領域的成熟度,對學者的綜合實力評估也有很大的參考價值.本文從該指標體系中抽取基于論文信息的指標,并綜合考慮數據的可獲取性,從科研產出、科研合作、科研影響3 個方面篩選指標.科研產出主要考慮學者發表的論文數量及其論文質量.論文數量不僅包括論文的總數,還可以是高質量論文的數量、不同研究方向的論文數量、近幾年的論文數量等等.論文質量通??梢栽谝欢ǔ潭壬贤ㄟ^論文發表的期刊影響因子來反映.而影響因子與期刊的被引次數和文章數量有關,因此也可以從學者的被引次數和文章數量上體現學者的論文質量.科研合作可以反映學者的研究團隊及其研究模式.比如有的學者合作的學者和機構非常廣泛,有的學者有穩定的合作團隊,前者可能更適合做交叉領域的研究,后者可能更適合在專業領域內進行科研攻關.科研影響主要包括學術影響和社會影響.學術影響通常使用被引次數來展現.一篇論文的被引次數越高,在一定程度上說明該論文對越多的科學研究產生了影響.社會影響是對學術影響的重要補充,可以通過在社交網絡、在線科研論壇等網絡平臺上的熱度,對政策、法律等的影響來體現.但分析社會影響所需數據的獲取難度較大,本文基于論文數據,僅考慮學者的學術影響.
綜上所述,本文采用論文數量、被引次數和篇均被引次數作為基本指標.同時增加了H-index 指標供參考.H-index 定義為:一個指數為h的學者發表了h篇論文,并且每篇論文至少被其他論文引用h次.它被認為能比較準確地反映學者的學術成就.除了基本指標外,本文從論文產出、研究興趣、科研團隊、合作情況多個維度來展現學者的科研狀態.
圖4展示了某個學者的學術狀態和競爭力.該學者的學術狀態可視化主要由6 個主要部分組成:圖4(a)學者姓名和單位(此處為了保護隱私,去掉了真實姓名和單位);圖4(b)學術狀態基本指標;圖4(c)研究興趣;圖4(d)論文合作情況瀏覽器;圖4(e)合作矩陣圖和圖4(f)論文發表和被引情況.
學術狀態基本指標用雷達圖來展示.4 個坐標軸對應4 個指數:論文總數、H-index、總被引次數、篇均被引次數.每個軸的最大值是該學者所屬單位中所有學者對應指標的最大值.藍色實線表示該學者的各項指標的數值,黑色實線表示該單位所有學者各項指標的平均值.
研究興趣采用關鍵詞云來展示.關鍵詞云顯示了該學者所有論文中出現頻次最高的前10 個關鍵詞.字體大小代表該詞在該學者所有論文中出現的次數.這些詞可以通過鼠標點擊進行交互.當選擇一個詞時,其它圖表將同步更新,以展示該研究方向相關的學術信息.
論文合作情況瀏覽器是對該學者的論文、合著者和合作單位的交互式總體可視化.圖表中間是合著者列表.左邊帶灰色圓點的是合作單位,右邊帶白色圓圈的是合著論文.這些列表之間的連線表示合作關系.當鼠標懸停到某個條目 (合著者、論文或合作單位)上時,與其有關系的相應條目將高亮顯示.點擊某個合著者的名字將顯示該合著者的所屬單位和該合著者與該學者合作發表的論文信息,如圖5所示.在圖5中,中間較大的黑色圓點代表選中的合著者.左邊的小白點是與該學者合著的論文.與之相連的小灰點是合著論文的其他作者.右邊的小灰點是合著者所屬的單位,與之相連的小灰點是與該合著者屬于同一單位且與該學者合著過論文的學者.
合作矩陣圖用于展示該學者與其合著者之間的合作信息,并可以發現研究團隊之間的關系.如圖6所示,X 軸和Y 軸均代表該學者所有合著者.如果兩學者之間有合作,那么我們用顏色填充相應坐標的網格.合作的次數越多,顏色就越深.合作的詳細次數可選擇地顯示在網格中.屬于同一科研團隊的學者會組成一個內部填充較為密集的區域,如圖6中紅線所圍部分.
論文發表和被引情況顯示該學者論文發表的時間、論文的影響力.X 軸為發表年份,Y 軸為月份,一個圓點代表一篇論文.圓點的半徑表示該論文的被引用次數;圓點的顏色表示該論文的合作單位.折線圖顯示了該作者歷年發表論文的數量.

圖4 某學者畫像的可視化

圖5 某個合著者的信息

圖6 學者G的合作矩陣圖
我們研究了中國科學院發表的論文,并選擇某研究所H 及其中的一個學者G 作為研究案例,因為H是中國科學院發表論文數量排名前10的研究所,G 在H研究所的所有學者中各項學術指標(論文總數、H-index、總被引次數、篇均被引次數)中都排名前五.G的學術狀態如圖所示.
從圖4(b)的基本指標可以看到學者G 在總被引次數和篇均被引次數方面相當突出,是該單位所有學者中這兩個指標上表現最好的.他在其他兩個指標上的表現都比平均水平好,但和這兩個指標的最大值之間還存在明顯的差距.
圖4(c)中的研究興趣關鍵詞云在一定程度上體現了學者G的研究興趣點.從圖4(c)中可以看出,學者G是天文學專業的學者,主要從事宇宙形成的理論研究.他的研究集中于宇宙學、暗物質、星系研究等方向.
從圖4(d)所示的論文合作情況瀏覽器中,我們可以方便地探索學者G的論文、合著者和合作單位.學者G與大約72 個不同的學者合著過論文.這些合著者來自約34 個不同的組織.學者G 本人主要與3 個機構有聯系:國家天文臺、達勒姆大學和馬克斯普朗克天體物理研究所.
學者G的合作矩陣圖如圖6所示:(a)區域表示學者G的主要科研團隊,這種團隊具有高度填充的網格和相對密集的深色色塊等特征.高度填充的網格和相對密集的深色色塊意味著團隊中幾乎每個人相互之間存在多次合作.(b)~(d)區域中團隊成員之間合作次數很少,絕大部分只合作一次,顏色是淺的,我們可以看出他們只是暫時合作寫了一篇論文.(a)和(b)有重疊部分,說明這兩個團隊之間有共同的成員.
學者G的論文發表和被引情況如圖4(f)所示.我們可以看到學者G是一個高產的研究人員.一篇發表于2006年的論文被引用率相當高.2012年是G 學者最有成效的一年,論文的數量和質量都是歷年來最好的一年.除了2011年外,每年都有論文發表.學者G 主要與英國達勒姆大學和德國馬克斯普朗克天體物理研究所合作.紫色圓點代表學者G 只與達勒姆大學合作的論文.粉色的圓點代表學者G 只與馬克斯·普朗克天體物理研究所合作的論文.藍色的圓點代表學者G與兩機構一起合作的論文.從圖表上可以明顯看出,學者G 在2004~2017年的學術生涯有幾個發展段:2004~2005年、2007~2011年、2012~2014年,這3 個階段為學術累積期,學者G 發表論文的數量和質量都相對較低.2006年、2012年、2015年為學術爆發年,經過累積期的積累,迎來了高質量高產的年份.
綜上所述,我們可以將學者G的學術狀態描述為:學者G是天文學專業的學者.他主要從事宇宙形成的理論研究.他的研究集中于宇宙學熱點、暗物質、星系等方向.學者G 在他所屬的科研單位的所有學者中科研實力出眾,尤其是在論文被引用次數方面首屈一指,是一位高被引作者.他幾乎每年都發表論文,學術研究很有活力.學者G的學術合作范圍很廣,合著者約有72 人,來自約34 個不同的科研機構,主要合作機構有3 個:國家天文臺、達勒姆大學和馬克斯普朗克天體物理研究所.學者G 擁有一個由5~7 名研究人員組成的主要研究團隊,并且與其他3 個研究團隊有過短暫合作.2006年、2012年、2015年是G 學者的學術爆發年,論文質量和數量都很好.其中2012年是最突出、最有成效的一年.
本文基于WOS 論文數據,采用了可視化和算法相結合的實體消歧方法,針對數據特征設計相應的人名、單位名自動分組算法,并設計了分組可視化工具來幫助用戶對算法結果進行校正,以獲得能滿足分析要求的高質量數據.接著,選取了若干主要的學術評價指標,設計了學者學術狀態和競爭力的可視化方法.在此基礎上,研發了一套學者狀態和競爭力可視化系統.此外,本文在合著網絡的基礎上進行團隊挖掘,并設計可視化方法幫助用戶更好地洞察研究人員的科研團隊.最后通過對中國科學院某研究所某學者的學術狀態進行了分析,證明了本文方法在分析學者的學術狀態和競爭力方面的有效性和實用性.
然而本文存在一定的不足.首先,使用的數據存在一定局限性.該局限性體現在兩方面,一方面本文使用的數據可能并不包括需要分析的機構和該機構的學者的所有論文數據,另一方面僅僅基于論文數據不能全方位體現學者的綜合實力.其次,評價指標不夠豐富全面.導致該不足的因素主要包括兩方面,一方面是因為本文的分析建立在論文數據上,無法使用更全面的評價指標,另一方面是因為學術競爭力評估本身是一個需要深入研究的復雜問題.但本文為學者的學術狀態和競爭力評估提供了新的思路,通過可視化來全方位展現學者的綜合實力能避免因使用單一指標引起的一刀切問題.隨著可用數據維度的增加以及學術評價研究的日益深入,可以用更多更權威的評價指標來替換并擴展本文中采用的指標.此外,本文將人引入數據清洗環節,讓人可以檢查并校正算法結果,可能會帶來一定風險,比如惡意破壞數據質量等.但在正常使用情況下,人對數據的校正是建立在經過驗證或核實的基礎上的,對結果的客觀性影響有限.
今后的工作將集中在以下3 個任務.(1)改進實體消歧模塊.目前實體消歧是將原始數據作為算法輸入,算法輸出作為分組可視化工具的輸入,分組可視化工具的輸出即為實體消歧結果.未來需要考慮將算法改進成能交互式學習的模型,并將分組可視化工具的輸出反饋至算法,從而形式閉環,使系統更加高效智能.(2)改進團隊挖掘算法.目前,我們的在團隊挖掘方面的工作僅限于尋找團隊,未來可以進一步挖掘團隊內部關系、預測合作趨勢.(3)融合多種數據源,建立更加全面的指標體系.本文由于論文數據的局限性,指標體系不能夠全方位展示學者的競爭力.如果能融合更多數據,如專利、項目、經費、任職等,可以從更多維度篩選指標以更加全面地評估學者競爭力.此外,可視化方法也需要進一步優化以適應更多的指標展現.