申航
(四川大學計算機學院,成都610065)
隨著學術界的日益發展,人們的受教育水平日益提高,越來越多的人開始進入研究領域。而當一個初學者開始在其領域內進行探索時,往往是盲目的,他需要能夠直接地了解到本領域內頂尖地機構和學者,基于文獻機構作者數據的交互式可視化面臨新的挑戰和機遇。
在獲取頂尖機構和作者方面,人們對科研機構在科學領域的產出和影響力方面的比較越來越感興趣,這一趨勢的一個跡象是不斷出版的大學排名,因此我們需要根據發文數量、被引量等數據對機構作者進行評估排序,以獲取領域內頂尖的機構作者,以便用戶進行學習跟蹤。
在機構作者合作方面,在現代科學中,科學家已經成為共同點:“有大量的證據表明研究合作已經成為科學和技術研究各個領域的常態。”對機構作者的合作網絡進行研究能夠讓用戶找到相似的領域機構作者,并能讓用戶對某一作者的合作演化進行跟蹤,從中發現一些有趣的聯系。
目前主流的文獻可視化工具有Cite Space、Google Scholar Metrics、Keshif等。通過調研,我們發現存在以下問題:
(1)功能不夠完備,只具有展示作者信息或者領域研究信息等某一方面的功能;
(2)信息利用不充分,在對機構或作者進行分析時沒有考慮到所有屬性;
(3)視圖過于混亂,對于用戶來說認知負擔大,且體驗較差。
針對上述情況,本文從兩個方面提出了文獻機構作者數據的可視化方法設計,包括合著網絡可視化方法、關鍵詞文本可視化方法。然后本文從數據特點、可視化映射考慮,完成了對兩種可視化方法的實現。
本文實驗采用的數據集為1991-2016年IEEE VIS上發表的論文數據。數據來源于http://www.vispubdata.org/site/vispubdata/,數據預先包含的字段為conference、year、paper_title、paper_doi、link、author_name、author_affiliation、author_keywords。數據集總共包含約2000篇論文,從Vispubdata網站上下載csv格式的文件后導入到MySQL數據庫中。

表1 論文數據集描述
T1.作者合著網絡分析。單個作者無法獨自完成一篇論文的撰寫。在各個學者于他人合作的過程中,漸漸地形成了一張合作網。分析合著網絡能夠發現許多有趣的合作模式。該任務可分解為如下問題:
Q3.如何發現學術水平較高地學者?如,分析者希望找到學術水平較高的學者進行論文學習。
Q4.如何發現合著網絡中的學術團體?如,分析者希望通過單個高水平作者發現其處于的學術團體,對團體中的其他個體進行跟蹤學習,從而拓寬學習視野。
Q5.如何對作者的合作關系的演化過程進行分析?如,通過對作者歷年來的合作作者進行分析,能夠找到一些可能的師生關系。
T2.關鍵詞文本分析。關鍵詞文本中包含了許多有價值的信息。通過對關鍵詞文本進行分析能夠發現諸如領域研究熱點、作者研究興趣等模式。該任務可分解為如下問題:
Q6.如何獲知學者的主要研究方向?如,分析者希望知道某位學者的主要關鍵詞,再根據關鍵詞閱讀論文。
Q7.如何獲知一位學者研究領域的演化情況?如,分析者對某位學者感興趣,希望得知他近幾年的研究領域。
對作者合著網絡進行可視分析能夠發現許多有趣的模式,例如學術團體、個人中心網絡的變化等等。為更好地對作者合著網絡進行分析,合著網絡分析分為合著網絡可視化方法與個人中心網絡可視化方法。
(1)合著網絡可視化方法的設計
合著網絡能夠直接反映作者間的學術合作關系。合著網絡需要能夠反映單個作者學術水平的高低、作者間的合作親密關系與學術團體。本文設計了合著網絡可視化方法,能夠解決可視化任務中的Q2-Q4。
合著網絡可由一張無向圖表示,節點代表作者,節點間路徑代表作者間存在合作關系。合著網絡可視化示意圖如圖1所示。
該可視化方法由兩部分組成,無向圖與力引導布局:
①無向圖
節點面積:節點面積對應發文數量。作者發文數量越多,節點越大。
節點顏色:節點的顏色代表作者所屬的學術團體。不同的顏色代表不同的學術團體,同一顏色的節點屬于同一學術團體。
邊:邊代表連接的兩個作者間存在合作關系。
②力引導布局
力引導布局能夠使視圖中的連線長度保持一致,并減少連線的交叉。力引導布局引入的庫侖斥力能將節點彈開,而彈簧引力能夠將關系緊密的節點拉近。由于關系緊密的節點間吸引拉近,關系較弱的節點間排斥遠離,所以從形成的網絡布局中能夠看到一定的團體分布。通過對節點進行著色能夠更好地對團體進行區分。

圖1 合著網絡可視化方法示意圖
(2)個人中心網絡可視化方法的設計
除了需要對網絡的整體情況進行展示外,還需要對個體的情況進行展示。對個人中心網絡進行探索除了能夠發現該個體的主要合作者,還能夠發現合作網絡隨時間的演化情況。本文設計了個體中心網絡的可視化方法,能夠解決可視化任務中的Q5。
個人中心網絡的可視化由兩部分組成,如圖2和圖3所示。個人中心網絡可視化能夠對選定作者與其主要合作者進行展示,對作者的主要合作作者進行分析能夠知道該作者主要的學術合作關系。
個人合作關系演化可視化能夠從時間屬性上對作者的合作關系進行分析。首先對選定作者所有發表的論文按年份排列進行展示,再對發表論文中的合作作者按年份進行展示,就能夠清晰直觀地看到該作者與其合作作者在時間上變化情況。通過對個人合作關系演化情況進行分析能夠發現諸如師生關系等潛在的模式。

圖2 個人中心網絡可視化示意圖

圖3 個人合作關系演化可視化示意圖
該方法的可視化編碼主要包括節點、連線、氣泡,下面對方法的可視化編碼進行描述:
①個人中心網絡可視化
節點:每個節點代表一個作者。
邊:邊表示相連的節點與中心節點間存在合作關系。
②個人合作關系演化可視化
橫軸:橫軸代表選定作者發表過論文的年份。
縱軸:縱軸代表作者,第一項為選定作者,后續項為選定作者的合作作者,按合作論文篇數排序。
氣泡尺寸:氣泡尺寸代表發文數量,氣泡越大,發文數量越多。第一行為選定作者按年份排列的發文數量,后續行為該作者與選定作者按年份排列的合作論文數量。
關鍵詞是分析作者研究領域的重要屬性。一方面,分析者希望直觀地得到作者主要的研究方向;另一方面,分析者希望觀察出作者研究領域的變化情況。
針對以上需求,本文設計了關鍵詞文本可視化方法,由兩部分組成,關鍵詞詞云可視化與主題流圖可視化。
(1)關鍵詞詞云可視化方法的設計
關鍵詞詞云能夠直觀地反映出作者的主要研究方向。本文設計了關鍵詞詞云的可視化方法,能夠解決可視化任務中的Q6。對作者發表的所有論文的關鍵詞進行統計,由詞頻決定關鍵詞大小,排列在視圖上。通過對關鍵詞進行跟蹤,能夠找到相應的論文。關鍵詞詞云可視化方法示意圖如圖4所示。

圖4 關鍵詞詞云可視化方法示意圖
該方法的可視化編碼主要包括:
內容:關鍵詞內容為作者論文集中出現頻次較高的關鍵詞。
大小:關鍵詞的大小代表該關鍵詞出現的頻次,頻次越大,關鍵詞越大。
(2)主題流圖可視化方法的設計
主題流圖能夠反映作者研究領域隨時間的變化情況,包括:作者近年來最主要的研究領域,作者何時停止研究一個舊領域,作者何時開始研究一個新領域等等。本文設計了主題流圖的可視化方法,能夠解決可視化任務中的Q7。將作者的研究主題映射為在時間上不斷變化的河流,即可看到主題的發展變化。主題流圖可視化方法示意圖如圖5所示。

圖5 主題流圖可視化方法示意圖
該方法中河流的可視化編碼主要包括:
顏色:不同的顏色代表不同的河流,同一顏色的河流為一個主題。
寬度:河流的寬度代表當年該主題的論文數,作者在該主題上有關的論文越多,河流越寬。因此,面積較大的河流代表作者的主要研究領域。
如圖6所示,展示了IEEE VIS論文數據集上的合著網絡情況。從合著網絡可視化結果中可以看出,可視化領域內的頂尖作者主要有Eduard Groller、Kwan-Liu Ma、Arie E.Kaufman、Huamin Qu 等。合著網絡根據作者合作關系有被劃分成一個個學術團體,而學術團體又圍繞上述頂尖作者產生。由此可以判斷出,學術團體的產生主要受兩方面影響:頂尖作者與其學生間的合作關系,頂尖作者間的長期合作關系。
對合著網絡中的節點進行點擊能夠查看作者的詳細信息。圖7展示了Huamin Qu的個人中心網絡可視化結果。從圖中可以看出Huamin Qu的主要合作者為Yingcai Wu與Weiwei Cui。而根據搜索引擎的結果,Huamin Qu與后兩位作者是師生關系,證明了實驗結果的準確性。從個人合作關系演化中可以看出,Huamin Qu與后兩位作者保持了長期的合作關系。
通過對網絡圖中的節點進行點擊能夠查看合作作者的詳細信息,對氣泡圖中的氣泡進行點擊能夠查看相應的文章。
如圖8所示,展示了Huamin Qu的研究領域可視化結果。從右邊的詞云可以看出,Huamin Qu的主要研究方向為visual analytics與graph visualization。而從左邊的主題流圖可以看出Huamin Qu研究領域的變化情況。根據河流寬窄的變化情況,可以看出Huamin Qu早期的研究領域為rending與image processing,而近期的研究領域主要為visual analytics與graph data and techniques。

圖7 Huamin Qu的個人中心網絡可視化結果

圖8 Huamin Qu的研究領域可視化結果
對關鍵詞進行點擊能夠查看作者在該方向上的文章。如圖9所示,展示了Huamin Qu在visual analytics方向上的文章列表。通過下拉滑動條能夠查看所有的文章,通過對link進行點擊能夠訪問原文鏈接。

圖9 Huamin Qu在visual analytics方向上的文章列表
隨著科技的進步與高等教育的蓬勃發展,一方面科研工作者數量急劇上升;另一方面,科學研究領域的重要成果之一——科研文獻的數量也在急劇增長。如何有效地對科研文獻進行分析,快速獲取目標信息,成為文獻分析領域的研究熱點。
鑒于上述背景,本文對文獻機構作者數據的可視分析展開研究。基于會議論文數據,結合地理信息可視化、網絡數據可視化、文本內容可視化等信息可視化技術,設計并實現了完成了對合著網絡、關鍵詞文本等數據的分析。同時,本文以1991-2016年IEEE VIS論文數據為例,通過對論文數據進行分析,驗證了系統的可靠性。