張紅偉,邢 丹,陳 玲,解素芳,王春梅
隨著大數據、云計算等新興數字技術的發展,人文研究出現了革命性的轉變,數據密集型研究不斷加劇。“數字人文”的出現不僅為傳統人文研究帶來了新方法,注入了新活力,還拓展了人文研究領域[1]。李泉在《數字人文:開創人文研究的新紀元》一文中指出:“數字人文堪稱人文研究的‘開天辟地’與‘創世紀’,能夠開創人文研究的新紀元”[2]。數字人文研究在世界各地如火如荼地展開,“大數據視域下數字人文研究”入選2018年度“中國十大學術熱點”,數字人文的高熱狀態在近幾年將一直持續下去[3]。圖情界如何為數字人文學者提供個性化的服務成為當前的棘手問題,畫像技術的發展為數字人文服務提供了新思路。
當前數字人文服務主要從基礎設施建設、技術體系框架及科研服務內容等宏觀層面進行,如何進行數字人文個性化服務等以微觀層面研究較少[4]。針對個性化研究,周謙豪等設計了一款數字人文工具——inBooks,該工具不僅能通過紙本圖書的圖像獲取數字人文資源,還可以構建個性化知識網絡[5];曾子明和秦思琪采用深度學習方法和哈希方法構建了面向數字人文的移動視覺搜索模型,探討了圖像語義特征提取和檢索流程,為獲取數字人文視覺資源提供了新思路[6-7];上海圖書館推出家譜知識服務平臺,該平臺實現了基于概念的精確查詢,以“時間軸”“地圖”等為用戶提供可視化家譜數據展示[8]。以上研究從不同側面探討了數字人文領域的個性化服務,然而這些研究遠遠無法滿足數字人文學者的個性化需求。針對數字人文特點及學者不同的研究興趣,如何提供優質的個性化服務仍是圖情界急需探索的難題。
用戶畫像是一種刻畫用戶信息模型的技術,在挖掘用戶真實數據的基礎上,按照需求提煉出用戶信息,呈現虛擬的用戶信息全貌,以此為基礎為用戶提供精準個性化服務[9]。用戶畫像技術近年引起了電子商務、金融、社交網絡等各界的廣泛關注和研究。圖情領域為了提供更貼合用戶需求的個性化服務,也引入了用戶畫像。李丹等利用顯式和隱式相結合的方法獲取讀者信息,構建讀者畫像,采用協同過濾的方法向讀者推薦興趣度排名靠前的N項內容[10];劉海鷗等將情景興趣應用于讀者畫像,通過計算與當前情景相似的歷史情景獲取讀者感興趣的內容[11];何娟在畫像模型中構建了個人畫像和群體畫像,綜合二者的閱讀特征對讀者進行個性化推薦[12];張海濤等通過對中國知網和Web of Science中有關用戶畫像的文章進行定量和定性分析后,指出用戶畫像研究雖然取得了一些成果,但主要集中于社會化問答社區、數字圖書館和輿情傳播等主題,其他主題的研究比較薄弱[13]。隨著數字人文研究的快速發展,數字人文研究學者隊伍不斷壯大,成果數量急劇增多,學者對數據處理的技術服務需求進一步增強。如何利用用戶畫像刻畫出數字人文學者信息,針對具體需求提升數字人文學者的個性化服務水平值得深入研究。
數字人文學者在研究過程中經常需要用到一些軟件工具,如SPSS、Eviews等[14],并且在數據管理計劃、元數據、數據倉儲與保存、數據出版、數據分析可視化等數據處理環節中,不同學者的關注點也不盡相同[15]。針對數字人文的特點,本文設計了一個數字人文學者畫像系統,旨在從研究內容、常用科研工具和所關注的數據處理環節等方面刻畫出數字人文學者特點,在此基礎上實現更貼合需求的數字人文個性化服務。
學者數據信息是構建畫像系統的基礎。學者數據主要包括基本信息、發表論文、內容偏好、常用科研工具和所關注數據處理環節等5方面的內容。其中基本信息包括學者姓名、年齡、性別、機構、專業等,發表論文包括論文題目、發表期刊、發表時間等;內容偏好是根據發表論文提取出的研究興趣與方向;常用科研工具包括SPSS、Eviews、SAS、ACCESS、Ucinet、CiteSpace、VOSviewer、Gephi等,數據處理環節包括數據管理計劃、元數據、數據倉儲與保存、數據出版、數據分析可視化等。
本文采用改進的爬蟲技術從中國知網和學者主頁爬取學者的基本信息、論文、常用工具、關注的數據處理環節等信息。獲取的論文在經過去重、去停用詞等預處理后,將論文用向量空間模型(Vector Space Model,VSM)表示,利用TF-IDF算法進行特征提取并賦予相應的權值,提取出論文的特征向量,將論文轉化為可以計算彼此相似度的向量。一篇論文可表示為:
d=(t1,t2,…tn;w1,w2,…,wn)
式中,n表示向量維度,tk表示論文第k個特征項,wk是tk(1≤k≤n)相應的權值。兩篇論文的相似度可以表示為:
(公式1)
sim()的取值范圍是[0,1],sim()越大,表示兩篇論文的相似度越高;相反,sim()越小,表示兩篇論文的相似度越低。在提取論文信息的基礎上分析得出學者的研究偏好,并對常用工具和關注的數據處理環節等內容進行補充。
本文采用Single-Pass算法對論文進行聚類。按照論文到達的次序,將第一個到達的論文設為一個類簇C1,然后將后續到達的論文di與現有的類簇C計算相似度,選擇相似度最大的類簇Ci。如果相似度大于閾值θ,則把論文di歸入Ci,并更新Ci的向量;否則,將論文di設為一個新的類簇,直到將所有的論文都歸入相應類簇為止。
本文以常用科研工具為依據對學者進行聚類。數據采集處理后,系統將保存常用工具信息表,該表列出所有的人文學者與其常用科研工具,如果學者使用該工具則用1表示,不使用則用0表示。如學者0001常使用SPSS和SAS而不使用Eviews,學者00002常使用Eviews和SAS而不使用SPSS(表1)。該表對每個學者使用的科研工具進行聚類。此外,每個科研工具對使用學者進行聚類,統計出每個科研工具的使用者(表2)。學者Si與學者Sj關于常用工具的相似度用公式(2)表示。
sim(Si,Sj)=n/N
(公式2)
式中,n表示學者Si常用科研工具與學者Sj重復的數量,N表示學者Si常用科研工具的總數。對數據處理環節也進行類似聚類。

表1 學者─常用科研工具對應表

表2 常用工具─學者倒排表
為了促進科研交流合作,學者需要尋找與自己研究內容相近的學者。本文設計了以下查詢途徑:第一,學者可以根據研究興趣相似度大小,直接從相應類簇中提取一定數量的學者;第二,學者可以根據同時使用的某一個或幾個常用科研工具尋找相應學者,也可以根據常用工具的相似程度尋找相應學者;第三,學者可以根據所關注的不同數據處理環節尋找相應學者。此外,學者還可以綜合權衡以上3種因素的相似度尋找相應學者,計算方法如公式(3)所示。
sim(Si,Sj)=αsim1+βsim2+γsim3
(公式3)
式中,sim1表示學者Si和Sj的研究興趣相似度,sim2表示常用科研工具相似度,sim3表示關注數據處理環節相似度。系統根據用戶對3種因素的重視程度設置α、β和γ的值,其中0≤α,β,γ≤1,并且α+β+γ=1。系統根據學者需求,利用公式(3)提取一定數量的學者進行推送。
現有文獻根據Single-Pass算法形成穩定的類簇。當有新文獻出現時,該文獻根據Single-Pass算法進行聚類,歸入類簇Ci,Ci中所有文獻都是圍繞同一主題展開的研究,存在強相關性,所有作者也具有相同的研究興趣。因此,系統將新文獻推送給類簇Ci中其他文獻的作者。
在學者根據研究興趣、常用科研工具及數據處理環節進行聚類后,系統根據具體需求進行精準推送。當舉行某個科研工具的培訓時,將培訓信息推送給使用該工具的所有學者;當舉行有關某個數據處理環節的會議時,將會議信息推送給關注該數據處理環節的學者;當需要尋找某個工具或數據處理環節的專家時,直接根據學者畫像推出相關專家名單。
數字人文館員嵌入科研過程,根據學者畫像,分析數字人文學者及團隊在科研過程中可能遇到的困難及需求,隨著科研進程的不斷推進,提供全方位的知識獲取、數據管理及科研工具支持等高層次服務。同時注重對學者數字人文研究素質的培養,特別是不斷提升其數據處理及科研工具使用的能力,營造數字人文研究的濃郁氛圍。
針對數字人文個性化服務能力不足問題,本文提出了一種基于用戶畫像的個性化服務策略,從研究內容、常用科研工具和所關注的數據處理環節等方面提取數字人文學者信息,構建學者畫像,采用Single-Pass算法對論文進行聚類。分別以常用科研工具和所關注數據處理環節為依據對學者進行聚類。在此基礎上,為數字人文學者提供了興趣相近學者查詢、精準文獻服務及嵌入科研過程等個性化服務,使數字人文學者從繁雜的資料收集和數據處理工作中解脫出來,將精力集中在解決科研問題本身上,有助于數字人文研究的快速發展。