蔣 君 王 超 張 玢
(中國醫學科學院醫學信息研究所/圖書館 北京 100005)
隨著信息時代的到來,跨領域多學科交叉研究不斷深化,任何一家圖書館的館藏資源都難以滿足用戶多樣化信息需求,需要通過文獻資源共享和文獻傳遞的方式來解決[1]。用戶畫像技術能夠較好地描述用戶特征和信息需求,在用戶和圖書館之間搭起交流橋梁,有利于驅動原文傳遞的創新發展。
用戶畫像以數據分析為工具,通過對用戶屬性、行為等方面的挖掘,了解并跟蹤用戶的需求變化,從而進行精準營銷[2]。最早提出用戶畫像概念的是交互設計之父A. Cooper,將其定義為基于用戶真實數據的虛擬代表。Rebecca M. Quintana將用戶畫像描述為一個從海量數據中獲取、由用戶信息構成的形象集合,通過這個集合可以描述用戶偏好興趣等個性化需求[3]。在圖書情報領域,Amato G認為信息提供者的最終目標是滿足用戶的信息需求,為用戶定制用戶畫像[4]。Mao Jin探討基于標簽的個性化推薦新方法[5]。王慶基于用戶畫像進行圖書館資源推薦模式設計與分析,為圖書館開展個性化服務提供新思路[6]。許鵬程在數據驅動下進行數字圖書館用戶畫像模型構建,以促進數字圖書館的知識服務升級[7]。陸堯針對區域圖書館聯盟文獻傳遞進行用戶行為分析,提出改進意見[8]。本文在國家科技圖書文獻中心(National Science and Technology Library,NSTL)原文傳遞的基礎上對用戶畫像進行分析,以便精準了解用戶需求,實現資源服務內容精細化。
中國醫學科學院醫學信息研究所/圖書館(以下簡稱醫科院圖書館)為NSTL的醫學分中心,面向全國科研單位提供醫學類信息服務工作。醫科院圖書館目前擁有醫學及相關學科高質量數據庫91個,電子期刊16 300余種,紙本期刊4 500余種,涵蓋基礎醫學、臨床醫學、藥學、公共衛生等醫學各學科及化學、心理學等醫學交叉學科。本文選取醫科院圖書館2018年1月1日-12月31日期間通過NSTL原文傳遞系統向全國醫學科研機構提供的80 866篇原文傳遞文獻為數據源。
對80 866篇原文傳遞文獻進行數據清洗和整理,采用文獻計量學方法分析原文傳遞的語種、出版年等外在特征,聚類分析法計算出文獻的領域特征,時序分析法分析用戶申請的時間規律,從用戶的行為信息和偏好興趣兩個維度對用戶畫像進行分析,以便優化資源建設,改進工作流程,提高工作效率和用戶滿意度。
用戶畫像是一個長期逐步完善的過程,其目標是通過對用戶行為、偏好等方面分析,給用戶打上標簽,以便精準快速分析用戶行為習慣,為其提供個性化服務。NSTL原文傳遞用戶畫像是在原文傳遞的基礎上通過原文傳遞系統獲得用戶行為數據并進行預處理,形成規范化用戶信息加以存儲,然后對這些用戶信息進行分類聚類等統計分析,勾勒出精確的用戶畫像,從而指導原文傳遞服務升級。用戶畫像分析框架,見圖1。

圖1 用戶畫像分析框架
3.1.1 語種 2018年共有458位用戶通過NSTL原文傳遞服務平臺向醫科院圖書館申請原文傳遞服務,單個用戶最高申請次數為20 675次。醫科院圖書館發送原文傳遞文獻80 866篇,去重后為50 648篇,其中單篇最高發送量為81次。將80 866篇原文傳遞文獻按語種進行分類,見表1??梢钥闯鲈奈墨I主要以外文文獻為主,占99.6%。同時還有33篇中文文獻,全部是北京協和醫學院的學位論文。分析其原因主要是:(1)醫科院圖書館以外文文獻為主,國外許多重要期刊是從創刊開始進行收錄,覆蓋范圍廣泛。(2)國際上多數醫學期刊論文使用英文發表。(3)除使用英語的國家外,日本、法國、德國等國也有較好的醫學專業和醫學期刊,并且有些小語種(如匈牙利語、荷蘭語、波蘭語等)在國內是獨家館藏。(4)中文文獻一般可以從中國知網或萬方等網絡數據庫上查找全文,但北京協和醫學院的碩博論文只能在圖書館獲得。

表1 原文傳遞文獻語種分析
3.1.2 類型 80 866篇原文傳遞文獻共分為4種類型,見表2。在4種類型中期刊占絕大多數,其他3種類型只有少量,這與其自身特點有關:(1)期刊論文主要報道學術研究、學術創新點等成果,一般需要通過專家審稿,具有嚴謹性和連續性的特點,且醫科院圖書館的外文醫學期刊較為豐富,是醫學研究人員首選。(2)會議論文是圍繞某個會議主題在特定領域內的文章,是同領域內最新、最前沿的成果匯總,能及時反映學科發展趨向,有一定的參考價值[9]。(3)學位論文是作者為獲得某種學位而撰寫的研究報告或科學論文,具有一定獨創性,參考文獻多、全面,有助于對相關文獻進行追蹤檢索[10],并且北京協和醫學院的學位論文是醫科院圖書館的特色館藏。(4)圖書的內容比較系統、全面、成熟、可靠,但時效性不及其他類型文獻,因此這類文獻用戶參考較少。對于這4種類型文獻所包含的語種,期刊論文涉及語種較多,由除中文外的其他多語種文獻組成,而學位論文僅包含中文文獻,會議論文和叢書僅包含英文文獻。

表2 原文傳遞文獻類型分析
3.1.3 年代 原文傳遞文獻按出版年代分布,見圖2,可以看出:(1)1995-2018年每年都有申請,基本上是年代越新申請量越大(2018年除外),說明用戶非常重視文獻的時效性,希望獲得最前沿的科技成果。(2)2011-2018年的文獻占比為51%,超過半數,2015-2017年這3年的文獻需求量最多,其中2015年的文獻超過6 000篇,說明近3年的文獻是研究人員關注的重點。(3)2000年之前的文獻約占5.5%,主要集中在《生殖醫學雜志》(86篇,影響因子0.452,JCR分區Q4,婦產科)和《神經外科學雜志》(83篇,影響因子4.319,JCR分區Q1,臨床神經病外科學)等期刊,說明這些醫學期刊具有長尾效應,對現在仍有影響。期刊、會議和學位論文3種原文傳遞文獻數量排名前3,將這3種類型分別按年代進行排序,見圖3。期刊從1995-2018年都有使用,與總體趨勢一樣,年代越新使用量越大(2018年除外);會議論文重點關注前一年(2017年)的文獻,共計21篇;學位論文涉及2010-2017年10年的文獻,且每年2~3篇,分布比較均勻。

圖2 原文傳遞文獻年代分析

圖3 期刊類型文獻年代分析
3.1.4 來源 原文傳遞文獻共涉及3 883種來源文獻,前360種期刊累計占比達50%。按文獻量倒序排列,選取排名前20位,累積占比9%,見表3。總體來看:(1)排名前20位的來源文獻申請次數都在240以上,最高達558次。(2)20種來源文獻的JCR分區,Q1、Q2、Q3、Q4分別占50%、10%、10%和25%,多數文獻分布在第1個分區,說明申請文獻的質量較高。(3)排名前3的是《國際病毒學雜志》、《肝臟與胃腸病學》和《白血病和淋巴瘤》,這3種期刊的JCR分區均位于Q2~Q4,說明用戶相對期刊來說,更看中單篇文獻的質量。(4)3大頂級醫學期刊《柳葉刀》(Lancet)、《新英格蘭醫學雜志》(NEJM)、《美國醫學會雜志》(JAMA)分別位列第4、11和16位,影響因子較高,受到研究者的廣泛關注。(5)還有一種期刊《印度醫學會雜志》(第8位)未被收入SCI中,沒有影響因子和JCR分區,但是文獻傳遞量較高,說明用戶關注印度相關的醫學信息。

表3 前20位原文傳遞文獻來源分析
3.1.5 學科分類 將文獻按《中國圖書館圖書分類法》(以下簡稱中圖法)進行整理,除去沒有分類的1 934篇(暫歸為其他)外,共涉及中圖法12個大類,超過中圖法大類的50%,見圖4。其中R醫藥、衛生領域最多,約占92%;其次是Q生物科學,占4%;再次是O數理科學和化學、T工業技術、N自然科學總論、D政治法律、S農業科學等與醫學相關學科;此外還包括X環境科學、G文化科學、B哲學宗教、C社會科學總論和P天文學等邊緣學科,表明這些學科與醫學有交叉研究。在2級類目中,R73腫瘤學、R9藥學的文獻傳遞量最大,其次是R6外科學、R75皮膚病學與性病學、R74神經病學與精神病學等,由此得出這些領域是目前醫學人員研究的重點。在非醫藥衛生領域,Q5生物化學、Q2細胞生物學、O6化學等領域文獻較多。
3.1.6 標題聚類 從文獻標題入手,運用Gephi可視化關系網絡分析軟件對內容進行分析。首先將所有標題進行分詞,去除沒有意義的代詞、介詞、副詞、量詞等停用詞,選取詞頻在500以上的詞,對其進行統計和聚類,揭示詞與詞之間的關聯關系,見圖5。通過分析可知這些文獻主要聚為4類:以臨床(clinical)為代表的粉色圖標、以肌肉內(intramuscular)為代表的綠色圖標、以治療(treatment)為代表的橙色圖標和以影響(effect)為代表的藍色圖標。粉色圖標主要與臨床、癥、腺癌、肝臟、肺、腫瘤、分子、基因、血清等有關,代表腺癌、肝癌、肺癌等腫瘤在分子、基因和血清等方向的臨床研究;綠色圖標主要與肌肉、治療管理、原發性、淋巴瘤、案例、外科、劑量、診斷等有關,代表原發性淋巴瘤、肌肉瘤等案例的診斷和手術;橙色圖標主要與治療、注射、藥物、慢性、急性、疾病、風險等有關,代表慢性或急性疾病的注射或藥物治療及其風險因素。藍色圖標主要說明相關影響。各類內關系密切,各類間也有相互關聯,連接的粗細代表關聯強 度。

圖4 原文傳遞文獻學科分類

圖5 標題聚類分析
提交申請時間不僅可以反映用戶工作習慣,還便于醫科院圖書館根據需求量大小更好地安排工作。以下從工作日、月份、周期和時段4個時間維度對用戶提交時間進行分析。從工作日來看,周一到周五的原文傳遞提交量相對較多,周末較少。周三是用戶提交需求的高峰期,周二和周四其次,兩頭最少,見圖6。從提交月份來看,10月、11月是最高峰,其次是7月和9月,然后是1月、3月和5月,見圖7。這與申報獎項、課題和職稱評定有一定關系。從提交周期來看,第41周(10月7-13日)提交需求最多,其次是第17周(4月22-28日)、37周(9月9-15日)和48周(11月25日-12月1日),基本上都在提交月份的高峰期內,見圖8。其中第41周與十一放假后需求積壓反彈有關聯。從提交時段來看,在24個時點中有3個高峰期:9-11點是第1個高峰期,也是提交量最大的時間段,12-16點是第2個高峰期,20-22點又迎來一個小高峰,見圖9。從用戶原文傳遞申請的全年時間分布分析,總體來說用戶在10月節后第1個星期和4月、11月最后1個星期的周二到周四上午9-11點提交的申請最多,可以提前做好準備,根據需求量大小對工作人員進行相應調整,以便更好地為用戶服務。

圖6 提交工作日分析

圖7 提交月份分析

圖8 提交周期分析

圖9 提交時段分析
從原文傳遞的分析結果可以看出大部分用戶關注腫瘤學、藥學、外科等領域資源及一些重點期刊,適當加強相應學科的資源建設將更好地滿足用戶需求。原文傳遞需求的學科分布將是加強針對性資源建設的參考,應定期向資源建設部反映館內發送申請的情況,以便圖書館在購買新增資源時參考。
從用戶需求特征看,期刊文獻的需求量最大,但會議論文、學位論文和叢書也有需求,可能以后還包括標準、專利、科技報告等其他類型文獻。從用戶對文獻語種的需求看,除英文外小語種文獻也占有一定比例。為滿足用戶需求的多樣化和個性化,建議文獻采集時盡量擴充文獻類型和語種。
原文傳遞的關鍵是找到用戶需要的文獻資源,這就意味著對文獻要進行全面的揭示和完善的查詢。目前圖書館中有少數館藏資源只保存紙質版,尚沒有進行數字化加工,難以實現統一揭示,尤其是一些珍貴的特藏文獻,目前只有紙版保存。因此建議盡量實現圖書館的數字化處理,有利于文獻的長久保存和有效利用。
根據用戶提交申請時間可以推斷出原文傳遞在每年的10月、11月達到高峰期,在每天的9-11點是一個高峰時段,可以根據分析結果預估工作量,做好工作安排,快捷高效地為用戶服務。
相對于館藏16 300余種電子期刊和4 500余種紙本期刊,原文傳遞文獻使用量相對較少。為使用戶能夠有效使用圖書館資源,應不斷進行原文傳遞服務的宣傳和推廣工作。可以采用發放宣傳手冊、舉辦講座、走進課堂或者以公眾號的方式進行宣傳,重點介紹圖書館館藏資源和原文傳遞的使用方法,為用戶提供參考。此外可以向注冊和潛在用戶發放調查問卷,收集相關需求,以便及時改進,更好地為用戶服務。
原文傳遞是數字時代傳統圖書館開展主動服務的一種表現形式。本文通過分析原文傳遞數據,描述用戶畫像特征,建立以用戶需求和滿意度為出發點的原文傳遞服務形式,根據用戶畫像中的需求調整館藏資源,注重文獻種類的多樣性,完善館藏資源揭示,根據用戶請求時間分布,更加合理地安排工作,加強宣傳推廣,最終提高用戶滿意度。