吳亞平 李曉東 艾春艷
用戶需求是圖書館一切工作的出發點和歸宿,大學圖書館必須要了解用戶所在,通過多種方式全面準確地了解用戶需求[1]。圖書館的資源建設和服務存在規律,應努力通過大數據技術等新興技術手段,發現更多的隱藏在圖書館日常工作中的規律,在規律的指引下,開拓更多的甚而來不及命名的原創型服務[2]。美國國會圖書館在其《2022-2026數字館藏戰略評論》(DigitalCollectionsStrategyOverview2022-2026)中也明確強調要通過研究用戶行為來拓寬、深化數字館藏的利用[3]。深入了解用戶需求已成為共識,筆者以北京大學圖書館為例,剖析、分析在電子資源發現環境中積累多年的用戶行為數據,并基于用戶特征和需求提出用戶服務優化建議。
發現系統的內容集成、結果優化、統一發現等方面的優勢在逐漸加強,服務場景也在不斷拓寬,如嵌入到學習管理平臺[4],嵌入到數字教參系統[5],用戶使用量穩步上升,用戶行為數據規模不斷擴大,對其進行分析利用的重要性更為凸顯。發現系統用戶行為研究是伴隨發現系統出現、發展的核心議題,國內外學者已關注到不同類型資源在發現系統中的用戶使用差異[6]、不同終端界面的用戶行為差異[7]等多方面的問題。其中,用戶檢索行為分析是一個重要的方面,如搭建搜索日志中間平臺[8]或嵌入Google Analytics[9]等網頁分析插件收集用戶的搜索日志,對用戶搜索行為進行各有側重的分析[10],基于用戶基本信息、訪問行為、搜索行為等數據,通過智能計算,挖掘出用戶的興趣度[11]等。值得關注的是,當前圍繞發現系統的定量研究偏少[12],也有學者提出,發現系統本身積累多年的大量用戶行為數據,能夠反映電子資源的發現、使用效果,支持對不同的數據資源進行橫向比較等,是可用、可對比的比較理想的分析數據源,并呼吁對其加大分析利用[13]。一項70所高校圖書館對“發現系統需要擴展哪些功能”的意見反饋顯示,最受歡迎的功能包括可發現統計分析、可視化分析、熱點研究,此外,獲取全文數、分面點擊數、按數據庫商統計等方面的統計需求也很高[14]。這表明,圖書館越來越重視且越來越需要通過發現系統多年積累的用戶數據來探究用戶行為特征、用戶關注的熱點、資源的發現情況等,而對于期待發現系統擴展的統計功能,其中部分功能已具備,如獲取全文數、分面點擊數、按數據庫提供商統計等,這體現出圖書館員對發現系統統計功能的了解不夠深入,或者尚未對相關統計數據進行摸排和分析利用。因此,對已有的發現系統統計分析功能、統計數據進行梳理、分析,為優化服務提供有益參考,具有一定必要性和可行性。
資源發現系統的用戶行為反映用戶利用發現系統工具的活動方式和偏好習慣,本文討論的發現系統工具主要包含北京大學圖書館的“未名學術搜索”和電子期刊/圖書導航。文中的電子資源主要指發現系統工具支持發現的電子圖書和電子期刊,并將用戶通過發現系統工具獲取的全文資源量記為電子資源平臺的發現量。電子資源平臺對應發現系統中的Provider概念,即提供支持發現元數據的供應商對應的所有電子資源。對用戶行為特征的分析,首先掃描用戶發現和利用電子資源全文的環境,梳理從不同渠道獲取電子資源全文的路徑及相應產生的、可獲取的用戶行為數據;其次從數據完整性、可靠性、可比性、數據對應行為的典型性等方面對數據集進行評估,選取分析數據集,通過統計分析、聚類分析等方法[15],得到用戶訪問、檢索、興趣演化、熱門發現電子資源平臺、用戶訪問不同電子資源平臺的渠道偏好等行為特征;最后基于結論提出用戶服務、資源揭示、數據追蹤等方面的優化建議。
北京大學圖書館自2011年引進Summon以來[16],逐漸形成了以“未名學術搜索”學術資源發現門戶、360core電子期刊/圖書列表、360link全文鏈接服務以及Journal Linker原文查找工具為核心的電子資源發現與獲取環境。電子資源全文發現與獲取包含7種行為路徑,可歸納為通過進入電子資源平臺查找并獲取全文、通過在發現系統檢索并點擊檢索結果獲取全文、通過其他基于360link鏈接服務器構造OpenURL獲取全文、通過電子期刊/圖書導航檢索查詢到達資源詳情頁獲取全文四大類別,相應產生的、可獲取的行為數據標注詳見圖1。

圖1 電子資源全文發現與獲取路徑與行為數據(目前可獲取數據相應字體已加粗)
通過梳理發現,以上數據目前還難以全面反映用戶的發現行為,表現為:部分用戶獲取全文行為數據暫缺,如在“未名學術搜索”的搜索結果頁面通過直接鏈接獲取全文的量等;數據粒度未完全統一,如在電子期刊/圖書導航中支持按期刊來統計發現量,但“未名學術搜索”卻無法按期刊來統計發現量。
雖然當前數據集存在以上不足,但仍然有積累多年的、高質量的、支持橫縱向比對的、不可忽視的數據集,包含了用戶依托發現系統工具檢索、發現電子資源行為的多個重要方面。可歸納為:(1)檢索行為數據,即“未名學術搜索”和電子期刊/圖書導航中的訪問、檢索方式、熱門檢索詞等數據;(2)電子資源平臺的發現數據,即按同一供應商統計在“未名學術搜索”和電子期刊/圖書導航檢索結果中的點擊量;(3)數據庫導航訪問數據,即數據庫導航中不同電子資源平臺的瀏覽量;(4)使用量統計數據,包括Counter報告中的電子期刊/圖書檢索量、下載量等電子資源利用量。下文詳細展現基于以上數據的分析過程、結論。
“未名學術搜索”中的用戶檢索行為包括基于統一搜索框的基本檢索和在檢索結果基礎上進行的分面檢索,2017-2021年(以下簡稱近五年),用戶檢索資源的頻率在波動上升(2020年受疫情及短期停課等影響,數據有所減少),每個基本檢索、分面檢索會話中用戶的檢索量在上升,2021年分別達到2.92、4.51,詳見圖2,這表明用戶逐漸熟練使用檢索工具,能夠頻繁切換和應用檢索詞,使用深度在增強。近五年分面檢索量/基本檢索量的比例均值為26%,即1次基本檢索有0.26的幾率繼續使用1次分面檢索,分面檢索類型按使用量降序排列依次為Subject Terms(主題詞)、Discipline(學科)、Content Type(內容類型)、Library(館址)、Language(語言)、Is Full Text(是否有全文)、Is Open Access(是否開放獲取)等,其中Subject Terms(主題詞)分面占到了八成以上(83%),可見主題是用戶檢索資源的重要維度。
用戶在一年中有兩個使用高峰期,不同檢索類型具有基本一致的走勢,詳見圖3。整體來看,春季學期開始和秋季學期末是用戶檢索的高峰期,這與相關研究中通過嵌入網站分析工具Google Analytics得到的用戶訪問趨勢基本一致[17]。

圖2 2017-2021年基本檢索與分面檢索走勢
用戶逐漸將電子期刊/圖書導航作為一種相關資源的檢索入口。2012-2021年(以下簡稱近十年)中,自2011年Summon系統在圖書館啟用后,起初用戶使用呈快速增長趨勢,2013年達到巔峰,而后有部分回落并逐漸趨于平穩,2019年后整體呈穩步緩慢增長趨勢。用戶行為類型可細分為瀏覽行為(按學科瀏覽,按A-Z瀏覽)、精確檢索行為(標題等于、ISSN等于)、模糊檢索行為(標題開頭等于、標題包含),其中模糊檢索行為占比最多且呈上升趨勢,瀏覽行為次之,且在緩慢下降,精確檢索行為最少,趨勢較為平穩。可見,用戶有模糊需求且進行模糊檢索的行為在增多,尤其是“標題包含”的檢索;泛化瀏覽的行為有所下降;用戶有明確、細化的需求,且進行精確檢索的行為在降低,詳見圖4。

圖4 2012-2021年不同瀏覽類型使用量走勢
檢索詞是用戶檢索學術資源需求的表達,熱門檢索詞是用戶當下資源需求和興趣的集中體現。“未名學術搜索”記錄每月前500個熱門檢索詞,2017-2021年共有29980個熱門檢索詞,其中中文檢索詞占比77%,高級檢索式占比4%。從熱門檢索詞中挖掘焦點詞,即前期不是熱門檢索詞但在當期出現為熱門檢索詞并在后期保持一定檢索熱度的詞,可以看出用戶關注點和信息需求的變化。焦點詞需要比較檢索詞在歷史周期、當前及未來周期的熱度情況,筆者將焦點詞定義為在[前6個月-當前月]的歷史周期內不是熱門檢索詞,但[當前月-后2個月]均為熱門檢索詞,且[當前月-后2個月]每月的檢索次數均大于平均水平(即36次),得到71個焦點詞,詳見表1。

表1 2017-2021年熱門檢索詞中的焦點詞
可見,焦點詞涉及多個學科的研究主題、經典著作、作者等多個維度,體現出用戶周期性的、結合突發事件及時事熱點產生的信息需求。如在2018、2021年分別發布了2017、2020年版《中文核心期刊要目總覽》,“中文核心期刊要目”“北大核心期刊”等詞成為了相應年度的焦點詞,體現出用戶周期性的關注度,類似地在集中撰寫論文的春季學期,“學位論文”“查重”等焦點詞也隨即出現。在突發事件及時事熱點下,用戶突增的資源需求也得以體現,如2020年1-2月持續出現的“新型冠狀病毒”“Covid-19”“新冠肺炎”等焦點詞,反映出了抗擊新冠肺炎疫情初期,用戶對此主題的資源需求大幅提升,以上印證了“未名學術搜索”作為學術資源發現的門戶,是用戶搜索相關資源的重要入口。
“未名學術搜索”和電子期刊/圖書導航是用戶發現電子資源全文的兩個核心渠道,兩個渠道中以不同的電子資源平臺為單位統計的2021年電子資源發現量分布均呈長尾特征(見圖5,橫軸為電子資源平臺,縱軸為電子資源發現量)。

圖5 “未名學術搜索”(左)、電子期刊/圖書導航(右)中電子資源平臺發現量的長尾分布
以下分別列出2021年“未名學術搜索”、電子期刊/圖書導航中的熱門發現電子資源平臺(即發現量總和占總量80%的頭部熱門電子資源平臺)并分析其主要影響因素。
用戶通過“未名學術搜索”可發現館藏數據、電子圖書全文、電子期刊文章全文等多種資源類型。2021年,“未名學術搜索”中的館藏目錄、機構知識庫或一些特有資源如燕京大學學位論文等資源占總發現量的28%,對剩余的電子資源平臺結合二八定律測算出熱門電子資源平臺,根據熱度由高到低排序為:維普、萬方、Elsevier、ProQuest、方正、Wiley、Springer Nature、JSTOR、EBSCOhost、知網、Taylor & Francis、SAGE、DOAJ。電子資源平臺在“未名學術搜索”的發現熱度與三方面的因素直接相關:一是在Summon知識庫中所包含的該電子資源平臺的電子期刊文章/電子圖書全文的數量,即Summon的中央索引中心(Central Discovery Index, CDI)中擁有該平臺電子資源元數據的數量;二是圖書館的電子資源在發現系統后臺知識庫的配置情況,是否將可訪問的電子資源全部配置完成;三是該電子資源平臺在同一檢索結果下的全文鏈接類型和呈現優先順序設置,如同一資源的鏈接類型選擇順序為直接鏈接、OpenURL鏈接,同一鏈接類型下則選擇排序優先級更高的電子資源平臺。
用戶通過電子期刊/圖書導航主要來訪問電子圖書全文和期刊主頁進而獲取文章全文,2021年電子期刊/圖書導航中的熱門發現電子資源平臺根據熱度由高到低排序為:萬方、EBSCOhost、知網、方正、Elsevier、Springer Nature、超星、ProQuest、Wiley、JSTOR、DOAJ、CUP、Ovid,與2021年“未名學術搜索”中的熱門發現電子資源平臺有部分一致性。類似地,電子資源平臺在導航中的發現熱度差異與以下三個因素直接相關:一是電子資源平臺支持發現的電子期刊/圖書數量;二是圖書館在發現系統后臺知識庫的電子資源配置情況,是否將可訪問的電子資源全部配置完成;三是同一檢索結果下不同電子資源平臺的鏈接呈現優先順序設置,這一定程度上引導用戶以更大的概率使用排序優先級更高的電子資源平臺。此外,學科熱度、研究主題熱度、用戶習慣等差異也很關鍵。
用戶訪問電子資源有多個渠道,通過發現系統工具(“未名學術搜索”、電子期刊/圖書導航)、通過導航工具(數據庫導航)、直接進入電子資源平臺是三個主要的全文獲取渠道。為探究不同類型電子資源平臺的用戶訪問渠道偏好,綜合分析評估電子資源使用情況,以“未名學術搜索”發現量、電子期刊/圖書導航發現量、數據庫導航瀏覽量、電子資源平臺檢索量、電子資源平臺下載量為指標,通過lg變換、歸一化后,基于k-means方法[18]對2021年數據較為完整的31個電子資源平臺進行聚類分析,得到聚類結果如圖6所示。對每項指標數值的高低水平采用四分位數(Quartile)來衡量,即把所有數值由小到大排列并分成四等份,處于三個分割點位置的數值即四分位數,將數值>=Q3的記為高等水平,數值[Q2,Q3)的記為中等水平,數值 圖6 電子資源平臺聚類結果 表2顯示了用戶通過不同渠道訪問不同電子資源平臺的差異及電子資源下載量,類別一中的電子資源平臺各訪問渠道整體均較為通暢,下載量較高,說明讀者訪問和利用電子資源的情況較好,其中萬方、Elsevier的各個訪問渠道都比較通暢,下載量高。類別二中的電子資源平臺各類訪問渠道通暢程度和全文下載量整體處于中等水平,其中用戶更多依賴數據庫導航訪問CUP平臺資源,而對于TWS則更多選擇直接進入平臺查找資源。類別三中的電子資源平臺各類訪問渠道通暢程度和全文下載量整體處于較低水平,其中用戶更多選擇直接進入Kluwer Law International平臺查找資源,而對于Annual Reviews、AIAA等更多依賴數據庫導航來訪問資源。值得關注的是,類別一中的大多為綜合數據庫,資源整體規模較大,類別二、類別三中的專業數據庫占比較多,用戶相對來講從發現系統獲取全文的比例較低,后續需結合資源規模和不同學科用戶的使用習慣差異進行更有針對性的案例分析。 用戶需求是圖書館優化服務的指南針,結合用戶在以發現系統工具為主要依托的電子資源利用環境中的行為特征和已有學者的研究結論,提出以下用戶服務優化方案。 從時間和對象上看,春季學期開始和秋季學期末是用戶檢索、發現、利用資源的高峰期,同時研究也發現,發現工具最好介紹給大學一年級的學生使用[19],即對于低年級的大學生,發現系統可減少他們的認知負擔,減緩其查找資源的學習曲線,以一種廣泛搜索的方式作為他們的研究起點,相較而言,高年級學生或者圖書館員則更偏向于將發現系統作為次要選擇的研究工具,因此每年的新生入學季無疑是開展培訓講座的又一個最佳時期,能夠最大概率匹配用戶需求,獲得更多關注度。也有研究發現圖書館員和學生的使用率較高,而教師的使用率則低得多[20],這也啟發圖書館需關注使用率低的用戶群體,通過用戶訪談等調研方式,深入了解低頻用戶背后的原因和信息需求,改善其使用情況。 從內容和形式上看,一方面在相關講座內容的設置上,要避免偏重電子資源平臺的界面和使用方法介紹,應認識到教授的內容不應只局限于如何使用界面,更多的精力應放在培養用戶的批判性思維和選擇優質資源的能力方面。另一方面,用戶在電子期刊/圖書導航中的模糊檢索行為占比最多且呈上升趨勢,逐漸將其作為一種相關資源發現的入口,因此還需加強檢索策略的培訓,幫助用戶就某一檢索主題優化檢索詞和檢索策略等,以便更好地匹配到資源。 用戶訪問電子資源平臺的渠道包括通過發現系統工具、通過導航工具、直接登錄平臺三種,明確用戶訪問各電子資源平臺的渠道偏好差異,可幫助圖書館及時發現和明確原因,以暢通用戶訪問渠道,提升電子資源的利用率。如對發現系統工具訪問渠道不通暢的電子資源平臺及時排查電子資源配置的情況,對熱門發現電子資源平臺增加電子資源配置的更新頻率等。同時還需注意結合電子資源規模、學科特征等進行更有針對性的案例分析,在改善現有訪問渠道的基礎上,針對相應的目標用戶開展重點調研,明確其電子資源利用習慣,增加定向郵件推送等多渠道訪問方式,提升資源的顯示度與利用率。 發現系統能體現用戶周期性的、突發性的、結合時事熱點產生的資源需求。相比傳統的用戶調研等方法,發現系統提供了一種更經濟、有效的捕捉用戶需求的方式,即通過焦點詞透視、追蹤用戶當前的信息需求,基于用戶需求,提供多樣化的主動服務,如圍繞焦點詞聚合相關資源,開展專題資源揭示與推薦服務,提升資源推薦與用戶需求的匹配度和有效性;圍繞焦點詞遴選優質資源,開展專家領讀、精讀等閱讀推廣服務等。 發現系統工具中多年積累的用戶行為數據,能夠體現出用戶發現、利用電子資源的行為特征的重要方面,對用戶服務的優化有實際參考、指導意義。但受限于當前數據仍無法全面呈現用戶使用發現系統的所有行為,以及電子資源平臺的發現行為數據與其他數據整合力度不夠,本研究仍存在不足,如在對電子資源平臺進行聚類分析時,只考慮了電子資源平臺總體資源的數據指標,以致于資源規模較大的電子資源平臺整體表現較好,未來還需結合電子資源平臺的資源量,基于更合理的篇均指標、不同學科的用戶使用偏好差異等進行分析,以增強研究結論對業務工作的指導意義。 未來,首先需要認識到完善用戶行為數據的追蹤、記錄方案是用戶行為研究的基石,圖書館需協同發現系統技術支持共同制定可行的數據追蹤方案、數據質量控制規范、同一指標下不同統計標準數據的整合利用等,還可集成Google Analytics等網頁分析工具記錄用戶網頁訪問數據,與發現平臺的數據互為補充。其次要加強發現數據與用戶身份數據、資源數據、利用數據等的關聯,加強運用調研法、訪談法、行為追蹤法等多種用戶行為研究方法,針對重點用戶群體展開深入研究。最后對分析結論的探討和應用也需進一步深入,如結合資源規模、學科特征等開展針對性案例分析等,以產生更大的數據效益、增強基于數據優化工作及服務的能力。

4 研究結論與建議
4.1 把握用戶使用高峰期,瞄準、擴大核心用戶群體,優化信息素養教育方案、提升信息素養教育效率
4.2 明確用戶訪問資源的渠道特征,優化資源配置方案,提升資源的可發現性、可獲取性
4.3 及時把握用戶信息資源需求,聚合相關資源,開展專題資源推薦服務
5 總結