商慧蘭 周玨榕 李 晶 陶慧娟 于海燕
(同濟大學附屬楊浦醫院圖書館 上海 200090)
隨著數字圖書館理論與實踐的發展,醫院圖書館開始步入數字化時代。圖書館管理系統中書目數據、讀者流通借還數據、Web及圖書館平臺訪問記錄、資源使用數據等為實現數據挖掘技術在圖書館的應用提供基礎。流通數據的挖掘幫助圖書館更好地了解讀者閱讀的內容、習慣、興趣等行為特征[1-2],不僅能為館藏建設、資源配置提供參考依據,而且有助于了解個性化服務需求。在圖書管理系統、Web、數字平臺(鏡像)電子資源、數據庫資源智能分析環境中利用關聯分析、序列分析、聚類相關功能、聚類分析方法進行數據挖掘研究,從而指導圖書館文獻采訪決策和服務創新。
圖書館數據挖掘中應用最為廣泛的方法,屬于描述型模式,挖掘隱藏在數據間的相互關系[2-3]。在圖書館應用中可用來發現讀者閱覽、借閱行為中的規律,分析用戶的需求類型、識別用戶特點和興趣等[1-2]。
通過分析樣本特點,發現其規則和方法,在圖書館服務系統中可對點擊率、閱讀、檢索記錄數據進行采集并整理、排序,從中獲知用戶熱門閱讀文獻和圖書[3],分析讀者類別和屬性特征。關注數據檢索、下載、瀏覽頻次,按序排列統計,分析數據利用率等。
利用聚類相關功能挖掘數據的因果關聯,如數據庫歷史檢索中主題詞、關鍵詞的頻次等,可以了解醫院熱門研究方向,臨床疾病、診斷、治療技術的研究重點;掌握用戶資源需求,預測科研發展態勢。也可聚焦學科頻數,篩選出臨床優勢學科,從而為圖書館資源配置和個性化服務提供依據。
聚類的方法很多,有劃分、層次、核聚類以及基于網絡、數據庫的方法等。如層次方法,將數據劃分到不同組,盡量保持類層的同質性,將數據組成類分層結構。在圖書館應用中可以對用戶分別聚類,識別同類子群,提供同類資源配置與個性化服務。也可利用數據庫聚類分析功能,聚焦分類用戶、科室科研的數據集,分析專家學者、學科研究的發展態勢,預測未來趨勢,為決策提供參考依據。
為醫療、教學、科研提供信息服務是醫院圖書館基本職能,資源的結構具有醫院專業和學科特色。服務對象主要分為臨床醫療、醫技用戶;科研、教師(導師)用戶;行政管理用戶;規培學員、醫學院校學生、實習用戶和進修人員。每類用戶專業不同,又可細分為醫療、護理、藥學、檢驗、放射、超聲、管理等學科。醫學用戶的學科專業性非常強,各類人員對信息的需求差異很大,信息主要集中在專業領域緊密相關的生物醫學文獻上。因此醫院圖書館在資源構建、配置、使用習慣模式、用戶體驗、服務方式等既要兼顧到不同層次人員的需求,又要兼顧到醫院網絡環境、館址面積、功能布局、資源分布、采訪資金等。
醫院圖書館作為文獻情報中心,可通過多個渠道獲取用戶數據,如結構化的用戶流通借閱、預約數據。用戶登錄、資源使用中產生的記錄數據,如用戶基本信息、借閱歷史、訪問記錄、資源瀏覽、下載、拒絕數據;文獻檢索歷史記錄、條件檢索數據等。只有經過清理、統計、歸類、變換、集成的數據才可提供增值服務。
圖書館利用書目管理系統中的統計功能對用戶的流通借閱[1]、檢索、預約數據進行跟蹤統計[3]。通過分類聚類方法對收集的數據進行分析,了解用戶的閱讀傾向與需求[4]進行館藏配置和預測新一輪文獻采訪的重點。如近年來隨著圖書館數字化建設的推進,圖書流通借閱數據量呈逐年下降趨勢,同濟大學附屬楊浦醫院圖書館逐年調整紙版書刊的采購量,增加電子類書刊的采訪,不僅節省資金,而且極大豐富資源,將有限經費投入資源最大化。跟蹤用戶借閱習慣與周期,進行關聯分析,調整借閱規則,使制度符合用戶實際需求。根據閱覽室流通數據的用戶分層聚類分析并結合閱覽室規模,確立移動圖書館的建設方案,解決一院四區都具備使用圖書館資源的條件,同時確保有限空間用戶使用最優化。
圖書館一站檢索平臺實現資源數據集成。首先,圖書館對用戶檢索過程中產生的記錄數據進行捕捉、關聯、整理并按序排列,從中分析用戶關注較高的熱門檢索圖書及文獻需求,為后續圖書館的采選種類、數量決策提供依據[4]。其次,對數據庫的訪問量、檢索數據、期刊數據、檢索歷史等進行挖掘排序,可以發現用戶習慣,了解其關注的研究熱點和方向。聚焦IP站點數據分析站點需求、使用情況、培訓需求,為圖書館開展后續服務提供依據。數據庫流量、并發數、拒絕數據分析也為數據庫繼訂的內容、價格提供采訪依據。第三,為資源建設、信息服務提供方向[5]。如臨床指南檢索數據促使館員開展最新臨床指南的資源建設;專家專著發表數據促使圖書館開辟專家專著欄目;用戶咨詢數據(如核心期刊、影響因子、論文發表、培訓)等為平臺讀者指南服務內容和項目提供建設方向,相繼提供前沿信息導讀、信息編譯、最新到刊等服務。最后,歷年臨床訂閱文獻偏好數據歸類分析(如使用情況、數據庫收錄情況、出版商、資源分析)為圖書館采選數據庫提供決策方向。文獻傳遞服務數據(如電子書、文獻傳遞)拓展了解用戶需求的窗口,也為用戶信息數據的建立和應用奠定基礎。
圖書館作為知識信息服務中心和中轉站,對數據庫海量數據信息進行專業化加工處理和應用,對圖書館知識服務、創造、組織和存儲有十分重要的作用和意義。圖書館對搜集、檢索的用戶數據進行分析與處理正逐步成為各圖書館的工作重點。無論是現存信息的檢索,還是檢出信息的處理分析都促使圖書館在資源建設、管理、服務及發展模式的轉變。大數據已從根本上改變人們對以往數據的觀念,通過數據信息可以看到其潛在價值,建立一個整合、結構化的用戶數據倉庫并及時更新已迫在眉睫。因此現階段主要發現、挖掘數據并進行篩選和積累,建立用戶數據資源庫(包括用戶、使用、資源、檢索、科研學術數據等),加強結構性數據庫資源建設,為后續數據轉化、分析、增值及決策提供基礎保障。用戶基本信息按聚類可以了解不同層次用戶的信息需求,也為個性化服務提供依據。
最初會采用非結構化或半結構化數據挖掘,如同行、不同醫院、機構數據庫功能咨詢、評價;相似數據庫的功能、數據分析比較;同行使用反饋體驗等。醫院結構性數據挖掘分析,如數據庫的收錄范圍與醫院、學科發展方向、專家的偏好相關度;能否滿足不同層次用戶的需求(或滿足何層群體需求);用戶使用情況數據分析、習慣和體驗、標準檢索方法等。其次,界定采訪流量數據,流量數據決定數據庫價格。如中國知網拒絕數據分析,可以了解醫院并發數能否滿足用戶需求,指導續訂采訪決策。數據庫(鏡像)用戶信息數據與網絡數據用數據群組分類分析可以發現一院四區用戶數據庫的使用情況,預測未來提高數據庫利用率的切入點,提高采訪資源利用率和全面性。最后,評估采訪價格與合同約定,確立數據庫性價比。如萬方醫學數據庫價格數據指數可以估算采訪價格。邁特思創外文文獻檢索平臺文獻傳遞數據分析可界定限量數據的約定與分配。最大用戶流量數據及數據更新趨勢分析可為預測平臺服務器硬件更新升級時間和硬件配置要求提供依據。通過使用數據的趨勢分析可以了解用戶的習慣偏好和數據庫對用戶的影響力。總之,圖書館在基于用戶數據挖掘進行采訪時要將數據信息與用戶信息有序篩選、提煉、積累、轉化,才能指導文獻采訪的方向和重點[6],優化資源配置和資金分配。
圖書館除用戶信息數據外還具有其他數據,而通過多維度數據分析可實現以下目標:營造第二課堂,提升信息素養;保障文獻需求,推送前沿信息;輔助課題申報,防范學術不端;跟蹤學科動態,輔助科研決策;聚焦人才發展,參與人才評估。如整體科研實力檢索可預測醫院科研發展態勢;通過歷史檢索數據分析重點學科及熱門研究方向。序列分析科研成果高產作者和科室,篩選優勢學科。聚焦行業領軍人物,了解醫院科研前沿性,聚類分析研究熱點趨勢。還可跟蹤個體學者,挖掘其科研發展軌跡,評估其研究的相關性、領域的地位;分析學者科研成果的頂峰期、瓶頸期或衰退期,預測未來潛能等。圖書館則可根據多元化數據挖掘分析開展個性化服務(如前沿信息推送、相關領域最新文獻更新推送、優勢學科和熱點研究的資源采訪等),實現文獻采訪資源、資金向優勢學科、領先領域研究、熱門研究傾斜配置。
第一,醫院圖書館不同于高校圖書館,其資源有限,數據不夠完整,缺乏專業軟件。部分教授、碩博士可以通過校園網登錄使用大學資源,這部分數據圖書館無法采集。第二,目前數據挖掘限于管理軟件、圖書館平臺集成數據以及數據庫自帶的數據統計,缺乏整體集成和專業軟件支持,館員對數據的處理需要篩選、導出、整理、甄別、歸類、統計。數據挖掘方法主要采用常規(SPSS、EXL等)工具處理,數據準備費時耗力,不能進行更深層次挖掘利用來提升價值。第三,數據挖掘精確問題。源數據的準確性對數據挖掘分析有很大影響。系統數據來自不同平臺,數據的異構性以及沒有統一標準導致信息整合、利用困難重重。第四,館員和管理者對推進圖書館數字化建設認識不足,對醫院圖書館定位及功能服務停滯在傳統的非數字化時代,缺乏數字化意識。第五,圖書館在醫院屬行政輔助科室,研究項目少,資金缺乏,人才引進與培訓缺乏保障,如果不能順利解決存在于用戶需求、管理決策和圖書館之間的矛盾必將制約圖書館在大數據時代的發展。
第一,加強館員及管理者對大數據的認識,信息資源整合是推進數據挖掘利用的首要問題。圖書館作為醫院文獻信息匯集地,要重視與領導溝通,為臨床醫教研發揮信息樞紐作用,爭取領導最大支持。第二,展示信息成果,擴大影響力。建設信息共享平臺,形成特色館藏,推動檔案館、圖書館、院史館的融合發展[7]。第三,培養復合型專業人才。人才是推進資源價值升級的關鍵,數據挖掘技術門檻較高,館員不但需要有計算機、信息、圖書文檔、檔案管理知識,還必須具有良好的統計學、外文基礎,熟悉數據挖掘技術與工具;而醫院圖書館專業性強,又需要館員最好具有醫學背景,對抓取信息有較強的專業敏感度。加強專業化人才隊伍建設,既要領導重視,又要館員努力,通過招聘、送修、培訓、外聘兼職專家顧問、對接臨床專業館員等方式,提高館員技術、能力和專業性。第四,推進智慧圖書館一體化建設。即集智慧管理、大數據分析決策、智能采選、數據應用和智慧辦公于一體。建立大學與附屬醫院聯盟,共享數據庫資源,資源互補、完善數據。第五,匯集不同數據源優勢與數據商協調解決方案。與數據集成商協作改良、開發有針對性的數據挖掘工具包,嵌入圖書館服務平臺,智能抓取、集成分析,注重智慧圖書館集成建設方案和數據挖掘工具的開發,即專業軟件開發。第六,促進行業標準的建立。建立統一的數據挖掘標準或模型,探索數據倉庫的內涵、范圍及評價體系指標。
數據挖掘是提取隱含在數據中的規律,為醫院圖書館文獻采訪決策工作提供潛在、有價值的信息指導。通過數據的挖掘、篩選、分析可以發現和獲取用戶需求,指導采訪資源和資金分配。多維度用戶數據挖掘為圖書館創新服務提供更加廣闊的想象空間,創新服務模式,預測服務方向;提高文獻采訪的精確性,提供精準化的個性服務。圖書館應結合本館結構、特色、資源、人力等情況,合理分配有限資源、資金,在實踐中不斷完善用戶數據的挖掘、構建,為開拓更廣泛的讀者服務領域提供技術支撐和決策指導。