李 沛
(中國藥科大學圖書與信息中心 江蘇南京 211198)
大數據是由英文“Big Data”翻譯而來,大數據是一種海量資料、多樣化的非結構化數據信息,并與數據倉儲、數據挖掘、數據分析、云計算及人工智能等主題密切相關。2014年,大數據首次寫入政府工作報告,這一年也成為實際意義上的“中國大數據元年”。自此,中國大數據產業(yè)蓬勃發(fā)展。在接下來的3年中,大數據都作為重要角色出現在政府工作報告中。在2018年3月5日第十三屆全國人民代表大會第一次會議上,大數據第5次進入政府工作報告,足以看出大數據對于我國未來新經濟發(fā)展的重要作用。
高校圖書館作為高校新信息技術的研究和實踐重地之一,大數據不可避免地將會對高校圖書館產生一定的影響和沖擊。如何利用大數據技術提升服務能力,是高校圖書館在大數據時代面臨的挑戰(zhàn)。2017年9月,中國藥科大學進入“一流學科建設高?!泵麊?,自此中國藥科大學的學科建設進入了新的發(fā)展階段。在此雙重背景下,作為全校學科服務、教學支撐、信息儲存部門的圖書館就必然要與時俱進,提供與之相匹配的大數據服務。中國藥科大學圖書館與信息化技術中心于2016年3月7日整合后,成立了圖書與信息中心[1],開啟了信息化與圖書館相結合的服務模式,信息化技術中心帶來了大數據獲取、儲存和分析等技術,從而給圖書館利用大數據實現服務能力的提升帶來契機。
傳統(tǒng)數據環(huán)境下,高校圖書館的業(yè)務和服務重點局限在資源本身,例如信息的獲取、分類、儲存與使用。大數據環(huán)境下,大數據的應用改變了傳統(tǒng)的以計算機應用為主的數據存儲和利用方式,高校圖書館作為全校的信息儲存以及提供信息的資源中心,勢必將受到大數據的沖擊。在這種環(huán)境下,讀者不僅要求圖書館在機構知識庫、書目資源庫、語義化信息等方面實現數字化的應用,還希望圖書館能夠依靠大量的非結構化數據和半結構化數據,如讀者行為數據,快速、準確地感知讀者的信息需求,并將這些大數據轉化為具體服務[2]。因此,圖書館的業(yè)務服務應擴展到大數據分析、處理領域,通過大數據的某些關鍵技術對體量巨大的復雜數據進行可視化分析,給讀者提供有利用價值和決策參考價值的信息服務。同時借助大數據技術來進行戰(zhàn)略性創(chuàng)新服務,緊跟科技發(fā)展的步伐,為圖書館儲存分析數據、整合資源、提供個性化服務、提升服務能力提供先進的技術支持和全新的思路方案,以滿足讀者不斷變化的需求,從而更好地為本校師生的教學和科研服務。
中國藥科大學圖書與信息中心(下文簡稱“我中心”)自整合后,一直在不斷地探索與磨合中前進,尋找大數據時代圖書館服務與信息中心技術更好契合的方法。
大數據獲取、存儲、分析和決策是連貫有序的一系列業(yè)務流程,需要各部門之間的積極配合。然而在傳統(tǒng)數據下構建的部門,不存在大數據服務的職能,存在一定的服務盲區(qū)。以我中心為例,大數據對服務的影響是方方面面的:網絡信息、讀者服務、資源建設、教學科研、行政管理等,進而也滲透到了相關的服務部門。但是在前期的部門設置中存在大數據方面職能交叉和職能模糊的現象,影響部門之間大數據業(yè)務緊密對接的工作流程,牽制了大數據工作的開展。
我中心合并運行半年之后,中心領導班子前期做了大量的考察、研討等工作,對中心機構進行了調整和重組,依據工作的性質與特點,重新設置了部門[1]。各重組部門分別應負責的主要領域為:網絡運營部、信息應用部對接網絡信息服務;資源建設部對接資源建設服務;讀者服務部對接讀者服務;參考咨詢部對接教學科研服務;辦公室對接行政管理服務。這樣各職能部門明確相應的責任,樹立全館觀念,打破部門間的“信息孤島”,整體聯動將各部門工作成果無縫對接,有助于大數據獲取、存儲、分析、決策等業(yè)務順利流暢地進行,達到實時高效的運轉。
隨著信息網絡技術的發(fā)展,在長期服務讀者的過程中,圖書館積累了大量珍貴的數據,如資源數據、讀者行為數據、業(yè)務系統(tǒng)數據等(如圖1所示),包括傳統(tǒng)的刷卡設備、自動借還書機等自動化設備完成的讀者入館情況、借閱信息等數據,讀者瀏覽下載電子資源產生的數據庫使用痕跡、查詢館藏書目產生的檢索日志、網上預約借閱圖書產生的讀者偏好數據等;館員與讀者在網絡互動留下的社交數據痕跡[3]。這些結構化和非結構化數據是構建大數據獲取平臺的數據基礎。

圖1 高校圖書館大數據處理流程
在傳統(tǒng)數據平臺基礎上,我中心于2017年9月成功啟用RFID(Radio Frequency Identification)圖書管理系統(tǒng),是江蘇省首個將RFID技術全面應用于圖書管理的高校圖書館,使圖書數據管理更加規(guī)范精準;又于2017年完成全校師生統(tǒng)一身份認證,實現全校師生使用一個賬號、密碼,一次登陸訪問校內所有已集成的信息系統(tǒng),如圖書管理系統(tǒng)、人事系統(tǒng)、學校教務系統(tǒng)、科研管理系統(tǒng)、財務系統(tǒng)、醫(yī)療管理系統(tǒng)、郵件系統(tǒng)、校園卡系統(tǒng)等,采集全校師生信息化服務大數據;實現校園卡與校內所有管理系統(tǒng)對接,并新建多種方式的自助服務系統(tǒng);上新人臉識別設備,采集識別大量人臉圖像相關的數據;完成大數據建設一期項目學生畫像系統(tǒng),為優(yōu)化學生管理工作提供數據支持[1]。大數據的獲取過程應該收集全樣本數據而非少量的采樣數據,容許誤差數據。以上舉措都是圖書館大數據獲取平臺的進一步拓展,不僅可以收集到館內的大數據,乃至學校大范圍的數據都可以得到,從而優(yōu)化了圖書館的大數據獲取環(huán)境,使得圖書館應用大數據提升服務能力具有現實可行性。
高校圖書館大數據獲取平臺的搭建只是大數據應用于圖書館服務的第一步,更重要的是對大數據進行挖掘、儲存和分析,進而提煉出有意義的數據,產生正確決策,才能將數據轉化為價值。高校圖書館應利用基于Hadoop技術的“大數據挖掘存儲平臺”,該平臺通過數據采集、數據清洗和數據整合,在不同業(yè)務數據群之間構建數據共享池、標準化數據接口以及分布式數據流式的Hadoop存儲,實現由數據獲取平臺中抽取數據到Hadoop平臺進行數據分析。Hadoop系統(tǒng)中數據存儲的技術組件主要為HDFS、Hive以及Hbase。結構化數據可以以表格的格式存儲在Hive中,或者轉換為Key-value的方式存儲到Hbase中,還可以以文件的方式存儲到HDFS中。對于非結構化數據,以目錄和文件的組織方式存儲到HDFS中[4]。從而實現圖書館系統(tǒng)內部的結構化及非結構化數據的存儲、交換和推送,為多維度的大數據分析提供基礎保障[5]。“大數據分析平臺”利用虛擬化云平臺完成,對完成規(guī)約化處理的標準數據通過聚類、分析、建模、抽取、遞歸、優(yōu)化,通過離線批量計算及實時流式計算方式完成數據的處理,并結合具體的圖書館業(yè)務工作需要,將價值數據以動態(tài)、直觀、可視化的形式展現給決策者,為圖書館各項業(yè)務工作提供決策數據支撐和評估建議。
強大的計算平臺需要專業(yè)的數據處理技術人才來進行分析算法設計。我中心的重組帶來了相關的專業(yè)數據處理人才和技術,應用機器學習算法、R語言、Lambda架構、Kappa架構、Kylin、Aluxio、Map Reduce、Parameter Server等專業(yè)知識,將大數據資源進行有效的整合和分析,從而制定圖書館大數據服務決策。具備大數據處理硬件的基礎,以及相關技術人才的不斷學習和培養(yǎng),才能實現大數據處理技術和服務的可持續(xù)發(fā)展和良性運作。
大數據在驅動高校圖書館服務創(chuàng)新中發(fā)揮催化劑的作用,為高校圖書館的創(chuàng)新性服務帶來前所未有的機遇。利用大數據的特點,啟動“大數據+”模式,加入人工智能、移動服務、微服務、高校聯盟、學科服務等熱元素,開拓大數據環(huán)境下高校圖書館服務新局面。
2017年政府工作報告首次寫入人工智能。人工智能離不開大數據,基于大數據理論的相關技術對現代人工智能技術的演進進程起到了重要的助推作用。中國科學院院士、大數據算法與分析技術國家工程實驗室主任徐宗本認為“人工智能的核心就是大數據技術”。
大數據技術加速了人工智能的發(fā)展,大數據采集完善智能感知、大數據處理加速智能認知、大數據處理助力智能展示等科學技術,為多領域技術的全面進步帶來了很多機遇,也使高校圖書館應用大數據助力人工智能得到了基礎技術的支撐[6]。
我中心在建立和完善大數據服務的基礎上,在人工智能以下幾個方面加大研究:(1)探究基于大數據的人工智能在圖書館乃至高校綜合管理服務中的作用。圖書館應堅持以數據驅動為基礎,借助不斷發(fā)展的人工智能技術,在智能信息素養(yǎng)教育、智能語音搜索服務、智能資源管理服務、智能讀者管理服務、智能圖書館環(huán)境控制等多方面進行探索;此外在獲取全校數據的基礎上,開展關聯數據、數據挖掘及分析,將范圍進一步擴大到全校,探究高校人工智能綜合管理服務的新機遇。(2)探究基于大數據的人工智能個性信息推送服務。圖書館通過數據采集技術獲得讀者信息,利用人工智能分析出不同讀者的喜好,從而有針對性地為讀者進行實時個性推送服務,引發(fā)讀者興趣后,按照由一個知識點發(fā)散為多個相關知識點的擴展推送方式為讀者帶來全方位的知識內容,從而推動高校圖書館的閱讀推廣活動。
高校圖書館在構建大數據服務體系過程中,基于“大數據+微服務”的服務模式也是加快創(chuàng)新服務的重要方面。微服務并不僅指微信服務,而是構建“微小”的個性化服務模塊來服務于讀者的模式。
我中心的信息系統(tǒng)很多,包括出入口門禁、匯文系統(tǒng)、電子閱覽、流量監(jiān)控、自助系統(tǒng)等,所對應的各系統(tǒng)的數據庫資源也很豐富,可將與讀者行為相關的匯文、出入口門禁、視頻流量的數據資源進行篩選并深入分析,從而提供相應的個性化微服務,提供給讀者更加豐富的個性化選擇。例如,對于匯文系統(tǒng)數據,提取其中與借閱流通相關的數據信息,統(tǒng)計書籍借閱排名和讀者借閱排名,通過館內大屏展示或微信公眾號定期發(fā)送,從而為讀者提供借閱參考;通過借閱書籍排名數據,改進圖書館紙質資源采購比重;對于流量監(jiān)控數據,通過篩選統(tǒng)計各個閱覽室的當前滯留人數,再結合閱覽室的座位數總量,通過館內大屏實時播放,為入館讀者提供各閱覽室的座位占用情況,提高閱覽室座位使用率;對于門禁數據,可以提取當日的入館人次和累計進館人次數據,統(tǒng)計出讀者不同時間使用圖書館的頻率,便于圖書館制定相應的服務決策[7]。目前,中心還在不斷摸索和改進,將通過“大數據+微服務”模式向讀者提供更加豐富的個性化服務。
當代信息傳播的形式越來越豐富,人們已經將獲取信息的工具從電腦、電視等固定電子設備轉移到移動通訊工具。通過移動終端,讀者可以不受時間、地點的限制,更快速、更便捷地提取信息。高校圖書館應當順應潮流,抓住信息移動化的服務模式,利用新的技術手段將圖書館的信息服務轉移到手機等各種移動終端上,建立移動端大數據平臺,助力精準推送信息服務。
我中心創(chuàng)辦了兩個微信公眾號:圖書館、圖書與信息中心。這兩個微信公眾號在中心工作人員的維護下都非?;钴S,除去發(fā)布各類通知公告、中心新聞動態(tài)、學術動態(tài)外,微信界面下方的微信菜單還根據中心特色及目前開發(fā)能力,主要提供一些常用的功能與服務,使讀者通過捆綁校園卡號就可以實現館藏查詢、借閱服務、信息檢索、預約圖書等服務,方便讀者的同時構建了移動端的大數據獲取平臺。另外,我中心開展的“一小時講座”也通過以上兩個微信公眾號進行宣傳和推廣,并利用易企秀對每場講座進行在線預約,通過對預約人員數據的分析得到讀者對于講座的興趣偏向,從而改善講座內容場次結構,提升講座效果,這是圖書館對于“大數據+移動服務”的一次成功嘗試[8]。挖掘分析移動端平臺大數據,可以得到讀者對圖書館服務的認可方面以及改進的意見,為精準推送信息的個性化服務打好基礎。
一般情況下,一所高校圖書館的數據信息量可能只有TB級,但擴展到高校圖書館聯盟,則有可能接近PB級,而且隨著云儲存的發(fā)展,這個信息量一直在擴大[9]。所以外部各兄弟高校的整合無疑有助于高校圖書館及圖書館聯盟提升服務品質。多方合作,全面學習,才能打破技術屏蔽,共同進步與前行。當然,大數據最重要的不是數據大,而是在于數據共享、交叉復用以及挖掘數據之間的內在關聯性,這樣才能發(fā)揮數據的最大價值,進而推動圖書館聯盟改進大數據服務模式,拓展圖書館創(chuàng)新性服務。
地域相鄰的中國藥科大學與南京醫(yī)科大學于2017年12月舉行了戰(zhàn)略合作協(xié)議簽約儀式。兩校在教育教學、科技平臺、隊伍建設、圖書資料、信息庫等方面建立資源共享機制,開啟了信息數據共享聯盟模式。我中心得以獲得醫(yī)藥結合為特點、范圍更廣泛、層次更深入的大數據獲取平臺,以及挖掘數據內在關聯性的機會,從而為中心大數據的技術發(fā)展再添勁風[10]。
中國藥科大學是一所專業(yè)特色鮮明的大學,于2017年9月入選“一流學科建設高?!?,中藥學為其“雙一流”建設學科,為使更多特色學科爭創(chuàng)一流學科,要制定提高研究型大學學術水平的相應決策。在國際重要學術期刊上發(fā)表科研論文的情況是衡量一所研究型大學學術水平的重要指標之一。我中心徐春等館員利用Web of Science等工具挖掘中國藥科大學近10年來發(fā)表高水平論文的數據,篩選出62篇進行分析發(fā)現,中國藥科大學高水平論文逐年增長,且主要集中在3個學科(藥理學與毒理學、化學及臨床醫(yī)學),由此建議學校針對學科發(fā)展方面采取一系列措施,如繼續(xù)在科研合作、引進高層次人才、共建實驗室等方面加大力度,促進優(yōu)勢學科發(fā)展。我中心通過對科研論文大數據的分析,從一個側面為學校的國家一流學科建設提供理論參考[11]。
另外,我中心參考咨詢部實時關注基本科學指標數據庫(Essential Science Indicators,ESI)每期發(fā)布的最新世界學科排名。ESI是基于Web of Science中的滾動數據,通過大數據分析和科研關系算法,對千萬級學術數據進行深度加工處理、深度挖掘,是衡量科學研究績效、跟蹤科學發(fā)展趨勢的基本分析評價工具。在2018年1月12日公布的最新學科排名中,中國藥科大學“藥理學與毒理學”學科排名為72名,第4次進入千分之一(進入ESI世界排名前千分之一的學科被認為已經達到國際頂尖水平,可稱為世界一流學科),在國內高校排名第二[12]。我中心通過兩個微信公眾號進行了及時報道和宣傳,引發(fā)學校關注,為學校的學科發(fā)展提供數據支持服務。
大數據時代的到來,為高校圖書館帶來了新的機遇和挑戰(zhàn)。我中心對圖書館應用大數據服務作了一些探索,雖然是建立在圖書館與信息化技術中心合并的基礎上,但是在高校內部門合作越來越緊密的今天,也提供了一種新的思路。利用現有的條件和技術構建大數據時代高校圖書館的應對模式和創(chuàng)新舉措,有助于高效利用大數據技術驅動圖書館提升服務能力,引領高校圖書館實現由數據到知識的轉化、由知識到發(fā)展的跨越,為推動學校一流學科發(fā)展、建設高水平研究型大學保駕護航。