高 蓉
(蘇州工業園區圖書館,江蘇 蘇州 215123)
隨著信息技術的高速發展,圖書館積累的數據急劇增長,如何透過“大數據”推動服務創新,提高服務精準度,提升館藏利用率成為當務之急,借助新技術,從大量的、復雜的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中人們事先不知道的、但又是潛在有價值的信息,建立有效、精準的分析模型,建立圖書館大數據倉庫,實現圖書館數據的總樞紐,具有較強的擴展能力,并以松散耦合方式運行,建立圖書館知識服務與業務建設決策模型及評估體系、用戶行為價值挖掘、用戶信息數據中心、讀者信用體系模型、信息發布平臺等。為圖書采訪館員提供決策分析,為讀者提供個性化的閱讀推薦服務,提升館藏利用率及讀者興趣度,吸引更多居民閱讀,實現“為書找讀者,為讀者找書”,提升服務效能。
大數據(Big data),是一個數據集,其特點為容量大、類型多且復雜、存取速度快、應用價值高,傳統的數據處理應用軟件完全不足以應對。由于數據集非常龐大,所面臨的挑戰包括抓取、存儲、分析、數據管理、搜索、共享、傳輸、可視化、查詢、更新和信息隱私等等。大數據的價值在于可以進一步用于參考預測分析,用戶行為分析,高級數據方法(包括人工智能),而不僅僅停留在數據集的大小本身[1]。
“數據”是一個相當寬泛、豐富的概念了,不僅僅指傳統的結構化數據(如數值型、數字型),更包括海量的非結構化數據——文本、音頻、視頻,特別是由于傳感器、物聯網、互聯網等技術的發展,諸如人類的肢體動作和社會行為、物體的狀態和運動軌跡等都可以作為“數據化內容”的自動化處理分析可以讓機器有智能、讓人類更智慧[2]。
“分眾閱讀”,是根據自身服務環境,用戶需求,通過數據統計、挖掘和分析,對目標用戶進行細分及分層,基于個人屬性、行為特征、社會屬性等,在數據庫中將用戶進行分組,將圖書館的資源與用戶閱讀興趣進行對比和匹配,為用戶及用戶組提供分眾化的閱讀 服務[3]。
最核心的目標,建立讀者細分的分眾閱讀體系,通過大數據挖掘技術,對讀者閱讀行為進行跟蹤及分析,為用戶及用戶群體提供精準服務。
意義主要表現為三個方面,第一,基于大數據技術促進圖書館的服務轉型,實現“分眾閱讀”的精準服務;第二,用大數據串聯資源與用戶,實現“為人找書,為書找人”;第三、大數據平臺作為核心,連接新技術應用,包括時下最熱技術:人工智能,開創智慧型 服務。
調研了國內五家圖書館大數據實施現狀,大部分圖書以采購成熟產品來實現大數據,成熟產品的利端是不需要再重新做頂層設計和建模,采購后直接實施并使用,不需要花人力再去做開發工作,但弊端也是明顯的,每個圖書館的特點和特色不一樣,導致有些需求并未被挖掘,挖掘深度及其效果不一定能體現其價值。國家圖書館及上海圖書館以自主開發為主的形式建設大數據平臺,其中上海圖書館的創新型可視化數據服務與我館想要達到的效果最為相似,本文作者以上海圖書館為例,介紹上海圖書館的做法,學習并借鑒。
上海圖書館在2012年推出一系列創新型可視化數據服務,平臺為自主研發,共分四個方面:一是讀者年度個人閱讀帳單;二是年度閱讀報告;三是流通分析報告;四是實時數據展示的應用[4]。
讀者年度個人閱讀帳單,主要側重“個性化”分析,以讀者為出發點,來挖掘讀者的閱讀行為軌跡,形成個性化的內容進行發布,發布的同時,還對界面進行精心設計,增加趣味性,設計與讀者的互動環節,加強用戶粘性。另外宣傳手段上,帳單也是作為一項激勵,只發給那些借書冊數在中位數以上的讀者。
年度閱讀報告,通過對系統數據的整體分析,以全數據代替抽樣數據,更全面的反映區域內圖書館用戶的閱讀狀況。
流通分析報告,聚集圖書館不同的業務,采用不同的數據集合,對資源建設情況、服務效能進行總結,為館藏發展、館藏分布、用戶服務策略、宣傳推廣提供參考。
實時數據展示的應用,圖書流通量以小時為單位進行分析,以創意展示的形式在展示屏上展示出來,通過給觀眾講故事的形式,吸引讀者。
綜上所述,上海圖書館從個人閱讀帳單到大屏數據展示,充分考慮到用戶粘度,從展示效果、頁面設計、宣傳策略、內容的趣味性等方面著手,目的是吸引讀者,用數據講故事,讓閱讀成為有趣的事情,增加與讀者的互動性,用戶的忠誠度也越來越高。故在大數據閱讀平臺建設上,不僅是技術層面的開發與建設,還需要考慮軟性服務因素,包含展示頁面的設計,數據內容的趣味性,宣傳策略,還要考慮讀者心理等,技術與軟性服務相結合,才能在大數據的服務效能上體現出價值。
圖1是根據館情和需求,設計用戶(讀者)閱讀分析平臺的架構層次,分為五個層級,分別為應用層、技術層、業務層、數據層和基礎設施。應用層是整個模型的最頂端,由館藏管理平臺、采訪驅動平臺、數據發布系統和用戶系統組成。

圖1 平臺架構(擬)
顧名思義是數據的來源,是提供分析所需要數據的原始信息,在數據源中存儲了所有建立數據庫連接的信息。數據源包括:用戶數據、館藏數據、流通數據、采訪數據、設備數據、網站和移動端數據、數字資源閱讀數據等。
大數據建模的過程不可能一次完成,隨著外部環境的不斷變化,用戶需求也隨之改變,建立長期有效的反饋機制非常重要,及時預測變化,及時、快速做出調整對策。

圖2 建立分析模型流程圖
3.4.1 基于“分眾閱讀”的個性化服務推薦
借鑒上海圖書館個人閱讀帳單、亞馬遜書店消費者評級分析法及亞馬遜書店的閱讀推薦(網站),采用三個分析維度來設計個性化服務推薦模型[5],如下表:

表1 個性化閱讀推薦分析維度
針對個人的閱讀行為來進行推薦,實現同類型圖書推薦、該作者的其他圖書推薦、該出版社的同類型圖書推薦、新書推薦。
通過分析個人的閱讀行為數據,與閱讀某類資源的用戶群做比對,可以實現閱讀該本圖書的用戶還閱讀過的其他圖書的推薦方式。
閱讀推薦在圖書館“書香園區”APP或微信的“個人閱讀帳單”中體現,未來還會設計并實現更多的推薦方式(例微信服務號推送、短信推送等)。由閱讀推薦可進行外延,將圖書館的服務用相類似的方式把活動、講座、展覽等信息推送給讀者。
3.4.2 基于“資源建設”的服務決策

圖3 基于大數據閱讀平臺的按需采訪模式
圖書館采訪工作是圖書館一項非常重要的基礎性業務工作,我館的采訪工作還停留在傳統的采訪模式上,國內已出現少數圖書館開展 “你選書我買單”服務,例內蒙古圖書館、蘇州圖書館、順德圖書館等,把部分資源采訪的工作轉移至最前端(用戶)來完成,也就是需求驅動采購模式,讓用戶在線下書店或線上進行選書并完成借閱,圖書館進行買單的方式,那么這種方式解決了圖書館與下游終端用戶之前的聯系,有效提高了館藏利用率。但與上游供應商乃至出版發行機構之間還是傳統的采購模式,采購質量、采購預測、采購評估這些問題并未得到有效的解決,本文作者設計運用大數據技術來有效提高圖書館資源采訪精準問題。如圖3所示。
根據這個圖的內容,闡述大數據閱讀平臺處在中間位置,采集各系統的數據,還需要采集上游供應商的出版信息,通過大數據平臺分析處理,為采訪館員提供采購依據,采訪館員制訂采訪方案及策略,大數據平臺定時或非定時,給采訪館員提供實時數據分析結果,根據用戶需求方向的變化,及時調整采訪策略。
從遠景預判,大數據閱讀分析平臺不僅可提升采訪精準度、為用戶提供個性化閱讀推薦,還可以為出版發行機構提供用戶最真實的需求信息,為出版機構出版發行輸出參考數據。建設大數據閱讀平臺,串聯資源和用戶的同時,還串聯圖書館與出版行業,聯成一個體系運作,最終實現用戶驅動出版,產品為用戶服務。
3.4.3 基于“服務數據”為基礎的服務效能評估
基于大數據閱讀平臺的建設,整合圖書館各類業務,包括采編業務、讀者服務、參考咨詢、專業信息服務、活動推廣、講座展覽等,整合圖書館各系統,包括圖書管理系統、書香園區網借投遞平臺、分館業務平臺、數字資源(各數據庫)、網站、微信、APP等,通過接口調用數據方式,來實現數據采集、處理、挖掘和分析。
強化管理后臺設計與開發,各業務模塊根據特定的格式出具各類業務報告,例館藏建設分析報告、流通服務數據報告,宣傳推廣服務成效報告、專業服務分析報告等。定期在網站、展示屏等展示服務 數據[6]。
系統自動生成各類報告后,進行二次分析,結合年度工作計劃、館藏發展政策、流通服務計劃等,還要結合熱點信息,為用戶制定個性化的服務推廣方案。
3.4.4 數據展示
數據展示分為兩塊,一塊為個人閱讀帳單,另一塊為大數據展示屏。閱讀帳單數據展示,我館已使用成熟產品,推出個人閱讀帳單,讓用戶了解自己的閱讀情況及閱讀水平。大數據展示屏,目前在園區圖書館已上線,主要展示實體館的各類數據、借閱情況分析數據、圖書推薦、活動預告及活動效果展示。
文化和旅游部越來越重視文化建設,同時也越來越重視圖書館的服務成效,從第六次全國縣級以上公共圖書館評估指標,不難看出,對圖書館的服務效能和新技術的應用越來越重視,這就說明,未來圖書館服務效能的提升,需要新技術做為支撐,包括物聯網、大數據、人工智能等,借助新技術應用,完善公共文化服務體系,做好頂層設計,實現服務精準、服務創新,建設標準體系,用數據說話,提升服務效能,促進圖書館轉型發展。