吳迎春
(南京圖書館,江蘇 南京 210018)
2011年6月,美國麥肯錫全球研究院發布《大數據:下一個創新、競爭和生產力的前沿》,“大數據”成為近十年各領域研究的熱點[1]。對圖書館行業而言,從圖書館集成系統到電子館藏再到圖書館新形態的進程,見證了圖書館行業的整體發展和協同進步,表明了圖書館對大數據等信息技術與時俱進的依附性和敏感性。尤其是互聯網+大環境下,公共文化事業和文化產業產生了龐大復雜的大數據,大數據正在成為推動文化服務轉型的新動力,對社會治理、人民生活將產生重大影響。賦能革新的江蘇省公共圖書館大數據服務平臺(以下簡稱平臺),通過自主研發和創新,有望為圖書館智慧化服務和高質量發展提供決策支撐,為資源建設做出最優化管理,為讀者服務轉型提供精準化和智慧化方案,力爭為圖書館及文旅行業在數據開放共享和數據資源開發方面提供借鑒和思考。
我國先后出臺了大數據應用的相關政策性文件。2015年,國務院印發《促進大數據發展行動綱要》,將大數據的戰略意義提升到國家層面;2016年,江蘇省印發《江蘇省大數據發展行動計劃》,推動省域內大數據開發應用;2017年,《江蘇省文化廳“十三五”文化發展規劃》提出“加強公共文化大數據采集、存儲和分析處理”,以推動公共數字文化服務向現代化、科技化、智慧化轉型;2019年,文化和旅游部辦公廳印發《公共數字文化工程融合創新發展實施方案》,對建設公共文化大數據平臺和文化大數據體系建設提出明確要求[2];這些文件的印發對公共圖書館大數據應用建設提供了強有力的政策保障。
江蘇省公共圖書館大數據服務平臺能夠實現數據開放共享目標,主要分三個子系統:江蘇省公共圖書館大數據館情指標填報系統、江蘇省公共圖書館業務數據采集系統和江蘇省公共圖書館服務實時數據分析及展示系統。館情指標填報系統:已填報江蘇省115家公共圖書館館情指標數據,以及115家公共圖書館下屬的分館、流通服務點和基層文化服務中心的指標數據。江蘇省公共圖書館業務數據采集系統:采集Aleph500圖書管理系統、力博圖書管理系統、匯文圖書管理系統和圖創集群圖書管理系統等其他系統數據,采集圖書館業務及第六次全國公共圖書館評估定級標準(省級館、市級館、縣級館和少兒館)指標,采集國家共享工程、推廣工程、公共電子閱覽室建設工程以及江蘇省級公共數字文化工程項目的建設和運行服務數據。實時數據分析及展示系統:通過大數據分析挖掘、可視化展示與接口服務,為全省各級文化主管部門提供圖書館事業發展分析與智慧決策服務,為全省公共圖書館提供讀者、資源、館情等多維度分析挖掘,以及為各館開展精準服務、智慧服務提供數據支持與應用。如全省公共圖書館年度閱讀報告、全省公共圖書館年度讀者流量報告、全省公共圖書館公共文化服務年度報告。數據的資源開發和數據的開放共享也為將來供給側、需求側、行政管理和監督數據池的實現,進而對深層次文旅融合提供便利。
平臺基礎設施架構于云端,通過阿里云實施整體安全保障。采用最先進的大數據分布式集群技術架構,應用Hadoop技術作為基礎的數據計算平臺體系。通過數據ETL處理工具對采集的數據進行DES、MD5等加密技術后分析、清洗、轉換、加載與集成,并對各資源、讀者、行為等各類數據信息進行數據計算與分析[3]。最終實現大數據統計分析可視化展現,為全省各級文化主管部門提供圖書館事業發展分析與智慧決策服務。
大數據實驗室平臺架構組成包括基礎設施層、數據采集層、數據計算平臺、數據應用及展示層。
基礎設施層:包含服務器、網絡設備和基礎物理設施等。為保障江蘇省公共圖書館服務大數據平臺正常運行,將主機、存儲、備份、網絡和系統軟件等方面均構架于云計算服務上,利用云服務的穩定性強、響應速度快、安全可靠、存儲方便、升級便捷等優勢,為大數據項目提供最為全面的基礎設施服務。
數據采集層:通過訪問數據庫或開放接口的方式,系統配置與不同數據來源、不同存儲形式接口的資源和管理數據訪問適配方式,運用ETL工具進行數據的抽取、數據質量的凈化、轉換以及最后的數據加載處理,此過程中需要對系統涉及的基礎元數據內容進行事先的整理與維護,為后續數據管理與轉換等工作奠定基礎。
數據計算平臺:數據采集后,會在數據倉庫工具Hive中為每個圖書館創建一個與其提供的數據庫表結構完全相同的Hive庫,和原始庫形成一個鏡像。把原始庫的數據導入到相對應的鏡像Hive庫后,在腳本中通過SQL查詢出需要的字段數據,并將查詢的結果存入Hbase的一個臨時文件中。然后提取臨時文件進行清洗,并對各類數據信息進行數據計算與分析。將清洗完成的數據保存到每個圖書館原始庫相對應的中間庫中,最后將所有圖書館中間庫數據匯總到大數據匯總庫。對存儲的大數據匯總庫內容以及填報系統數據內容,根據業務主題等進行多維度數據分析與挖掘。
數據應用及頁面展示層:系統對數據挖掘采用數據推薦與挖掘算法進行優化調整,對用戶群體屬性、讀者行為和業務主題進行多維度考慮,實現對資源、讀者、流通等數據以及館情指標數據進行關聯分析、個性化分析和多維數據分析與挖掘。利用可視化的界面交互方式,提供數據分析結果和查詢內容的展現。包括面向Web、移動展示以及大屏幕多種呈現方式的結果內容展示。
公共圖書館在運營過程中產生各種各樣的復雜數據,主要有以下三種:一是管理數據,除了實名認證的讀者數據,還有微信、微博、微視以及客戶端的用戶數據,圖書館內各端口采集到的人流數據,公共圖書館整體運營、服務、發展數據等;二是資源數據,館藏資源(紙本圖書報刊、音像制品、電子資源和其他資源)、自建資源、外購資源、國家專項資源等;三是業務及服務數據,包括圖書館在日常中產生的各類業務統計數據,館內外舉辦的讀者活動數據,讀者訪問、檢索、借閱服務以及各服務端口產生的服務數據等[4]。
采集全省公共圖書館及基層服務點的基本數據、館情數據、業務及服務數據,而現實中這些數據依附于不同的平臺、存儲在不同地方、歸屬不同部門,導致數據匯集困難,通過建立省級公共圖書館大數據中心有效解決這個問題[5]。首先,開發支持抓取系統數據的軟件工具,支持實時或定時、全量或增量采集數據;數據采集對原數據庫、原始數據不作任何改動且不得影響原系統的運行性能、安全性和穩定性;其次,在數據采集傳輸的過程中,需要保證數據的安全性、完整性,不可篡改性,而且高效到達大數據中心。除了行業數據,也要對公眾社交數據、互聯網輿情數據,產品反饋數據以及市場監管等數據進行采集分析評價;最后,根據目標要求,對采集的數據進行綜合性處理。
依據業務需求進行針對性的開發處理:一是開發業務統計分析系統。支持分級分主題統計權限控制,能針對單個圖書館、指定區域內的圖書館群進行統計分析,滿足各級文化主管部門、各級圖書館管轄范圍內的統計分析需求;支持通過可視化界面定制和展示統計分析結果,統計至少包括保障、讀者、資源、服務等幾大主題指標體系;支持統計結果的移動端、大屏端、HTML5等可視化展示;二是提供第三方應用開發所需的各類標準數據接口(API)服務平臺,滿足全省讀者認證服務、全省文獻館藏(書目)數據服務、全省服務大數據分析等應用服務的開發需求。數據接口支持敏感數據(照片、身份證、手機號、密碼等)的加密傳輸和模糊化處理,以保護個人隱私和數據安全;三是對接江蘇省智慧文旅平臺,以數據為支撐,推動文旅的深度融合,豐富文化內容,創新文化產品,滿足大眾對文旅的新需求。
依托平臺建設,充分利用圖書館大數據的挖掘、分析、展示和服務,驅動圖書館服務轉型發展。
轉變服務主客形態,將服務由被動轉為主動。一方面提供公共圖書館大數據分析及展示服務:一是發布實時數據,實時提供全省公共圖書館運行服務數據,供各級主管部門、圖書館在大屛、移動終端、門戶上進行大數據發布,如客流量、外借量、辦證量等數據;二是事業發展報告,按月、季、半年、年發布江蘇省公共圖書館主要業務指標統計分析報告,主要業務指標包括面積、人員、經費、館藏文獻、讀者數量、到館人次、文獻流通和讀者活動等;三是業務分析報告,提供全省文獻資源、讀者和服務的多維度深度分析報告,包括全省、單個地區和單個圖書館為對象的總量分析和趨勢分析報告,多個地區之間、多個同等級或同類型圖書館之間比較分析報告。借助大數據分析報告,助力文化主管部門和圖書館對事業發展作出科學決策。目前,上述的實時數據、事業發展報告、業務分析報告都已開發完成,成果已提交給文化主管部門和相關機構。后續將根據反饋的意見或要求,實時調整,及時滿足服務需求。另一方面大數據是文化發展的資源,是創新驅動的底層器件。要真正實現在政府、圖書館、社會公眾之間的共享。需要通過權威平臺發布相關的數據成果,建立標準的評價體系,推廣應用成果,用大數據重構文化事業、文化產業新格局。
黨的十九屆五中全會明確指出要堅定不移建設“制造強國、質量強國、網絡強國、數字中國”,這為圖書館高質量發展創造新環境和新機遇。柯平教授《公共圖書館高質量發展的十個新主題》文章中提出數據管理和大數據服務作為主題之一,數據機遇就是圖書館轉型發展的新機遇。實驗室的建設基于大數據統計分析結果、讀者畫像、資源畫像和整體畫像,為圖書館提出具體的業務改進方案,為廣大讀者提供個性化、精準化、智慧化服務,為文化主管部門提供決策支撐服務,助推圖書館高質量發展。主要表現成果如下:一是依據評估定級標準、現代公共文化服務體系建設等標準,幫助對應圖書館進行指標分析,尋找差距,并制定相應整改方案;二是幫助對應圖書館進行館藏結構和讀者需求分析,為完善館藏結構和文獻采購提供科學方案,包括各類圖書的種、冊數量比例,期刊的種、冊數量比例,復本數建議,數字資源薦購方案等;三是幫助對應圖書館進行服務效能分析,尋找影響服務效能的主要因素,并提出改進方案和措施;四是為文化傳播搭建高效、快捷的平臺。能夠弘揚優秀傳統文化,創新服務方式,推動全民閱讀,更好地滿足人民美好生活的需求。
開放共享圖書館數據價值,為政策制定、公共服務、文化傳播、社會治理等提供強有力的數據支撐,成為文旅深度融合最可靠的底層器件。一是突出區域文化旅游資源特色,打破政府、文旅企業的數據壁壘,實現對文旅產業的高效管理、對游客的高質量公共服務;二是構建文化旅游身份的認同,旅游通過數據溯源,強化文化的身份符號。文旅深度結合通俗說就是講好故事,將文化記憶根植于旅游的行程中,使文化和旅游交融。
大數據構建是一項體系龐大、結構復雜、動態調整、多方協作的系統性工程。一方面公共圖書館在大數據建設時要依托國家政策,做好頂層設計,把握引領方向。一是響應“一帶一路”政策引領,公共圖書館要勇于擔當社會職能,助力“一帶一路”人類命運共同體建設,發揮智治和特色資源支撐作用;二是貫徹“創新、協調、綠色、開放、共享”的新發展理念,滿足群眾日益增長的多層次多方面多樣化美好生活需求,作為公共圖書館發展的方向和著力點。另一方面依托國家政策,加大專項經費的投入。大數據構建是一項系統性工程,基礎層面投入非常大,需要專業的技術人員、多方的協同合作和大量的專項資金支持。
既采集行業數據,也要對公眾社交數據、互聯網輿情數據,產品反饋數據以及市場監管等數據進行采集評價。一般來說平臺會結合自身的業務要求采用不同的技術組件來滿足不同業務場景且具備以下能力:①多樣化的數據采集能力,無論是管理數據、資源數據、業務數據,還是圖片、文件、表格等多種類型數據的實時或定時、全量或增量數據采集;②支持可視化界面定制,提供開發應用所需的各類標準數據接口服務;③能夠快速調整和適應不同業務場景,具備科學、合理的基礎架構;④具有科學的管理體系和高效的評價反饋機制,形成可持續發展體系,保障建設維護和生命力。
公共圖書館大數據的應用,從表象上看是技術決定結局,但從深層分析,面臨的挑戰不僅僅是技術,而是人才和管理。人才是基礎、技術是關鍵、管理是保障。公共圖書館中的數據來自不同平臺、不同部門和不同機構,他們之間屬于業務上的指導與被指導關系,不存在行政級別的上下級關系。所以就需要各相關機構、各部門樹立共建共享的意識,達成規范的標準體系,形成權責清晰的管理機制。大數據項目實施要夯實配套設施如設備、環境等,提高人才要求(除了IT人才,還需要人工智能、統計分析等),提升管理者的專業水準和能力。
大數據應用越來越廣泛,公共圖書館行業要結合國內外的相關規范標準,可參考《中華人民共和國計算機信息系統安全保護條例》《通信網絡安全防護管理辦法》和《信息安全技術大數據安全管理指南》(GB/T37973—2019)等,建立適合自身發展的安全體系,做好大數據安全管理、風險評估,有效安全地使用大數據[6]。同時在公共圖書館發展過程中,不斷借鑒最新的制度標準,合理合規地調整更新,從人員、設備和制度“三位一體”確保數據信息安全。
大數據已經參與到人們生活、工作和學習的方方面面,江蘇省公共圖書館大數據服務平臺服務效能初顯。二期項目會從跨層級、跨區域、跨行業橫向和縱向業務的協同管理和服務轉型,同時考慮諸如地理、氣象,商業信息的融合,提升圖書館服務效能,進一步滿足讀者對美好閱讀服務尤其是對圖書館大數據服務的需要和向往。圖書館大數據應用研究任重道遠,爭取實現有價值的數據開放和服務轉型,提高大數據轉化和使用能力,推動公共圖書館新時期高質量發展。