銀晶



摘 要 大數據的核心實際是一種數據思維,國內公共圖書館目前已做了一些利用大數據嘗試。論文從單個城市公共圖書館到圖書館業內,以及圖書館與社會跨界三個維度的實證分析,反映出大數據運用時產生的各種問題,并給予建議和對策,同時也展望了圖書館未來大數據運用情況,以期對國內圖書館業內有所借鑒。
關鍵詞 公共圖書館 大數據 數據思維
分類號 G250.76
DOI 10.16810/j.cnki.1672-514X.2017.01.012
Analysis and Countermeasures on the Empirical Process of Big Data in Public Library
Yin Jing
Abstract The core of big data is a data thinking. At present domestic public libraries have made some attempt of using big data. This paper analyzes the empirical process of big data from three dimensions, including public libraries in different cities, library industry, and library and social cross-borders. It reflects some problems of using big data, and gives the suggestions and countermeasures. Also it outlooks the future of big data in libraries, and hopes to give reference for domestic libraries.
Keywords Public library. Big data. Data thinking.
大數據時代要學會用數據說話,其核心就是要擁有數據思維[1]。作為服務行業的公共圖書館,數據的產生及收集是非常豐厚的,利用大數據思維,可以從更多維度來了解館情,不僅可以了解館內讀者行為、資源使用情況,改進或調整管理決策、服務過程、技術手段以及宣傳策略,提升圖書館服務質量和水平、提高資源利用率等;也可以在業內進行比較,幫助發現問題,了解所處行業位置和業務水平;還可以將數據與外部環境關聯對比,在社會大環境中看清楚圖書館的服務價值、提升空間及發展方向。
1 圖書館對大數據的認識才剛剛開始
大數據目前雖然已經成為業界的話題,但在圖書館,大多數人認為它離我們還遙遠,在實踐中還沒有認認真真地著手基礎數據的挖掘工作,一些看似簡單的、無用的、雜亂的數據還沒有有效地應用于圖書館的各項工作中,圖書館對大數據的認識也才剛剛開始。
國內圖書館將一些業務服務數據向社會公布始于2013年,率先是由上海圖書館開始嘗試。上海圖書館于2013年推出了“我的悅讀2012”,即注冊讀者2012年的閱讀賬單,大獲好評,其數據內容為上海圖書館的讀者每人平均借閱書本冊數、借閱量最大的讀者借過多少冊、借閱頻率最高的書被多少名讀者借過、上海市中心圖書館的規模等有趣的統計數據[2]。2015年,深圳圖書館對外公布了深圖2014年大數據服務結果,包括到館人次、服務讀者量、文獻外借冊次、全年舉辦各類活動場次,微媒體粉絲、數字閱讀服務量、年度檢索熱詞、圖書館設施設備情況及場館服務宣傳等內容。同年,杭州圖書館則在其微信公眾號增加了“閱讀賬單”功能,綁定讀者帳號后,讀者可了解自己在2014年的全年借閱量及排行、文獻種類、持證時間等數據內容。2016年初,東莞圖書館、廣州圖書館、佛山圖書館等也相繼在媒體上公布本館大數據服務內容。盡管眾多的圖書館向社會陸續開展大數據服務,但筆者認為真正實施大數據分析的圖書館卻少之又少。
2 圖書館數據源統計應用實證分析
大數據理論上需要全的數據,圖書館目前已有的數據并不少,特別是采用績效管理模式的圖書館,數據源更是種類多樣,這就需要對館內部的數據進行梳理、分析,進行查漏補缺、合并重復數據,形成數據整合報表,一目了然,清晰明白,而一旦其中數據有異樣可以準確發現問題環節,這樣才具有參考決策意義。
2.1 案例一、流通文獻書目數據
以流通文獻為例,流通文獻的統計在系統建設前期,已經設計了各種數據字段的數據表等,需要什么字段的內容,語句命令調用即可。基于東莞圖書館圖書館Interlib系統后臺調用日志,采用SQL統計方法,對2014年1月1日—2014年12月31日圖書館借閱文獻進行統計,并按照文獻借閱數量排序,顯示年文獻借閱量達1萬次以上數據統計結果,見表1。
(1)該熱門文獻借閱統計表需要與館藏文獻統計表等相關業務數據進行對比,對于文獻館藏比例調整、采購選擇有了參考依據,館藏文獻統計表、預約文獻統計表、續借文獻統計表、熱門檢索文獻統計表等此類數據的統計就需要納入業務數據統計范疇中。
(2)該表分析有如下結果,成人讀物與少兒讀物類別比例對分,即1:1。成人閱讀最熱內容,除小說及家庭教育之外,個性心理學(人格心理學)、圖形圖像識別、人生觀與人生哲學、證券市場也進入了熱門借閱榜。兒童閱讀最熱內容,以圖畫故事書為主,各種童話、寓言、兒童笑話、謎語、神話其次,位居第三的美國圖書故事書深受歡迎,隨后是各科簡易讀物、對照讀物、注釋讀物、幼兒讀物、常識等等。
(3)對于此表的統計還發現文獻編目數據應有更詳細的制定規則。以I247.57為例,就有長篇小說、言情小說、中篇小說、三部曲(作品)、日記體小說、歷史小說、短篇小說空值等35項分類說明,不僅增加了統計難度,而且統計出來的結果無法適用于實際工作。
2.2 案例二、監控數據的作用
以到館人次為例,東莞圖書館2014年到館人數為230萬,其中參與用戶培訓人數占0.79%,參加講座人數占1.4%,參觀展覽人數占18.9%,合計有21.09%的讀者到館是參加各種活動、講座或培訓。其中書刊文獻外借人次占流通人次的38.17%,到館使用文獻資源,那么還有40.74%的到館讀者在做什么呢?自習、休閑、開架閱覽是觀察中得到的結論,并無數據支持,而這部分數據是可以通過已有的門禁系統、視頻監控系統等進行數據統計。除了統計數量之外,監控數據時間分布趨勢對安全管理措施制定有重要的參考意義。
以上僅以兩個案例說明在圖書館內外部反映業務成效數據中需要厘清數據源,在對一種業務數據報表統計時要與關聯數據表相互佐證,籍此來發現是否有遺漏的價值數據。業務數據不能是孤立的,單個報表只反映了客觀事實的一部分,如安全管理的數據,門禁監控數據之外,還有能耗、資金投入、修繕等一系列方面的數據。
3 通過各類數據對比識別社會服務價值
圖書館的各種統計數據除館內管理決策使用之外,還要有縱橫比較,一個是與館內相關數據進行對比印證客觀事實;二是與業內同行縱向進行比較,來確認在業內的服務水平和業務能力等;三是跨界比較,可與服務地域的人口結構、教育水平、文化程度等進行跨界比較分析,從另一個角度來認識圖書館的服務效果。
3.1 館內相關數據對比印證
東莞圖書館的用戶數據統計分析結果中,讀者平均年齡為32歲,男女比例基本持平,男性略占優勢,學歷數據統計結果顯示,小學以上學歷占32.83%,其中中學類占8.15%、大學占23.75%,研究生以上占1.3%;而填寫其它/空白,即無學歷占67.13%,表明大部分讀者學歷不高或太高或無學歷。與2014年文獻借閱統計分析得出預估讀者群體特征相一致。
3.2 與業內同行縱向比較
當單館的業務數據與同行相比較的時候,數據差異會在一定程度上說明各館的服務差異,但更多的則是數據本身有各種問題。以下案例中國內幾個公共圖書館大數據結果來源均出自媒體報道或其工作年報,或直接采用,或根據其數據與相關數據進行演算后得出,沒有數據則空白顯示。
(1)主要讀者群體年齡段。表2數據顯示,各館的主要年齡段分布在18-45歲之間。
(2)年流通人次及日均到館人次。表3數值統計中包含了各館分館的數據,統計方式各館都不同,東莞圖書館曾采用紅外線計數器,但這種設備對于群體出入的數量無法精確記錄,后更新換代成單人出入閘口,使得數據統計更為準確。
(3)年文獻外借冊次。表4中可以看到,上海圖書館的年文獻外借冊次驚人。其它館的外借冊次雖然相比而言并不多,卻不能說明服務水平不高,因為數字閱讀的服務已是現代圖書館文獻服務的重要領域。
人均借閱冊次=外借冊次/持證讀者數
數值=(未成年人6冊次+成年人5冊次)/2
(4)持證讀者占城市常住人口比例。表5中的數值比例本意是想表達圖書館的社會價值和作用,然而讀者證卻是一言難盡的,有些城市圖書館的讀者證與類似便民服務卡的城市管理服務相融合,使其服務卡也具備了讀者證功能,比如社保卡,電子學生證或校園卡等,通常都歸因于當地政府是否大力支持,具有典型的地域特征。而其它圖書館沒有這樣的強力支持力度,則會從讀者證的有效性、活躍性等方面發出疑問。因此,如何確認讀者證的真正價值,或者考慮用其它可以替代的數值項來表達圖書館對于本地社會的價值和作用。
各城市常住人口數值均取自各地《2014年X市國民經濟與社會發展統計公報》,如《2014年廣州市國民經濟和社會發展統計公報》
(5)數字資源服務量。表6中各館對于數字資源使用的統計方式,統計項等并不統一。數字資源的點擊量如何統計、冊次與篇次又有什么區別,如何計量?下載到本地還是緩存等都無定論。數字資源使用需要用什么樣的指標來確認,各館均有自己的看法。
(6)熱門借閱文獻。對于熱門文獻的界定,顯然也不統一,各館對于熱門文獻的分析角度也不同,比如上海圖書館對于不同年齡層進行了分析,青年人閱讀經濟類圖書的比例遠高于中老年讀者,老年人閱讀經典讀物、人物傳記圖書的比例高于中青年讀者。深圳圖書館書刊借閱部主任張樺介紹[9],工業技術類和經濟類,這兩大類正好與深圳重點發展高新技術產業、金融產業的城市發展方向相吻合,進一步細分之后,在工業技術類中,計算機軟件類的書籍借閱量較大;在經濟類中,金融理財和企業管理類的書籍比較受到讀者的青睞。廣州館則給出了熱門文獻前十名的排行榜,只列出了具體書目文獻信息,沒有類別的統計分析。
綜上所述,當館內統計的數據與業內同行比較時,產生了各種問題,追究其原因,(1)沒有數據統計的標準,特別是數字閱讀使用量,而傳統業務數據的已經不能客觀反映業務真是情況。(2)大數據運用中,該統計什么樣的數據項,如何對數據項進行有效分析。(3)大數據分析結果要對社會發生什么樣的影響作用需要考慮,既要積極指引閱讀的作用,也不能抹去存在的問題和困難。(4)數據公布是為了帶動業內發展,促進交流,為本地讀者提供更好的服務。
3.3 跨界比較
圖書館對社會的影響力到底有多大,或者說對于社會的價值貢獻有多少,在大數據時代,各行各業都開始重視數據,單純的數據沒有了行業間的阻隔使得跨界比較成為了可能。以東莞圖書館用戶分析數據與東莞市人口數據的比較為例。數據比較1:2014年末東莞市全市常住人口834.31萬人,其中城鎮常住人口740.95萬人,戶籍人口191.39萬人。常住人口以外來務工人員為主,大部分學歷為中學/中專以下,與該館讀者群體分析一致。數據比較2:東莞圖書館2014年總分館到館人次為713萬,表明東莞圖書館總分館為全市85%的常住人口提供了服務,去過身邊的圖書館/基層公共電子閱覽室。數據比較3:東莞圖書館圖書館2014年提供數字閱讀服務量達到了1千萬次以上,以當年的東莞市常住人口計算,人均約1.2次。上述比較反映了一個城市的圖書館對于本地社會的服務情況,側面反映出它的社會影響力。
除以上對比之外,還可以與當地人口文化水平、學歷水平、社會經濟發展情況等各方面進行跨界對比,城市圖書館為本地市民提供服務的質量、數量更能準確反映該圖書館對于當地社會的價值、對市民及行業的影響力,以及對未來服務發展方向的了解等。
4 圖書館運用大數據的問題與對策
4.1 標準規范制定是大數據利用前提
4.1.1 規范原始數據類型,夯實數據統計的基礎
經過數據整理會發現各種數據統計問題,規范原始數據非常必要,比如原始數據登記內容是否完整、數據類型分類數量酌情增減、數據源是否增加等。
4.1.2 數據統計方式要明確,便于數據采信利用
目前業內對于圖書館業務數據并無統一標準,而實際業務中發生的數據紛繁蕪雜,以圖書館提供數字資源服務的數據庫為例,統計數據項中的點擊量、下載量、瀏覽量并無統一的標準解釋,或者由圖書館根據自己的理解去統計,或者由數據庫提供商提供資源使用的數據統計結果。這樣的數據結果采信值較低,不利于反映出業務服務的真實情況。
4.1.3 亟待解決數據統計標準規范的制定
從采集渠道、采集種類、統計方式、統計結果呈現方式等進行規范。在標準制定過程中需要參照行業外部的相關數據統計標準規范,以便與之可以對接,具有可比較性等。
4.2 大數據的技術解決方案
4.2.1 技術改進,便于使用
大數據實際使用中不是必須重新研發技術平臺,特別是目前圖書館業內不會花費高昂的成本進行,可以考慮在現有業務/服務系統后臺中搭建小型的統計模塊,對既有的數據進行隨時統計,將大型數據統計分散到每月/周/日進行統計再匯總,而在很多圖書館的業務系統,特別是采用interlib系統的圖書館,數據表庫中已經包含了較為完整的業務數據信息,只需要根據需求調用統計即可。
4.2.2 借力第三方
大數據統計不是必須由圖書館自己操作完成,可以借助第三方工具、網站、軟件、科研機構等等,在可信的基礎上,借力得出與自己有關的價值數據。中研院信息科學研究所研究員陳升瑋[10]指出,在絕大多數情況下,大數據項目其實不需要建置Hadoop系統。就技術面來說,現在有許多業者開始提供成本較低的大數據處理工具和云端系統,有些甚至跟App一樣,只要根據自身需求挑選需要購買的功能即可,例如科智提供的工業化數據管理工具即為一例。
4.3 構建數據管理機制
(1)圖書館的大數據運用定位需要明晰。大數據應用是為圖書館管理、資源、服務提供參考依據或數據支撐,它是一種方法、一種工具,不同層級的數據統計分析結果應對應不同層級的管理模式。從數據的產生源,數據結果用在哪里,讓從管理層到一線員工能夠清晰的了解他所負責的服務內容和業務目前的運營狀況。
(2)建立數據驅動機制。當通過數據分析某個細分用戶群時,發現用戶群的活躍/降低規律時,基于用戶的特征,就要針對此現象開展數據關聯查詢,發揮各個環節數據的價值以便形成具有個性化的服務方案。
(3)對于數據結果,還需要實踐論證。比如根據流通文獻數據統計結果進行對應的資源采購、服務推廣,除了進行數據統計分析,還要與之前數據進行對比驗證,不斷完善和改進數據統計方法,提高數據準確率,提升數據利用價值。
(4)加強合作方數據管理。在數據統計過程中,有些數據,如數字資源在線使用的數據等,不是由圖書館統計或處理的,在處理數據安全、用戶隱私、數據可信度以及數據使用等方面需要考慮。
4.4 生產數據產品
數據產品最大的價值在于輔助使用者優化決策,以及輔助決策價值的實現。因此圖書館大數據產生的數據產品需要注意兩點,一是認清掌握的數據能給受眾帶來哪些有價值的服務。二是認清掌握的數據可以通過哪些合理的方法提供。
圖書館可以產生的數據產品包括用戶行為數據產品、文獻服務數據產品等大類產品,每類數據產品又可以細分成各具特色的數據產品,用戶行為數據產品可以按不同時段的到館人次、人口籍貫、文化程度、借閱次數等進行細分,而文獻服務產品數據就更多,文獻借閱冊次、種類、出版社、作家、年份等,或者二次以上的文獻再開發、不同主題資源整合、專題深度挖掘等數據產品。這些數據產品除了圖書館自身掌握和運用之外,還可以為當地政府提供管理服務參考;與文獻/資源提供商對已有文獻產品服務升級進行談判的基礎;為拓寬服務內容、服務方式、創新服務模式而引入社會團體,并與之對接開展合作的基礎等等。
5 展望圖書館未來大數據運用
從圖書館業務管理角度出發,大數據的運用是圖書館大數據運用的初級階段,當技術發展到更高層次時,圖書館真正的大數據運用是知識大數據,圖書館的服務也將從文獻信息服務過渡到知識服務。蘇新寧[11]認為以知識為導向的文獻信息將進行深度開發,知識單元加工與重組,智能詞表、自動分類詞表的組織與共享都將成為未來圖書館的實踐領域,館藏文獻數據資源將與社會資源整合,文獻整合服務向綜合信息資源服務發展,以往簡單文獻推薦信息指引將被知識單元數據集替代,真實而具體為讀者答疑解惑等等。
從外部環境融合角度來看,大數據的運用是圖書館數據開放的運用。除了必要的保密數據(用戶隱私數據等)之外,業務數據、館藏數據、資源數據等都可開放出來。提供數據開放服務,包括開放技術平臺,提供個性化閱讀學習功能模塊構建;提供大數據學習課件、軟件支持工具、討論專區;提供資源拆分、重組等軟件工具、學習課件及討論專區。
從用戶角度來看,構建眾包模式,鼓勵萬千讀者創建個性化的閱讀學習資源庫,對資源進行拆分、重組、再生產,甚至按照自己喜歡的方式呈現。還可依照個人興趣或閱讀學習方式來創建如報紙、期刊、文檔、視頻等載體類型的讀者個性化閱讀學習資源。知識的再生產已不再是獨屬于圖書館或者館員的專利,人人都是知識構建、分享者。采用眾包模式,海量數字資源真正成為知識的寶藏,人人都可以通過自己的方式學習和發現更多更有價值的知識內容,圖書館真正成為知識的寶庫。
從第三方合作角度來看,將數字閱讀平臺(PC端、移動端)的接口開放API(Application Programming Interface,應用程序編成接口),讓第三方不僅可以訪問網站內容,還可以對內容進行修改、整合和再創作,或者增加功能模塊,或形成新的應用在第三方平臺上向用戶推送等[12]。合作的目的是采用正確的創意,采用正確的科技和媒體策略,集合各類能人以有效和高效的方式完成任務[13]。不僅第三方能以較少的成本、較高的成功幾率來創業,圖書館服務內容也更加豐富、形式更加多樣,獲得更多的關注以及擴大社會影響力。
圖書館內外雙向發展,大數據帶給圖書館的將會是顛覆性的,業務、管理、服務、思維方式等等隨之而變,而圖書館是否已做好應對了呢?對于圖書館來說這是最好的時代,也是最壞的時代。
參考文獻:
[ 1 ] 吳明輝.忘掉你的大數據,數據思維才最重要![EB/OL].(2015-10-15)[2016-03-13].http://www.cbdio.com/BigData/2015-10/15/content_3972102.htm.
[ 2 ] 上海圖書館推出讀者年度閱讀“對賬單”[EB/OL].(20
13-02-16)[2016-03-13].http://www.wenming.cn/book/pdjj/201302/t20130216_1070126.shtml.
[ 3 ] 東莞圖書館:十年書香漫莞邑[EB/OL].(2016-01-18)[2016-03-13].http://epaper.southcn.com/nfdaily/html/2016-01/18/content_7509723.htm.
[ 4 ] 上海圖書館持證讀者增至310萬,超半數年外借14冊書[EB/OL].(2015-04-22)[2016-03-13].http://cul.jschina.com.cn/system/2015/04/22/024447365.shtml.
[ 5 ] 廣州圖書館.2014年報:業務統計數據[Z].廣州圖書館,2014.
[ 6 ] 圖書館大數據:年人均借書17冊 深圳人都愛看些
啥?[EB/OL].( 2015-10-30 )[2016-03-13].http://www.sznews.com/news/content/2015-10/30/content_124201
90.htm.
[ 7 ] 佛山讀者7年增14倍 最喜愛圖書出爐[EB/OL].(20
15-04-23)[2016-03-13].http://www.citygf.com/FSNews/FS_002008/201504/t20150423_5641555.html.
[ 8 ] 去年廣州圖書館入館人數遠超國家圖書館成全國第一[EB/OL].(2016-01-14)[2016-03-13].http://city.igdzc.
com/a/20160114/68850.html#0-tsina-1-12273-
397232819ff9a47a7b7e80a40613cfe1.
[ 9 ] 深圳人到圖書館都愛借閱些什么書?大數據告訴你![EB/OL].(2015-04-23)[2016-03-13].http://www.sznews.com/news/content/2015-04/23/content_114981
57.htm.
[10] 李欣宜:一次搞懂大數據,《數位時代》第251期[EB/OL].(2015-04-01)[2016-03-13].http://www.bnext.com.tw/article/view/id/35807.
[11] 蘇新寧.大數據環境數字圖書館面臨的挑戰[EB/OL].(2015-06-10)[2016-03-13].http://www.lib.bnu.edu.cn/balis/2015/2.pdf.
[12] 周婷婷.大數據時代數據運用的理念與實踐研究:以英國《衛報》為例[J].江漢學術,2015(1):123-128.
[13] 鮑勃·羅德,雷·維勒茲.大融合:互聯網時代的商業模式[M].朱衛未,等譯.北京:人民郵電出版社,2015:36.