胡蘊燦
[摘 要] 圖書館作為連接知識產品生產和知識產品消費的中介環節之一是供給側改革中知識供給改革涉及的重要行業。大數據時代的來臨,圖書館服務范疇也延伸到對數據的發現、利用、分析、整合,并為讀者提供數據服務。在信息時代,技術只是圖書館提供服務的一種手段和平臺,未來圖書館服務核心是數據以及對數據的處理。
[關鍵詞] 大數據;圖書館;知識供給;供給側改革
[中圖分類號] G202 [文獻標識碼] A [文章編號] 1671-0037(2017)7-80-3
Research on Library Big Data Construction in the Context of Knowledge Supply Side Reform
Hu Yuncan
(Henan Academy of Social Sciences, Zhengzhou Henan 450003)
Abstract: As one of the intermediary links between knowledge product production and knowledge product consumption, library is an important industry involved in the knowledge supply reform of supply side reform. With the advent of the era of big data, the scope of library services extends to the discovery, utilization, analysis and integration of data and the provision of data services to readers. In the information age, technology is only a means and platform for library services, and the core of future library services is data and data processing.
Key words: big data; library; knowledge supply; supply side reform
1 研究背景
供給經濟學是20世紀70年代誕生于美國的一個經濟學流派,以強調供給在經濟中的作用而得名。在我國,經過30多年的改革開放,取得了突出的經濟成果的同時,供需雙方因為結構性不平衡、不協調的矛盾也日益突出。黨中央為此提出了“在適度擴大總需求的同時,著力加強供給側結構性改革,著力提高供給體系質量和效率”(習近平)我國未來長時期經濟建設的指導。
而作為圖書館工作人員,筆者將關注點集中在了與本行業息息相關的知識供給側改革。所謂知識供給是指通過一定的方式,將知識信息從生產環節傳遞到消費環節的活動,是通過各種傳媒和專門機構等多種途徑來實現的。其中圖書館是連接知識產品生產和知識產品消費的中介環節之一[1]。作為經濟供給側的重要組成,知識供給面對的最大挑戰就是大數據作為信息時代的知識載體已經登上了舞臺并扮演著越來越重要的角色。圖書館行業一直對以大數據為代表的新一波信息化技術保持著高度的關注,并提出了類似智慧圖書館等規劃設想。在此基礎上,本文認為圖書館行業可以從資源建設角度嘗試對大數據的實踐,著手建立以數據為主要信息知識存儲介質的區域知識中心。
2 大數據對知識供給的影響
互聯網形成的信息化傳播渠道、云計算提供的數據收集和運算能力、大數據為主要形式的新型信息載體。互聯網、云計算已經發展多年,得到廣泛應用,對人們的生活產生了深刻的影響。而大數據還處在發展的初期,在數據采集、用戶隱私方面存在著法律和社會認知的種種障礙,但即便如此,大數據近年來的發展也體現了這項技術強大的生命力。
2.1 大數據的特點及發展
大數據對比之前數據類型最大的特點是多維度、活性化和系統化。多維度體現了更貼近真實世界的數據描述。活性化體現了大數據是一個動態的數據化生態。系統化則是和內容產生的環境緊密聯系。每一個大數據系統都像是互聯網初期的局域網,自成體系生態獨立。大數據的特點不在于數量級的大小,而在于通過多角度對多個數據進行交叉比對還原事物的本來面貌,因此,在時間上和范圍上進行全覆蓋,是大數據發展的方向。進入互聯網時代,隨著各種傳感器的發展,人類對各種數據的收集有了質的飛躍,以前沒有意義的單一數據在建立了合適的參照系之后,可以提供完整的邏輯鏈條,使得在互聯網這個虛擬空間通過數據流模擬物質世界成為可能。2011年5月,全球著名的麥肯錫咨詢公司發布了《大數據:創新、競爭和生產力的下一個前沿領域》的報告,首次明確“大數據”的概念,并指出大數據已經滲透到當今社會的各個領域,成為一項重要的社會資源,大數據時代已經到來[2]。3著名的Howie DiBlasi I. T。的“Did you know?”中指出:“估計現在一年全世界所產生的新信息量大約有4 000萬萬億((4X1019)字節,超過了人類過去五千年信息的總和。”可見世界范圍的信息化變革使得幾乎每個行業都面臨著大數據問題,大數據達到了無處不在的程度[3]。圖書館作為人類社會信息沉淀和存儲的中心,勢必隨著人類社會知識和信息存儲介質的變遷,而改變自身的主要存儲介質,圖書館經歷了從紙質文本到電子,未來必將走入數據化的發展過程。
2.2 大數據與數字化的區別
大數據相對于數字化最大的區別就在于打破了元數據的壁壘。傳統圖書館的館藏資源建設基本以自有圖書、期刊、報紙和電子文獻組成。進入21世紀,隨著數字圖書館概念的推廣,各圖書館也努力創建了自己的數字資源。然而,現有的數字資源仍然只是傳統文獻收集模式和信息單元在載體上的簡單變化,甚至時效性還通常滯后于紙質媒體。數字化圖書館模式也只是傳統圖書館模式的改擴建工程,是傳統的服務模式和服務空間的簡單升級或擴展服務。信息使用者仍然孤立的使用和讀取本地化資源,信息服務模式仍然高度依賴傳統的出版發行體系。可以說現在的數字化文獻只是傳統文獻內容載體的延伸,而大數據完全是另外一種信息類型。以谷歌的 Books Ngram Viewer項目為例,谷歌books起初只是一個通過和各個圖書館合作將16世紀以來的所有圖書進行數字化的普通項目。而當這個項目的積累達到了8116746冊書,涵蓋了人類歷史上所有出版圖書的6%,并進行了OCR識別、通過一系列算法將圖書中拆分成了一個個最小的短語和單詞,質變發生了。通過這些單詞和短語建設的語料庫來查詢過去500年詞頻變化的項目就是Books Ngram Viewer。在建立了時間和詞頻這兩個緯度之后,在傳統媒介中不能表達完整意義的單詞、短語成了一個個信息點,最終信息的結果來源也不再具體是某一本或者幾本書,而是這個1500年到2008年出版圖書虛擬空間的整體。這個項目也不再是信息到讀者的一個中介,而是一個自己產出知識的生產者。這就是數字化到大數據的完美蛻變。endprint
2.3 大數據對用戶知識需求的影響
隨著移動互聯網的普及,人類的學習、閱讀習慣發生了巨大的改變。2010年前后各種數據的統計上,全球電子書的銷售量就已全面超過了傳統紙質書籍。市場研究公司Statista公布了一組統計數據,數據顯示的是2016年各國用戶平均每天使用智能手機的時間,很多國家的用戶每天停留在智能手機上的時間都超過了1小時,中國用戶更是超過了3小時。從電子書到移動終端,互聯網的信息流越來越呈現與傳統信息不同的特點。電子化信息的篇章越來越短小,圖片、動畫等音視頻元素占比越來越大。同時社交媒體的快速發展形成的交互信息文化,使得很多內容已經無法呈現在傳統媒介上。碎片化的移動閱讀習慣使得人們越來越傾向于直達結果忽視過程的信息獲取方式,這與大數據引領的人工智能算法不謀而合。以前大家津津樂道的網站、終端、app都被統一歸為前端,只有信息流承載的內容才是最終的目的。這一切信息流的背后都是大數據的支撐,互聯網的交互性使每個人都同時成為信息的受眾者和發布者。在大數據的信息空間,知識供給不再涇渭分明的分為供給和需求,用戶同時具有需求和供給雙重角色。信息流的平臺也不僅僅是一個簡單的中介,通過對這些交互信息的整理和分析,各類公開的大數據資源正賦予人們以另一種方式了解世界的手段。
3 應對知識供給變化,圖書館大數據發展建議
圖書館的職能在互聯網普及之后一直面臨著巨大的競爭。書目查詢被搜索引擎“邊緣化”、圖書館期刊館藏被電子期刊數據庫“取代”,參考咨詢服務受到網絡百科類和咨詢類服務的“挑戰”等等[4]。同時科學領域也越來越重視數據在研究中的重要作用,把數據作為最終研究成果的觀點越來越得到學術界的認同。2010年4月,美國Ithaka研究所發布《圖書館調查2010》顯示大學教職工對圖書館作為信息門的認同逐步下降,對圖書館作為存儲或保存機構的認同基本維持不變,對圖書館作為“采購者”的認同逐步增加。這種狀況,當然是對圖書館作為機構知識資源采集者的一種肯定,但是,如果圖書館僅僅作為一個“采購者”,這將嚴重限制圖書館的地位和作用。面對圖書館行業在知識供給上的日益邊緣化,本文認為應該著力做好以下幾點:圖書館做好大數據發展應對知識供給變化
3.1 建立大數據思維,培養數據館員
目前圖書館行業最大的問題是缺乏對數據信息的深層次認知和敏感度,這在很大程度上影響到圖書館相關政策和程序的制定,也阻礙了專業人員的能力發展。正如美國圖書館協會在《2015年國家圖書館報告》中闡述的“大數據時代對圖書館提出更高要求,海量數據的發展亟需圖書館員提升數據素養水平,發展信息化處理技能”。任何事業的發展離不開人才的儲備,著力培養從業人員的大數據思維方法和業務水平,重點培養業務骨干的大數據知識素養是快速提升圖書館行業大數據應用水平的有力途徑。大數據的成功案例告訴我們,大數據是一種和業務緊密聯系的技術應用;同時大數據也是一種需要實時反饋反復修正的動態系統。需要業務流中的每一個人深入參與其中,需要一線的業務人員對數據采集的及時矯正。因此,只有儲備足夠的相關人才,才有可能建設出實用好用的大數據項目。
3.2 完善辦公自動化,加大數據采集力度
大數據領域有這樣一句話“就算你忽略你擁有的數據,但你卻絕不可能分析你沒有的數據。”隨著半導體工業的迅猛發展,現如今存儲成本直線下降,建設本地存儲或者云存儲已經變得十分廉價。同時,數據庫技術的發展使得采用非結構化或是半結構化的數據結構可以讓用戶先把原始數據存儲起來,等到需要建立分析模型的時候,再投入資金進行結構化的處理。所以,圖書館應該努力建立集中的大數據存儲平臺,同時應該加大采集力度,將全圖書館的業務流、信息流全部數據化并收集、存儲起來,在建立圖書館大數據平臺的同時徹底實現信息化自動化全覆蓋平臺。大數據對于圖書館內部管理可以提供很大的幫助,如果說管理信息化是管理工作的一次飛躍,那么管理數據化將是管理工作的又一次飛躍。
3.3 積極參與政府大數據規劃,打造公共大數據中心
大數據最具有想象力的發展方向是將不同的行業的數據整合起來,提供全方位立體的數據繪圖,從更加系統全面的角度了解并重塑研究對象。然而,在很多情況下,數據擁有者之間存在著復雜的競爭和合作關系,這使得他們在共享數據上存在巨大的難度[5]。要解決這個難題,就需要出現中立的第三方機構,建立相對公開的數據平臺,協調所有參與者之間的關系、制定數據共享及應用的規則,拓展大數據的用武之地,使得大數據發揮出其最大的潛力。在現有的市場環境下,這個機構只有政府能夠擔任。在可以預見的未來,政府一定會發展成為最大的公共大數據擁有者和提供方。在擁有了龐大的自有數據之后,承擔著對公共用戶提供大數據服務義務的政府服務部門面臨的最大問題就是如何將數據物盡其用。而自有大數據資源不足,又和政府關系密切并且承擔著面向公眾服務的圖書館是政府大數據和終端用戶的最好橋梁。因此,只有提前布局,加強圖書館行業在政府大數據政策上的發言權,才能在未來智慧城市等政府大數據工程中占有一席之地。
3.4 加強數據分析算法,兼顧效率與安全
數據隱私的保護與數據獲取方式的合法性是大數據發展首先要解決的問題。然而,目前中國乃至全世界對于用戶數據隱私應當如何保護、商業規則應當如何制定、觸犯用戶的隱私權應當如何懲治、法律規范應當如何制定等等一系列管理問題都大大滯后于大數據的發展速度[6]。因此,圖書館行業在進行大數據建設的時候,應該更深入的研究大數據的采集和分析模型的建立關系,可以效仿Google Books Ngrams的方式,通過建立合理優秀的算法結構,達到結果透明、原始數據匿名的合理效果,在保證數據安全、用戶隱私的基礎上,最大化地利用已有數據資源。
4 結語
黨的十八屆五中全會提出“實施國家大數據戰略,推進數據資源開放共享”。表明我國已經進入大數據時代,大數據正在成為經濟社會發展的新動力。隨著大數據時代的來臨,圖書館服務范疇也延伸到對數據的發現、利用、分析、整合,并為讀者提供數據服務。技術只是圖書館提供服務的一種手段和平臺,未來圖書館服務核心是數據以及對數據的處理[7]。圖書館重要的社會定位在于知識的存儲和人類社會集中的學習空間,這一職能并不隨著紙質文本的衰落而改變。圖書館適應信息化社會發展的方式就是不斷調整自己的定位,而適應信息載體的變遷,更主動的融入大數據是現階段最好的選擇。
參考文獻:
[1] 王麗新.現代圖書館知識供給管理模式與理念更新[J].江南大學學報(人文社會科學版),2002(6):71-74.
[2] 張銳.大數據時代圖書館服務模式多元化探析[J].圖書情報導刊,2016(5):81-83.
[3] 張國杰.大數據視角下圖書館服務發展走向及策略研究[J].圖書館工作與研究,2014(6):8-12.
[4] 張曉林.顛覆數字圖書館的大趨勢[J].中國圖書館學報,2011(5):4-12.
[5] 周錦昌.限制大數據[J].21世紀商業評論,2013(15):32-33.
[6] 孫召利,董桂枝,吳艷,譚彪,王洪波,李平.大數據在民航領域應用的初步研究[J].空運商務,2014(2):11-16.
[7] 吳建中.從未來看現在——圖書館發展的下一個十年[J].圖書館建設,2016(1):4-9.endprint