華南
很多閱讀功能,讀者以前必須到圖書館才能使用,現在坐在家里登陸國家圖書館網站就能輕松完成
登陸國家圖書館讀者賬號,就接到國圖推送的個性化新書;翻開“掌上國圖”微信公眾號,國家圖書館最新活動推送已到眼前……在數據資源量每年以百分之幾十的速度增長的當下,大數據下的讀者體驗隨時隨地、個性十足。
“全面、快速、便捷,今天讀者對圖書館服務體系已有更高要求。”國家圖書館副館長、全國青聯委員魏大威,在大數據背景下闡釋國家數字圖書館建設,鋪展開基于大數據的圖書館服務發展藍圖。
從大數據的礦藏里挖出金子來
“大數據不僅在政府管理、公共服務中,企業和商業網站等都在用。我們平時接觸的互聯網內容,在技術上都已有應用。國家數字圖書館在大數據方面有基礎。”魏大威介紹到,在沒有大數據說法的時候,國家數字圖書館建設就提出“海量數據”,即海量數據的長期保存、加工、服務等等,所以對于國家數字圖書館來說,很自然就從“海量”過渡到“大數據”。
2015年8月,國務院發布《促進大數據發展行動綱要》指出:“大數據是以容量大、類型多、存取速度快、應用價值高為主要特征的數據集合,正快速發展為對數量巨大、來源分散、格式多樣的數據進行采集、存儲和關聯分析,從中發現新知識、創造新價值、提升新能力的新一代信息技術和服務業態。”對比這四條特征,魏大威說,國家數字圖書館不論從數據資源的容量、多樣性等方面,都與國家提法吻合。國家圖書館數字資源總量2015年年底已超過1100TB。
“其實數據人人有,包括現在的一些企業都是數據資源大戶,關鍵是有沒有能力從中挖出金子來。為什么搜索引擎說可以比疾控部門提前預知流感的爆發,就是他們根據搜索數據的趨勢得出的結論。對我們來說也是這樣的概念,簡單舉例,圖書檢索數據能夠顯示讀者最希望在國圖用到哪些資源和這些資源能不能找到。所以國圖現在有很大的數據基礎,我們的工作就是努力從‘礦藏里挖金子。這需要很大投入,資金、人力、科研的投入。”1999年大學畢業進入國家圖書館信息技術部的魏大威,趕上了國圖數字化發展的大時代。上世紀90年代末,國圖也結合信息技術發展趨勢,提出建設“沒有圍墻的圖書館”,最近幾年隨著移動技術的迅速普及,國圖又進一步構建“隨時隨地隨身的圖書館”。
進步在讀者不知不覺中悄然而迅猛地發生著。魏大威語帶欣喜地說道:“作為辦理過國家圖書館讀者卡的讀者,如果借閱某種類型的圖書比較多,讀者在利用手機或電腦客戶端檢索的時候就會推送相應的資源”。700萬名注冊讀者的年齡、性別、職業分布和對圖書館資源的需求特征,對于國家圖書館而言都是重要信息。另外,國家圖書館官網年訪問量超過14億次,就是讀者利用圖書館的數據也是很龐大的數據資源,這方面此前沒納入國家圖書館數據資源內容的讀者信息資源,現在已經列入其中。
從2015年起,國家圖書館推出“我與國家圖書館的故事”項目。魏大威深入淺出地講解道:“通俗地說,就是給讀者畫像。我們的700萬讀者到底都是什么樣的?利用微信公眾號等平臺,以問卷形式為讀者梳理出對國圖資源的利用情況,比如你第一次借閱是什么時候,至今借閱多少本書等等。這些數據我們都會分析,得出每天到館最多的讀者年齡段、閱讀喜好等,這會讓我們的服務更有針對性。“比如很多讀者檢索某一本書,但是查不到,就說明讀者需求我們沒能滿足,要及時補充圖書。這些數據積累起來就對我們的館藏建設是一個促進。”
“超大型元數據資源庫”
“建立超大型元數據倉儲是未來數字圖書館進行資源整合的思路之一,從而實現資源的統一聚合與一站式檢索,將云服務與關聯數據結合起來實現數字館藏的組織和聚合,構建‘資源——用戶關系模型等思路展開工作,但資源整合也面臨著資金、人才、技術等方面的挑戰。”2014圖書館現代技術研討會上,魏大威在發言中闡釋“超大型元數據資源庫”理念。
“國家數字圖書館建設以來,至今外購到數百個國內外數據庫,按照傳統方式,讀者搜索一個信息內容又不知在哪個數據庫里,就需要分別進入幾百個數據庫搜索,或者只找幾個最知名的數據庫,都很不方便。我們就把分布在不同數據庫里的元數據都拿出來放到我們設計的唯一“籃子”里,這就是我們現在做的檢索系統,也就是發現系統。就相當于讓讀者在一個檢索系統里同時看到所有數據庫里的內容。”魏大威描述道,隨著國家圖書館和全國各省級、市級圖書館網絡的聯通,讀者可以很方便地檢索到全國哪些圖書館里有這本書。他坦言這對技術人員來說也是很大挑戰,但這又是未來數字圖書館發展方向,也是他們必須攻克的難關。
大數據時代,讀者在極其充沛的信息資源面前,另一個搜索要求就是快速。在魏大威的記憶中,2000年時用Aleph系統,16G、32GCPU的內存量可能就能滿足。在傳統數據量的模式下,甚至信息部工作人員編寫一個數據庫代碼就能解決數字資源檢索問題,“而一旦數據上億之后,就非傳統手段所能完成。傳統系統放進去幾億個數據,不要說并發,也就是多個用戶同時搜索,就是一個人檢索幾十頁的內容可能就要好幾天時間,這是不能忍受的。”所以這個東西對于我們很多平臺、資源管理來說是全新的,但又必須克服。因為不這么處理,作為國家圖書館,幾億條數據,又要保證一定并發、一定的效率,肯定要有最先進的解決辦法,我們現在用服務器分散式集群處理這個問題,幾百臺服務器共同管理。現在我們幾億條數據,而且每年以10%的速度在增加,不斷補充,這些數據灌入、索引、處理、清洗,是很復雜的,這都是數字圖書科研人員在大數據時代必須解決的問題。
“但是這個坎兒一旦跨過去了,就上升到另一個層次。”魏大威表示。很多閱讀功能,讀者以前必須到圖書館才能使用,現在坐在家里登陸國家圖書館網站就能輕松完成。
責任編輯 王海珍