孫海晶
摘? 要:隨著信息技術和互聯網技術的快速發展,大數據技術已普遍融入到了每一個行業之中,人們已步入了大數據時代。大數據技術的廣泛應用會使圖書館的知識管理體系進行重新構建。該文將大數據技術與圖書館的工作相結合,從各種不同的角度分析了大數據技術在圖書館中的應用,同時,也提出了大數據背景下,讀者隱私信息的安全問題及解決方法,以促進圖書館的建設和發展,實現對讀者的精準服務。
關鍵詞:大數據? 大數據技術? 圖書館? 應用
中圖分類號:G258.6;G251 ? ?文獻標識碼:A 文章編號:1672-3791(2020)01(b)-0174-03
提到“大數據”,每個人都不陌生。因為當我們在進行網絡購物時,會發現網站會根據我們瀏覽或購買過的商品,個性化地向我們推薦類似的商品,甚至會在我們的電腦桌面間斷性地跳出相關廣告頁面。這就是典型的商業網站依據用戶的行為信息建立個性化的用戶行為模型,再對模型中存在的規則進行挖掘,在此基礎上為用戶提供個性化服務。而且一旦發現新的商品數據就向用戶及時通知。在此之外,還對用戶興趣的轉變及時跟蹤,根據用戶的最新需要及時推送[1]。這就是基于大數據技術的應用。目前大數據技術已滲透至每一個行業,而且和我們的生活緊密相連。
如在醫療行業:在加拿大多倫多的一家醫院,針對早產嬰兒,每秒鐘有超過3000次的數據讀取,通過這些數據分析,醫院能夠提前知道哪些早產兒出現問題并且有針對性地采取措施,避免早產兒夭折。現在,很多圖書館已經開始借鑒這種成功的實踐經驗,將其應用到圖書館建設和發展中,為讀者提供了個性化的精準服務。
1? 大數據的含義
目前,對大數據還沒有統一的定義。維克托·邁爾-舍恩伯格及肯尼斯·庫克耶對大數據的提出定義是:大數據(big data,mega data)或稱巨量資料,指的是需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據進行分析處理。維基百科對大數據的定義是:所涉及的資料量規模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理,并整理成為幫助企業經營決策更積極目的的資訊。
從這些解釋中,我們不難看出所謂大數據,它是一種信息資產。這里的數據只有少數以儲存在數據庫中的結構化數據存在,90%是以郵件視頻、微博等產生的大量的半結構化和非結構化的數據存在。并且這些數據的價值不是存儲,而是獲取和應用。
2? 大數據技術在圖書館中的應用
2.1 服務理念的主動性增強
我們工作的目的是盡其所能地幫助讀者解決問題,而非做了多少數量的工作。即解決問題為主,基礎工作為輔。
在傳統模式的圖書館管理和服務中,管理員的工作內容主要集中在加工、整理紙質書籍、期刊、報紙等類型文獻,定期更新數據資源,舉辦各類讀者活動、線上線下課堂講座、網上咨詢等服務。通過資源共享的方式,在讀者提出問題的前提下,然后查找相應資源為其提供回復,為讀者提供所需要的信息,管理員處在被動模式。這種狀態已經很難適應現代社會信息化快速發展的需求。但如果采用大數據技術,可以利用收集讀者的相關信息,再把收集的信息進行整合處理成具備某些意義的電子信息,為讀者提供個性化的服務[2]。通過這種方式不僅大大提高了館藏資源的利用率,增強了管理員的服務主動性,對潛在需要服務的讀者群體也進行了有效的擴展。
2.2 更加精準地服務讀者
在圖書館的日常工作中,可以收集很多類型的數據信息,其中比較重要的數據有:圖書館在對讀者進行服務時產生的業務數據;加工處理文獻產生的文獻數據以及讀者群體在自助式閱覽、借閱以及活動等方面產生的用戶數據。其中用戶使用數據是指用戶在使用圖書館信息資源或信息設施的過程中可以被計算機所記錄的用戶信息行為數據,既包括網絡環境中的信息行為數據,也包括物理空間中的信息行為數據。圖書館通過統計讀者的用戶數據,分析出讀者的閱讀周期和規律,利用大數據技術為讀者提供精準、個性化的服務。
2.2.1 在文獻資源服務方面實現精準化
隨著信息技術和網絡的快速發展,文獻資源的數量和種類呈現冪級增長的趨勢,數量大到無法估量。但這些數據卻有很大的冗余度,價值密度極低。無論在時間上還是空間上都大大增加了讀者查閱的難度。為解決這個問題,我們可以通過對讀者借閱習慣、對館藏資源的點擊率、下載率甚至社交方式等數據的統計與分析,對館藏資源進行文獻信息的分類與排行,預測讀者喜好,有針對性地向不同類型的讀者實現精準推送,實現個性化的精準服務。
有些圖書館已經把讀者的年度閱讀情況以報告的形式向讀者開放。對于讀者而言,不僅使讀者從宏觀上定期地了解了自己的閱讀情況,而且有助于讀者進一步完善自身的知識體系,根據需要調整資源結構,提高了讀者的閱讀興趣;對于圖書館而言,不僅提高了圖書館工作者對信息處理的服務技能,合理地利用了圖書館的文獻資源,更增強了讀者對圖書館的好感度,推進了對讀者更好地進行精準服務。
2.2.2 在讀者活動方面實現精準化服務
現代圖書館為了營造社會文化氛圍,提高公民文化素養,不斷提高館舍場地的利用率,已將各類展覽、專題講座、大眾培訓等多種服務內容納入到了其重要業務范疇。圖書館可以針對不同的讀者群體、不同的業務領域,將大數據的分析、預測功能,滲入到各項讀者活動中。圖書館可采用大數據技術對參加圖書館各類活動的讀者展開數據分析,這種分析結果將成為未來活動策劃的重要依據。現場問答、讀者意見單等都可以為圖書館獲取有效數據提供支持,通過對這些數據的深層次挖掘和具體分析,我們可以從中獲取有價值的信息,這對圖書館各項讀者活動的發展方向、規模大小等都具有參考價值。
2.2.3 在資源采購方面實現精準化
通過大數據技術在圖書館系統中的運用,圖書館可以通過收集讀者的圖書借閱記錄、數據庫訪問、檢索、下載記錄、留言等信息,收集相關有用數據,進而更加有效地了解與分析讀者對各種資源的使用情況,特別是通過挖掘用戶檢索日志,對那些多次被讀者檢索而本館又缺藏資源的采購提供了重要的信息。尤其在一些區域型中心館分館型圖書館中,通過網絡技術可以全面掌握整個區域讀者的需求情況,為圖書館文獻資源的采訪決策、優化配置和數據庫的刪選調整提供科學的依據,也為圖書館再造文獻采訪模式提供有力的保障。
2.3 利用大數據構建新型知識體系引擎
目前的公共圖書館中,幾乎都通過自己的查詢系統實現了館藏書目聯合檢索,但仍無法做到對本館資源整體的資源檢索。如讀者檢索某一知識點時,除了通過書目檢索系統檢索相關書目信息外,還需要通過不同數據庫的不同檢索引擎,經過多次檢索才能獲取此知識點相關的完整文獻信息。為避免這一問題,可以通過大數據處理技術的支撐構建動態的知識體系,以供讀者從多視角、全方面地瀏覽相關資源[3]。在這方面,谷歌知識圖譜、搜狗知立方、百度知識圖譜等搜索引擎的推出,為用戶的搜索關鍵詞返回多種媒體形式、多種知識點組成的知識關聯結果,大大擴展了用戶搜索的知識體系,值得圖書館界的學習和借鑒。
如“谷歌知識圖譜”:利用搜索引擎查找一詞多義的詞語,“維多利亞”,它既是一位前英國的女王,又是加拿大的一座城市,還是一部電影的名字。Google會在搜索結果的右側給出維多利亞女王的介紹,在更下面的位置,會給出維多利亞城市的簡介,還有維多利亞電影的簡介等。
借助知識圖譜,Google在搜索結果的右側將這些由同一個關鍵詞所表示的不同事物根據特定的優先級算法羅列出來。用戶借助這種信息組織形式就能方便地縮小搜索范圍,快速找到真正關心的內容。
知識圖譜還可以根據相關度給用戶做出推薦,例如,當用戶搜索一本書時,知識圖譜知道這本書獲得哪些獎項,就會把同樣獲得這些獎項的圖書也推薦給用戶。當用戶搜索某個科學家時,知識圖譜會把和他同一個年代、同一個領域的科學家展示給用戶。除了回答用戶已提出的問題,還能根據其他人的搜索行為預測當前用戶接下來會問什么問題,直接把這些接下來用戶可能關心的問題答案擺放在“用戶還搜索了”下面。
3? 大數據背景下讀者信息的隱私安全問題
通過大數據技術在圖書館中的應用,可以給讀者帶來個性化的精準服務,但在服務的同時,由于圖書館對讀者各種信息數據的采集、數據挖掘、預測服務,以及與第三方增值服務合作等過程中,難免存在對讀者隱私數據的侵犯問題,這給讀者的信息安全帶來了隱患。據中國互聯網信息中心(CNNIC)提供的2013年《中國網民信息安全狀況研究報告》顯示,74.1%的網民在過去半年內遇到過信息安全問題。另據2012年的調查,絕大多數網民對個人信息安全處于無助狀態,有近九成網民在信息泄露后無任何補救辦法。
3.1 圖書館與第三方增值服務運營商合作過程中出現的讀者信息泄露
圖書館在對讀者進行用戶注冊信息、讀者借閱數據、讀者活動數據、讀者社交數據等信息進行采集操作后,還需要與第三方增值服務運營商合作,為讀者在移動閱讀、用戶數據管理、個人圖書館等方面提供服務。而有些IT系統的規劃和建設過于注重功能性需求,卻忽略系統在安全、穩定、可維護等方面的非功能性需求,致使大數據系統在安全方面防護能力不足,在系統設計、技術手段和運營管理等方面存在各種漏洞。還有的系統過于強調開放性和便利性,忽視對數據關鍵信息的保護。比如代理商可以直接訪問系統核心數據庫,調用客戶資料,查閱信息等。這都可能造成讀者隱私數據的泄露。
3.2 圖書館在對讀者管理和服務過程中出現的讀者信息泄露
圖書館為了給讀者提供精準的服務,首先要進行信息的收集,如姓名、性別、出生日期、文化程度、工作單位、聯系方式、職業等信息;讀者在參加圖書館的各項活動和社會培訓中,也會提交各種相關信息;讀者在圖書館的閱覽、借閱、上網瀏覽下載、定位、網絡社交等行為所產生的數據信息也會被在圖書館所記錄。這些讀者信息在收集的過程中難免存在安全漏洞,導致讀者信息的泄露。
3.3 圖書館自律不足會使讀者信息泄露
國內圖書館在某些方面對讀者信息保護措施還不夠健全,所以很多圖書館員在對讀者信息的處理問題上沒有準確的依據和范圍,不確定哪些信息需要保護、哪些信息可以公開,存在模糊與漏洞的狀態。一項針對我國151所各種類型圖書館的研究表明,制定并公布隱私權政策的圖書館僅占13.9%。所以在圖書館員的信息安全方面也存在一定的問題。
4? 大數據背景下圖書館對讀者隱私數據的保護措施
4.1 圖書館與第三合作方建立完善的責任機制
圖書館在與第三合作方達成協議前,應根據需要與其對信息安全方面達成書面責任制約協議。其內容可以包括法律規定、管理與服務需要把數據劃分為不同等級,嚴格設置訪問機制,對不同人群的訪問采取等級制度,從而達到保護讀者數據安全的目的。
4.2 按需求嚴格篩選讀者數據
大數據具有數據量大、冗余密度低的特點,針對這些缺點,在對讀者進行數據采集的過程中,應盡量避免多余、利用率低的數據,只采集與讀者管理和相關服務有關的數據。在實現用戶個性化精準服務過程中,圖書館應交付用戶應有的數據知情權、擁有權、選擇權和使用權,不應過分強調個性化精準服務的質量而侵害用戶隱私。圖書館應實現用戶數據的透明采集,并明確告知讀者相關數據采集的內容、方式和使用方向。在利用傳感器、監控設備和網頁搜集用戶數據時,應通過技術手段過濾掉讀者的姓名、住址、電話,閱讀終端類型、賬戶密碼、職業、身份、收入等隱私信息。
4.3 加強圖書館自律
圖書館工作人員負責采集讀者信息,在讀者的信息安全方面負有很大的責任。圖書館在隱私權法律知識方面進行普及,提高圖書館員和讀者對個人信息的自我保護意識。比如可以在定期的法律講堂或前臺服務處介紹相關的信息安全知識,對圖書館的特定崗位進行信息安全培訓,幫助讀者和館員理解法律法規,學習圖書館隱私權政策,提高自我保護隱私的意識和能力。
5? 結語
在《奇葩大會》中,李開復說:“未來,人類有50%的工作將會被人工智能替代。”“所有的行業都會顛覆,而且很多的職業正在慢慢消失。”但文化、娛樂、文藝、考古學或者一些跨領域、深度的工作是機器所不能替代的。特別是服務者,在未來是非常有價值的。所以,我們這些圖書館的服務者,在看到自己的危機感的同時,更重要的是提升自身的服務質量。
參考文獻
[1] 王玫.大數據在圖書館的應用研究[J].管理縱橫,2016(10):49-50.
[2] 徐寅哲.大數據在圖書館管理與服務中的應用[J].科技資訊,2017,15(31):254-256.
[3] 陳國蘭.如何利用大數據構建圖書館新型知識服務體系[J].現代情報,2014,34(9):149-157.