南 楠
(三門峽職業技術學院 信息傳媒學院,河南 三門峽 472000)
?
大數據對高校圖書館的影響與挑戰
南 楠
(三門峽職業技術學院 信息傳媒學院,河南 三門峽 472000)
摘要:隨著各高校圖書館的逐漸公眾化,高校圖書館聯盟的建立,大數據的浪潮也滲入其中。高校圖書館將在服務體系的建立,網絡安全的保障,數據的存儲、分析與挖掘等方面受到影響,面臨新的挑戰。在大數據的時代背景下,異構化數據的處理將是高校圖書館的重點工作內容,通過大量非結構化數據分析、提取潛在規則,為高校圖書館的發展與未來服務體系的改革提供重要參考依據。
關鍵詞:大數據;異構化數據;服務體系;高校圖書館
網絡迅猛的發展使人們的生活進入數字化時代,人們每天都在使用已有數據和產生新的數據。數據以幾何倍數的增加與資源日益減少形成強烈對比,然而產生的大量數據中僅有三分之一被利用,剩余數據中有用信息量甚至遠高于被使用數據,這就是數據挖掘的意義所在。
高校圖書館的資源公開化,高校圖書館聯盟的建立,使其相應的用戶和資源都在迅速增長。作為知識的儲備庫,高校圖書館更面臨著巨大的影響和挑戰。服務模式的轉變,知識體系的重構,網絡安全的保障,都需要面對和解決[1]。如何利用大數據去提取、分析、挖掘高校圖書館龐雜的數據信息,為用戶提供更具人性化的主推式服務,已成為大數據時代下高校圖書館可持續發展的重要方面。
1大數據時代背景
1.1大數據的特征
最早提出大數據時代到來的是麥肯錫:“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。”大數據并不是簡單地指龐大的數據量,與以往時代不同,它具有明顯的四大特點:第一,龐大的數量級。大數據的基本計量單位都是從PB開始的,隨著各種社交、購物網絡的發展,云計算、物聯網技術的出現,量級已達ZB[2]。目前,一些高校圖書館的數量級已達PB,并仍在不斷攀升。第二,數據種類多,異構化數據占據主導位置。數據不再是單一結構,可能是結構化、非結構化的,也可能是混合模式的,綜合時間、空間、傳輸特性等多種因素的數據將大量存在。第三,價值密度低。單一數據本身價值不一定高,匯聚成一定規模后,其隱含價值遠高于本身數據價值。第四,時效性高。大數據要具備高效、實時的處理能力,針對隨時產生的數據即刻給予分析、處理,大數據的重點作用就是其預測、創新能力,滯后的分析結果毫無意義。
1.2大數據的處理流程
大數據的處理流程分為三個階段:收集數據,分析數據,提取規則。
(1)收集數據。如何能充分利用和挖掘大數據的潛在價值,數據的選擇非常重要。理想條件下大數據的樣本不應該是抽樣,而是包含全部數據,但實際中受軟硬件的制約,數據在處理前經過了多重篩選,不同數據的選取對結果的影響是巨大的。目前可以使用統計網站流量、關鍵詞控制、外部統計工具等。
(2)分析數據。篩選過濾后的樣本數據將進入到分析數據階段。這個階段中一般將利用數據挖掘、數理統計、機器學習等技術對樣本做出相應處理,同時要兼顧幾個方面的問題:①如何選取最優的處理技術。②算法的改進。大數據的實效性使算法不可能永遠一樣,根據不同數據和用途,對已有算法進行改進,平衡算法的準確率和實時性,提高分析能力。③評價準則。對算法產生的數據結果應有一個評價指標。算法改進是否成功,與原始方法相較是否有優勢,在評價指標中都應給出確切顯示。
隨著甲醛的話題不斷被炒作,消費者關注熱度的不斷提升,部分商家很快嗅到了產品的宣傳點和賣點,開始在產品的廣告宣傳中加入“無醛”或“0醛”等字眼來吸引消費者。消費者在購買產品時,無法識別產品是否環保,在很大程度上會被一些設計精妙的廣告宣傳所蒙蔽或欺騙。此前,所有商家的無醛宣傳都存在同一個問題,就是沒有依據,國家層面和行業層面都沒有相關的標準規定什么樣的產品算是無醛產品。因此,木制品市場和人造板行業都急需一個標準來規范無醛人造板和制品的生產、檢測和標識,消費者也在尋求能予證實綠色環保家居建材產品的方法或可信賴的標志。
(3)提取規則。大數據處理結果的顯示也是多樣化的,不僅局限于傳統的數字、文本形式,應具有更形象的展示方式,如指數曲線圖、視頻、動畫演變等可視化技術,使用戶更能直觀地體驗與了解。
2大數據應用范圍
大數據時代就應該用大數據的思維去解決問題,首先需要明確的就是大數據能干什么,即大數據的應用范圍。在大數據時代,因為互聯網的關系,所有的數據都透明化地擺在了所有人的面前,這些千門萬類的大數據都能干什么,會創造出怎樣意想不到的價值,都是需要深入研究和開發的。
目前為止,大數據的應用根據其使用程度可劃分為三類:(1)擁有大數據,但無法完全利用。這類主要是指政府部門、銀行、通信行業等。(2)無大數據,但能間接推動大數據的使用。這類主要是指IT服務行業、咨詢機構。(3)有數據,基本能使用大數據產生價值。比如百度、淘寶、京東等互聯網企業。
大數據的應用中,會發現很多本來毫無關聯事物之間的因果關系,從而產生利益,這就是大數據最大價值所在。政府利用大數據實現市場經濟調控、國防安全預測、城市交通疏導;醫院利用大數據提升醫療服務,改進治療方法,跟蹤患者病情及時提供必要幫助;企業利用大數據制定有針對性營銷方案,有效降低成本,提高銷售率;金融機構利用大數據根據用戶存款記錄、信譽度等推薦相關理財產品,提高存款率;電商業利用大數據根據用戶購買記錄與訪問記錄推薦相關類別商品,提高購買力度;娛樂業利用大數據預測電影、藝人、欄目的受歡迎程度,并為制片人評估投入一部影視作品的最優資金,保證基本利益;社交網絡利用大數據為用戶推薦與之興趣相近,或有可能認識的人,同時根據其瀏覽信息作相應推廣[3]。
其實,大數據的應用遠遠不止這些,已開發的和未開發的領域都十分廣闊。在未來的生活中大數據的身影會無處不在。發展在繼續,以知識發現知識,以知識創造知識,無處不在的大數據很快將會滲透到我們生活的每一分一秒和生活的每一個角落。
3大數據對高校圖書館的影響與挑戰
高校圖書館作為一個知識基地,隨著面向公眾開放與加入高校圖書館聯盟后,其信息服務機制,數據存儲、管理與保護方式整體都受到了大數據的沖擊與挑戰。不同讀者對知識的需求模式也在多元化,各種需求間的獨立性與聯系性都需要大數據去分析挖掘,才能使高校圖書館保持正常的服務。大數據對信息服務業帶來的影響與挑戰促使高校圖書館必須要從海量的大數據信息中快速、準確地把握讀者的個性化需求,提高服務質量,確保其長期、良性的發展、存在[4]。根據現有大數據特點,對高校圖書館的影響與挑戰主要有以下三個方面:
3.1數據類型多元化
大數據與傳統數據最大的不同就在于其結構的復雜性,一般的數據形式都是單一的、相對獨立的,而大數據是結構化、半結構化與非結構化數據的總和。據互聯網數據中心2013年給出的數據顯示:每年全球數據量中只有17%是結構化數據,83%左右是非結構化,這些數據的處理與充分利用才是大數據時代下所要完成的工作。
高校圖書館中傳統的數據主要是紙質和電子文檔、簡單的管理數據庫,但在大數據下,數據的類型也變得多元化。除基礎性電子文檔,管理數據庫的存在,還產生了其他一些非結構化數據,例如在一些高校圖書館中,提供的服務有臨時閱讀和借閱的模式,借閱讀者的信息會直接保存在數據庫中,但臨時借閱的讀者數據會通過在圖書館各個角落安置傳感器,隨時反饋讀者的閱讀信息,這部分產生的數據就是一種非結構化的;還有知網是高校圖書館的重要應用之一,科研、學術都對其有了更高的要求,推薦給讀者與之搜索相關度較高的文獻也是大數據的工作內容[5]。數據類型的多元化對高校圖書館提出了更高的要求,是發展中必須考慮的問題。
3.2存儲能力高要求
大數據的獨特架構促使其對存儲能力要求不斷提升。高校圖書館從傳統紙質型轉向數字型后,存儲能力的提高也是面臨的一個挑戰,軟硬件的發展都是由數據的需求而決定。高校圖書館因是非營利性機構,基礎設施的條件都會受資金的影響,大數據的增長速度每天都是幾何倍數增長,最小的存儲單位都是PB級。需求的增長要求存儲容量、傳輸速率和計算能力都應增強。早期采用DAS技術,該技術在存儲上要求服務器與客戶端1∶1配比,無共享性,管理維護難度大;近期一般采用NAS與SAN技術存儲數據,SAN技術的優勢是存儲容量大,可擴展性好,但計算性能稍弱,系統安裝復雜,成本高;NAS技術也能存儲大容量數據,具有較好的擴展性,且系統安裝簡單,但安全性較弱。大數據時代對存儲能力的性能要求更高,結合自身條件,選取一種適合的存儲技術,制定出一個長遠的可行性規劃并按規劃進行實施,是高校圖書館建設前期的首要任務[6]。
3.3服務體系高標準
圖書館的基本工作內容還是服務大眾,滿足讀者不斷變化的信息需求。高校圖書館的信息資源量大,具備大數據的特征,將大數據引入到高校圖書館,更能改善服務體系,提高服務質量。大數據環境下,高校圖書館的主服務模式也受到了影響,信息服務的重點內容變成了對大數據的分析。由于異構化數據占大數據的比重日益增大,處理難度也相對增加,如何分析處理好這些大數據,快速提取,準確地滿足用戶可能存在的需求,制定個性化信息服務,才是大數據下高校圖書館的新型服務體制。
大數據環境下高校圖書館的服務體系必須具備高效、快速的反饋能力。建立的信息服務模式一般有以下幾種:基于數據整合的一站式資源服務、基于數據分析的學科知識服務、基于數據應用的信息可視化服務和基于數據挖掘的智慧服務。
大數據環境下,高校圖書館從封閉的服務模式轉變成開放的模式,從現實轉變成虛擬,服務的對象也從人對人轉變為人對數據。基于大數據的高校圖書館服務體系目前應該從信息、數據、知識、智能四個方面制定體系。
4大數據時代高校圖書館可采取對策
高校圖書館前所未有地受到大數據的影響與挑戰,促使其制定相應的對策積極應對這一挑戰。高校圖書館應使用專門技術人員管理大數據,對大數據管理制定統一管理政策,平衡與大數據有關的工作內容。具體對策如下:
4.1引進專門技術人員管理分析大數據
大數據時代,高校圖書館的生存必須依靠一大批懂技術的專業人士作為支撐,不能只依靠幾個基本的管理人員,信息化服務占主要內容時,技術人員的作用性尤其重要。要想使高校圖書館持久、穩定地發展下去,核心競爭力就是擁有大數據的比拼,數據的規模、數據的獲取、管理、分析、提取利用等專業工作都需要懂技術懂大數據的人員來操作。傳統的高校圖書館管理人員較多,一般只有少數技術人員甚至沒有,這些在大數據時代都已不能滿足讀者多元化、個性化的需求,引進大數據技術人員及時解決各種供需矛盾勢在必行。
4.2異構化數據的處理
異構化數據將是大數據的主要體現形式。早期的單一文本、視頻、圖片數據占有比重大幅下降,混合模式數據逐漸占據主導地位。高校圖書館中生成的大數據一般都與讀者需求密切相關,解決此類問題的常用方法是基于內容過濾和協同過濾推薦法。兩者都是根據讀者的歷史記錄,進行針對性推薦?;趦热葸^濾法主要是考慮讀者對信息內容的關注度,對某一類圖書內容關注度高的進行推薦,但會忽略掉評價體系中沒有但讀者可能感興趣的部分?;趨f同過濾法是考慮讀者對某類圖書的關注度,并沒考慮到書中的實際內容,根據對相同類型圖書的興趣變化進行推薦,但對數據的真實性無法辨別。目前一般都是采用混合兩種算法的模式,根據讀者使用記錄,對大數據進行分析、挖掘制定出合理的個性化服務。
4.3安全防范機制的強化
數據存儲后的安全保障也非常重要。讀者的個人信息,圖書館中的珍貴館藏,一旦泄露都將造成無法挽回的損失。高校圖書館的數據保護應該在人力和技術方面有所加強,在不暴露隱私的前提下去挖掘、使用大數據,安全、有效地確保信息的完整性。
高校圖書館的安全防范機制采取的措施可以從三個方面入手:一是加強權限管理,不同用戶授予的權限嚴格控制,較高的權限盡可能少的人擁有;二是加強網絡安全防范,采用數據加密,建立防火墻,建立及時可靠的應急響應系統等;三是樹立良好的服務形象,合理合法使用讀者信息,提升服務機制。保證既有效使用大數據,又不泄露讀者個人信息的雙重目的。
5結語
大數據時代的到來對高校圖書館的存在與發展帶來一定的沖擊,對人們熟知的服務體系與知識展示方式帶來革命性的變革,同時對現有技術與方法提出更高更嚴的要求。通過近幾年對大數據的分析研究,一些基礎理論方面如數據捕獲、存儲、分析與提取過程中,對相應的數據模型、計算能力、智能輔助系統和知識服務體系都會出現更多的新技術與模式。
高校圖書館對大數據的引入勢在必行,而大數據對高校圖書館工作變革的影響也是不可估量。盡管目前可能會出現工作、生活、用戶隱私、信息保密會暴露的潛在不安全因素,但隨著技術的逐步進步,未來大數據技術帶給高校圖書館的利益遠大于其存在的問題。在未來,高校圖書館如何更好把握新時代契機,將大數據技術充分利用,消除其不利因素,深度挖掘其潛在價值,將是我們今后的重點研究方向。
參考文獻:
[1]韓翠峰.大數據帶給圖書館的影響與挑戰[J].圖書與情報,2015,(5).
[2]嚴霄鳳,張德馨.大數據研究[J].計算機技術與發展,2013,(4).
[3]李鳳念.大數據時代高校圖書館受到的挑戰及其發展策略[J].農業圖書情報學刊,2014,(3).
[4]劉曉穗.大數據時代普通高校圖書館的發展策略[J].河北科技圖苑,2014,(11).
[5]韓雪.大數據時代的高校圖書館建設[J].圖書館論壇,2014,(8).
[6]張文彥,武瑞原,等.大數據時代的圖書館初探[J].圖書與情報,2012,(6).
責任編輯:李增華
中圖分類號:G250.7
文獻標志碼:A
文章編號:1674-6341(2016)01-0126-03
作者簡介:南楠(1981—),女,河南洛陽人,講師。研究方向:計算機網絡、自動化控制。
收稿日期:2015-11-19
doi:10.3969/j.issn.1674-6341.2016.01.054