熊煒
摘 要:文章以信息技術飛速發展的當今社會為背景,首先從定義和發展兩個方面對大數據的有關內容進行了敘述,然后又列舉了數字圖書館大數據所具有的代表性特征,最后結合實際情況,以“數字圖書館如何在建設中合理應用大數據”為主題,展開了深入的探討。
關鍵詞:數字圖書館;建設;大數據問題
作為信息技術發展進程中的里程碑,物聯網、云計算和大數據的出現,均在一定程度上對人們的生活產生了影響。對數字圖書館而言,在對其進行建設的過程中,所涉及數據量的增加以及所涉及種類的多元化,導致人們不得不將關注的重心轉向大數據的問題方面。由此可以看出,想要保證數字圖書館建設工作的順利進行,對大數據問題進行探究是非常有必要的。
1 大數據的概述
1.1 定義
現階段,大數據在定義方面仍舊存在一定歧義,部分人認為大數據的核心特征在于其所具有的復雜性,而另一部分人則認為大數據的核心特征在于其總量大。在各種不同的定義中被人們普遍認可的觀點是:大數據是無法應用傳統工具在特定時間內完成挖掘、分析與存儲的數據集合。在該定義中,大數據所具有的特征共有兩個,其一是數據量大,其二是所包含半結構和非結構數據的數量較多。
1.2 發展
大數據出現之初,就得到了大量IT廠商的認可,并隨之開展了大數據的研究工作。以麥肯錫為代表的咨詢公司,根據自身所涉及的工作方位針對大數據開展了相關的專項服務,而負責生產軟件與硬件的廠商,則紛紛通過對自身現有優勢的整合,推出了對大數據進行挖掘、分析和存儲的方案[1]。隨著相關研究的不斷深入,針對大數據所開展的研究工作,也實現了由理論向實踐的轉變。
2 數字圖書館大數據的特征
2.1 價值高
需要明確一點,在以碎片化形態存在的數據中,往往也會蘊含著寶貴的資源和知識,例如,在長達一個小時的教學視頻中,其核心資源可能只有五分鐘的時間,但是想要在大量數據中將這關鍵的五分鐘視頻資源進行查找,就需要應用大數據的有關技術對其加以輔助,提升信息查找的效率,避免不必要的時間浪費。
2.2 增長迅速
對于數字圖書館而言,在大數據時代最突出的特征即為數據增長的迅速,其中包括新購入的數據庫、音頻視頻資源以及現有資源的數字化等,想要對幾百TB的龐大數據進行高效管理,當務之急在于對數據中心的構建與完善[2]。
2.3 類型復雜
在數字圖書館的建設工作取得相應進展的當今社會,開始有越來越多的圖書館根據自身所具有的特點,開始了對特色資源的數字化建設,例如,地方著作、師生著作或教學視頻等,這項工作的開展雖然在很大程度上豐富了圖書館的資源儲備,但也加劇了資源體系的復雜程度,使非結構數據、半結構數據和結構數據的融合程度不斷增加。
3 數字圖書館如何在建設中合理應用大數據
3.1 數據的挖掘
近幾年,被人們廣泛認可的數據挖掘平臺為云計算,也就是說,對云計算進行合理應用,可以在一定程度上實現對大數據問題的有效解決。云計算指的是可以用于配置與共享的資源池,對該計算資源池所包含資源進行釋放和分配時,只需要開展極少的互動與管理工作即可。
云計算所包含的服務類型共有三種,分別是平臺、基礎設施以及軟件即服務。現階段,科研人員尚未根據云計算所具有的特點構建起用以統計的架構,但不同服務類型均具有以下幾個方面的共同點:第一點,快速彈性;第二點,寬帶網絡訪問;第三點,資源池化;第四點,自助服務。而云計算所對應的技術體系,則是由SOA構架層、物力資源層、管理中間層和資源池層所構成。
在數字圖書館中對大數據加以應用的主要作用為數據的挖掘、分析和存儲。云計算可以在最大程度上實現對數據進行挖掘與部署的效率的提升,并且降低對空間與資源的消耗,除此之外,人們使用頻率較高的數據挖掘與分析軟件,也可以與云計算平臺相連接,因此,在應用大數據的過程中,云計算技術是必不可少的構成部分[3]。對云計算而言,正是由于其在對數據進行挖掘和計算的過程中,所應用的工作方式為分布與并行相結合,因此,和傳統服務器相比較而言,在工作效率方面具有較為明顯的優勢。另外,云計算所具有的彈性特征也在很大程度上提升了其與大數據分析所具有的契合度,通過對云計算的合理應用,人們可以高效完成對數量較多的非結構數據進行可視化分析的工作。
3.2 數據的分析
雖然對處于任意領域中的大數據而言,在定義方面都是相對統一的,但這并不代表其不存在具有代表性的特征。對數字圖書館而言,在對所涉及大數據進行分析的過程中,往往會由于結構化數據所占據比例的增加,與商業公司相比會顯得更為簡單、容易。
在對數字圖書館進行建設的過程中,最基礎同時也是具有最大價值的部分為數據庫,因此,數據庫在數據分析過程中的作用是無法替代的。SQL作為適用于不同數據庫結構并且可以重復使用的高層次工具,在應用其對數據進行分析時,較易由于流程繁瑣復雜而影響查詢的效率,因此,對于大數據來說,在分析過程中選用以分布式的系統構架為基礎所產生的Hadoop作為主要工具可行性更高,Hadoop最突出的特征在于其具有高度的可靠性、擴展性、容錯性和工作效率。作為存在免費版本的數據分析工具,現階段,Hadoop已經成為了大部分經費緊張的數字圖書館的首選。
3.3 數據的存儲
對大數據而言,其支撐作用的核心硬件為存儲系統,在對數據進行存儲和分析的過程中,想要保證獲得結果的準確性,數據往往需要在服務器與存儲系統之間多次往返。存儲系統的發展方向主要有三個方面,分別是強化計算能力、擴大容量以及提高傳輸速率。傳統圖書館所采用的儲存方式通常有存儲域網絡、直接外掛以及網絡附加三種,與其他兩種存儲系統相比,存儲域網絡系統在傳輸速率和存儲容量方面具有的優勢較為突出,通過對存儲域網絡系統進行分析可以發現,該存儲系統之所以具有較高的性能,其核心因素在于以下三個方面性能的支撐:計算能力、存儲容量以及傳輸能力,其中最為突出的性能優勢體現在存儲性能方面,存儲域網絡系統中能夠疊加高達數千TB容量的磁盤列陣。但其所需采購成本相對較高,因此,對于大部分存在經費緊張問題的圖書館而言,想要根據自身實際需求對存儲域網絡系統加以采購,是較難實現的,這也在一定程度上導致該存儲系統利用率始終無法得到提升[4]。
4 結論
綜上所述,隨著信息技術的發展,在對數字圖書館進行建設的過程中,面臨著前所未有的挑戰,導致建設工作進展緩慢的主要原因并不是大數據本身,而是對大數據進行挖掘、分析和存儲時需要應用的技術。因此,想要保證數字圖書館建設工作的順利開展,需要以大數據所具有的特征為基礎,以圖書館所具有的需求為核心,對相關技術進行深入的探索。
參考文獻
[1]李志.數字圖書館建設面臨問題的思考[J].才智,2013,19:218.
[2]廖曉靜.高職數字圖書館建設發展相關問題的思考[J].黑龍江史志,2013,19:209.
[3]甘勝界.數字圖書館在大數據時代建設與發展的思考[J].辦公自動化,2016,21:53-54+28.
[4]周彥.關于數字圖書館大數據系統建設的思考[J].商,2016,23:221.