鄶媛媛
摘要:本文主要敘說了大數據的處理技術、大數據信息的挖掘和使用。希望圖書館可以借助大數據技術對現階段的工作和未來發展提供幫助。
關鍵詞:圖書館;大數據
一、引言
由于大數據具有的特征與特性,這就導致大數據信息無論是在數量上,還是在種類上都是非常的多的。而這些大數據信息并不是每一個數據信息都有其應有的價值和作用的。而對于很多的企業、個人、政府而言,這些大數據信息當中很大一部分都是沒有價值的數據信息,而真正有價值的數據信息它的密度是非常低的。這就需要要運用專業的大數據技術對所有的信息數據進行整合、統計、分析、挖掘,并且在做這些工作的時候還要進行高效合理的處理。這樣才能夠保證最終得到的數據信息才是有價值的數據信息。而這些有價值的數據信息才能夠幫助各個企業、各單位來優化自己的業務、為產品和服務找到更具有創新性和創造性的方向。同時,為企業和單位的未來發展提供有效的數據支持。同時,對于企業單位和個人在為人們提供服務的時候,有了大數據技術的支持和有效的數據信息、有價值的信息,這樣才能夠保證當企業和單位在為用戶提供服務的時候,才能夠根據用戶的個性化的需求和需要來為客戶提供個性化的服務模式。同時,大數據技術在圖書館當中的應用,還能夠幫助圖書館有效的對圖書館的現有數據資源和圖書館的建設提供數據支持。同時,當圖書館在對某一項工作和未來發展進行決策的時候,也能夠根據使有效的數據信息來確定圖書館的管理模式,運行模式和未來發展的方向。因此,可以說大數據的特性決定了圖書館在面對海量的數據信息以及豐富的數據種類的時候,一定要通過有效的挖掘,才能夠讓海量的數據信息更有價值,才能夠讓圖書館的服務更具有精準化和個性化,能讓圖書館無論是在現有工作上,還是在政策的制定和執行上才能夠更好的根據大數據的特性來進行日常的工作和為未來的發展提供有效的決策。
二、大數據的處理技術
2.1云計算技術
目前,當人們提到大數據技術的時候,往往會離不開云計算技術,因為大數據技術主要是對于數據技術的存儲工作和處理工作,然而在對這些海量的數據信息進行存儲和處理的過程當中,需要對這些海量的數據信息進行計算,這樣才能夠通過計算結果來判斷哪些數據信息是有價值的數據信息,而哪些數據信息因為沒有價值需要被刪除的信息,以免浪費資源和存儲空間。再對海量數據信息進行計算的時候,就會運用到云計算技術。因此,這也就是我們常常看到的大數據技術不會單獨的處理海量的數據信息,而通常會與云計算技術一起來共同的處理這些數據信息。因此,可以說在大數據信息對含量數據信息進行收集、存儲,以及處理的過程當中,云計算技術將是對這些數據信息進行存儲和處理過程當中不可缺少的一個重要的計算技術。而云計算技術以其快速的計算能力,體現出現代化的數據管理技術的先進性和智能性。因此,將云計算技術與大數據技術一起共同的來對于海量的數據信息進行存儲和處理的方式是傳統的數據管理技術無法能夠面對海量數據信息的時候所進行處理的。因此可以說,當傳統的數據管理技術在面對大數據技術與云計算技術聯系在一起的時候,就能夠真正的體現出傳統技術在面對海量數據信息的時候的捉襟見肘。所以將大數據技術和云計算技術聯系在一起,恰恰能夠體現了現階段數據技術和現代化信息技術的快速發展。這讓人們在面對海量信息的時候,在面對對信息進行處理的時候,可以真正的做到全面性的、及時性的處理海量數據信息。而不是當人們在面對海量數據信息的時候出現束手無策,無從下手,或者無法真正的全面處理這些信息的情況。因此,當大數據技術在面對海量數據信息的時候,主要是通過分布式處理的手段將這些海量的數據信息全面及時的存儲在大數據技術的平臺上。而大數據技術與云計算技術聯合在一起,共同處理海量的數據信息,主要就是因為云計算技術的核心內容就是對于海量數據的計算能力。因此,將兩種技術聯合在一起,不僅能夠實現對于海量數據信息的存儲工作,同時還讓這些海量的數據信息經過計算后得到有效的處理。而經過處理后的數據信息能夠更好的找到有價值的數據信息,這讓海量的數據信息,通過處理后能夠進行有效的篩查工作,讓海量的數據信息當中的有價值的數據信息得到有效的體現。而這些有效的價值信息才是人們想真正要得到的數據信息,才是能夠人們在生產、生活、學習,以及工作當中能夠利用到的數據信息。而這些有價值的數據信息才能夠為社會、政府、企業、個人提供有效的幫助,才能夠為社會的生產和進步提供有效的數據依據。因此,當人們提到大數據技術的時候,往往會離不開云計算技術,也只有將這兩種技術聯合在一起,才能夠共同的處理和存儲大數據資源,才能夠將海量的數據信息進行價值體現。這也是近幾年大數據技術和計算云計算技術快速發展的主要原因。因為,每一個人,每一個事物,每一個系統,時時刻刻每分每秒都在產生的數據信息,而這些數據信息由于它的價值密度非常低,但是在這些數據信息當中還包含著有價值的數據信息,因此這就迫使人們必須要利用有效的技術來對這些海量的數據信息進行處理和存儲,并且通過計算的方式來找到海量數據信息當中有價值的數據信息。并以此才能夠將這些有價值的數據信息為社會服務、為企業和各個行業服務。同時,還能夠起到為個人和團體服務的作用。因此,大數據技術的快速發展,同樣迫使云計算技術也要緊跟隨著時代的腳步快速的發展和更新,同時還要不斷的提高計算能力,這樣才能夠讓大數據技術和云計算技術聯合在一起共同為人們所服務。
2.2數據傳輸及儲存技術
眾所周知,大數據就是眾多數據匯集在一起,因此在面對海量數據信息的時候,無論是哪個技術,或是哪種軟件都會涉及到如何將產生的這些數據信息進行很好的保存與傳輸。因為,人們在生產、活動、學習工作當中,所產生的海量數據信息,都得需要通過傳輸的方式最后傳輸到系統或者平臺當中,然后給予保存。這樣才能保證海量的數據信息能夠被保存的很好,并且可以通過云計算的方式經過處理。然而,如何能夠對海量的數據信息進行大量的傳輸與保存是很多技術平臺面對的一個問題。因為,很多的技術和系統平臺在面對海量的數學的信息的時候都會因為信息數據數量大,儲存占用空間大,而導致儲存的效率非常的低,或者在存儲的過程當中會對數據信息造成一定的損害,比如數據信息減少,數據信息丟失等等。因此,人們需要另外一種技術來幫助大數據技術對現有的海量的數據信息以及隨時產生的海量數據信息進行有效的傳輸以及很好的存儲。因此,這就需要在進行大數據傳輸和存儲的過程當中,應用到對數據進行壓縮技術。目前,市場上的壓縮技術有很多種,但是經常和大數據聯合在一起使用的有Lemp eL-Ziv壓縮技術,這種數據壓縮技術可以實現海量數據信息的無損存儲。這樣就可以將數據信息通過壓縮的方式來減少它所占用的空間,并且這種方式也是人們最常用的,是市面上最流行的存儲方式。由于它不會對數據信息進行破損,因此人們在壓縮數據信息,尤其是在壓縮海量的數據信息的時候,常用這種壓縮技術。數據信息在通過壓縮處理以后,可以將大量的數據信息進行壓縮,這樣可以減少數據信息的數據量。壓縮包的方式來對大量的文件進行壓縮的方式,還可以提高傳輸和存儲的效率。因此對于文件而言,人們常用打包壓縮的方式進行處理,而對于數據信息在存儲方面也會運用壓縮技術為了能夠保證收集信息得到有效的存儲,通常會利用分布式文件系統。無論是哪種方式的數據傳輸和存儲技術,都會面對兩種數據性的模式,分別是實時性的數據信息和離線模式的存儲信息。而當數據傳輸及傳輸系統在面對兩種數據模式的時候,通常情況下對于實時的數據信息要求的技術更高、要求的場所更高。因此,為了能夠實現實時數據的有效存儲和無損存儲,因此可以將實時的數據信息進行多級別的存儲系統的搭建。這樣可以保證海量的實時數據信息能夠得到無損的存儲算法,還能夠保證這些實時的數據信息能夠以快速高效的方式進行計算和處理。數據傳輸以及存儲技術是大數據技術在面對海量數據信息的時候,能夠進行有效的分析和計算的好方式。而將數據傳輸及存儲系統應用在圖書館系統當中,是能夠有效的幫助圖書館在面對海量數據信息的時候,所產生的對于系統平臺帶來的負擔。圖書館系統平臺當中每天都會收集和產生大量的數據信息,而這些數據信息由于數量多內存大會給圖書館管理系統的正常運行以及存儲帶來極大的負擔。它不僅數量多而且會占用大量的空間,這樣就會導致圖書館管理系統因為所占內存空間過大,而導致運行速度慢、計算能力差、存儲效率低等情況。為了能夠更好的解決這些情況,很多圖書館也都會運用數據傳輸與存儲技術,這樣能夠極大的緩解和幫助圖書館管理系統,因為面對海量數據信息而導致的負擔。
三、大數據信息的挖掘和使用
3.1圖書館對讀者行為數據進行挖掘
圖書館的主要服務對象就是讀者,圖書館的主要工作內容就是為讀者提供服務。因此,如何能夠為讀者提供更精準化的服務,如何能夠讓讀圖書館在讀者心目當中的地位得到穩固并有所提升,是圖書館現階段的主要工作內容和努力方向。因此,圖書館可以通過各種方式來收集讀者行為數據,并且圖書館在收集讀者行為數據的方式和來源有很多種。比如,當讀者利用圖書館新媒體平臺進行登錄、瀏覽、查找圖書時所產生的行為數據、讀者的借閱圖書的信息、瀏覽圖書的信息,以及借閱的頻次信息、讀者參與到圖書館開展的各項活動信息、讀者利用圖書館新媒體平臺進行交互式行為的信息等等,都將是讀者信息的主要來源方式。而圖書館主要做的任務就是要對讀者的所有數據信息進行分析、整理、挖掘和處理。因為,這些行為數據信息都是由讀者發出的,或者是與讀者相關系的數據信息,因此當這些數據信息被圖書館進行深度的挖掘和整理后,能夠將這些所有的數據信息進行統計,并找到有價值的數據信息。這樣圖書館能夠更好地了解每一個個體讀者的閱讀偏好,閱讀喜好和閱讀需求。這樣圖書館可以根據對于這些數據信息的挖掘和整理后,能夠形成一個統一的有效的分析結果,并且通過這個結果來制定每一個讀者的不同服務模式。這樣能夠讓圖書館的服務流程不再是一成不變的,而是根據不同讀者的不同需要來進行相應的轉變和轉化。這樣通過對于讀者數據信息進行預測后,能夠深入的了解讀者的需求和需要,并在此基礎上圖書館可以為讀者提供讀者需要的精準化服務。這樣圖書館不僅可以借助大數據信息來了解讀者的需求和需要,同時還能夠在圖書館的日常管理和操作過程當中將讀者的需要加入到業務流程當中,這樣讀者不再是圖書館的服務對象,同時讀者也是圖書館業務流程當中的一部分讀者的個人行為也將影響和主導了圖書館的業務模式和服務模式。
3.2圖書館利用大數據可以在定期的時間為讀者生成個人的閱讀數據報告
這個閱讀數據報告都是通過讀者日常在圖書館內借閱圖書,瀏覽圖書所產生的數據信息,以及讀者在利用圖書館新媒體平臺進行查找、瀏覽、借閱等操作時候所產生的數據信息來完成的。圖書館定期為讀者的個人借閱行為進行數據報告的展示,是為了能夠讓讀者更清楚的了解到自己在利用圖書館借閱圖書、查找圖書的過程當中都產生了哪些借閱的行為。這樣能夠讓讀者更了解自己對于圖書的借閱情況,圖書的使用情況,并且自己都產生了哪些敬業行為。因此,圖書館在為讀者提供個人數據報告的時候,報告的內容主要包括讀者在一段時間內在圖書館當中都借閱了哪些圖書、都查找了哪些數據資源、讀者借閱圖書的時間、讀者都參與到了圖書館開展的哪些讀者活動,以及圖書館開展的各項培訓當中。讀者在收到這個個人數據報告后,就可以對照這些數據內容對自己所有的閱讀行為和使用圖書館進行借閱圖書,查找圖書的所有行為進行了解,這樣讀者就能夠通過這些數據報告,能知道自己在一定時間內都看了哪些圖書,并且每一本圖書自己都看了多長時間。這樣讀者就能夠對自己的閱讀情況做一個大致的了解,讀者在借閱一本圖書以后,每一本讀書都閱讀了多長時間。有的讀書會閱讀的慢一些,有的讀書會閱讀的快一些。這樣讀者在掌握這些信息以后,就能夠很好掌握自己的閱讀時間。如果讀者日常的學習和空閑時間比較少,那么一本圖書閱讀的時間可能會長一些,如果讀者在最近一階段時間比較充裕,空閑的時間比較多,那么讀者在閱讀一本圖書的時候,所用的時間可能就會相對短一些。這樣讀者也能夠從自己的閱讀圖書所耗費的時間上來判斷自己在近期的工作狀態學習狀態,以及生活狀態。讀者也可以根據這些數據的信息報告可以盡量的調整一下自己的生活時間,以及各個工作學習的時間安排。讀者可以盡量的平衡一下日常的工作和學習,盡量讓學習和工作以及生活瑣事所占用的時間能夠平均分配在每一段時間每一天。這樣自己既然不會太勞累,也會每天按時的完成學習量和工作量,同時還能夠抽出一些空閑的時間來陪伴家人、出去旅游,以及閱讀圖書。因此對于每一個讀者而言,圖書館為讀者提供的個人閱讀數據報告,雖然只是將讀者近期的閱讀行為和閱讀的數據信息,以及書單的信息展現在讀者的面前。但是,讀者可以通過這些數據信息來深層次的剖析自己,最近在生產、生活、學習、工作上所耗費的精力和時間,這樣可以進一步幫助讀者來調整自己的時間和精力。同時,圖書館還會為讀者在個人數據報告當中展示讀者近期所借的圖書的書單,這樣讀者也能夠很好的掌握自己在近一段時間內讀了哪些圖書?這些圖書都帶給了自己哪些知識的掌握和學習。同時,讀者將這些書單收集起來,還能夠很好的判斷出讀者近期都讀了哪些書。因為,有很多讀者都會表示自己時間比較忙,有的時候閱讀完的圖書,在過很長一段時間以后就忘了自己是否讀過這本圖書,而且這種情況發生情況還時常發生。有很多讀者就表示,有的時候自己在圖書館借到紙質圖書或者在圖書館新媒體平臺上閱覽電子圖書的時候,可能在閱覽的和閱讀的時候,就覺得這本書的內容似曾相識,好像以前閱讀到過,但是自己又不是很確定。但是,當這本圖書閱讀到一半的時候,才發現這本圖書自己以前已經讀過了,而這種重復性的閱讀會浪費讀者額外的時間和精力。還有很多讀者表示自己以前看到某一本圖書的時候,非常想閱讀,非常想借閱,但是等真正有空閑時間來到圖書館去借閱的時候,卻忘了這本圖書是什么了。因此,圖書館為讀者提供個人的圖書數據就能夠幫助讀者更好的掌握自己在一段時間內都閱讀了哪些圖書,這樣讀者在借閱圖書的時候,就可以將新借閱這本圖書的書名與之前看過的圖書的書名進行對照。如果書名是一樣的,可能就會是這個讀書以前已經閱讀過,已經看過,這樣讀者就不用再去看了。同時,圖書館在為了給讀者提供閱讀書據報告的基礎上,還會在系統當中進行設置,比如讀者在一個月之前已經借閱過這本圖書,當讀者在第2次借閱的時候,系統就會自動的顯示出這本圖書讀者已經借閱過一次或者兩次。這種提示的方式也能夠很好的提醒讀者,這本圖書讀者曾經已經看過,讀者是否還需要繼續借閱它。如果讀者想要再一次借閱再一次看的話,那么讀者就可以點擊“是”按鈕,這樣這本圖書還會借閱到讀者的借閱證當中。如果當讀者借閱這本圖書,在系統當中進行錄入的時候系統提示出這本圖書曾經自己已經借閱過一次,那么讀者如果不想重復再閱讀這本圖書就可以點擊“否”按鈕,并且把這本圖書歸還給圖書館。這樣就避免了讀者重復借閱同一本圖書。因為每一個讀者的閱讀喜好,閱讀偏好是不同的,同時讀者的閱讀喜好和閱讀偏好在一段時間內會相對穩定的。也就是說讀者在一段時間內,他的閱讀喜好和閱讀需求大致不會改變的。因此,讀者可能每次在查找圖書借閱圖書的時候,借閱的圖書種類和內容都會大致相似或相同。這樣很有可能就會出現,讀者在一段時間內會重復的借閱一本圖書,但是自己卻不知道。因此,圖書館為讀者提供個人閱讀數據報告以及在系統當中設置,讀者已經借閱過的圖書的提示,都可以為讀者提供一種提示,讓讀者知道自己現在借閱的這本圖書曾經以前借過,并且可以由此判斷是否還要繼續再借閱一次這本圖書。很多讀者都表示這種方式能夠很好的幫助讀者,在借閱圖書的時候進行挑選和篩選。因為,很多讀者來到圖書館借閱紙質圖書的時候,每次都會借閱很多本圖書。這樣就能夠避免了讀者多次來到圖書館去借閱和查找圖書,也減少了讀者再來到圖書館,以及在圖書館館藏資源當中進行查找借閱所浪費的時間和精力。因此,很多讀者每次都會借閱很多圖書,但是由于時間限制和精力的限制,每次借閱圖書的時候可能會借閱10本20本,但是每一本圖書只是大致的翻閱一下,并不會每一本圖書都仔細的看。因此,這樣就很可能會出現讀者這次借的圖書和以前借閱的圖書當中會有重復借閱圖書的現象。這樣不僅是浪費了圖書館館藏資源圖書的流通情況,讓很多想要借閱這本圖書的讀者,因為這本圖書已經被外借而無法正常借閱。同時,還影響了這個讀者借閱圖書的情況,因為這這本圖書以前自己已經借閱了,這次還在借閱,不僅浪費了讀者的時間和精力,還讓讀者想要借閱的需要的圖書沒有借閱到。
四、結束語
圖書館為讀者進入到圖書館后,所有的行為信息進行收集,同時將這些信息數據進行整合分析后,能夠從中了解某一讀者群體或者某一讀者的閱讀傾向和行為規律,這樣就能夠了解哪一部分讀者或者是哪一種類的讀者,喜歡到哪一個借閱室借閱圖書,并且借閱的圖書種類和數量是什么情況。同時,還能夠根據讀者進入圖書館的個人行為信息來判斷讀者在圖書館范圍內參與到圖書館的讀者活動當中,以及大批量讀者來到圖書館進行借閱的主要時間段。圖書館了解接待讀者的高峰時間段后,就可以根據讀者來到圖書館的數量和人數來安排和設置每一天的工作情況和對讀者服務的方式。這樣就能夠為讀者高峰時段來到眾多讀者所需要提供的服務模式,做好了提前的預警。這樣可以在讀者人數流量高的時間段內為讀者提供更多圖書館工作人員的服務模式。而在讀者人數相對來圖書館人數比較少的時候,就盡量減少圖書館工作人員的工作強度和工作量。這種提前預警的方式,可以幫助圖書館更好的調節每天的工作安排。這樣就能夠避免了在讀者來到圖書館人數的高峰時間段內,圖書館工作人員由于人手安排的不夠而導致為讀者提供的服務不到位,不完善的情況。同時,也避免了當讀者來到圖書館當中的人數由于人數過少,而圖書館工作人員安排的人數過多,而導致圖書館工作人員的工作出現額外的消耗和不必要的消耗的情況。因此,對讀者行為數據的深度挖掘,可以更好的幫助圖書館開展日常的管理工作和讀者服務工作,同時也能夠更好的為讀者提供服務。而對于讀者而言,在大數據技術的挖掘和使用的過程當中,能夠讓圖書館更了解讀者需求的需要,能夠讓讀者更清楚自己的閱讀行為和閱讀的需要。這樣圖書館在開展讀者活動的時候,更加可以更加順暢更完善,為讀者提供的服務可以更加精準化和個性化。同時,讓讀者對于圖書館的服務模式更加滿意,提升圖書館在讀者心中的地位。