文/鄭州工業應用技術學院圖書館 宇婷
高校圖書館學科服務嵌入式大數據知識服務研究
——以幾種辯證關系及認識誤區為例
文/鄭州工業應用技術學院圖書館宇婷
高校圖書館學科服務嵌入式大數據知識服務已成為高校圖書館創新服務模式類型。為進一步提高其服務質量和水平,以幾種辯證關系及認識誤區為例,對高校圖書館學科服務嵌入式大數據知識服務進行了研究。
高校圖書館;學科服務;大數據;嵌入式知識服務
高校圖書館學科服務中的嵌入式知識服務是學科服務的延伸和深化,它是以在學科專業中嵌入知識元素為研究對象的學科服務中更深層次的用戶服務。而其中的高校圖書館學科服務嵌入式大數據知識服務,則是更進一步將學科專業服務的層次和內容深入到大數據知識層面的各種要素中,并由此產生了嵌入式大數據知識服務模式。對高校圖書館學科服務嵌入式大數據知識服務中的相關辯證關系及認識誤區進行研究,可以有效地提升高校圖書館學科服務的質量和水平。
(一)頭部大數據與長尾大數據的辯證關系。從大數據的整體狀況看,它同樣符合二八律的規律,也就是占據所謂“頭部”地位的20%的數據,實際具有或創造了80%的數據價值;而另外占據所謂“長尾”地位的80%的數據,則僅僅具有或創造了20%的數據價值。所以,在高校圖書館學科服務嵌入式大數據知識服務中,要注意正確地處理頭部大數據和長尾大數之間的辯證關系。若從優先度方面考慮,應當首先照顧20%的頭部數據,而若從全面性方面考慮,則也要對80%的長尾數據予以關注。關于兩者之間的這種辯證關系,在高校圖書館開展互聯網金融信息延伸服務中表現得尤為突出。因為傳統的銀行金融機構主要是為20%的頭部用戶服務的,而互聯網金融則與之相反,把服務的重點客戶群體瞄向了80%的長尾客戶。盡管他們每個單獨個體的資金數量并不大,但由于客戶群體的人數眾多,最終聚集起來的資金數量則是一筆不可小覷的巨大金額。正是由于過去幾年中向來以財大氣粗著稱的傳統銀行金融機構忽視了互聯網金融長尾客戶群體的存在,往往對他們的金融投融資需求采取金融排斥的態度,客觀上將他們拒之門外,主動推向了自己的競爭對手——互聯網金融領域,使得互聯網金融取得了突飛猛進的發展。如到2015年10月互聯網金融交易總額達到第1個萬億,用時為7年多。而2016年5月完成第2個萬億,僅僅用時7個月,體現了近年來互聯網金融行業飛速發展的事實。正因如此,銀行的大量資金外流進入互聯網金融領域,最終對傳統銀行業的主要存款業務造成了巨大沖擊。傳統銀行業的失誤就在于沒有正確地認識和處理20%的頭部客戶人數與資金數據和80%的長尾客戶人數和資金數據之間的辯證關系所致。如今,傳統銀行已經開始意識到其中的問題所在,以中國工商銀行為首,開始虛心向互聯網金融的長處學習,充分利用自己所具有的信譽優勢,開始關注和接納80%的長尾客戶群體,也開始增加類似余額寶之類的活期貨幣基金理財產品。
(二)最新大數據與歷史大數據的辯證關系。在一般情況下,用戶總是喜歡最新的大數據資源,因為它們可以為用戶帶來最新的信息與最高的利用價值。而對于那些陳舊過時的大數據資源,則會隨著時間的流逝而逐漸失去其應有的使用價值,逐漸淡出用戶關注的視線。然而,世界上的事情總不會是絕對的,總是會遵循辯證法的。有相當比例的一些大數據,在隨著時間的流逝逐漸失去使用價值達到一定程度的最低點后,往往會發生意想不到的歷史性轉折,其使用價值往往又會隨著時間的延長而重新獲得研究與利用的價值。例如,高校圖書館文獻型數據資源中的古籍文獻資源就具有這樣的特征。現在來看,越是距離今天年代久遠的古籍文獻,其利用和研究價值就越高。以目前實際存世的古籍文獻資源情況看,宋代的古籍文獻利用價值已經非常高,其中的各種文獻內容和數據內容,正是今天用戶研究的重要依據和線索。這就是歷史大數據與最新大數據知名的辯證關系。再如,大家都對新創建的大學充滿興趣與期待。然而,隨著時間和歲月的流逝,那些成立百年以上的古老大學,反而會煥發出勃勃生機,它們之所以能夠歷盡百年滄桑而不衰,正是其存世的魅力所在。
(三)實時大數據與延時大數據的辯證關系。實時大數據是指大數據具有隨時體現數據變化的實時性特征的大數據類型。由于它可以實時反映事物的動態變化情況,用戶利用借助這種實時大數據實現許多非實時大數據所無法完成的工作和任務。例如,用戶可以利用互聯網攝像頭在線直播實時視頻數據,實時了解國內外各地此時此刻正在實時發生的現場實況。其中包括交通類的航空、鐵路、公路、水運等交通狀況,教育類的各級各類學校課內外教育教學狀況,電臺直播類的電臺和電視臺的新聞、經濟、旅游、交通、娛樂、音樂、故事等直播狀況,旅游類的各地旅游景點的實時游客流量狀況等。實時科學大數據則可以動態反映相關大數據的實時狀況,如世界或某國人口的出生與死亡數據,電子文獻的出版與發行數據,電子郵件的發送和接收數據等。其他諸如某種特定事物的實時數據狀況,如“火幣網”和“okcoin”網站中作為世界數字虛擬貨幣的比特幣和萊特幣的實時交易數據等。而延時大數據則是相對于實時大數據而言的,正是由于它們不具有實時性,所以,數據的內容往往更加具有穩定性和確定性,成為有此類需求用戶使用的大數據資源。
(一)大數據認識及其樣本選取范圍的誤區。大數據的客觀性讓它成為發掘問題本質和尋找事物規律所需要的最有效手段之一。人們經常說要用事實和數據說話。但數據雖然是客觀,由于使用數據用戶的認識不同,同樣的大數據有時也會產生欺騙人的假象。因此,當用戶在與大數據打交道的過程中需要謹慎對待,防止一些可能會出現的數據認識錯誤,從而導致數據分析結論出現較大的偏頗。這就是在高校圖書館學科服務大數據嵌入式知識服務中進行數據文獻分析時,需要警惕一些認識方面的誤區。由于大數據樣本選取的范圍不同以及代表性不同,可能會出現不同的數據分析結果。例如,在2008年奧運會上,姚明的三分投籃命中率為100%,而科比的三分投籃命中率僅為32%。如果單從這兩個數據的對比角度看,顯然姚明的三分投籃命中率要比科比高得多,然而實際情況則并非如此。因為在那屆奧運會上,姚明只投了一個三分球命中,科比則投了53個三分球,其中命中了17個。由于兩者數據統計樣本選取的數量不同,所以會得出不正確的分析結論。這個例子說明,在做數據對比分析時,對于樣本范圍的選取,需要制定相同的抽樣統計數據規則,以此來減少或消除由于數據樣本選取范圍不同而造成出現分析結果和結論的偏差。
(二)大數據單方面認識的誤區。自從數字化電子文獻出現以后,它就在不斷地對用戶傳統的閱讀習慣發出挑戰。盡管開始大多數用戶出于長期以來養成的紙質文獻閱讀習慣,對于電子文獻的數字化閱讀普遍采取抵制、挑戰和輕視的態度,并且紛紛發表文章,認為電子文獻的數字化閱讀屬于淺閱讀、碎片化閱讀,難以與紙質文獻的經典閱讀和深閱讀。而且,隨著紙質文獻閱讀率的逐漸下降,尤其是高校圖書館紙質文獻借閱量數據顯示的跳水式下跌,似乎可以鐵定得出文獻閱讀率下降的結論。然而,真實的閱讀情況卻是在紙質文獻閱讀率逐漸下降的同時,電子文獻數字化閱讀率出現了明顯上升。2016年4月第13次全國國民閱讀調查結果發布的數據顯示,在我國成年國民圖書閱讀率上升0.4個百分點的情況下,數字化閱讀率則上升了5.9個百分點,后者是前者的14.75倍。調查大數據還顯示,從2009年以來,我國成年國民數字化閱讀方式的接觸率連續7年持續上升,首次超過了60%,其中手機數字化閱讀率連續兩年超過網絡在線閱讀率。因此,結合傳統紙質文獻閱讀率下降和數字化文獻閱讀率上升兩方面的大數據,可以得出總體閱讀率是保持上升的態勢。
(三)過度依賴大數據的誤區。世界上的任何事物都是具有關聯性的,不存在沒有任何關聯性的純粹獨立的事物,區別僅僅在于事物之間關聯性的大小、強弱、遠近而已,大數據也同樣如此。在高校圖書館學科服務嵌入式大數據知識服務過程中,既要充分有效地利用大數據,同時又不能過度依賴大數據。否則,如果對于大數據過度依賴,一方面,會讓我們浪費大量的時間和精力做許多沒有價值的大數據分析;另一方面,也會限制人們那些來自于大數據之外的、本來應該具有和產生的靈感和創意。例如,如果科研人員一味地分析和研究普通輪軌式火車的大數據,就很可能得出旅客需要更快速度的輪軌式火車,從而限制和抹殺了取消火車的輪軌,實現無輪軌的磁懸浮式高速火車的創新理念。也就是說,如果過度依賴大數據本身,往往就會使我們的思維囿于已有的局限,也就不會有時速400公里磁懸浮火車的誕生,更不會有時速高達4000公里真空管道磁懸浮高速火車新思維的出現。再如,如果囿于南水北調的大數據,就不會產生引渤濟新和引渤濟錫,將深入內地540公里的渤海水經過淡化引入灌溉中國8個沙漠的大膽科學設想。因為許多優秀甚至偉大的決策,并非都是通過大數據發現的,而是人類頭腦風暴和綜合智慧的結晶與體現。當然,一旦確定新的科學設想后,卻是離不開利用大數據進行詳細周密的科學論證,為科學設想提供大數據證據的,這點是毋庸置疑的。所以,對于大數據的依賴要適度,找到其中的平衡點,不可過分依賴,也不可不依賴,這才是正確對待大數據的科學態度。
[1]李嬰.大數據環境下圖書館知識服務和管理模式研究[J].農業圖書情報學刊,2016,28(5):168-170.
[2]鄧鳳儀,鄧海榮.大數據時代數字出版的“長尾效應”[J].出版發行研究,2014(10):27-29.
[3]李紅梅.大數據時代對歷史研究影響芻議[J].北方論叢,2016(2):77-79.
[4]呂明新,劉兆惠,孫婷婷等.基于大數據的道路擁堵對實時交通安全的影響研究[J].山東交通科技,2016(2):12-15.
[5]解明明.政府統計視角下的大數據樣本與總體關系探討[J].中國統計,2014(12):54-55.
[6]第十三次全國國民閱讀調查結果發布:數字化閱讀迅猛增長,微信閱讀人數過半[EB/OL].[2016-06-22].http://news. xinhuanet.com/politics/2016-04/18/c_1118659452.htm.
[7]戴明鋒,劉展.大數據理解誤區解讀[J].中國衛生信息管理雜志,2015,12(1):61-63;70.