高琳
(內蒙古農業大學圖書館 內蒙古呼和浩特 010018)
大數據思維與圖書館知識資源發現
高琳
(內蒙古農業大學圖書館 內蒙古呼和浩特 010018)
大數據時代的到來引發了人們對數據價值的重新認識,也使得對解決問題思維從追求因果關系向更看重關聯關系方向轉移。受大數據思維影響,傳統的圖書館知識資源發現服務需在實現步驟、營銷策略方面做出改變。
大數據思維;小數據;圖書館;知識資源;發現服務
隨著大數據在人們認識中的概念加深和在社會發展中的拓展應用,對于公眾特別是從事數據生產、處理與應用工作的信息工作從業者來說,大數據已不陌生,它在一些政務管理、市場營銷、智能交通、智慧城市等領域的經典案例也被廣為傳播,大數據成為當代繼Web、云計算之后的又一熱門詞。然而,對于以信息為生存基礎的圖書館和圖書館員來說,大數據究竟對我們的工作意味著什么?
目前,圖情界已經對大數據及其在圖書館的應用實踐、障礙困難、發展前景等展開了廣泛的研究與討論,筆者僅在中國知網以“圖書館”&“大數據”為主題詞進行檢索(檢索時間:2015年2月10日),就發現有532條相關文獻,且這些文獻的發表時間主要集中在過去兩年(2013年和2014年),由此可知我國圖情界過去兩年對大數據注入了巨大的研究熱情。對這些文獻進行簡單梳理,發現它們主要從大數據對圖書館的影響、圖書館如何應對、圖書館大數據的收集與管理等角度進行推理研究,對于應用的案例則主要集中在大數據在營銷、社會管理等領域的應用方面,缺少從圖書館價值體現的信息角度去討論大數據時代的圖書館信息管理和服務,如知識組織與資源發現等,而這恰恰是筆者認為在大數據語境下,大數據思維能最早也最直接作用于圖書館的價值之所在。基于此,本文在概述大數據和大數據思維的基礎上,著重從傳統思維下的圖書館知識資源發現和大數據思維驅動下的圖書館知識資源發現比較入手,進而去研究大數據思維驅動的圖書館知識資源發現途徑與策略。
2.1 大數據概述
2011年5月,全球知名咨詢公司麥肯錫(Mckinsey and Company)發布了《大數據:創新、競爭和生產力的下一個前沿領域》報告,首次提出了“大數據”的概念,并在報告中指出“數據已經滲透到每一個行業和業務職能領域,逐漸成為重要的生產因素;而人們對于海量數據的運用將預示著新一波生產率增長和消費者盈余浪潮的到來”。之后,《紐約時報》、《華爾街日報》、《自然》等對大數據進行了專欄介紹,但時至今日,業界對大數據的概念并無統一認識,且不同的研究領域和價值判斷視角使其的內涵變得更為寬泛,如從“Big data”字面所引申的概念來看,大數據無疑就是“大”數據,其“大”既體現在數量上,也體現在其組成分布、數據結構上;而從大數據的挖掘和應用來看,大數據則更可能是價值巨大的體現和概括。但無論其在具體的表達中如何界定和描述,我們都認為大數據既是豐富的數據組織機構、分布形態屬性描述,也是巨大的應用價值屬性描述。為此,業界總結了大數據的價值之所在,如IBM和IDC認為大數據具有多“V”特征,即種類(Variety)多、速度(Velocity)快、容量(Volume)大、價值(Value)高,NetApp認為大數據具有"A、B、C"(分析〈Analytic〉、帶寬〈Bandwidth〉和內容〈Content〉)三大要素特征。
2.2 大數據思維
在傳統的思維模式下,發現問題——分析問題——解決問題是永恒的因果思維模式,即使有一些防患于未然的預防、預警措施,但問題的解決往往主要集中于事后而不是事前,因果關系成了傳統思維的主要推理與演繹思維。但隨著美國信息高速公路計劃的推出和現代互聯網環境的出現,使得人們的思考與解決問題方式有了質的改變,以網絡體驗——話題傳播——問題發現——新的體驗為循環思維的互聯網思維隨之出現。大數據的出現則又使得人們的思維方式發生了質的變化,其變化正如維克托·邁爾·舍恩伯格在《大數據時代:生活、工作與思維的大變革》中最具洞見的觀點描述的一樣,即大數據時代最大的轉變就是放棄對因果關系的渴求,取而代之關注相關關系。也就是說只要知道“是什么”,而不需要知道“為什么”。
復旦大學陳宇新教授認為從營銷學的角度來看,大數據其實也是營銷科學導向的自然演化,其主要包含了定量思維、相關思維和實驗思維等三個緯度。第一,定量思維,即提供更多描述性的信息,其原則是一切皆可測。不僅銷售數據、價格這些客觀標準可以形成大數據,甚至連顧客情緒(如對色彩、空間的感知等)都可以測得,大數據包含了與消費行為有關的方方面面;第二,相關思維,一切皆可連,消費者行為的不同數據都有內在聯系。這可以用來預測消費者的行為偏好;第三,實驗思維,一切皆可試,大數據所帶來的信息可以幫助制定營銷策略。沃爾瑪的“啤酒+尿布”典型案例則很好的體現出了這三個維度特征。
3.1 圖書館和大數據:認識與應用
綜上,我們可以認為大數據既是一種技術,也是一種豐富數據的概括,更是一種發現事物發展本質的思維。對社會信息中心和知識存儲中心的圖書館來說,這種思維范式改變的不僅將是圖書館用戶的信息利用、知識顯現和潛在需求,也要求圖書館借助大數據技術和思維,從信息的視域去發現滿足用戶的服務途徑和方式。圖書館學術界也意識到了這一視角,但從已有的研究文獻來看,業界對圖書館大數據的認識存在一定局限,這或許將為圖書館未來的應用形成障礙。如有學者將具有數量大屬性的圖書館文獻數據認為是圖書館大數據,這說明業界對大數據的認識還并不深刻和統一。
筆者以為對圖書館來說,大數據既包含了現有的數據庫、MARC等結構化數據,也包含了能夠反映用戶借閱習慣的RFID、Cooki等網絡數據,還包含了可以幫助圖書館挖掘用戶潛在需求的智能終端設備輸出等數據,現有的海量數據和澳大利亞“圖書館立方”項目的成功應用,說明圖書館不僅具備了收集大數據的基礎,也有了應用大數據的成功經驗積累。
3.2 互聯網時代的圖書館知識資源發現:方式與不足
圖書館的資源發現隨著社會發展而不斷變化,在互聯網時代,隨著語義化等現代信息技術的發展和圖書館服務平臺的建設,圖書館的知識資源發現服務早已不再是數目卡片查找、口口相傳等方式,以服務平臺和現代信息技術推動著這一服務的發展,其中以基于語義聚焦爬蟲、領域本體、RDF查詢語言和關聯數據的語義化知識資源發現與以Summon、Primo、EDS、Worldcat Local和Encore為代表的資源發現系統是其實現的主要方法與途徑。
王思麗等在對比語義化知識資源發現方法后,認為以上幾種典型的語義化知識資源發現方法盡管特點不一,應用都較為廣泛,但也各自存在這一定的局限,如基于領域本體的知識資源發現方法一直以來都是知識發現領域的研究重點,并隨著本體開發工具和技術以及語義標注工具和技術的不斷改進而逐漸完善和優化。但由于構建領域本體需要巨大的領域知識庫和具有相關領域學科知識背景的支持,而復用領域本體也需要有相關本體技術知識的支持,一般用戶很難將基于領域本體的方法運用自如,一般都是圖書館或相關學術研究機構的資源建設團隊在整體運作。而對圖書館知識資源發現系統來說,也是由于各個發現系統的依賴資源都有一定的局限,故資源的關聯和發現都只是在其可以獲取的資源范圍內,同時如接口與標準化差異、需求場景不同導致各個系統都存在一定的進一步發展障礙。
3.3 大數據時代的圖書館知識資源發現:思維與范式3.3.1大數據思維影響下的圖書館知識資源發現
《大數據時代》作者、大數據研究專家舍恩伯格指出,人們在大數據時代對待數據的思維方式會發生三個變化:第一,人們處理的數據從樣本數據變成全部數據;第二,由于是全樣本數據,人們不得不接受數據的混雜性,而放棄對精確性的追求;第三,人類通過對大數據的處理,放棄對因果關系的渴求,轉而關注相關關系。在上述思維轉變的基礎上,有學者還認為大數據思維其最關鍵的轉變在于從自然思維轉向智能思維,甚至智慧思維。這些思維方式的轉變對圖書館的知識資源發現服務來說,其將體現在如下三個方面:
首先,對原有圖書館物理服務空間環境下的借閱發現、網絡環境下的語義檢索發現等途徑,將向對圖書館用戶和資源全關聯后的知識發現轉變,且對圖書館用戶和資源的關聯挖掘,其數據不僅是對用戶身份、學歷、借閱需求的小數據分析,更可能是對用戶借閱習慣、閱讀領域、信息行為等多種數據的挖掘和分析;
其次,由于基于用戶信息行為乃至生活行為的分析和挖掘,以致圖書館的知識資源發現服務可能并不滿足于用戶最需的科研文獻推送等服務,而可能是概括了其可能感興趣的生活如旅游、音樂等知識,使其不得不從這些服務中去挑選自己所需知識,服務的精準性有所降低,需用戶不斷的閾值設置與校正;
再次,圖書館知識資源的關聯性增強,使得用戶雖所需要的知識資源發現可能性增加,而這些文獻可能需要特別的途徑和代價獲得,這就可能需要圖書館通過館際互借等途徑獲得,以致圖書館不得不面臨著諸多的挑戰,如服務成本的增加、版權爭議的風險、用戶滿意度的降低等。3.3.2大數據時代的圖書館知識資源發現實現階段
從營銷學的角度來看,運用大數據的遞進層次為描述、預測和產生攻略。這就啟發對大數據時代的圖書館知識資源發現服務策略來說,也需要經歷這三個階段和層次:
第一階段:基于數據的行為描述。結合圖書館用戶進行用戶興趣、研究凌領域的分析與需求挖掘,就必須依賴于海量的描述用戶行為數據,如用戶的借閱歷史、科研記錄、學習網站的訪問頻率與種類等。掌握和采集可描述用戶特征的異構數據,則可借助一定的儀器和設備,如美國迪斯尼公司最近投資了10億美元開發出了MagicBand手環進行線下顧客的跟蹤和數據采集,游客在入園時佩戴上帶有位置采集功能的手環,園方可以通過其來采集游客信息行為數據,還可通過定位系統了解不同區域游客的分布情況,并將這一信息告訴游客,方便游客選擇最佳游玩路線。
第二階段:基于描述數據的預測。基于描述數據的預測,其實就是基于海量有用數據的分析和挖掘利用過程,是圖書館應用應用大數據的關鍵階段。在這個階段,圖書館通過大數據分析平臺如Hadoop來實現從對數據量的擁有到價值體現的過程,沃爾瑪超市的“啤酒+尿布”就是從海量的用戶購物數據中得出的經典營銷策略案例。目前的社交網絡在這一方面也進行了有益嘗試,其通過社交網絡分析與跟蹤,將消費者社交網絡上的關鍵詞頻率轉化為可視化表達,對消費者進行分類,進而預測目標客群的消費水平、人際圈子、行為習慣等,實現從數據的描述想預測階段發展。
第三階段:基于預測結果的服務策略制定。通過預測結果,圖書館可以制定對應不同用戶群體的服務策略,如對在校學生,其可能更需要可以幫助其提升學習效果的學習技巧類知識資源,而對于中老年用戶其可能更需要養生保健知識資源。將這些用戶群體的顯著特征與預測模型相融合,圖書館就可以制定出科學的發現服務的實現策略,即營銷理論的攻略制定。
[1]Big data:The next frontier for innovation,competition,and productivity[EB/OL].[2014-09-21].http://www.mck insey.com/Insights/MGI/Research/Technology_and_Innov ation/Big_data_The_next_frontier_for_innovation.
[2]MapR and Informatica Combine to Conquer Volume,Variety and Velocity of Big Data[EB/OL].[2014-09-21].http://www.dbta.com/Articles/Editorial/News-Flashes/-MapR-and-Informatica-Join-Forces-to-Tackle-Volume-Variety-and-Velocity-of-Big-Data-81231.aspx.
[3]IBM公司在大數據領域占有先機[EB/OL].[2014-09-01]. http://it.hilizi.com/server/275232/372589013274b.shtml.
[4]NetApp.Big Data Solutions for Government[EB/OL].[2014-09-01].http://www.netapp.com/us/solutions/indust ry/government/bigdata.html.
[5](美)維克托·邁爾·舍恩伯格.大數據時代:生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013.
[6]陳宇新.互聯網思維PK大數據思維[EB/OL].[2015-02 -03 ].http://mt.sohu.com/20140819/n403586440.shtml.
[7]王思麗,劉巍,祝忠明,等.語義化的知識資源發現方法探析[J].圖書館學研究,2014(9):2-6.
[8]大數據帶來的四種思維[EB/OL].[2015-02-03].http://www.techxue.com/techxue-12814-1.html.
Big Data Thinking and the Discovery of Knowledge Resources in Library
Big data times make people rethink of the value of data and the pursuit of causalty shifts to the pursuit of relevance in problem solving.The traditional services of libraries in the discovery of knowledge need changes in implementation steps and karketing strategies.
big data thinking;small data;library;knowledge resources;discovery service
G250
A
10.11968/tsyqb.1003-6938.2015022
高琳(1970-),女,內蒙古農業大學圖書館館員。
2015-02-15;責任編輯:魏志鵬