秦嘉杭
(南京財經大學圖書館,江蘇 南京 210046)
大數據源于虛擬網絡的迅速發展和現實世界的快速網絡化。“大數據”具有規模性、多樣性、高速性和有價值(value)等特點。大數據數量巨大、類型繁多,處理和傳播速度呈倍數級提高。在大數據環境下,高校圖書館用戶需求更加個性化與專業化,傳統的電腦以及掌上電腦、手持閱讀設備、高清電視、手機等都可以用于存取、定位、傳遞泛在圖書館提供的信息、服務。在大數據背景下,高校圖書館要以用戶為中心,針對不同類型的資源,構建不同的資源建設及服務策略。
結構化資源是指存儲在數據庫,可以用二維表結構來邏輯表達實現的資源。典型的如圖書館圖書錄入數據與借還數據及電子資源利用數據等。在大數據環境下,傳統的結構化資源服務發生了變化。隨著文獻類型和信息傳遞方式的多元化發展,圖書館為讀者服務的方式向多元化延伸,最大限度地滿足讀者的個性化、專題化、特色化、社會化以及開放性、多樣性、綜合性服務需求。隨著遠程訪問與數字資源的廣泛利用,讀者的學習與閱讀習慣已發生很大改變,讀者對傳統紙質圖書的依賴下降,對電子資源的需求量越來越大。圖書館應合理配置電子資源比重,加大資源共享共建力度,構建移動數字資源服務體系。
在大數據環境下,電子資源的利用率越來越高。高校圖書館應遵循整體規劃、統籌安排、保證重點、兼顧一般的原則進行文獻資源建設,既要保證高校各學科文獻的系統發展,又要適當向重點學科和新專業的傾斜。提高電子資源比重,合理配置各類型電子資源比例。電子資源配置堅持高品質,內容覆蓋重點學科、重點專業,兼顧其他專業。有機結合高校學科前沿的重點需求和面廣量大的普遍需要采選電子資源,重點選購具有權威性、學術價值和利用價值較高的各類數據庫。密切配合學校優勢學科建設,按照學校學科建設和人才培養的需求,精心選擇、合理配置中外文數據庫,構建學科完整、內容權威、注重質量、彰顯特色、細化層次、使用便捷的高校數字資源體系,以有效地滿足讀者日益增長的電子資源需求。
在大數據環境下,館際互借、文獻傳遞、資源共享是館藏資源的必要補充,也是現代圖書館的發展方向。各高校圖書館之間,需要在合作共建的基礎上,采用現代網絡通訊技術及時互通有無,根據用戶需求,及時進行原文的互相傳遞,同時為來館的各類讀者服務。南京地區的南京航空航天大學、南京理工大學、南京農業大學、南京林業大學、南京體育學院五校圖書館以無縫館際合作來促進資源共建、共知、共享[1]。以成員館的共享資源作為館藏資源的延伸和擴展,為讀者的需求提供資源保障。
大數據環境具備“可移動”的特征,這種“可移動”的特征表現在普通用戶和讀者可以不必依賴于PC機即可實現數字資源的瀏覽、下載和閱讀。用戶和讀者可通過手機、MP3/MP4、PDA等手持閱讀器以及筆記本電腦等移動閱讀設備瀏覽、下載、閱讀和欣賞數字資源。移動閱讀作為數字閱讀的深化應用閱讀形式,克服了需要電腦、網絡以及固定位置才能進行數字閱讀的限制,極大地滿足了讀者數字閱讀的需要。利用讀者移動設備的短信、彩信等技術功能與圖書館OPAC系統對接,可實現點對點的信息服務。移動數字資源服務平臺的開通,對有預約的圖書,可實行圖書催還,縮短圖書的周轉期,對于提高圖書利用率具有重要作用。通過構建基于大數據與泛在知識環境的移動數字資源服務體系可實現四大功能:與OPAC系統的集成,實現紙質館藏文獻的移動檢索與自助服務;與數字資源門戶集成,實現電子資源的一站式檢索與全文移動閱讀;與共享云服務體系集成,實現館外資源聯合檢索與文獻傳遞服務;構建讀者信息交流互動平臺,實現公告信息發布與讀者個性化服務定制。
伴隨著社交網絡、移動圖書館、物聯網等興起,諸多非結構化與半結構化知識與信息涌現出來[2]。無論在圖書館資源建設過程中,還是高校學科建設過程中,半結構化與非結構化數據大量產生。在資源建設過程中,高校圖書館要對讀者的關注點進行分析,如關注用戶查詢書目產生的OPAC日志,用戶借還書產生的流通日志,用戶檢索、瀏覽、下載電子資源產生的日志,用戶訪問產生的流量數據,讀者的檢索歷史、檢索時間段、檢索關鍵詞、借閱文獻、借閱時間等信息,這些都表現為用戶信息非結構化和半結構化的數據[3]。同時,高校在學科建設過程中也積累了大量的非結構化和半結構化的數據。針對用戶和學科建設的內在需求,圖書館有必要構建半結構化與非結構化資源庫。
讀者非結構化與半結構化知識具有不易獲得性、情景嵌入性、難言性、個性化等特點,使得讀者非結構化與半結構化知識的獲得與發現不同于結構化知識,需要充分利用讀者的借閱歷史記錄,觀察讀者的借閱行為,并建立暢通的讀者非結構化與半結構化知識獲取與整理平臺,包括網絡互動平臺和面對面交流的物理互動平臺。其中,物理平臺更有利于非結構化與半結構化知識的發現。同時可以通過知識生產源如網絡博客或出版商與讀者直接交流的互動平臺獲取讀者非結構化與半結構化知識。開發利用讀者非結構化與半結構化知識,建立讀者信息與使用知識庫。通過讀者的自身參與非結構化與半結構化知識庫的建設,不僅有利于讀者自身的非結構化與半結構化知識轉化為結構化知識,同時也體現了個性化知識庫建立的特點,使圖書館非結構化與半結構化知識庫更加滿足讀者的需求。
在大數據環境下,隨著網絡化的發展,高校圖書館在學科資源建設上要改變以前那種“大而全,小而全”的觀念,了解和掌握高校學科與重點學科的學術隊伍狀況,通過對網絡信息進行分析、篩選、編輯、整理,構建基于非結構化與半結構化知識的學科信息平臺。通過學科信息平臺,將學科網絡導航、學科發展最新成果、國內外相關學科排名及研究動態信息、學科專題、學科專家創建的博客和國內外相關學科學術會議等學科資源進行整合,建立非結構化與半結構化的專業學科網絡導航庫和專題數據庫。同時,可以按學科對資源進行組織,建立具有本館特色的數據庫及虛擬專業化館藏。構建圖書館與一線用戶的服務鏈,將眾多分布和異構的文獻信息資源與服務有機組成無縫的服務體系,形成統一的非結構化與半結構化學科信息資源整合服務平臺。該平臺主要涵蓋以下兩方面內容:其一是專業上的非結構化與半結構化知識。某個專業的專家掌握著某專業領域大量的知識內容,包括前沿知識的發展背景、文獻綜述、研究現狀、最新成果、研究重點、研究難點等問題,在此基礎上對專業上的非結構化與半結構化知識進行深入研究,提出創新的觀點,在知識服務中完成有預測性、建設性的報告。其二是技能上的專業上的非結構化與半結構化知識,包括那些非正式的、難以表達、難以掌握的技能、技巧和訣竅等。Masters曾指出“專家技能的特征涉及具有自動的、不費力氣的、隱性性質的功能”。同時,也可以對圖書館員在資源檢索、查詢與分析等非結構化與半結構化知識進行顯性化,共同構建立學科非結構化與半結構化知識庫。
在大數據環境下,由于數據的異質、異構、半結構化、非結構化等特征,大數據知識組織與服務需要解決大數據的獲取、組織、分析與處理等幾個關鍵問題。首先,需要從非結構化信息中獲取不同主題內容的集成 (如用戶支持和內容分析等)、異構數據的集成、異構格式(文本、圖像、視頻、音頻等)、不同層次(原始數據、集成數據、整合數據),對大數據進行抽取與集成,經過關聯與聚合之后采取一定的組織結構來存儲這些數據。在大數據與泛在知識環境下,需要通過有機組織來構建一個以用戶為中心,協作的、分布的、多層次、多語種、多媒體、語義關聯的知識服務網[4]。應該充分利用現有條件,挖掘潛力,改善基礎設施,提高對大數據的分析和處理能力。通過聚類分析技術、數據挖掘技術、網絡分析、可視化分析、索引與查詢技術、數據分析技術、數據融合與數據集成技術對圖書館大數據進行分析。需要清晰地看到,目前這研究技術更多的是針對結構化數據進行聚類分析、共現分析等[5]。而對于半結構化數據與非結構化數據來講,還有待于進一步探索。在大數據處理上,目前,Hadoop是最為流行的大數據處理平臺。大數據知識服務體現了智慧化、協作化、泛在化等特點,是一種基于網絡的用以解決結構化、半結構化及非結構化數據多維度處理的知識服務新模式,嵌入了泛在化知識服務模式的新理念,是現代信息服務理念的具體體現[6]。在大數據與泛在知識環境下,大數據知識服務需要注意以下三個問題:大數據的異構性、大數據的質量控制、大數據的隱私問題。數據的異構性會出現變化,數據類型漸漸轉為結構化、半結構化與非結構化三者的融合。另外,對大數據的質量控制也是一個值得注意的問題,需要清洗一些干擾數據,避免信息垃圾的泛濫。同時,也應高度關注和重視大數據的隱私問題,由于數據具有關聯性與累積性,隱私數據的暴露需要有效控制[7]。
在大數據環境下,讀者的學習與閱讀習慣已發生較大改變,傳統的資源服務構建策略已難以適應新環境,需要注重分析讀者內在需求,擴大知識服務的覆蓋范圍。對大數據的分析、提煉與處理將成為新時代環境中高校圖書館的重要業務,應確立與大數據資源分析和處理相關的知識服務標準,注重用戶的隱私。
[1]王宇寧.南京五高校建圖書館文獻共享聯合體[EB/OL].[2014 -05 -26] .http://ah.people.com.cn/n/2012/0423/c227156-16968313.html.
[2]張計龍.大數據驅動圖書館業務應用與服務創新[J].上海高校圖書情報工作研究,2013(3):1-6.
[3]姜山.大數據對圖書館的啟示[J].圖書館工作與研究,2013(2):52-54.
[4]歐陽劍.泛在信息環境下圖書館信息資源組織探討[J].圖書情報工作,2011(19):68-72.
[5]韓翠峰.大數據時代圖書館的服務創新與發展[J].圖書館,2013(1):121-122.
[6]秦曉珠,李晨暉,麥范金.大數據知識服務的內涵、典型特征及概念模型[J].情報資料工作,2013(2):18-22.
[7]孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013(1):147-169.