黎 偉
(西南政法大學圖書館,重慶 401120)
隨著大數據技術快速發展,全球進入大數據時代。微軟亞洲研究中心和微軟信息技術商業服務公司數據研究報告指出,當今全球數據以指數級增長,數據總量快速擴大,對數據融合模式及數據分析技術的研究將引領新一輪的社會創新熱潮,進一步推動知識數據服務創新。多源數據融合成為圖書館預測讀者知識需求、閱讀習慣、行為習慣、引導數據服務方式變革、評估用戶滿意度及提高知識服務能力的支持技術。伴隨著多源數據融合技術在圖書館領域的廣泛應用,數字圖書館知識環境呈現“4V+1C”特征:數據量巨大(Volume)、數據種類多樣(Variety)、價值密度低(Value)、運算速度快(Velocity)和數據結構復雜(Complexity)。該特征導致圖書館難以在結構復雜、種類多樣的數據環境中有效聚集高價值的信息數據,提高了數據融合的難度,影響了圖書館數據資源的利用效率。由此,如何針對不同來源數據實現有效融合,從不同種類、不同結構、復雜多樣的數據中提取出有價值的信息成為衡量數字圖書館提高自身知識服務能力的重要標準[1]。我國學者從上世紀80年代開始關注多源數據融合技術的發展,并在政府、高校、科研機構的支持下將多源數據融合技術納入為計算機科學領域的重點建設項目,眾多圖書館學、信息學、情報學、數學領域的學者開始了多源數據融合技術的研究與實踐。
多源數據融合(Multisource data fusion)是指利用不同的算法工具及數據技術在有效搜集、整理、調查、分析相關數據類型、結構、價值的基礎上,使多種來源的數據融合在一起,對多種類型數據進行科學客觀的評價與分析,最終獲取高價值的信息資源的過程。多源數據融合的目的是將不同種類、不同結構、不同內容的數據進行綜合優化處理,發揮不同來源數據的優勢,從海量數據中提取出具有統一結構特征,比單一數據更可靠、更有價值、更科學的數據,滿足決策管理需要,使服務用戶的數據更具科學性[2]。
結合目前研究來看,多源數據融合技術是一種針對多種來源數據進行綜合分析、計算、挖掘及管理的數據處理技術,通過對數據資源的全面挖掘、分析、整合使數據成為互相聯系的有機整體,便于信息分析人員對數據全面掌握。基于多源數據融合技術產生的多源數據融合系統在信息情報機構得到了廣泛應用。該系統由兩部分組成,分別為數據分布式處理模塊和數據識別模塊。數據分布式處理模塊的功能是針對多種結構及類型數據進行分布式處理及融合重構,使用算法工具對多元數據進行深入挖掘,生產出客觀準確、科學有效,滿足決策服務需求的高價值的信息數據[3]。數據識別模塊是多源數據融合系統的核心模塊,主要功能是對數據全面感知,分析數據結構,確定數據類型。數據識別系統能對傳感器傳遞的用戶行為數據感知,記錄讀者的行為數據,分析用戶使用系統的日志信息,確定用戶的服務需求。需要注意的是,數據識別系統數據感知的精準度、知識獲取的科學性及數據搜集范圍,會影響系統運行效率。
多源數據融合技術滿足了人們多渠道獲取數據、多元化使用數據的需求,是信息技術發展的實踐成果。圖書情報部門經過不斷探索與有益嘗試,證明了多源數據融合技術的可靠性及其優勢,也彰顯出多源數據融合作為新技術的應用價值。這種數據融合技術與傳統的數據使用方式有著本質的不同,借助數據分布式處理系統、數據識別系統能精準識別多種數據源,并針對不同數據源數據的結構、類型分析、評價進行數據融合[4]。在社會實踐中,多源數據融合技術能幫助人們挖掘數據價值,發現數據的變化規律,掌握數據的內部關聯[4]。
目前,很多數字圖書館就多源數據融合技術進行了研究,并將其應用到情景化推薦中,力求對多源數據有效搜集、分析、統計,提高知識服務的有效性,更好地滿足用戶的個性化需求。
數字圖書館作為基于互聯網、計算機系統建立的數字化知識服務系統,數據來源更為多樣,包括外部數據源和內部數據源兩部分。外部數據源包括外部傳感器數據、環境信息采集數據、社會環境數據、用戶信息數據等,內部數據源包括互聯網數據、內部傳感器數據、用戶行為數據、用戶反饋數據、數據庫文獻、互聯網日志記錄及采購的電子文獻數據等。數字圖書館針對不同來源數據聚合、分解、挖掘、分析,獲得比單一數據源更可靠的數據。
多源數據的典型特征是種類、結構多樣化,在數字環境中由于異構化數據的碎片性和非結構性,數字圖書館需要對多源數據進行實時分析。可挖掘分析的數據的共同特征是用戶的行為數據或用戶訪問的日志記錄,也有可能是某一學科同一主題的數據。數據具有互補性,不同來源數據在日志記錄及字段上具有互補性,以保障數據結構的完整。數據分析分為3 個環節:數據拆分、數據記錄、數據統計,每個步驟涉及不同的處理技術和具體的處理標準。在數據分析中,一段數據可能包括多個主題,這時要對數據進行拆分,對數據主題歸類。數據記錄是指數據分析過程中很多字段表達相同含義,但說法不同,要選擇同一字段代替。如“多源數據信息環境”與“多源數據融合環境”,雖然這兩個字段的表達方式不同,但都可以將主題確定為“多源數據環境”,也可以歸類為“多源數據”。可以使用Excel 表格工具對多源數據進行記錄,并對主題數據進行統計,從統計數據中分析某一時間段用戶行為變化趨勢及主要需求,調整服務方式。
目前,數字圖書館在多源數據的情景化推薦方面取得了初步成效,如面向用戶提供數字閱讀服務的數字閱覽室都根據用戶知識獲取情景安裝了識別軟件,移動閱讀器,用戶數字服務系統也安裝了多種情景推薦工具,初步實現了數字化情景推薦服務。在讀者情景管理方面普遍實現了讀者借閱情景分析、情景需求分析,根據讀者需求為讀者提供滿足其個性化需求的閱讀材料。借助多源數據技術在數字服務中達到科學化、流程化、數字化分析用戶情景,并根據用戶情景推薦知識的目的。多源數據融合技術應用于數字圖書館用戶服務、科研、管理及圖書管理員工作生活各個領域,使數字圖書館更能精準地感知用戶需求,使圖書館工作人員及時掌握閱讀文獻動態。同時,數字圖書館“數字服務體系”建設使數字網絡規模快速擴大,傳統的數據架構已經無法滿足數字圖書館多源數據處理需求,多源數據融合技術更容易使傳感器針對用戶情景抓取各類型、各結構數據形成實時、科學有效的融合分析機制,對用戶需求精準定位。多源數據融合技術使數字圖書館用戶服務情景中各類數據關聯性越來越強,借助元數據解析數據主題、含義,并開展自動的挖掘分析和深度融合,對數字圖書館過去、現在、未來讀者服務提供有價值的數據支持,更有效地滿足讀者的個性化需求[5]。
3.1.1 情景的含義
根據多源數據融合技術、數字圖書館的特點及用戶的知識需求,筆者將數字圖書館的情景定義為多源數據推薦的用戶即時數據需求的時間、地點、環境,如用戶使用數字圖書館的環境、知識偏好、閱讀習慣、使用數字圖書館的地點、時間等。
3.1.2 情景的分類
根據情景的基本定義和用戶使用數字圖書館的基本情況,數字圖書館的情景可以分為用戶情景、位置情景、時間情景、環境情景和設備情景,在用戶使用數字圖書館的不同環節呈現出來。
(1)用戶情景
用戶情景指用戶使用數字圖書館產生的情景信息及使用數字系統獲取知識時的行為狀態及閱讀偏好。如用戶使用數字圖書館是學習還是工作,用戶休息時喜歡運動還是游戲,在運動或游戲時會怎么做出選擇等。這些情景要素都會影響用戶的注意力、時間分配、行為選擇,是影響數字圖書館情景化推薦的重要變量因素。
(2)位置情景
位置情景是指用戶使用數字圖書館時所處的位置,對用戶所處的位置進行情景描述,所產生的情景信息與用戶的位置有關。如用戶使用數字圖書館時是在學校、還是家里及與所處位置相關的信息等,包括用戶所在的城市、所處的位置類型(家里、學校、社交場所等),用戶所處周圍人員情況等。
(3)時間情景
時間主要描述用戶使用圖書館時間段及使用數字圖書館所消耗的時間,用時間情景描述用戶的習慣及行為偏好,如用戶使用平板電腦瀏覽數字網站的時間(早、中、晚不同的時間段),用戶在不同的時間段對數字信息有著不同的需求,在休息日關注休閑娛樂,在工作時間更加關注與專業相關的書籍。
(4)環境情景
環境情景是指用戶在使用數字圖書館情景推薦系統時所處的環境,描述用戶的環境信息,包括溫度、自然景物、天氣、濕度等要素。數字圖書館用戶經常處于不同的環境中,情景化推薦系統的設計時要多角度考慮環境要素,了解用戶使用數字推薦系統的真實狀況、閱讀需求及其變化情況。
(5)設備情景
設備情景是指數字圖書館用戶獲取知識資源的數字移動設備,如智能手機、智能平板電腦、移動閱讀終端。設備情景主要描述兩個方面:一是硬件設備信息,如數字設備的信息顯示方式、設備形態;二是設備的網絡信息,包括硬件設備的聯網方式、網絡顯卡、網絡傳輸效率大小、網絡型號等,精準定位用戶需求,以數字信息的方式將設備情景信息共享給用戶。
目前,對用戶個性化情景研究以用戶使用圖書館的整體情景作為研究對象,對用戶個性化情境研究的不足,造成了情景推薦結果與用戶的個性化需求存在一定偏差。在數字信息推薦過程中,情景信息推薦需要根據用戶所處時間、環境、地點確定。有些學者認為上述這些要素都重要,有些用戶卻認為不重要,還有的用戶只認為時間、地點等要素重要。在筆者看來,能從用戶的全部情景要素中幫助每位用戶做出選擇,可以減輕情景推薦系統運行負荷,精準確定用戶的個性化情景,使情景化推薦效果更加顯著[6]。
目前,數字圖書館情景化推薦系統大多是基于用戶整體情景感知開展的信息推薦活動,忽視了對用戶個性化情景的分析。由此,數字圖書館情景化推薦應在深入分析用戶個性化情景的基礎上構建情景推薦模型(如圖1所示),精準定位用戶的情景需求,為用戶提供適合的情景信息。

圖1 基于多源數據融合的數字圖書館情景化推薦模型
該模塊主要功能是從用戶全部情景信息中,找到對用戶數字閱讀影響最大的情景要素,即對用戶的個性化情景進行針對性分析,找到用戶當前情景的需求點,并對用戶的個性化情景信息進行總結,精準判定用戶的興趣偏好。對用戶當前情景的感知可依靠數字圖書館系統內部的傳感器、RFID技術實現。多源數據融合系統對獲取的用戶信息多角度進行融合,并使用數據庫對用戶使用系統的日志記錄存儲,對用戶行為數據及情景信息做出評價,數據評價標準首先從用戶、數字信息、情景信息各個角度找到信息共性,再結合存儲的用戶情景數據組成多維情景歷史評價數據鏈實現對用戶需求的精準感知與分析,多個角度判定用戶行為偏好和閱讀習慣。該模塊是數字圖書館情景化推薦模型用戶情景感知與需求分析的基礎,也是多源數據融合的重要數據來源,是數字圖書館情景化推薦模型建立的依據。
多源數據推薦模塊是數字圖書館情景化推薦模型最重要的組成部分。該模塊首先針對用戶使用數字圖書館的情景精準感知,從多種情景信息中分析出用戶的個性化情景,得到基于用戶個性化情景的多源數據,然后使用算法工具對用戶的個性化需求精準分析,圍繞用戶的情景需求進行多源數據推送,這些多源數據有基于用戶個性化情景的時間信息、位置信息、環境信息,也有根據用戶情景為用戶推薦的信息,包括數字圖書館的日志記錄、高頻詞匯信息,也有最新的數據資源信息等,最大程度上滿足用戶的個性化需求,實現多源數據融合推薦。
用戶與多源數據推薦系統交互模塊是數字圖書館情景化推薦模型不可缺少的一部分。數字圖書館用戶是多元數據推薦系統的服務對象,用戶在使用數字圖書館過程中向多元數據推薦系統發出指令,系統根據用戶的情景信息向用戶精準推送多源數據,用戶當前接受服務情節與用戶對系統推薦結果的評分及時上傳到多源數據倉儲中,實現數字圖書館用戶服務情景與評分的動態更新。用戶與多源數據推薦系統交互模塊的功能設置,助力數字圖書館實時把握用戶動態,精準分析用戶需求,時刻檢驗系統服務評價結果。
基于多源數據融合對數字圖書館情景化推薦模型展開研究,有助于彌補當前數字圖書館針對用戶整體情景分析的不足,從多元情景中確定用戶的個性化情景,基于多源數據融合技術對用戶情景信息進行分析,精準定位用戶需求,基于用戶情景使用算法工具為用戶推薦多源融合數據,促進用戶對情景化推薦模型的實時評價,注重動態反饋,實時把握用戶動態及情景變化。