韋 冬
(南京科技職業學院圖書館,江蘇 南京 210048)
目前,全球已邁入數據時代。MGI(麥肯錫全球研究中心)和麥肯錫商業技術服務公司[1]聯合研究報告指出,當今全世界的數據資源總量呈爆炸式增長態勢,分析與研究數據融合將引發新的社會變革、生產力的增長、知識服務創新及社會剩余價值的增長。近年來,隨著數據挖掘技術的成熟,數據融合技術成為圖書館發現讀者知識需求、預測讀者偏好、引導知識服務方式變革、評估預測用戶習慣和提高知識服務能力的重要依據。但是,伴隨著數據融合技術在圖情界的廣泛應用,圖書館數據環境呈現出“4V+1C”的特點,分別為數據量巨大(Volume)、數據種類多樣(Variety)、價值密度低(Value)、運算速度快(Velocity)和數據結構復雜(Complexity),阻礙圖書館在結構復雜、種類繁多的數據環境中有效聚集有價值的數據,增加了多源數據聚合的難度,影響了數據資源利用的科學性與有效性。由此,科學地進行數據采集與有效聚合,實現不同領域、不同層次的多源數據融合,成為圖書館提高自身多源數據聚合能力和知識服務效率的重要保障。
多源數據融合(Multisource data fusion)是指使用不同的技術手段及算法工具在全面搜集、調查、分析相關信息的基礎上,將信息資源聚合到一起,對信息數據進行科學的分析與有效評價,最后得到高價值的信息資源[2]。應用該技術的目的是將不同來源、不同類型、不同結構的信息數據進行綜合處理,汲取不同數據源的優勢特征,從海量數據中提取出比單一數據更具價值、更科學、更有效的信息,以供決策支持需要。
圖書館多源數據融合系統分為數據分布式處理系統、識別系統兩部分。數據分布式處理系統是對多種來源、多種類型,多種結構信息采集、重構、使用的系統框架,借助算法工具對多信息源、多媒體信息與多種信息格式全面挖掘、分析、融合、重構,生產出科學、全面、準確、及時、有效的綜合信息,面向使用者提供有價值的決策參考。識別系統是多源數據融合系統的核心部分,多源信息是數據融合的對象,對數據全面感知與組織結構優化是數據融合的核心層[3]。識別系統可針對讀者的行為全面感知、搜集獲取讀者的行為數據,計算機日志記錄、服務器參數等數據。識別系統數據感知與獲取的科學性及搜集數據的覆蓋面,影響著多源數據融合系統的運行效率及信息數據融合質量,保障圖書館多源數據融合系統穩定運行,可使圖書館根據多源數據有效融合,提高知識決策的科學性。
多源數據融合體現了人們高效率使用信息、挖掘數據、有效決策的需求,是信息技術長期發展形成的數據利用方式。圖書情報機構通過不斷探索與嘗試,證明多源數據融合的優勢功能,也彰顯出多源數據融合作為新技術的應用價值[4]。這種信息數據融合技術與傳統的信息使用方式有著本質的不同,借助算法工具、分布式處理系統對信息源有效融合,是圖書情報機構實現信息服務模式創新的動力和源泉。在社會實踐中,多源數據融合有助于人們掌握數據信息的變化規律,借助多源數據融合技術實現數據源融合,使數據被有效挖掘,結構更為完整,幫助人們掌握信息內部的關聯[5]。
目前,很多高校就多源數據融合理論進行了研究,并將其應用到圖書館多源數據分析和數字校園建設中,力求對多源數據有效搜集、分析、統計,提高數據決策的科學性,更好地服務于教育工作。
多源數據具有的主要特征是數據類型多樣化。在互聯網空間由于非結構化數據的碎片性,高校圖書館需要對多源數據實時分析。可分析的數據具有共性,通常情況下是某一學科同一主題數據。數據具有互補性,不同來源數據在日志記錄及字段上具有互補性,以保障分析數據的完整。數據分析分為3個步驟:數據拆分、數據記錄、數據統計,每個步驟涉及不同的處理技術和具體的處理標準。在數據分析中,一段數據可能包括多個主題,這時要對數據進行拆分,對主題歸類。數據記錄是指數據分析過程中很多字段表達相同含義,但具有不同的說法,要選擇適用字段代替。如“多源數據融合環境”與“多源數據聚集環境下”兩個字段都可以將主題確定為“多元數據環境”,也可以定位為“多源數據”。對數據有效的拆分、記錄,可以利用數字表格進行數據統計,從統計數據中分析這一時間段的熱點事件和高頻次需求點,科學做出決策。
目前高校在校園網建設上取得了初步成效,數字技術應用于高校教學、科研、管理及教職工生活各個領域。教學方面,很多教室都裝配了微機、教學多媒體,微機教室也安裝了多種教學軟件,初步實現了數字化教學。在學生管理方面,普遍實現了校園一卡通、數字監控,提高了教學管理能力。借助數據網絡在校園管理中達到科學化、流程化、數字化管理的目的。“數字校園”建設使數字網絡規模快速擴大,傳統的數據架構已經無法滿足多源數據處理需求,多源數據聚合更容易對抓取的各種類型、結構的數據形成實時、科學有效的融合分析。多源數據融合理論使“數字校園”中各類數據關聯性越來越強,借助元數據解析數據主題、含義,并開展自動的挖掘分析和深度融合,可以對高校過去、現在、未來教育決策提供有價值的數據支持,體現出數字校園的“智慧”特征。
基于多源數據融合的高校圖書館知識服務模式的主要特征是數據融合目標協同,這也是知識服務面對用戶多種需求整合數據資源形成的合力效應,是知識服務綜合性、全面性的基礎條件。數據融合目標,就是在多源數據融合的基礎上,高校圖書知識服務實現不同數據融合的協同效應。在不同知識和目標協同情景中,實現多源數據應用的整體協同。鑒于此,筆者基于多源數據融合構建了高校圖書館知識服務模式(如圖1)。該模式分為數據融合目標與數據融合系統兩個維度,揭示了多元數據融合系統運轉過程中信息資源的挖掘與融合,對高校圖書館知識服務有著積極的影響。

圖1 基于多源數據融合的高校圖書館知識服務模式
對于基于多源數據融合的高校圖書館知識服務模式而言,數據融合目標決定著知識服務系統構成方式,能否實現數據融合目標體系協同決定著知識的融合程度。在數據融合目標設計方面,應在有效考慮數據融合的種類、融合方式、融合效果的條件下,分析數據融合的實現條件及應用的技術要素,分析數據融合系統能否對不同的知識信息聚合分類及提供的綜合信息能否方便用戶獲取。面對多元、復雜的信息數據環境,圖書館工作人員有必要將復雜數據融合目標體系拆解為具體的工作目標,在保持數據融合系統穩定運行的基礎上,在不同的服務周期內達成具體的工作目標。只有保障每個服務周期內目標一致,才能保障整體目標實現,若每個服務周期內工作目標存在偏差,必將影響多源數據融合效果,降低知識服務效率,也將導致多源數據融合難以與圖書館知識服務保持協同,影響用戶的服務預期。
基于多源數據融合的高校圖書館知識服務模式結構體系包括信息搜集系統、數據挖掘算法、聚合工具及數據融合工具等,為多源知識的融合營造良好的系統環境。根據多源數據融合技術,決定多元數據融合系統知識融合目標實現的核心要素,就在于信息源的確定、良好的信息傳播環境、暢通的信息傳播渠道和穩定的系統結構。構建多元數據融合知識服務模式的一項重要任務,是對知識信息的挖掘與聚合,通過挖掘有價值的知識使館藏知識庫得到補充。只有館藏知識庫能聚合多源數據并有效利用多源數據,發揮多源信息的價值,才能為知識服務提供資源支撐,保障知識服務的科學性、針對性。
對多源數據融合的知識服務而言,若不能使獲得的多源數據得到有效存儲與利用,勢必導致知識服務環節的缺失,無法滿足用戶知識需求,影響用戶與圖書館之間的信息互動效率。若能使多源數據及時存儲利用,在知識服務各個環節實現數據資源的共享共建,就能有效節省知識服務成本。因此,高校圖書館要保持良好的開放、包容態度,吸收多種信息源的優勢功能,采集多種渠道的知識信息,并對知識資源利用情況、占有情況、分布情況有計劃地調查,制定科學計劃,分步驟地實施與組織,保持多源數據融合與數據資源共享共建的動態平衡,營造良好的知識服務環境。
根據上文所述,多源數據融合知識服務模式提高了高校圖書館數據搜集、清洗、分析、融合的能力,也進一步提高了知識服務效能,使讀者獲取知識數據更為便捷。值得注意的是,數據融合目標系統、數據融合系統結構完善及數據資源共享共建方面沒有考慮到圖書館內外部數據融合進度統一、傳感器數據融合時效性、用戶個性化需求等問題,導致多源數據融合系統難以與圖書館知識服務形成有效對接。由此,需要從內外部數據融合、傳感器數據融合及用戶服務需求角度有所創新,以提高知識服務的有效性。
實現圖書館內外部知識數據的統一融合是基于多源數據融合知識服務模式創新的重要環節,使用不同的挖掘算法和融合工具可以增強圖書館知識數據的融合和數據的科學性。高校圖書館在知識服務過程中,應實現內部業務部門、外部服務機構以及與不同種類情報、咨詢機構之間的多源數據融合(如圖2所示)。多源數據比單源數據的結構更為合理,具有更高的實用性。高校圖書館應在確保數據安全及用戶隱私保護的前提下,與內部業務部門、其他領域圖書館及政府信息部門的數據實現公開及共享。社交媒體、社會科學網絡、互聯網高科技企業及電信服務商都是數據信息的制造者、傳播者,圖書館要將上述機構產生的信息數據與自身數據融合,提高數據庫的知識總量,使知識服務更具科學性和較高的應用價值。

圖2 高校圖書館內外部知識數據的統一融合
隨著傳感器技術的逐漸成熟,圖書館基于多源數據融合的知識服務模式創新將會大量應用傳感器元器件,以此實現對用戶的知識服務需求的精確感知和精準判斷。基于多種傳感器元器件的使用,依托傳感器產生的數據在知識服務中具有更好的應用價值,使多源數據具有科學的結構與合理的應用方式,但同時也存在著數據價值密度低等問題,會影響多源數據融合和價值的二次挖掘。為提高傳感器數據的融合性,圖書館要對傳感器采集的信息數據進行標準化處理,根據數據采集對象的種類,對傳感器數據實時融合,保障面向采集對象的信息數據的高效聚合分類。高校圖書館在知識服務過程中,可根據用戶的知識需求有針對性地選擇數據,通過傳感器多源數據的實時融合提高知識的價值,使面向用戶的決策服務質量更高。
高校圖書館多源數據融合要以用戶的個性化知識服務需求為依據,圍繞用戶的身份、知識需求開展知識服務。在此過程中,圖書館要以用戶的專業學科信息作為識別對象,實現圖書館內部業務部門、出版商、電子服務商、線上終端、線下服務體系之間的數據融合。通過對這些關聯性數據的集中分析,在保障數據安全的前提下,對用戶所在時間、所在地點、閱讀行為、個性化習慣進行多元感知,激發用戶潛在的知識需求。同時,圍繞用戶的個性化知識需求,圖書館提供的知識服務要具有較高效率。在保障數據多源獲取的基礎上,對用戶行為精準預測,聚合傳感器搜集的用戶個人數據,判斷用戶需求,面向用戶精準推送知識信息,提高用戶知識服務的滿意度。
基于多源數據融合的高校圖書館知識服務能對用戶的知識需求精確判斷,在聚合不同數據源及知識信息的基礎上,利用傳感器元件實現對用戶知識需求的判斷,使知識服務更加科學,更能滿足用戶的個性化需求。