葉翔

關鍵詞:大數據;數字圖書館;信息服務;資源整合
摘要:文章分析了基于大數據的數字圖書館資源整合需求,闡述了圖書館數字資源整合的方式,提出了圖書館大數據資源整合方案和策略。
中圖分類號:G250文獻標識碼:A文章編號:1003-1588(2017)01-0123-03
近年來,我國數字圖書館的發展規模不斷擴大,各種形式的信息數據聚集到數字圖書館的數據庫中,這對于圖書館平臺的檢索、查詢以及整理等工作提出了更高的要求。需要注意的是,由于數字圖書館平臺的資源異構性,很多信息資源都存在著內容重復的現象,而且數字資源之間相互交叉的情況也比較多,這些特性都讓用戶在使用圖書館平臺時需要花費更多的時間學習各個平臺的檢索技巧才能夠獲得所需的信息資源[1]。顯然,數字圖書館檢索功能的不兼容已經增加了用戶使用軟件的難度,嚴重影響了軟件的使用效率。因此,為了提高檢索效率,我國很多數字圖書館平臺都在積極地整理數字資源,解決軟件之間的不兼容問題。
1基于大數據的數字圖書館資源整合需求分析
1.1大數據整合是信息組織自動化、動態性、多模式的要求
傳統圖書館整理資料的方式是以人工的檢索方式對各類書籍資料進行標注、分類和整理,而且檢索的關鍵詞(字)都是需要煩瑣的手工勞動進行整理和錄入。如今,互聯網上的很多數字資源都具有很強的時效性,如果仍利用人工的方式進行整理,必然會影響到資料使用的效果。因此,實現數字資源的自動化處理已經成為數字圖書館的發展趨勢,如:數字資源的自動標注、自動分類和整理,資源關鍵字的編制以及自動化管理等方面都是圖書館的重點研究內容[2]。數字資源的種類繁多、構造成分較為復雜,信息化比重越來越大都讓以傳統手工整理方式為基礎的圖書館的使用優勢不再明顯,而且數字資源的非結構化也使自動化提取資源特征的難度加大。
1.2數據整合是信息組織的標準化、易用性的需求
因特網是一種將多個網絡進行整合的互聯網結構,而且網絡中的數字資源都是以雜亂無序的方式分布。信息網絡是以信息為處理的基本單元并針對信息進行存儲、添加以及整理的合作型的網絡結構,且網絡之間的數據交流同樣需要各方面的支持,因此,整合網絡資源的前提就是制定相關的信息整理和加工標準[3]。在互聯網環境下,任何用戶都可以輕松地利用手機、平板電腦及個人計算機等終端訪問數字圖書館平臺并進行操作。圖書館考慮到用戶的軟件操作水平參差不齊,在設計平臺功能時要盡量做到簡潔實用,使普通用戶都可以檢索到所需的數字資源,提高平臺的使用效率。
2圖書館數字資源整合的方式
2.1基于OPAC系統的數字資源整合
OPAC(Online Public Access Catalogue)稱為聯機公共檢索目錄,是一種基于互聯網模式的數字資源檢索工具,該工具也是用戶查詢和檢索數字資源的重要工具[4]。具體來說,基于OPAC的資源整合系統是一種基于數字資源傳統模式的整合方式,其同樣也是圖書館針對數字資源進行整合的最基本的模式。值得強調的是,OPAC的檢索工具得到大部分用戶的認可,因此,以OPAC檢索技術為基礎構建數字圖書館平臺并整合多種平臺資源的成本相對較小?;贠PAC檢索技術的圖書館平臺可以讓用戶以較為熟悉的檢索方式獲取平臺的資源服務,且無須進行額外的技術培訓,該檢索方法將大大提高檢索效率和用戶的使用體驗。
2.2基于導航系統的數字資源整合
基于導航系統的數字資源整合模式是將數字資源的檢索方式進行整合,以此建立導航系統的數字資源庫,使用戶可以利用資源的名稱、重要標識以及關鍵字來檢索所需的信息?;趯Ш较到y的數字資源
整合模式的目的是提供統一的檢索入口,提供高效的檢索效率以及提高用戶的使用體驗。該模式按照資源的類型可將數字資源分為數據庫資源、期刊資源、會議資源以及電子圖書類資源等,可針對不同類型的資源設計不同的導航系統模式?,F階段,數字圖書館的檢索模式仍是以基于數據庫的導航模式和基于數字期刊資源的導航模式這兩種方式。需要注意的是,不同類型的數字資源信息需要相對應的導航模式,如:基于數字期刊資源的導航模式需要明確資源內容的期刊關鍵字、期刊名稱、出版單位、ISSN編號以及期刊和出版社的URL等內容?;跀底制诳膶Ш侥J骄哂幸韵氯齻€基本功能:期刊關鍵字檢索功能、期刊內容分類檢索功能及順序檢索功能,以上這些功能都可以幫助用戶方便地檢索到所需的數字資源,并以超文本鏈接的方式實現。
2.3基于鏈接系統的數字資源整合
基于鏈接系統的數字資源整合模式利用超文本鏈接技術將相關的數字資源進行鏈接和整合,讓全部的數字資源形成一個整體,從而為用戶提供更好的數字資源檢索服務。目前,較為成熟的鏈接模式主要有封閉式的靜態鏈接模式、開放式動態鏈接模式及開放式靜態鏈接模式,其中使用頻率最高的是開放式動態鏈接模式。具體來說,開放式動態鏈接模式就是根據用戶的具體需求動態地參照規定好的鏈接方式對于用戶的使用給予鏈接,其中還可以在鏈接過程中嵌入選擇型鏈接模式(比如DOI、CrossRef、SFX及Open URL等鏈接模式)[5]。現階段鏈接技術最為先進的是SFX模式,SFX模式能夠簡化復雜數字資源的相互關聯性,還可以提供期刊全文到全文,或者摘要到摘要的鏈接服務,使鏈接服務更加具體。利用SFX模式整合數字圖書館的信息資源的同時,還能擴展資源服務類別,比如擴展期刊查詢、館際互查和互借及期刊資源的傳送服務。
3圖書館大數據資源整合方案和策略
3.1圖書館大數據資源整合整體方案
筆者設計的基于大數據的數字圖書館信息服務資源整合的具體方案主要分為:數據整合系統反饋控制模塊、數據整合模塊、數據過濾和解析模塊及大數據資源模塊等內容(見圖1)。其中,大數據資源模塊主要負責存儲和管理服務監控方面的數據、系統管理方面數據以及客戶管理方面的數據,而且該模塊還會參照數據的存儲特點、數據的來源、數據的應用方向以及數據的使用頻率等特點,將收集到的數據按照規則存儲到相應的管理數據庫中,為整個信息服務資源整合系統提供信息數據的基礎管理服務。數據過濾與解析模塊是大數據資源模塊的上層,接受下層的大數據資源模塊提供的服務,該模塊主要擔負著大數據特征的提取、類型和格式的判別、數據的清洗(即篩選)及數據的解析等工作。其目的在于它不僅要過濾掉大數據存在的不利噪音,還要規范數據的格式和類型,而且需要進一步提高數據的存儲密度和使用價值。數據整合模塊的主要職責是利用大數據的讀取和轉換準則將過濾后的數據進行轉換并最終存儲在主數據庫中。數據整合系統反饋控制模塊通過數據處理以及分析技術針對大數據進行評估,并利用系統反饋技術實現數據整合、資源調整及反饋系統優化,從而提高數據的操作管理水平,提高數據的有效性和可控性。另外,數字圖書館還會全程監管數據的整合過程,并在整合過程中及時地發現問題、糾正錯誤、完善管理,為用戶提供安全、可靠及便捷的數據服務。
3.2實現數據在采集終端的過濾與整合
數字圖書館在提供優質數據服務的同時還積極收集和整合用戶數據,如:利用終端的傳感器、監控儀器、服務器日志監控系統以及終端數據收集器等設備,收集和整理系統運行信息和用戶使用的信息。需要強調的是這些收集數據的設備構建比較復雜,而且數量較多,對此在收集數據時要把握系統所需收集數據量和網絡傳輸的負載量之間的平衡,也就是在不影響硬件設備正常運行的基礎上盡可能多地收集所需的信息數據[6]。因此,在數據收集方面采用何種的收集、整理以及過濾策略,對于整個信息服務資源整合系統的構建起到了至關重要的作用,先進的收集技術將會大大減少硬件設備的運載負荷,從而提高數據的整理和分析效率。綜上所述,數字圖書館應該注重針對大量原始數據的過濾和整合技術的研究,降低大數據的噪音,有效去除數據的冗余信息,將有價值的信息數據過濾出來進行存儲,從整體上提高數據的時效性和使用價值。
3.3實現大數據的安全、高效整合
實現大數據的安全、高效整合是保障用戶賬戶信息、信息服務系統數據以及第三方共享數據安全的關鍵所在。①數字圖書館應該按照國家規定的相關法律法規制訂大數據的過濾和整合規則,并在保持數據能夠支持二次挖掘和整合的前提下保障用戶的賬戶信息和使用信息的安全性。數字圖書館還要在第三方平臺數據的兼容性、開放性以及有效性的基礎上對各個網絡系統的信息資源進行整合。②數字圖書館還十分重視基于IT系統框架的安全保障。圖書館應根據大數據的過濾和整合規律做好大數據平臺的數據安全和存儲工作,盡可能地降低數據過濾和整合帶來的風險,從而保證大數據的整合措施不會影響到數字圖書館的正常運行。③數字圖書館還應重視大數據的整合和存儲、整合系統的可擴展性、整合過程中的數據安全性以及整合過程中的經濟成本等方面的內容[7]。
3.4重點關注與第三方大數據平臺數據的整合
大數據時代,用戶的個性化信息需求需要數字圖書館、云計算服務商、通信和網絡運營商及相關政府部門通力合作才能夠完成。數字圖書館只有全面高效地整合各個系統的數據,才能提升數字圖書館信息資源的使用價值,才能準確定位用戶的信息需求,才能保證數字圖書館的可持續發展。數字圖書館與第三方的數據平臺還需要相互兼容,其不僅需要兼容各個平臺的數據存儲標準、數據的存儲格式及數據接口模式,還需要從長遠的角度看待與第三方數據平臺的合作關系,著重加強對數據共享系統構建、數據過濾及整合技術等方面的研究。
4結語
基于大數據的數字圖書館信息服務資源整合系統重視大數據資源的過濾和整合技術,該技術同時也是對于大數據進行二次挖掘的基礎。圖書館只有科學地研究大數據過濾和整合技術才能提高數字圖書館信息資源的使用價值,才能提升用戶的信息體驗效果。
參考文獻:
[1]何毅.資源發現知識導航:大數據時代圖書館的數字資源建設與服務[J].中國索引,2012(6):23-27.
[2]張文彥,武瑞原,于潔.大數據時代的圖書館初探[J].圖書與情報,2012(6):15-21.
[3]樊偉紅,李晨暉,張興旺,等.圖書館需要怎樣的“大數據”[J].圖書館雜志,2012(11):63-71.
[4]韓翠峰.大數據帶給圖書館的影響與挑戰[J].圖書與情報,2012(5):37-40.
[5]溫浩宇,李京京.大數據時代的數字圖書館異構數據集成研究[J].圖書館雜志,2012(9):138-141.
[6]史久根,張加廣.基于壓縮感知的無線傳感器網絡數據融合算法[J].計算機系統應用,2014(10):178-182.
[7]吳珺,謝樹泉,王春枝.基于語義的隧聯網數據整合方法[J].智能系統學報,2014(6):209-213.
(編校:馬懷云)