周楓 楊智勇


摘要:從檔案館業務及用戶兩個維度,對基于大數據的數字檔案館信息服務模型進行了需求分析,進而從核心層、支撐層、表現層三個方面對其功能進行論述,在此基礎上設計了一種基于大數據的數字檔案館信息服務體系架構。
關鍵詞:數字檔案館信息服務模型大數據
Abstract:From the two dimensions of archives business and user, demand analysis is carried on for the information service model of digital archives based on big data, and then, the paper discusses the functions of the model which composed of core lay? er, support layer and presentation layer. Finally, the author puts forward the information service system construction for digital archives based on big data.
Keywords:Digital archives; Information service; Model; Big data
數字檔案館建設正經歷著從資源主導向服務導向轉變,利用先進的信息技術和理念,構建高效、快捷、便利的數字檔案館信息服務平臺,為用戶提供精品化、多元化、個性化的信息服務,已成為當前數字檔案館建設的重要內容。大數據為未來檔案館實現信息服務內容的豐富、信息服務手段的完善、信息服務模式的突破等提供了新的思路和解決方案。因此,構建一個基于大數據的數字檔案館信息服務模型具有非常重要的理論與現實意義。
一、需求分析
需求分析是信息系統開發中最基礎的工作。信息服務的主要參與者一般為信息服務者與信息用戶,因此需求分析也主要圍繞兩者展開,分為業務需求與用戶需求。
(一)業務需求
業務需求從總體上描述了為什么要開發系統(Why),組織希望達到的目標。基于大數據的數字檔案館信息服務系統模型的業務需求如下:
1.數字檔案資源建設。資源建設是信息服務的前提與基礎,當前數字檔案信息服務大多是圍繞現有的信息資源展開,通過構建基于大數據的數字檔案館信息服務系統,實現資源類型多元化、獲取渠道多樣化、資源描述標準化、資源組織專業化、資源保存完善化,從而真正建立覆蓋人民群眾的檔案資源體系和利用服務體系。
2.數字檔案資源開放。透明、參與、合作是開放社會的核心要素,因此對信息資源“最后歸宿”的檔案館而言,開放必將成為數字檔案館的發展之路。以大數據信息服務系統為平臺,通過數字檔案資源開放,一方面確保社會公眾有效獲取及再利用數字檔案資源的權利;另一方面形成數據擴散,為社會發展、創新及轉型提供資源和動力。
3.數字檔案資源開發。“檔案部門的工作就是讓沉睡的檔案醒過來,讓醒過來的檔案站起來,讓站起來的檔案走出去”,[1]通過構建基于大數據的數字檔案館信息服務系統,實現檔案資源的互聯互通和深入挖掘,從而將“死檔案”變成“活資源”,將“信息倉庫”變成“知識海洋”,將“資源密集型服務”變成“知識密集型服務”。
(二)用戶需求
用戶需求必須能夠體現系統將給用戶帶來的業務價值,也就是說用戶需求描述了用戶能使用系統來做什么(What)。研究表明,系統用戶最終參與的有效性被認為是影響系統成敗的最主要因素,[2]只有在充分了解用戶需求的基礎上,才能進一步對數字檔案館信息服務系統進行系統規劃、分析與設計,進而開發出滿足用戶需求的服務系統。
1.信息檢索。“信息過載”時代,“信息迷航”加劇,在這種數據密集型范式下,準確、快速地發現資源至關重要。能否在大量數字檔案資源中快速而準確地找到所需信息,能否智能化、人性化地滿足用戶的檢索需求,將是影響用戶繼續選擇信息服務的關鍵。
2.知識挖掘。大數據背景下,用戶對檔案資源的利用程度不斷加深,通過數據挖掘和文本挖掘,深層次發掘檔案之間的關聯,將分散在本領域及相關領域的結構化、半結構化、非結構化數據資源予以深度開發并通過智能化處理平臺進行主動推送。
3.決策參考。如果數據被賦予背景,它就成了信息;如果數據能夠提煉出規律,它就是知識;如果數據能夠借助于各種各樣的工具在分析的基礎之上為我們提供正確的決策,它就是資源。[3]通過提供基于海量分布式資源的精細化知識組織輸出,實現信息+解決方案的“一站式”服務,從而提高用戶的科學決策水平。
4.數據展現。對用戶而言,總是希望以易于理解的方式來接受服務,而不是一堆生硬抽象的數據,這就需要系統能夠對服務結果作出解釋并通過可視化手段予以展現,從而提供一個方便易用的知識環境,方便用戶在大規模及復雜數據內容的基礎上進行有效的理解、推理和決策。
5.用戶參與。廣大用戶的參與,不僅使數據資源質量和信息服務效果得到有效監控,而且為服務系統的持續提供了強大的動力。通過數據資源的分享機制、定制機制、交流機制、個性化參與機制,實現數據服務由靜態向動態轉變,由單向向雙向互動轉變。[4]
二、功能設計
從結構上看,基于大數據的數字檔案館信息服務系統應該是多層次的。處于核心層的是決策支持功能,通過“數據驅動決策”實現信息服務需求滿足;處于核心層外圍的是支撐層,包括快速檢索、深度分析、深層交互、跟蹤反饋、安全保障等功能,從而保障核心功能的實現;最外圍的是表現層,包括智慧服務、趨勢預測、精準營銷、自動推送、信息可視化等功能,是核心功能的拓展,也是支撐功能的具化。[5]如圖1所示。

(一)核心層功能
基于大數據的數字檔案館信息服務核心理念是基于海量分布式資源的精細化知識組織輸出,實現信息+解決方案的“一站式”智慧服務。就其本質而言,是一項以決策信息保障為中心的信息服務。因此,基于大數據的數字檔案館信息服務系統的核心功能就是通過提供客觀化、知識化、個性化、嵌入化的產品和服務,來輔助用戶決策的。
大數據時代是弘揚理性精神的時代,決策行為將日益基于數據分析,而不像過去更多地依賴于經驗甚至直覺。“基于數據驅動的決策方法,政府將更加有效率、更加開放、更加負責,引導政府前進的將是基于實證的事實,而不是意識形態,也不是利益集團在政府決策過程中施加的影響”。[6]因此,數字檔案館信息服務必須提升從數據到決策的能力。一方面通過對海量資源的分析,從中幫助用戶解決問題并提供決策支持;另一方面,將數據驅動決策融入到數字檔案館信息服務的各環節中,保證決策環節的準確性與自適應性,實現由數據優勢到決策優勢的轉化。
(二)支撐層功能
支撐層是信息服務系統的中間層,以保障核心層與表現層功能的實現,基于大數據的數字檔案館信息服務系統支撐層,其功能主要包括:(1)快速檢索,即在異構、分布的海量資源中實現信息的快速、準確獲取;(2)深度分析,通過對結構化、非結構化數據中“檔案館——用戶”關系進行深度挖掘,提供用戶所需服務并分析預測未來需求;(3)深度交互,即在泛在、互聯的環境下推動用戶需求的智能感知和檔案資源的即時處理、即時分析、即時響應,實現用戶需求與檔案資源之間的雙向理想控制;(4)跟蹤反饋,持續關注服務質量和用戶需求,對用戶行為狀態、行為內容、行為習慣進行有效跟蹤并及時反饋,提升服務品質和用戶忠誠度;(5)安全保障,運用相關技術與模型提前發現系統風險,使信息安全防護由被動的事中評估、事后處置模式轉變為主動的事前自動評估預測和應急處理模式。
(三)表現層功能
表現層是核心層與支撐層的外化和具化,是基于大數據的數字檔案館信息服務系統服務的具體表現,其主要功能包括:(1)智慧服務,通過對海量數據的收集處理,從中獲得知識并提升能力,構建一個充滿智慧的數據管理、數據服務和數據創新時代;(2)精準營銷,通過用戶定位、群體細分、行為分析、情緒分析等手段,精準掌握用戶需求,開展個性化營銷服務,更好地滿足用戶需求;(3)趨勢預測,通過對海量資源的分析,檔案館不僅能滿足用戶當前需求,更可以預測和分析將來會發生什么,從而更好地改進自身服務及應對未來挑戰;(4)自動推送,通過精準感知用戶需求,將有效組織的信息和服務主動推送給用戶,提高檔案館對用戶需求的響應能力,促使檔案館由數據被索取者向服務提供者轉變;(5)信息可視化,采用相關的分析模型,將數據之間的邏輯關系和語義關系以可視化的方式呈現,為用戶提供生動、易用的知識服務環境。
三、系統架構
作為一項系統工程,基于大數據的數字檔案館信息服務是信息服務全生命周期活動中用戶、技術、資源等的有機集成和優化,涉及數據生成、采集、傳輸、處理、分析、應用等階段。結合系統及用戶需求、系統功能及運行流程,筆者設計了一種基于大數據的數字檔案館信息服務平臺構建體系架構,如圖2所示:
(一)物理層
物理層處于該信息服務架構的最底層,用于布置基本的網絡環境,包括服務器、存儲器、網絡互連設備等,是該信息服務系統的后臺,也是保證各部分正常運行的必備模塊。大數據時代的到來,對計算機存儲與計算的要求越來越高,因利用云計算的“基礎設施即服務(IaaS)”來構建基于大數據的數字檔案館的存儲及數據中心的應用環境,對資源層的海量數據進行存儲和計算,可以更好地為用戶提供各種服務。
(二)數據層
數據層是該服務架構的數據中心,用于構建和整合基于大數據的數字檔案館信息服務全生命周期管理過程中的各種數據資源。大數據時代,數字檔案館的數據資源主要由三方面構成。一是數字檔案館館藏,主要源于紙質檔案數字化及電子文件的接收進館。這是數字檔案館信息服務的主體。隨著檔案信息化的發展,分散異構的數字檔案館將走向互聯互通的數字檔案館群,數字檔案館將成為社會上最為重要的數據中心之一。二是網絡信息資源,尤其是電子郵件、社交媒體、網頁等價值重大、形式多樣的數據資源,可借助大數據技術強大的檢索能力,使之成為數字檔案館的“移動館藏”,為用戶提供多元化、人性化的“一站式”信息服務。此外,還有一種數據資源即用戶數據,長期未得到重視和有效挖掘。通過對用戶自身特征、不同偏好、習慣模式等分析與挖掘,創建滿足用戶需求的個性化信息環境,數字檔案館將極大地提升自身的服務層次。
(三)平臺層
平臺層是該服務架構的處理中心,用于對數據資源進行快速高效的數據處理,是數字檔案館信息服務的前提和基礎。依據數據流轉規律,結合數據處理需求,以提供大數據集的組織、分析、決策、展現等功能。數據組織即數據的有序化與優質化,主要依據數據生命周期理論,對元數據進行管理并通過數據清洗、數據集成、數據監護等手段來保證數據的質量與安全;數據分析則是通過對相關數據集中結構化、半結構化、非結構化數據進行常規、廣度、深度分析,形成不同緯度、不同粒度、不同功能及不同類型的數據子集,最大限度地了解用戶需求及數據內容;建立在相關關系基礎上的預測是大數據的核心,通過對分析結果中用戶需求與數據資源的匹配,能夠對當前的管理及未來的發展作出有效決策并通過決策反饋分析實現決策效果的優化;數據展現則是信息服務后臺處理的最后環節,通過對數據處理結果進行解釋并進行可視化,實現對處理結果的理解。
(四)服務層
服務層處于該服務架構中的最高層,是基于大數據的數字檔案館信息服務內容的集中展示層,因此是整個系統中最重要的一層。用戶通過Web接入數字檔案館信息服務系統后,服務器對用戶需求進行分析并匹配信息服務平臺所提供的各種服務。在數據組織的基礎上,建立“一站式”資源服務平臺或數字資源社區,為用戶提供快捷、簡單、易用的資源發現及獲取服務。在這種由檔案資源、用戶、專家構成的開放性、創新性的社區環境下,利用群體智慧為特定用戶提供信息服務的眾包服務將日益重要。在數據分析的基礎上,數字檔案館不僅提供基于海量分布式資源的精細化知識組織輸出,即實現信息+解決方案的“一攬子”服務,不僅獲得知識,更重要的是基于信息服務全生命周期對用戶需求及服務質量進行持續關注,開展關聯服務、跟蹤服務、宣傳推廣服務,全面提升數字檔案館服務品質和用戶忠誠度。基于大數據分析、預測及智能服務決策技術建立各種模型,不僅能夠有效了解用戶需求、科學預測未來發展趨勢,還能對數字檔案館信息服務進行危機預警及風險預測,以應對未來生存危機。信息可視化則是通過從抽象數據到可視化結構的映射來幫助用戶“在大規模及復雜內容的基礎上進行有效的理解、推理和決策”。[7]從當前來看,信息可視化主要是一個輔助手段,而未來則將會成為一項重要的服務內容。在信息服務的過程中,難免會出現一些偏差,而通過基于大數據分析的服務反饋,將使數字檔案館信息服務始終保持活力、暢通。
大數據時代的到來,為數字檔案館信息服務的發展提供了契機,實現了從傳統信息服務向知識服務及智慧服務的轉變。基于此,筆者構建了一個基于大數據的數字檔案館信息服務模型,力圖推動數字檔案館信息服務朝著服務個性化、決策智能化、推送主動化、響應敏捷化的智慧服務轉型。然而,基于大數據的數字檔案館信息服務模型是一項系統工程,涉及數據管理水平、數據處理技術及數據服務創新等方面,因此其具體效果還有待實踐的檢驗,有待我們的進一步努力。
*本文為國家檔案局項目“面向智慧城市的數字檔案資源服務研究”(項目編號:2013-X-30)及國家社科基金青年項目“智慧城市與數字檔案資源建設研究”(項目編號:14CTQ036)的階段性研究成果。
注釋及參考文獻:
[1]李云波.檔案館,不妨再活躍點[J].中國檔案,2012(7):1.
[2]邢一亭,王刊良.需求分析中概念模型影響用戶參與有效性實驗室研究[J].情報雜志,2011(3):156.
[3]張意軒,于洋.大數據時代的大媒體[N].人民日報,2013-01-17,第14版.
[4]周志峰,黃如花.國外政府開放數據門戶服務功能探析[J].情報雜志,2013(3):147.
[5]黃曉斌,鐘輝新.基于大數據的企業競爭情報系統模型構建[J].情報雜志,2013(3):38.
[6]涂子沛.大數據:正在到來的數據革命,以及它如何改變政府、商業與我們的生活[M].桂林:廣西師范大學出版社,2012:61.
[7]李廣建,楊林.大數據視角下的情報研究與情報研究技術[J].圖書與情報,2012(6):5.