知識服務型檔案網站構建研究

2010-12-31 00:00:00劉曉亮

北京檔案 2010年10期

摘要:本文在分析檔案網站與知識服務的基礎上，闡述了檔案網站知識服務的要求，提出了構建知識服務體系的系統框架，并對框架中檔案知識資源建設層、資源整合層及服務應用層的實現思路與相關技術進行了分析探討。

關鍵詞:檔案知識服務知識網絡知識組織

開展知識服務為檔案工作的發展提供了機遇，也對檔案工作提出了更高的要求。作為檔案館對外宣傳、用戶服務重要平臺的檔案網站更是需要適應知識服務的發展要求。伴隨著檔案信息化的不斷深入，必須對知識服務展開研究，應用相關理論與技術對檔案網站進行優化與改進。

一、檔案網站與知識服務概述

目前，大多數檔案館都開設了檔案網站，按時間、形成單位、主題詞等特征對檔案進行組織分類，提供Web瀏覽、檢索、下載等功能，以此為檔案用戶提供網絡服務。在這種服務體系下，檔案形成了層級分明的組織結構，檔案用戶可以查詢到自己需要的文件。然而，檔案的歷史價值是體現在文件之間的聯系之中的①，僅以分類法、主題法作為檔案組織方法，在組織結構上只能以一維或二維架構對文件進行組織劃分，容易割裂文件間許多邏輯聯系，不能從知識認知上為檔案用戶展示檔案文件所記錄的事物及其多種關系，大大降低了檔案資源的利用效能。比如檔案用戶查閱某政策法規文件時，當前大多檔案網站并沒有以多維角度同時展現該文件的歷史背景、頒布依據、修改變化以及相關的其他文件。而且檔案網站缺乏必要的分析、綜合等功能②，不能進行檔案的系統調研、科學評價和決策支持，沒有將文件中的知識聯系與有效、潛在有用的能用于解決特定問題的知識充分提供給用戶，與知識服務的要求有相當距離。

知識服務是以用戶為中心，以信息、知識的搜集、分析、重組為基礎，根據用戶的具體問題和個性化環境，把服務融入用戶解決問題的全過程，提供能夠支持用戶實際需求的應用服務③。所以，對于檔案用戶來說，在使用網站時希望看到的不僅是層級分明的結構化文件資源頁面，而且是能夠根據其需求，提供多種角度查詢、瀏覽及多種方式獲取檔案知識的多元化服務網站。

二、檔案網站知識服務的要求

檔案知識服務是建立在用戶需求、專門知識和服務功能基礎之上的一種價值取向，體現的是“用戶”、“知識”和“服務”。構建知識服務型檔案網站，需要突出以下幾個方面。

1.用戶需求

檔案用戶類型眾多，不同的用戶對文件信息的需求不同，歷史研究者為研究某個領域，需要的檔案內容面廣、時間跨度長;而企業中的檔案考證，要求查找非常具體、準確。檔案用戶使用資源的側重點也不同，舉個例子，城市建設檔案數據庫中，不同用戶輸入相同查詢詞‘建筑節能’，可能感興趣的是建筑節能材料與建筑節能規劃不同方面的文件。

把握用戶的信息需求，是開展深層次服務的關鍵。通過用戶填寫網站注冊信息可以獲知他們的偏好、興趣等信息，但實際中大多數檔案網站沒有開設用戶注冊功能，而且用戶需求是不斷變化地，相當數量的用戶不愿手工提供、修改注冊信息，應主要通過用戶的網站使用記錄隱式地收集用戶的需求信息④。檔案用戶訪問網站時的查詢、瀏覽等使用記錄能夠較客觀地反映他們的習慣、需求特點，通過對這些記錄進行分析與研究，圍繞檔案用戶的需求有針對性地建設資源，設計檔案組織方式與服務方式，把用戶的需求融入檔案知識服務的整個過程之中。

2.知識挖掘、組織

知識服務是面向用戶的，以提供知識為目標的，構建知識服務型檔案網站，需要將文件中的知識予以提取、挖掘、解釋。知識元是構成知識結構的最小獨立單元，是從文件中提取的定義、信息報道等對特定事物的具體描述⑤。將文件中的知識元進行抽取與鏈接，可以方便用戶查找，降低其獲取知識的難度。

在組織結構上，不僅應以一維或二維架構組織文件，而且應同時站在用戶與知識的角度對文件信息知識進行組織，利用多種組織方法結合用戶需求將檔案知識以多維方式表示、序化，為用戶提供多種知識線索，幫助用戶獲取知識。

3.多樣化、個性化的服務

檔案用戶信息需求的細化和深化，需要檔案網站動態地適應變化需求和改變服務模式。檔案知識服務必須保證原有基本的檢索、資源導航等通用功能，滿足檔案用戶的共性需求。同時，開設個性化、多樣化的服務功能與方式，比如應用Web2.0中的Blog等相關技術豐富檔案用戶對知識共享、個性化的需求。通過有效的服務減少檔案用戶獲取知識的成本，確保服務價值增值，讓檔案用戶體會到服務的價值。

三、檔案知識服務體系構建

檔案網站知識服務體系主要分為知識資源建設層、知識網絡整合層與知識服務應用層，如圖1所示。知識資源建設層主要包括檔案信息數據庫、知識元數據庫、知識庫與用戶使用記錄信息庫，為開展知識服務提供數據基礎;知識網絡整合層對各種數據源進行挖掘組織，將資源整合成具有多維知識聯系的知識網絡;知識服務應用層將檔案中的文件及各種知識聯系表示、展現、傳遞給檔案用戶，提供各種服務應用功能。

1.知識資源建設層

檔案信息數據庫按照元數據著錄標準，比如EAD(檔案編碼著錄Electronic Archival Description)標準，將文件的題名、形成時間、文種、載體、密級、主題詞、正文等特征以元數據格式存貯。

知識元庫是由文件中抽取的知識元、知識元鏈接和描述構成的數據庫。建立完備的知識元庫是一項巨大復雜的工程，例如CNKI的知識元庫中的知識辭典具有1400多萬概念知識元。檔案機構人力、經費有限，可通過增量方式從檔案信息數據庫進行知識元抽取，逐步建立知識元庫。關鍵詞匯的自動抽取可利用分詞系統，比如中科院的ICTCLAS系統，其具有較成熟的分詞、詞性標注等功能，可以較容易地提取出人物、地名及其他關鍵詞。但需要注意的是，分詞粒度過小容易將所需的關鍵詞切分，相反，不能切分出所需的關鍵詞，僅通過控制分詞粒度很難提取出所需知識詞匯。通過填加用戶詞典可解決此問題，但這樣不能提取出許多未知詞匯，需要對分詞結果進行詞性、語法結構分析來合并被切分的詞匯，例如:合并‘建筑/n 節能/vn’為建筑節能，減少提取的關鍵詞與原文中詞匯表達的語義損失或不符。知識元鏈記錄知識元間在時間、順序、因果、從屬上的關系。知識元鏈可以手工標注，結合統計歸納、關聯等技術自動分析實現。知識庫主要根據知識元庫與檔案信息數據庫建立而成，記錄文件所包含知識元的不同排列組合⑥，可獨立存在或嵌入檔案信息數據庫與知識元庫。

用戶使用記錄信息庫存貯用戶訪問網站時的輸入流、點擊流和用戶的偏好、興趣和身份認證等注冊信息。常用的用戶使用記錄數據來源可通過Web服務器日志文件獲得，日志文件具體地記錄了用戶的使用行為，每條記錄描述了用戶對資源的請求時間、IP地址、請求的資源及相關參數等。經過頁面訪問識別、用戶識別等預處理，生成主要包括訪問時間戳、用戶標識、查詢關鍵詞、請求的文件等記錄信息。

2.知識網絡整合層

知識網絡整合層運用分詞標引、自動摘要、關聯規則挖掘、序列模式分析、分類聚類等技術對檔案文件進行分析與挖掘，根據不同用戶的興趣、偏好等需求使用多種知識組織方法動態地為用戶組織文件。其中，知識組織作為構建知識服務的一項關鍵環節，應主要從以下四個方面進行:

(1)基本的信息組織。以全宗號、案卷號、題名、形成時間、關鍵詞等基本特征及分類法、主題法組織檔案，即以信息視角對檔案進行組織，通常也是網站組織分類的基礎架構方法。

(2)基于知識元鏈的組織。知識元鏈將知識元組織起來，按事物發生順序、因果關系、引用關系、人物關系等邏輯聯系組織起來，展現檔案的內在聯系。比如將某項政策規定的形成依據、變化、發展組織起來，為檔案用戶提供系統化的知識。同時，包含知識元的文件間也可形成連接，一起形成組織各種知識的邏輯聯系。

(3)基于文件內容重組的知識組織。使用數據挖掘方法對檔案知識間的邏輯聯系進行重組，對文件間的聯系進行深度整合，挖掘檔案中存在的隱性知識⑦。比如通過聚類算法，以人物、地點、事件、學科、查詢詞及文件所包含的知識元及其不同組合聚合，形成具有內在知識聯系的文件集合;利用關聯算法，挖掘文件中某些特征的共現模式，將具有模式中特征的文件組織起來，發掘檔案間的知識聯系。基于重組的方式隨著網站中檔案資源的變化，可動態地更新檔案知識組織聯系，并且能夠彌補分類法、主題法造成的文件間邏輯聯系割裂的缺點。

(4)基于個性化的知識組織。不同的用戶具有不同的知識結構與使用習慣，將用戶的不同需求融入知識挖掘與組織之中，能夠為用戶提供更多有針對性的知識。通過對用戶使用記錄分析、挖掘能夠推斷出用戶視角下的文件與文件之間、查詢詞與文件的關系，發掘檔案用戶個體對資源的應用模式，建立用戶個人使用模型，以此針對用戶的偏好、興趣組織檔案資源，比如不同用戶相同查詢詞下網站提供的檔案文件集合具有不同的內容或排列順序。將具有相似查詢詞、訪問文件等需求特點的用戶聚類分組，建立社團模型。將全體用戶作為一組，把用戶最常用的文件、查詢詞組織起來，比如常見的按照文件點擊率排行組織文件，建立全體用戶模型。對于新用戶，可以先根據全體模型進行資源組織，再根據訪問記錄逐漸建立與確立他們的個體模型、社團模型，進行知識組織。比如將用戶所屬社團模型組內的文件組織起來，作為服務推薦的內容，利用其他相似用戶的信息幫助用戶獲取知識。同時，根據時間建立用戶的長期與短期使用模型，使組織方式能夠根據用戶的需求變化做出相應調整。通過用戶使用記錄進行知識組織，從用戶角度建立知識聯系，充分體現用戶的需求。

用戶模型中訪問的文件通常是用戶根據個人經驗與知識結構查找、發現的，它們具有一定的內在邏輯聯系，是解決某一問題的方案或滿足用戶具體需求的知識集合，而且可能包含體系中組織方法沒有發現的知識聯系。有針對性地對不同集合進行分析研究，能夠發現不同類型用戶的使用方式、關注的文件信息，發掘檔案中新的更多的知識。

同時，通過對查詢詞進行分詞、同義擴展與相關概念關聯等語義分析，并對用戶查詢的文件進行排序計算，確定文件的相關度或重要等級，提高檢索的準確率與查全率。各種方法可以單獨使用也可以組合成更多的組織邏輯，相互補充、相輔相成，提供多樣化的知識組織，從不同的視角提供不同的方法進行知識發現，使檔案信息資源成為內容高度集中而又相互關聯的知識網絡。

3.知識服務應用層

知識服務應用層包含通用服務、個性化服務與增值服務。通用服務有Web瀏覽、檢索、資源導航、查詢關鍵詞智能提示等基本功能，并在瀏覽、檢索界面中將知識元、文件間的各種鏈接與關聯展現給用戶，為用戶提供知識線索、知識導引。個性化服務根據使用記錄發掘而來的使用模式或用戶的定制要求，為用戶提供個性化的Web頁面、欄目，為其動態調整網站結構、顯示的文件信息及知識聯系;利用E-mail、SMS等多種傳遞方式將檔案文件自動發送給用戶。增值服務，主要包括參考咨詢、代檢代查、文件解讀、專題研究與報道等，提供能夠用于決策支持、解決問題的服務。

同時，把用戶瀏覽、查詢式的自助服務提升到基于內容的互動服務，增強與用戶的互動，采用實時咨詢、BBS，應用Blog、Wiki和SNS等促進知識共享、知識交流，滿足用戶對個性化以及即時訪問數據和信息的實際需要。

4.其他相關技術

檔案館之間異地異構訪問數據的需求越來越多，知識服務型網站應該具有通用的開放標準接口。Web Service以XML技術為基礎，是一個跨平臺的、與語言無關的標準。Web Service依照UDDI協定進行目錄查找，通過SOAP協議進行訪問，而且只要WSDL接口封裝良好，外界用戶難以訪問服務端的數據。依靠Web Service可以實施網站之間的連接和集成，共享不同檔案館的信息資源與應用功能。傳統網站架構方法建立在緊耦合基礎之上，相對固定，擴展性、靈活性較低。Web Service標準的成熟和普及應用為實現SOA(面向服務架構)提供了有力支持。知識服務型門戶網站是面向服務的，可以引入SOA，優化網站基礎架構，提高架構的靈活性。比如在知識資源整合層與服務應用層間再抽象出一個層次，細化實現功能與業務邏輯。

在與Web用戶端的交互中，Ajax的數據異步調用(無刷新更新頁面)技術，可對網頁的加載進行優化，減輕服務器的負擔，加快知識組織動態重組、個性化組織的響應速度，增強用戶的使用體驗。在數據交互中使用JSON替代XML作為傳輸格式，相對于XML數據，可以減少數據的傳輸量，并且使Web用戶端數據解析的難度降低、性能提高。例如，通過ExtJs、Jquery可以設計出具有更好使用體驗的Web服務應用。

注釋:

①馮湘君.圖書館工作與研究[J]，檔案館與圖書館知識服務的比較分析2006(4):19-21.

②王蘭成.論知識集成環境下的檔案信息組織與檢索發展[J]，檔案學研究 2008(5):45-50.

③杜也力等.知識服務模式與創新[M]，北京圖書館出版社，2005.

④Shen X. Context-Sensitive Information Retrieval using Implicit Feedback[C]，In Proc. Of SIGIR 2005:43-50.

⑤溫有奎.基于知識元的文本知識標引[J]，情報學報，2006(3) :182-190.

⑥姜永常.基于知識元的知識倉庫構建[J]，圖書與情報，2005(5):73-75.

⑦楊立.數字檔案館知識組織層次體系探討[J]，檔案學通訊2009(5):56-59.

作者單位:南京政治學院上海分院

北京檔案2010年10期

北京檔案的其它文章: 淺談干部人事檔案管理與利用的創新; 一位美國學者的心聲; 那年那月那戰爭; 楊英風的“北京情懷”(下); 校園數字檔案館建設的困難及對策; 談檔案館普通用戶需求的特點與滿足需求的途徑