文/中原工學院計算機學院 高艷霞 李娟
新時代背景下,實現“互聯網+智能+檔案”成為我國檔案行業的戰略目標。《全國檔案事業發展“十三五”規劃綱要》明確指出,要深化和拓展檔案利用服務,提高檔案公共服務能力,提高檔案館公共服務的認知度和用戶滿意度,檔案利用服務模式創新和檔案信息開放要取得實質性進展。這給傳統的檔案利用管理提出了新的挑戰。
(一)服務觀念相對陳舊。當前,隨著檔案信息化的持續進行,各大檔案館的硬件設備已有很大改進,也基本完成了紙質檔案的數字化,加之原本的電子檔案,數字檔案館的雛形基本具備,但是由于檔案管理人員受傳統檔案服務影響根深蒂固,還停留在“以檔案信息為中心”的“等客上門”的被動服務模式階段,沒有主動對海量的檔案數據進行挖掘研究,沒有切實從用戶的角度研究其真實需求,因此存在用戶需要的檔案資源得不到,檔案館里卻存有海量的檔案資源,但大多都成為沉積海底的“死檔案”的現象。
(二)對檔案資源的挖掘力度不夠。各大檔案館基本都對檔案資源編排索引,可以提供目錄查詢,少部分可以原文查詢,但缺少檔案資源的編研產品,沒有形成知識單元,因此檔案資源質量不高。而現在用戶對檔案的需求已不僅僅是原始檔案,更需要進行深度加工和分析后的檔案知識單元,因此陷入檔案資源豐富,但知識匱乏的境地。
(三)對用戶需求研究不夠。數字檔案館建設的目的是利用先進的數字化技術為用戶利用提供方便,毋庸置疑,應該以用戶為中心,但長期以來受“重館藏,輕利用”的影響,雖然數字檔案館建設取得了長足的發展,積累了海量的數字檔案資源,但缺少對用戶的研究,例如,用戶的分類過于簡單,沒有根據用戶的需求組織檔案知識單元,造成了檔案資源與用戶需求的嚴重脫節。“互聯網+時代”,人們已不滿足于傳統的檔案資源呈現方式和獲取手段,因此數字檔案館要把“以人為本”作為檔案工作的核心,根據用戶需求、量體裁衣,提高用戶效率,增強服務效果。
(一)檔案信息個性化服務的概念。關于檔案信息個性化服務的概念,黃夏基定義為“根據用戶的特性提供具有針對性的信息內容”。廖倩概括為“根據利用者的特定需求為目標,借助各種渠道對館藏資源進行加工、整合、優化,為客戶推送相關信息,以滿足其特殊需求”。田偉更是將檔案個性化服務的基本特征形象地比喻成“量體裁衣”。綜合來說,檔案信息的個性化服務是檔案館通過各種途徑對資源進行收集、整理和分類,主動向用戶提供和推薦滿足用戶個性化需求的相關信息。
(二)檔案信息個性化服務的特征。檔案信息的個性化服務是“互聯網+智能”時代的必然產物,能夠促進檔案服務轉變服務理念,也為數字檔案館的建設指明了方向。具有如下明顯的特征:
1.主動性。與傳統“人找檔案”的被動服務相比,個性化服務是“檔案找人”,體現的是檔案服務部門主動服務于檔案需求者。根據收集到的用戶的基本特征及用戶的瀏覽歷史和行為,感知用戶的信息需求,從檔案數據庫中檢索出用戶需要的檔案信息及時主動地推送給用戶。
2.可定制性。對檔案用戶的基本信息和瀏覽行為進行深度加工挖掘,分析用戶的特征、興趣、愛好、行為、習慣等信息,不斷細化檔案用戶,有針對性地提供更符合用戶心理傾向、知識結構和行為方式的信息需求框架和內容,建造“量身定制”的個性化服務。
3.智能性。對于有檔案需求但不具備檢索經驗和專業知識的用戶,要準確檢索到自己需要的檔案信息往往非常困難,經常出現“提供的不需要,需要的找不到”的尷尬境地,智能性可以很好地解決這個問題。運用智能算法通過跟蹤和捕獲用戶的興趣偏好,獲取用戶的真實需求,構建用戶模型,結合智能過濾和推薦算法提升檔案信息的推送質量,真正做到按需服務。
(三)獲取檔案用戶需求。深入分析用戶的信息需求是檔案個性化服務的關鍵,本質上來說,只有精準分析用戶的特征、需求和行為,才能結合用戶需求設計高效的檔案個性化服務模式,因此準確獲取用戶需求是檔案個性化服務的核心問題。主要從以下幾方面開展:
1.用戶注冊信息。因為檔案信息不是公開性的網絡資源,只有注冊用戶才可以獲取檔案信息,在設計用戶注冊信息時,除用戶名、密碼、郵箱等基本信息外,可以包含能夠刻畫用戶基本特征的信息,如年齡、職業、學歷、關注主題等。
2.用戶瀏覽信息。用戶在瀏覽網頁時會產生很多數據,如在瀏覽某一頁面時哪些超鏈接點擊了哪些沒有點擊,哪些頁面停留的時間長,哪些頁面被用戶多次重復訪問,這些瀏覽頁面的操作行為反映了用戶的興趣和關注度,可以運用WEB挖掘技術,挖掘用戶的瀏覽日志等相關信息,準確了解用戶的喜好、行為,建立用戶興趣模型。
3.用戶交互行為。用戶在檔案信息服務平臺可以人機互動查閱資料,也可以參與話題討論,還可以在利用檔案過程中進行討論、分享和反饋等,用戶輸入的查閱主題、參與討論的觀點等這些信息可以反映用戶的特征、偏好、需求,有利于精準把握用戶的實際需求,是建立推薦模型的基礎。
4.用戶收藏、分享等行為。用戶在瀏覽檔案網頁信息結束時,沒有直接關閉網頁,而是將網頁鏈接收藏,甚至將鏈接轉發給別的用戶,形成信息分享行為,反映出用戶對相關檔案主題內容興趣濃厚,認為非常有用。通過收集用戶的收藏、分享信息,有利于了解用戶的信息需求及偏好、專業等信息,便于構建用戶信息需求模型。
對檔案用戶群進行精準細分。根據用戶的注冊信息、瀏覽歷史、交互行為和收藏分享行為,收集用戶的特征、需求偏好、檔案利用次數、頻率分布,以及對檔案利用的內容等方面進行分析,深入挖掘了解用戶的需求,建立用戶的分群模型和多維度分析知識庫。
對檔案數據按照內容主題和分類進行標識。運用主題模型進行分類處理,發掘檔案知識單元之間的鏈接關系,并進行深度加工編研,通過知識單元的關聯聚合將不同主題屬性、不同類別的檔案資源形成可供用戶利用的知識網絡。
運用數據挖掘、機器學習及自然語言處理技術,構建基于用戶需求的檔案信息個性化服務模型,為用戶量身定制個性化的數據服務,主動向用戶推薦其感興趣或者需要的檔案對象。
在檔案個性化服務模型中,推薦引擎是其中的核心,可以采用關聯規則、協同過濾等相關技術,其中協同過濾技術最為常用。協同過濾技術是個性化推薦的一種實現方式,通過對用戶歷史行為數據的挖掘發現用戶的偏好,基于不同的偏好對用戶進行群組劃分并推薦品位相似的物品。協同過濾推薦算法分為兩類,分別是基于用戶的協同過濾算法和基于物品的協同過濾算法。當前,協同過濾在圖書、電影、音樂、電子商務等領域得到較好的應用,很多領域已采用協同過濾技術來實現智能服務。這里可以將兩種算法結合使用,來提高推薦的精度。

圖1 檔案個性化服務模型
“互聯網+”環境下,各地檔案館都在嘗試檔案信息資源共享服務,同時對檔案利用提出了更高的要求和挑戰,如何從體量大、類型多、更新快的大數據資源中,為用戶提供智慧型、個性化的信息服務,并能夠挖掘檔案資源的價值,推薦公眾感興趣的檔案信息,成為一大難題。本文探討了檔案個性化服務的概念、特征,提出了獲取用戶需求的方法及個性化服務的模型,使檔案工作更貼近檔案利用者的需求,為傳統檔案的服務模式改變提供了一定的參考。