劉 楊,陳 帥,趙 穩,劉義豐
天津市博盈科技發展有限公司,天津 300200
隨著信息技術的深入發展,計算機給工作、生活等帶來了極大的方便,在極大地提高勞動生產率的同時,給社會帶來了無限的商機與財富。但隨著各個企事業單位對計算機使用程度的不斷加深,大量的、不同類型的電子文檔管理和利用成為越來越顯著的難題。盡管文檔管理人員花費了大量的精力和時間通過各種分類方法去管理和維護電子文檔,但在實際工作中檢索所需文檔依舊要花費大量時間。如何有效、安全的對大量電子文檔進行管理和利用成為文檔管理人員和文檔使用人員的當務之急。工作人員在檢索文件的時候往往不是需要找到“包含”某個關鍵字的文檔,而是希望找到與搜索目標相關性最大的文檔。
因此,理想的文檔管理軟件的目標設定為:
1)高效率:在檢索海量文檔的時候,能以較高的速度返回結果。
2)高準確性:可根據文檔內容進行查詢,并根據待查詢文檔和查詢條件之間的相關性進行排序,在最短的時間內找到內容最相關的文檔。
3)高靈活性 :管理各類文檔 :txt、eml、doc、docx、html、xml、pdf等等;同時考慮一個文檔的多個版本。
4)高適應性:適應各個行業的特點。比如律師行業、建筑行業、會計師事務所等等所用的文檔中的詞匯有較大不同,應該區別對待。
5)高易用性:支持模糊查詢,支持復雜查詢條件,支持同義詞;
文章涉及到的技術原理簡述及設計原理如圖1。

圖1 設計原理圖
在設計文檔管理系統中,開發的重點和關鍵技術如下:
1)文件分析分析技術:通過文件分析器,將用戶納入管理的電子文件進行分析。通過分析配置器使文件分析器能面向多種格式文檔的內容,忽略文檔格式,以保證面向多類型文件;
2)詞法分析。根據系統管理員設置的精度和選擇的專業詞典,將信息轉化為關鍵字信息;
3)專用索引數據庫開發及使用技術:開發專用數據庫以保存文檔相關關鍵字、文檔訪問路徑、權值(相關度)、訪問權限、文件版本信息等信息。分析用戶權限、根據關鍵字組合對索引數據庫進行掃描,得到組合權值最高的前若干條數據,反饋給用戶,對之后部分數據進行緩存。當關鍵字組合查詢頻度較高時,緩存前一部分的查詢結果,以提高查詢效率;
4)服務接口,根據協議提供文件利用、備份接口。
面向內容文檔管理系統的技術路線分為以下幾個步驟:文件分析、詞法分析、索引保存、用戶檢索關鍵字分析、數據檢索、返回結果。系統框架如圖2。

圖2 系統框架圖
1)文件分析:通過文件分析器,將用戶納入管理的電子文件進行分析。通過分析配置器使文件分析器能面向多種格式文檔,忽略文檔格式,將文檔內容生成XML文件進入內容詞法分析。同時,分析文檔是否修改文檔和重復文檔,是否有安全級別等等;
2)詞法分析。根據系統管理員設置的精度和選擇的專業詞典,將信息轉化為關鍵字、出現頻度和文章權重的信息,并將如下信息提交給專用文檔索引數據庫;
3)索引保存。保存關鍵字、文檔訪問路徑、權值(相關度)、訪問權限、文件版本信息等信息;
4)用戶檢索關鍵字分析。通過詞法分析中間件對用戶搜索關鍵信息進行分析,將搜索信息分解成為搜索關鍵字和同義詞并提交索引數據庫進行檢索;
5)數據檢索。分析用戶權限、根據關鍵字組合對索引數據庫進行掃描,得到組合權值最高的前20條數據,反饋給用戶,對后60條數據進行緩存。當關鍵字組合查詢頻度較高時,緩存前20條查詢結果,以提高查詢效率;
6)返回結果。用戶根據返回結果對文件進行訪問,如果訪問出現異常,則記錄異常、標記異常文檔。
主要的功能的在現有的產品如Lucense中有比較完善的實現,但仍然有許多需要進一步細化的工作:
1)面向多種文檔的特征配置器的開發使用。提高系統的可擴展性,使系統能面向多種文檔。文檔提供者提供的文檔往往是多類型的。文檔可能包含幾個大類:MS Office,PDF,金山Office,文本文件,email,其他文檔。現有的檢索只能識別對其中的幾類文檔。應該可以通過對文檔特征的配置,增加指定文檔的特征配置文件,以保證文檔可以進行分析查詢,使系統具備了近乎無限的擴展性;
2)結合專業詞典及專業詞典生成器。保證分詞的準確和詞匯量的豐富。根據各個行業專業詞匯的不同,對詞語精度的要求,對同義詞的定義等等,以明確使用各類的詞典,減少語言的歧義性。生成器可以分析多篇專業文檔并和日常工作詞典相比較,自動生成專業詞典生成器;
3)面向多類型文檔的高速分析器。結合windows/Linux底層文件系統構建文件分析中間件,結合文檔定義以進行高速分析并索引;
4)多方式詞法分析技術。引入多種詞法分析技術,根據用戶不同的要求,可按照不同精度進行詞法分析。基于字符串匹配的分詞方法、基于理解的分詞方法、基于統計的分詞方法。
內容相關文檔管理系統是海量文檔管理的必然方向,是文檔共享和資源利用的有效手段。為了有效的體現文檔資源社會價值和經濟價值,可以對不涉密的文檔向局域網或internet網進行共享。可以說面向內容文檔管理系統有著廣闊的市場前景和巨大的經濟價值。
[1]Hector Garcia-Molina,Jeffrey D.Ullman,Jennifer Widom.Database Systems:The Complete Book(數據庫系統全書).Prentice Hall/Pearson,2003(機械工業出版社影印版).
[2]Baeza-Yates, R.&B.Ribeiro-Neto.eds.Modern Information Retrieval.ACM Press, 1999(國內有機械工業出版社出版的影印版和中文翻譯版).
[3]李國輝,等著.信息的組織與檢索.科學出版社,2003.
[4]Witten, Ian et al.Managing Gigabytes.Orlando, FL:Morgan Kaufmann Publishers Incorporated,1999.
[5]William Frakes & Ricardo Baeza-Yates, Information Retrieval Data Structures and Algorithms.PrenticeHall,1992.
[6]Karen Sparck Jones & Peter Willet eds.Readings in Information Retrieval, Morgan Kaufmann,1997.
[7]李曉明,閆宏飛,王繼民著.搜索引擎-原理、技術與系統.北京:科學出版社,2005.