摘要本文從檔案標引的基本理論出發,簡要闡述了單漢字標引技術在檔案檢索中應用的優點及可行性分析。
關鍵詞單漢字 檢索 可行性
中圖分類號:G27文獻標識碼:A
所謂單漢字標引技術,是指以單個漢字作為標引的基本單元,在檢索時對不屬于停用詞范疇的單個漢字進邏輯乘運算,也即對標引字所代表的概念層面進行后組配,從而獲得檢索結果。實質上單漢字檢索就是全文檢索,其不同點在于它將待檢文本由計算機全部自動做成單漢字倒排擋,檢索時用單漢字組配法進行查找。單漢字檢索技術起源于西文關鍵詞標引法,是漢語自然語言處理的一種獨特方式。西文關鍵詞標引法只針對詞的處理,西文的書寫格式以空格分隔開來,而單漢字的標引是針對漢字進行處理的,以單個的漢字或漢字的組配為處理對象,然后以“全標引”的文本形式存儲數據。文本中的每個漢字都要做倒排索引,因為絕大多數情況下單個漢字不能獨立表達文獻主題概念或作為索引項,所以“全標引”也就等于不標引。所謂的單漢字標只能是把文本中的每個漢字作為一個處理單位的手段。
1 檔案標引原理和作用
檔案標引就是揭示檔案的主題內容,以便為用戶提供從內容角度檢索的途徑。我國目前檔案標引的主要依據是檔案主題詞表,它是由表達檔案內容主題的自然語言中優選出的語義相關、族性相關的科學術語所組成的規范化詞典。在檔案標引與檢索過程中,它是用以將檔案、標引人員及用戶的自然語言轉換為統一的主題詞檢索語言的一種術語控制工具。其主要具有以下功能:第一,檔案標引是揭示館藏的手段。檔案的門類多,數量大,如果沒有科學的管理方法和系統地揭示館藏,那么用戶就很難直接找到所需要的檔案信息。 第二,檔案標引是建立目錄提示的重要基礎,可以從各個不同的角度揭示一份檔案的內容。從而建立各種不同類型的目錄,如分類目錄、主題目錄等。第三,檔案標引是開展手工檢索和計算機檢索的必要條件。我國目前比較普及的檔案標引方法是:首先進行主題分析,從檔案內容中分析出主題詞。然后在確定主題概念后進行概念轉換工作,將表達概念的自然語言轉換成規范化的人工符號,即查分類表和歸類工作。最后標引主題詞,經過主題分析確定主題概念以后進行概念轉換,將表達概念的自然語言轉換成規范化的語言詞的工作,即查主題詞表。
2 單漢字標引技術在檔案檢索中應用的優點及可行性分析
2.1 繞開了人工標引的問題
采用單漢字標引的最大好處是其方法繞開了檔案人工標引的困境。情報研究界雖然先后提出了詞典分詞法,語法語義分析法以及神經網絡分詞法等一些比較先進的方法,但其不足之處仍然十分明顯。如不能實現“位置檢索”,致使誤檢率高;剔除虛詞的檢索組配致使漏檢率增加;一旦出現中文與西文混合的文檔檢索,出現將完整西文單詞字母拆開進行邏輯組配的事實,增加了計算機的運算時間等,所以距離提出完整的、徹底的分詞方案還比較遙遠。由于單漢字標引技術對每個漢字都由計算機作索引,不需人工標引,所以這種依靠計算機自動標引和邏輯檢索的方法自然就繞開了人工標引的難關,從而節約了大量的分詞勞動。針對作為原始記錄保存起來的檔案而言,采用這一方法則更顯迫切。
2.2 統一人工標引使其一致
在檔案信息管理中采用單漢字標引法把文本中的每一個漢字都作為標引詞,實現了完全自動化標引,使人力財力經濟化,更重要的是避免了人工標引中工作人員的主觀缺失。一般而言,人工標引法的標引質量會受到標引人員的影響,包括標引工作人員的專業素質、心情和工作環境等因素,即便采用同一部分類法,不同人員的標引結果也很難取得一致。單漢字標引對文本中的每一個漢字都做深度標引,可不受諸多的限制,可以極大地保存了文獻原本的原貌。所以,這樣就完全保證了檔案惟一性和憑證性的基本特征,確保了檔案信息的可靠性。
2.3 單漢字標引的高容量性和高彈性
單漢字標引系統與以詞為檢索基礎的檔案信息管理信息系統相比,其詞庫要簡單的多。就漢字而言,最常用的在幾千個到一萬個字之內,單漢字標引的詞庫與漢語的組詞量相比大大縮小了,這就相應地減少了計算機的計算量和對計算機硬件的要求。任何中文檔案都是漢語文本組成,所以任何文本的內容都在這個詞庫中,這就體現了單漢字標引的高容量性。同時,單漢字標引對新信息有著超強的彈性,隨著知識更新的加快,新學科、新概念將不斷涌現,由于檔案是在人們日常的政治、經濟和文化活動中最先形成的原始信息源,這些內容會首先在檔案中出現并得到有效的保管利用。如果采用檔案主題詞表對其進行規范化標引就必然面臨主題詞表的經常更新問題,實際的情況是:檔案主題詞表具有一定的穩定性,國家對主題詞表的更新具有滯后性,但長期不更新又會無法適應不斷涌現的包含新概念檔案的標引和著錄,由于檔案標引工作的超前性與主題詞表的滯后性矛盾的長期存在,單漢字標引的天然優越性自然就表現得淋漓盡致,因為不管是什么新概念、新名詞,自然是不會產生新漢字的,這些新概念都將包含在字庫中,都能夠得到恰當的組配標引。而且,單漢字標引采用的是最徹底的后組配檢索模式,通過字的組配可以達到任意的專指度和泛指度,任何細小的主題詞都可以通過字的組配檢索出來。
2.4 單漢字檢索對計算機檢索的天然適應性
單漢字是中文文本的最小單位,信息是以字節為計量單位的,一個漢字占有兩個字節的固定長度,在我國主要目前采用的漢字編碼標準主要是GB2312,這些使用兩個字節來代表一個字符的各種漢字延伸編碼方式,統稱為 ANSI 編碼。在簡體中文系統下,ANSI 編碼就代表 GB2312 編碼, 為使計算機支持更多語言,通常使用 0x80~0xFF 范圍的 2 個字節來表示 1 個字符。比如:漢字“中”在中文操作系統中,使用 [0xD6,0xD0] 代表這兩個字節存儲,單漢字便是計算機自動抽取和處理的天然單元,計算機處理單個漢字也就相當于處理兩個字節。就信息量而言,漢字所包含的信息容量比西文系統要大,單漢字系統具有“字面成族”的能力,單漢字是構成詞、句、段、篇的基本單位,它具有無窮的組配能力,能夠組成二字詞、三字詞以及更多的詞匯。組配可以采用隱含方式,不必寫出邏輯乘的符號,對于沒有任何信息檢索知識的檔案用戶而言是可以接受的。輸入一個漢字就可以檢索相關的所有資料。組配的深度與專指水平密切相關,如果準確輸入檢索詞,就會增加組配的深度,就能達到較高的專指度,反之效果相反。從技術性的角度分析,單漢字檢索所涉及的主要技術是計算機的硬件和數據庫技術。單漢字系統機內處理時間短,時間短就意味著在現有計算機硬件技術條件下可以實現檔案單漢字檢索,只要不對計算機的性能提出過高要求就充分說明這種方法在計算機硬件技術上是沒有障礙的。從數據庫技術上講,由于漢字的數量基本是穩定的,不需要增加數據庫的存儲量和工作量,所以,現有的數據庫技術也是可以滿足需求的。從經濟性的角度考慮,在以詞為基礎的信息系統中,索引的維護面臨著重新標引、插入、排序等一系列復雜工作,并需花費較長時間,詞表也需要不斷更新以容納不斷涌現的新知識和新概念。單漢字系統不需要做這步工作,因為處理的是相對固定的漢字,這樣不僅可以節約人力,節約資金,更重要的是不需要增加設備,在現有檔案管理機構設備的條件下就可以實現理想的系統升級,這對資金經費相對短缺的檔案管理部門而言是理想的契機。
檔案計算機管理作為新型的知識管理理念和模式,已經成為信息時代檔案界謀求檔案信息化的有效途徑,檔案標引和檢索是檔案價值實現的重要環節,能否實現對檔案信息的有效利用,直接影響著檔案管理機構的工作效率和存在價值,鑒于檔案檢索在檔案管理和利用中的主體支撐作用,本文對單漢字檢索法在檔案檢索中應用的可行性及其優點進行了分析,期望對檔案的有效利用提供幫助。
參考文獻
[1]胡瑩瑩.單漢字標引與檢索技術綜析.情報理論與實踐,1999(2).
[2]王永成等.漢語文獻的自動分詞與標引研究綜述.上海交通大學出版社,1991:194.
[3]張琪玉.情報語言學基礎.武漢大學出版社,1997:286.
[4]薛四新.檔案信息化應用系統建設.機械工業出版社,2005:90.