王軍
【摘要】本文簡單介紹檔案檢索系統深度開發的指導思想和目標以及檔案檢索應用系統的開發內容,分析在進行檔案檢索系統深度開發工程設計中的原則以及技術指導,研究檔案檢索系統深度開發工程的創新性。
【關鍵詞】檔案檢索;系統開發;創新
一位作家曾說過:“檔案是歷史的生命”。在企業工作中,檔案不只是各種各樣的歷史記錄,也是現在甚至將來,領導制定相關政策決定的參考,是將來對曾經所做工作的考核的依據。也是科學技術人員針對企業發展進行科學研究的第一手資料。做好企業的檔案管理工作對于研究制定科學合理的市場戰略,提高企業在經營管理中的決策力至關重要。而且有利于提升企業的綜合實力。因此現在企業對于檔案管理和檔案檢索查閱工作越來越重視。在實際工作中,要想查閱企業的歷史檔案,常用的檢索方法就是使用關鍵詞進行檢索或者按照檔案歸檔時的整理目錄進行逐級地查找。進行一次檢索工作需要花費大量的時間精力,而且檢索效果比較差,查詢結果不夠明確清晰。為了更好更方便地利用企業的歷史檔案,發揮這些檔案的巨大潛在價值,國家在21世紀初就頒布了檔案行業的參考標準《歸檔文件整理規則》,為檔案管理工作指明了方向,提供了思路,《規則》的根本管理原則就是“簡化整理、深化檢索”。隨著計算機技術的廣泛使用,數字檔案成為行業和企業檔案的主要形式。利用計算機技術可以更高效地實現對檔案的檢索。現階段為了更好地滿足人們對于檔案檢索的要求,需要對檢索系統進行更深層次的開發,從而建立相關的規范,對不同的檔案進行整合,建立綜合性和專業性更強的數據庫,更好地發揮數字檔案資源的作用。
一、檔案檢索系統深度開發的指導思想和目標
(一)指導思想。對檔案檢索系統進行深度開發是為了提升優化現有系統的性能,設計一個效率更高,使用更方面的檢索系統。在對檔案檢索系統進行深度開發時要注意工作的四個指導思想。
1.統籌規劃。檔案的建立和檢索是一個復雜性比較高的工程。檔案根據時代不同,種類不同,部門不同等方面分為許許多多的種類,在進行深度開發的時候要考慮檔案的分類和檢索的準確性。工程建設需要采用國際通用的“ISO9001”質量管理體系進行統一管理,從而確保工程建設的質量。要對工程建設中的“需求分析、設計、測試維護”等不同階段的主要內容進行統籌規劃,按照統一的標準進行設計和管理,從而更好地實現數字檔案的整合和對數據資源價值的挖掘。
2.需求導引。進行檔案檢索系統深度開發的關鍵就是提高檔案檢索的效果和效率。而實現這一目的需要對檔案資源進行分類索引,尤其是檔案的關鍵詞、短語等。要將這種供檢索使用的索引需求體現在設計中。
3.科技創新。檢索系統的深度開發主要依靠的是高新計算機技術的支持。在深度開發過程中會使用到大數據的存儲、數據容量的合理壓縮、數據傳輸及隱藏、數據的科學加密以及先進的文檔處理等技術。這需要進行大量的科技創新,從而更好地保障檔案資源的信息安全以及提高檔案的合理利用率。
4.持續發展。之所以對檔案檢索系統進行更深層次的開發利用,就是為了提高檔案資源使用的便捷度。而系統是否能夠為企業內的用戶提供便利,只有用戶最有發言權。所以關于系統的深度開發是一個持續性的任務,在開發過程中要經常進行用戶的體驗使用,在使用過程中發現問題逐漸提高系統的性能。從而真正提高系統的專業性和方便性,實現系統開發的持續發展。
(二)系統深度開發的目標。通過分析以上四點進行檢索系統深度開發的指導思想,可以確定系統開發的目標主要有三個。
1.實現數字檔案資源的整合與深度挖掘。所謂“檔案檢索系統”,其最關鍵的基礎和前提是“檔案資源”。沒有檔案資源,進行系統深度開發沒有任何意義。現階段,系統使用的檔案資源主要是數字類的資源,一方面包括之前紙質檔案庫轉換成的數字檔案資源,另一方面也增加了之前沒有的聲音影像等影音資料,數字資源的內容更加豐富。利用現代計算機技術,將不同部門,不同站點,不同分公司的數字資源進行聯網共享就可以構建出整個企業的檔案庫,實現檔案的科學整合,而且有利于后期對檔案信息的價值進行更深層次的挖掘。
2.創新知識獲得方式,提供多樣的信息形式。在數字信息庫建立之前,企業用戶要想查閱企業的相關檔案,只能在實體檔案庫獲得紙質的檔案。現在通過數字信息資源的整理和新型檢索系統的建立,用戶只要有企業檔案查詢的賬號就可以隨時隨地調取任何站點的數字檔案,不用考慮時間和地點的限制。
3.一站式檢索企業的所有數字檔案。對檔案檢索系統進行深度開發后,可以實現企業各部門,各站點所有數字檔案的聯網。在進行檔案檢索的時候,可以像搜索引擎一樣展現檔案庫中存在的經系統查詢到的所有結果,使得檔案檢索既快又準,提高企業檔案的綜合利用。
二、檔案檢索應用系統開發內容
對檔案檢索應用系統進行深度開發的主要內容包括四部分。
(一)可以實現數據整合和深層次挖掘的平臺。現階段,企業的檔案管理系統包括多個不同功能的數據庫。包括數據倉庫、文本數據庫、圖像影音數據庫等基本的信息數據庫,還有用于聯系各種不同數據庫的關系數據庫等。系統在使用的過程中主要是依靠管理調用關系數據庫來實現各種檢索功能,這也是檢索系統運行的基礎。實際使用中各種數據庫中的異構數據無法實現兼容,利用粗集理論不能實現連續數據的處理。因此在進行系統深度開發的時候要利用新型技術建立新的數據處理平臺,從而實現對數據庫的數據的整合和挖掘。
(二)建立前端查詢以及搜索引擎系統。建立一種跟百度和谷歌類似的查詢窗口,方便用戶在這個平臺系統中進行基本的賬號注冊以及進行簡單的檔案查詢并獲得初始的檢索結果。搜索引擎系統利用采集程序和訪問程序,定時對系統內的所有數字檔案進行訪問查閱,獲得相應的信息,并將這些信息整合建立索引數據庫,作為進行檔案檢索的基礎數據庫。當用戶進行索引操作的時候,根據鍵入的關鍵詞,找到匹配數據,并將索引對應的資源庫的摘要和地址反饋給用戶,在檢索結果中呈現.
(三)建立完善的中文分詞系統。企業的絕大部分檔案資源是中文資源或者影音資源。系統的用戶也主要以企業內的中國員工為主。因此在實際進行檢索系統應用的時候主要是以中文檢索的方式。由中文搜索引擎的使用經驗可知,利用中文進行檢索的結果總是與我們的檢索目標存在差異。這主要是因為計算機檢索系統的識別問題。中文的句子表達以整句話為一個單位,而系統進行識別的時候則是以單個字或者單個詞組為一個單位。舉例來說,“我是一名管理員”,英文的表達方式是“I am an administrator”,計算機系統對英文的識別可以很方便的對每個單詞進行識別,確認關鍵詞。但是在進行中文識別的時候,如果分詞不準確,可能會出現“名管”“理員”這樣的錯誤識別。所以在提高系統對中文詞匯的識別能力,并進行正確合理的切詞。在系統深度開發的時候注意索引數據庫的建立,通過自動導入或者人工添加的方式,加入一些常用的企業相關的索引關鍵詞,從而提高系統對于中文分詞的準確性。
(四)后臺管理系統。任何系統都需要一個后臺管理系統,便于日后對于系統的不斷完善,在出現故障的時候也可以直接進行系統維護。對檢索系統建立后臺管理系統,一方面是便于檔案檢索系統用戶的管理以及系統數據庫的更新管理,同時也可以根據用戶需要設定不同的訪問權限,保障企業檔案的信息安全,避免關鍵信息的外泄。
三、檔案檢索系統深度開發工程設計原則及技術指標
(一)檔案檢索系統深度開發工程設計原則。主要如下:
1.系統的先進性:檔案檢索系統的深度開發就是為了方便未來的使用。為了在未來減少再次開發的次數,提高系統的適用壽命,需要使用一些先進的開發技術,保障系統的先進性。現階段在進行檔案檢索系統中比較常用而且可靠性比較強的核心技術有組件式開發技術、中文分詞技術以及GSML文檔處理技術等。
2.可擴展性以及信息開放性。利用組件式開發技術,將系統分為三層結構:用戶層、數據層和中間層。用戶層以客戶端為主,便于客戶進行操作同時獲得檢索的數據,不提供數據處理功能;數據層通過對數據庫進行訪問,獲得相應的數據;真正的核心部分是系統的中間層,對數據層獲得的數據進行科學處理,并通過用戶層的客戶端顯示給用戶,實現系統的開放性。當需要對系統進行升級維護的時候,用戶層和數據層不需要進行任何操作,只針對中間層進行,從而提高系統的升級速度,保證系統的正常使用。同時也可以通過增設中間層的方式來對系統進行擴展。
3.穩定性和安全性。上面提到,系統的核心層面是中間層,其他兩層結構對系統運行影響不大。進行深度開發的時候利用集群技術對系統中間層的組建進行配置,可以對中間層在運行中的動態負載進行平均分配。同時可以在不同服務器之間實現功能請求的分享,這樣既可以在不影響系統運行的情況下替換故障服務器,也可以在正常運行的情況下增設新的服務器,擴展系統的運行內存,從而實現系統運行的穩定性。系統的安全一方面是體現在訪問的安全,一般是利用DES等認證和加密技術來實現,避免異常訪問;另一方面是檔案系統中原始數字資源庫的安全,為了避免數據的丟失和破壞,對數據庫采用多重備份機制以及丟失數據的恢復機制,同時建立相應的日志記錄系統,出現問題可以找出原因進行解決。從多方面保障系統的安全性。
4.易用易管性。在設計操作界面的時候要考慮用戶的使用習慣,PC端推薦使用windows操作系統,如果開發手機端推薦使用安卓和蘋果系統。在操作流程實際中以向導式設計為主,便于客戶使用。同時設置“聯機幫助”功能,通過預置的幫助手冊為用戶使用提供指導。針對管理任務,合理增加系統默認勾選對象,盡量實現對管理任務的“一鍵式”管理,從而提高管理的效率,使系統管理更加方便。
(二)檔案檢索系統深度開發工程技術指標。主要如下:
1.多種操作系統和多種系統數據庫的支持。實現檔案檢索系統在多種操作系統上的使用,PC端以Windows系統為主,同時要兼容使用國產Linux系統和蘋果電腦系統;開發手機端使用,兼容安卓和蘋果手機系統。在數據庫支持方面要支持現階段使用最多的Oracle,Infomix,Db2和Mysql等數據庫。
2.支持不同數據源的檢索。一方面可以通過對數據庫搜索的方式進行檢索,另一方面要實現通過文件目錄地址的方式進行檢索,這種方式一般會更加地準確和高效。針對于不同類型的文件,系統深度開發的時候要設計不同文件格式之間進行轉換解析的工具,以便于在檢索的時候對各類文件的數據內容進行檢索,避免出現遺漏。
3.檢索服務的智能化。利用先進的智能技術提高檔案檢索的效率和準確度。常用的智能技術有相關度分析技術、擴展查詢技術、信息聚類及分類技術和語義規則庫技術。以語義規則庫技術為例,利用該技術可以對鍵入的檢索關鍵詞進行分析判斷,在進行檔案檢索的過程中會同時檢索該關鍵詞的同義詞或者近似詞,從而擴大了檔案檢索的結果,又避免了不必要的檢索結果,提高了檢索結果的準確性。利用這些只能檢索技術可以滿足大部分人對于檔案檢索的需求。
4.數據高效處理。利用先進計算方式和合理的索引設置對數據庫數據進行快速處理。
5.中文分詞技術。為了適用于企業用戶,檢索系統必須具備中文分詞技術。通過在不斷改進的過程中完善檢索詞庫,依靠詞庫和更先進的分詞技術提高中文分詞的準確性,也提高系統的運行效率,節省用戶檢索的時間。
6.提高更多檢索語法。多字段組合檢索是比較常用的檢索語法,能夠使檢索結果更加準確。通過系統深化增加檢索的語法種類,增設操作符、運算符等語法檢索規則。也可以設置特定檢索規則。
7.操作簡單、維護方便。檢索操作要符合用戶使用習慣,操作起來容易上手。通過構建合理的后臺系統,保證在出現故障的時候可以進行后臺維護。
四、檔案檢索系統深度開發工程的創新性
一方面真正實現“全文檢索”的徹底轉變。通過對檔案檢索系統進行深度開發,可以實現整個企業檔案的聯網,改變原來針對獨立數據庫的單一檢索模式。在此基礎上可以實現對企業檔案數據的整合,有利于對檔案資源的檢索查詢以及對整體檔案價值的更深層次的挖掘。另一方面依據在進行系統深度開發中的實際工作,可以整理出一套既符合理論依據又具備實踐經驗的標準規范。作為一種規范創新,這些標準可以為以后其他企業進行相應的系統開發提供參考,有利于提高整個檔案管理行業的工作水平。
與此同時,通過對系統深度開發工程的實施,能夠有效改變企業在檔案管理和檔案檢索上的現狀,打破一直以來檔案管理和查詢中檢索范圍受時空限制的局限。為檔案行業的發展打開了新的局面,也為日后整個行業發展積累了經驗,奠定了基礎。同時使企業職工甚至整個社會對于檔案部門和檔案的重要性有一個全新的認識,提高了整個行業的社會地位。
五、結語
企業通過對檔案檢索系統進行深度開發,于企業內部來說能夠充分利用長期以來積累的企業檔案數據,對未來企業制定規劃決策和研究技術革新具有重要意義;于整個檔案行業發展,能夠提供一種參考,促進整個行業發展。
【參考文獻】
[1]王占花.論檔案數字化管理系統開發與實現[J].黑龍江科學,2014(12):197-197.
[2]張帆.檔案信息資源共享平臺問題[J].檔案管理,2013(3):85.
[3]王朝鶴.企業電子檔案管理信息系統的設計與實現[D].重慶大學,2013.DOI:10.7666/d.Y2397983.