趙慧杰 魏永啟 姜進成
(1.兗州煤業股份有限公司,山東 濟寧 273500;2.兗礦集團有限公司信息化中心,山東 濟寧 273500)
煤礦企業管理者沒有掌握豐富的信息化理論,企業內缺乏先進的信息化設備,信息化設備的應用還停留在初級階段。煤礦企業的辦公室內并未實現人手一臺電腦,資料的整理和存儲多通過資料柜來實現,大量堆放的資料導致文件不方便查閱,加劇了企業的管理難度,各個煤礦的信息化建設嚴重受阻。
在煤業公司日常管理中不難發現,下屬煤礦企業各大部門尚未制定出科學的資料管理機制,在各項業務的開展中使用了不同的信息系統,由于銜接性不強以致于辦公效率不高,且增加了整個煤礦的運營成本。
在當前所創建與實施的文件系統中,檢索指的是文件的名稱。在檢索的過程中一些制式文件的命名都會被批次量地檢索出來,在實際的查閱過程中是極不方便的。盡管大部分系統都設置了檢索要求,如創作者、建立的時間等,但是也無法從根本上提升檢索的效率。
Lucene 并非是一個全文檢索引擎,而是一個開放源代碼的全文檢索引擎工具包,是由Apache 軟件基金會創建的子項目,具備索引和查詢等功能。Lucene 提供的這個實用性較強的工具包,主要是便于目標系統發揮全文檢索的功能。Lucene 所提供的應用程式接口,具有強大的搜尋功能。在開發Java的過程中,Lucene 這一工具的開源代碼并不收費。
google,baidu 等搜索引擎所建立的索引庫主要使用的是超鏈分析技術、關鍵詞檢索技術等,與煤礦生產標準相比這些技術并不達標。所以,要在結合上述技術的基礎上,綜合聯系煤業公司的行業性質及文檔中檢索技術的使用狀況,從而深入地研究聯想、查找或拆分關鍵詞的相關方法,最終實現公司內部檢索技術的優化與升級。
2000 年,Doug Cutting 在結合Java 的基礎上正式開發了Lucene 這種信息搜索庫,其性能卓越,伸縮性強。
Lucene 以倒排表為參考依據,能夠在較短的時間內快速地找到文本。在底層通過分段式存儲,可讓其在讀寫的過程中避免鎖的產生,優化了讀寫的功能。
(1)Lucene 的底層存儲格式
Lucene 的底層存儲格式如下圖1 所示,其是由兩大部分構成,具體是:詞典、倒排序。前者為Term 的集合,而后者則是詞典中的 Term 指向的文檔鏈表的集合。對于 Lucene 來說,這兩大數據結構具有十分重要的作用,是實現高效檢索的前提條件。
詞典和倒排表的存儲并非是一起的,而是分開進行。在倒排表中所存儲的信息內容包括文件名、文件的位置等。
在詞典中只要找到Term,Lucene 的查找就成功了一半,之后結合 Term 可得到文檔鏈表,而按照查詢要求操作鏈表,能夠獲得所需的內容。

圖1 Lucene 的底層存儲格式示意圖
(2)Lucene 讀寫流程
圖2 為Lucene 讀寫流程示意圖,虛線箭頭代表的是寫索引的流程,實線箭頭代表查詢的流程。

圖2 Lucene 讀寫流程示意圖
(1)集中的文檔存儲
煤業公司為職員提供一個統一的文檔存儲庫,以實現對文檔的分類整理和備份。平臺的文件管理系統還可以為其他業務系統的合并提供重要的支撐,同時還可統一管理煤業公司其他業務系統所產生的數據。
(2)靈活的技術文檔修訂與審批流程
在編輯好技術文檔以后,需結合兗礦的管理制度要求來簽收、審核與保存。文檔需現在持有者發起會簽,之后由相關人員來進行審批。文檔管理系統可自動使用IM,以高效地展開具體業務。
(3)文檔歸檔
在編寫文檔和修訂文檔的工作完成以后,煤業公司員工可結合相關要求或原則對其進行歸檔處理。文件歸檔即針對文檔中的不同內容,如設計指標、正文的內容、記錄的日志等都設置為合理有效的歸檔格式。該格式準許員工們查看文檔的數據信息等。而在與其他檔案管理系統完全對接后,各員工能夠在自己的權限范圍內對文檔進行相關操作。
(4)方便的文檔分類、瀏覽、查詢
在統一的文檔存儲系統被成功創建之后,系統依照不同的要求或標準,如文檔建立的時間、企業的框構、文件的種類等來詳細具體地劃分每個文檔的類型。當煤業公司儲存了豐富的文檔之后,要想提升信息的質量與價值,最為關鍵的是如何能夠讓公司員工在最短的時間內找到所需的文件。平臺可以讓公司員工特別是對技術文檔需求頻繁的技術人員借助檢索功能來搜索不同類型的文檔,如:Office、PDF 等類別文檔,可大大縮短文檔搜索的時間,也可為公司員工帶來良好的體驗感。
(5)版本管理
在歸檔工作結束之前,每份文檔都會被修訂,每次修訂完成后的文檔都會覆蓋住上一個文檔。為了讓公司員工看到上一次的修改內容,避免修改不當而帶來不必要的損失,文檔管理系統會將不同版本的文檔內容進行自行保存。在員工對文檔的內容予以修改時,系統會自動存儲,而不是直接將原來的版本從電腦中刪除,這主要是為了方便后期的查閱。
(6)文檔權限保護(正式發布簽入以后,詢問權限,并將共享的范圍明確出來)
煤業公司信息安全建設中,最關鍵的部分則為防范尚未通過授權的用戶訪問敏感內容。在文檔管理系統中,賦予了對應操作權限的員工可對文檔進行閱讀、修改、審批、刪除等,同時負責管理的技術人員借助預先設置的權限模板,能夠為某文檔在使用的過程中賦予對應的權限。除了避免尚未通過權限審核的員工閱讀文檔內容,對文檔的保護還應進行的操作有禁止復印、修改等,除此以外,還可使文檔具有閱讀時間限制。
(7)鎖定機制
在統一的文檔存儲中心保存企業的文檔資料后,必然會出現在同一時間內不同員工對相同一篇文檔進行編輯、修改等,而該種操作會帶來的不良影響是:增加了文檔丟失的風險性;極易損害文檔內容的完整性。為了保證文檔的質量,對于不同員工同時編輯同一篇文檔的現象要進行有效的規避。若當前文檔已經由某個技術人員在編輯,那么其他員工則不得進行其他方面的操作,此時其權限僅局限于文檔的打開和閱讀。
(8)完整的文檔操作日志
煤業公司員工在操作文檔資料的過程中,如查閱文檔、修改資料、審核文檔中的部分內容、刪除沒有價值的信息等,都需管理系統將操作的文檔完整地記錄下來。文檔系統管理人員可隨時查閱到所有文檔的記錄情況。
(9)全文檢索
煤業公司內很多有利用價值的信息資源基本都被存儲在不同的文檔中,當然還有部分被放在之前建成的各信息化系統的數據庫內,可以說該類資源體現了煤業公司的管理方式、財務運行狀況及其商業策略等。為了使其得到最大程度的利用,則需進行科學、合理的管理,并在此基礎上為公司構建成熟、先進的數據搜索系統,從而將存放在不同應用系統中的信息得到充分的挖掘與開發。借助該信息系統,文件的掃描工作可自行操作完成,之后便可對關鍵詞進行拆分與檢索結果的排列,有助于企業快速地查閱文件,提升整體的技術管理水平,避免了信息資源的浪費,降低了公司的運營成本,實現了多方系統的有效整合。檢索系統在實際使用中應支持的功能具體歸納為以下幾點:
① 關鍵字檢索
在文本框內直接輸入關鍵詞即可檢索到相應的文檔。
② 自然語言檢索
針對查詢條件,用戶以常用語進行概述,一句話、一個大的段落,搜索引擎檢索后呈現出有關內容。
(1)共用資料庫
可服務整個礦上的技術員,結合關鍵詞進行檢索,系統會為使用者匹配對應的文檔。
(2)煤業公司級資料庫
服務公司不同部門,可查閱內部的技術資料。
(3)煤礦級資料庫
以礦為單位實現技術資料的共享,礦內不同機構或職員可翻閱。
(4)部門級資料庫
按部門來實現資料共享。
(5)項目級資料庫
可跨越不同的組織亦或是不同的技術專長來統一構建資料共享庫,對于群里的成員,可交由負責人進行嚴格的監督與管理,在此基礎上,為其明確地劃分權限與職責。在整個項目的任務完成以后,可依照分類原則將其詳細地劃分,并歸集到各部門的資料庫中。如煤礦在設計作業流程的過程中,主管人員可在群組內添加其他專業的人員,且在明確劃分不同任務的情況下本著相互合作的理念共同完成工作目標。
(6)個人資料庫
技術人員可對自身的知識分類進行保護,同時可關注其他方面的內容。系統主要分兩個端口,包括手機端和電腦端,為攜帶技術資料帶來了諸多的便利,另外也有效地避免了資料的外泄。
Lucien 全文檢索的企業知識信息系統在煤礦企業中與生產技術有效地銜接在一起,借助信息共享,提升整個技術管理水平,實現不同信息內容的全面共享。從2018 年1 月,煤礦企業正式將該系統投入到實際應用中,該年內部資料、科研成果、公共資料等分別為6870 條、807 條、604 條等,不僅減少了紙張的使用量,節約了資源與經營的成本,而且還提升了信息技術的創新水平。