徐航
(福建省標準化研究院,福州 350013)
標準數字化全文檢索系統構建探討
徐航
(福建省標準化研究院,福州 350013)
標準數字化全文檢索系統是基于DIPS數字文獻系統,面向標準的應用、管理和發布的系統。前端采用B/S網絡發布結構,提供全文檢索服務,檢索命中到頁,可滿足用戶在查找標準信息資源時野快、準、全冶的要求,極大地提高標準信息資源的獲取效率。
標準特色數據庫;全文檢索;系統構建
隨著我國經濟的飛速發展和社會的不斷進步,產品的質量愈發受到社會各階層的關注。而提高產品質量的關鍵在于按照標準進行規范生產,標準對于提高產品質量具有巨大的推動作用。特別是在經濟全球化的今天,標準擔當著產業主流技術載體的重要角色,成為市場競爭的制高點,可以說標準化工作對于國家、行業、企業的可持續的健康發展都具有戰略意義。福建省標準化研究院作為專業研究標準化的單位,在不斷提高標準化研究水平的同時,更積極探索標準化與信息化相結合的服務模式,于2009年底建成并上線運營福建省標準信息服務平臺,打造“一站式”標準服務,平臺運營至今已為眾多用戶提供了高效、優質、準確的服務,取得了顯著成效。平臺具有以下特點:①操作簡便,功能強大,平臺為用戶提供多個檢索條件以提高檢索效率,并實現標準電子文本的在線閱覽,打印,下載等功能,為用戶提供了一個暢通的標準獲取渠道;②更新及時,數據準確。平臺設有專人持續跟蹤,加工,上傳各標準組織的公告,確保標準更新的及時性和狀態的準確性;③品種齊全,數據豐富。以平臺為依托目前共收錄國內外標準題錄127萬余條和國內外標準電子文本23.5萬余件。
2.1 系統網絡架構
系統由兩臺服務器,一個磁盤陣列,一臺高速掃描儀和多臺式機構成。其中一臺服務器用于部署系統前端的程序,另一臺服務器用于安裝DIPS數字文獻系統;磁盤陣列主要用于存儲雙層PDF等資源;高速掃描儀主要用于將標準紙質文本掃描成PDF格式的電子文本,臺式機用于數字化加工,將圖像PDF批量OCR識別后轉化成雙層PDF。整個系統的網絡架構如圖1所示。

圖1 系統網絡架構
2.2 系統數據庫設計與實現
該我院選擇DIPS數字文獻系統作為系統的數據庫,DIPS是一款面向圖書、文獻、檔案等領域數字化建設的信息管理軟件。DIPS以全文檢索技術為基礎、基于互聯網內容管理為核心,具備創建并管理數據庫,采集挖掘、加工整理和發布信息資源等多項功能,能夠滿足大容量數據全文檢索及多用戶并發使用的要求,是新一代集數字化加工、數字內容管理和全文檢索為一體的信息管理軟件。
2.2.1 系統數據庫設計
利用DIPS數據文獻系統中的管理模塊創建標準全文數據庫,確定數據庫結構,定義了20個字段,包括:“標準號”,“標準序號”,“標準年代號”,“標準中文名稱”,“標準英文名稱”,“標準狀態”,“組織類別”,“發布日期”,“實施日期”,“作廢日期”,“代替標準”,“被代替標準”,“文本頁數”,“中標分類號”,“ICS分類號”,“引用標準”,“采用標準”,“修改單”,“備注”,“全文”。
2.2.2 數字化加工
通過程序將現行標準PDF文本按標準組織類別批量導出,然后利用軟件Adobe Acrobat進行批量OCR識別,將圖像PDF轉化成雙層PDF,OCR識別完成后Adobe Acrobat將彈出錯誤提示框以顯示OCR識別有誤的PDF文本,錯誤原因主要是由于PDF頁面尺寸太大超過了Adobe Acrobat可OCR識別的最大范圍,加工人員將這些OCR識別有誤的標準號提取出來,利用虛擬打印機Adobe PDF將這些PDF文本轉化成規范的PDF文本,再進行OCR識別轉化成雙層PDF。
2.2.3 標準數據入庫
通過程序將已數字化加工的標準文本對應的題錄信息從福建省標準信息服務平臺的數據庫中導出到成Excel文件,形成入庫文件。通過軟件SQL2DIPS4將標準雙層PDF文本和文本對應的題錄信息批量導入到DIPS數字文獻系統中,完成標準數據入庫。
目前DIPS數字文獻系統的數據庫中包括國家標準(GB),行業標準(包括機械行業JB、化工行業HG、農業行業NY、商品檢驗行業SN、紡織行業FZ、建筑行業JG、建材行業JC等30多個常用行業組織的標準),福建省地方標準(DB35),累計4萬余項標準數據。
2.2.4 數據庫維護
在使用過程中如果發現數據庫中有重復的標準數據,管理員可以通過DIPS提供的去重工具進行去重,在工具中選擇好根據“標準號”這個字段進行去重后,數據庫中將只保留ID值最大的標準數據(即新上傳的數據),其余重復數據將會被刪除。
2.3 系統前端實現
系統前端以Visual Studio 2013作為開發工具,以.NET Framework 4.5為框架,采用三層架構模式,以IIS 7.0作為中間件,應用Jquery,Ajax,Xml,Json多項技術,實現以下功能。
2.3.1 注冊賬號
用戶注冊時需填寫自己的郵箱地址,注冊完成后,系統會自動向用戶的郵箱發送激活郵件,郵件內容是一個激活鏈接,用戶需要登錄自己的郵箱并點擊該鏈接才能激活之前在系統注冊的帳號。
2.3.2 登錄賬號
為了系統的安全性,系統設置登錄失敗處理功能,限制非法登錄次數。在用戶輸錯密碼3次后,該賬號將被鎖定1個小時,防止黑客對賬戶密碼進行暴力猜測。
2.3.3 找回密碼
用戶可在找回密碼頁面輸入注冊時使用的郵箱地址,系統會自動發送密碼重置郵件到該郵箱中,用戶登錄郵箱點擊重置郵件中的鏈接即可重置密碼。
2.3.4 檢索定位
用戶可根據關鍵字,標準號,標準年代號,中標分類號,ICS分類號,標準狀態,標準組織類別這七個條件進行組合檢索。如果在某個條件中需要檢索多個詞,檢索詞之間可以用邏輯與“*”、邏輯或“+”、邏輯非“!”運算符連接。邏輯與“*”表示標準文中必須含有所有檢索詞,邏輯或“+”表示標準文中只要含有某個檢索詞即可,邏輯非“!”表示標準文中不能含有該檢索詞。
2.3.5在線閱覽
用戶如需在線閱覽標準文本,要先從系統下載并安裝Adobe Reader軟件和DIPS專用閱覽插件,安裝成功后用戶在線閱覽時插件將會直接跳轉到關鍵詞所在的頁,并且關鍵詞標紅顯示,極大地提高了用戶的檢索效率。
2.3.6 跟蹤標準
用戶在檢索過程中可將自己關注的標準添加到用戶關注標準庫中,從而以后用戶可直接通過該庫使用這些標準,實現小范圍內更加精確地全文檢索,用戶關注標準庫中標準作廢前系統會彈窗提醒以及向用戶注冊郵箱發送標準作廢前提醒郵件,從而避免用戶使用作廢標準造成損失。
2.3.7 后臺管理
管理員在后臺可以查看用戶的姓名,單位,聯系方式等資料以及最新登錄系統時間,總登錄次數等用戶使用系統的情況,并且可以設置用戶是否有權限在線閱覽標準電子文本
隨著標準數量不斷增長以及用戶獲取標準信息的需求迅速膨脹,當前僅針對標準題錄的檢索方式已經不能滿足用戶需求,而標準數字化全文檢索系統提供了快捷的數據管理工具和強大的全文檢索手段,為標準化資源高效利用建立了一個有效的共享平臺,使用戶能快速方便地查到需要的標準信息,滿足用戶高查準率和高查全率的要求,在標準化和信息化相結合方面開創了新的領域,對于標準化工作的開展和推廣具有積極的意義。
主要參考文獻
[1]陳曉.基于DIPS的高校圖書館特色數據庫建設[J].情報探索,2008(7):50-51.
10.3969/j.issn.1673-0194.2016.15.106
G252.7
A
1673-0194(2016)15-0168-03
2016-05-04