王旭(大慶油田有限責任公司技術監督中心)
目前,已知的節能標準檢索系統大多局限在標準名稱、有效性情況、部分電子文本在線閱讀以及標準文本訂購的功能;而一些查詢標準的網站也僅僅提供標準目錄以及實施和發布時間的一些基本信息,而且這些網站有一個共同弊端:查詢標準必須輸入正規的標準詞匯,而且順序不能有誤,一旦有誤根本查詢不到相關標準,讓很多用戶找不到自己需要的標準。包括各出版社注重的是傳統標準文本的配備,由客戶提出所需標準的具體名稱、標準號。從根本意義來講,沒有了解標準使用者的真正用途。
1)國家標準館研制開發了《國家標準文獻共享平臺》,該系統主要由前臺展示子系統與后臺分析子系統兩部分組成。前臺展示子系統是提供給未登錄用戶的展示界面,包括查看管理員預設的統計圖以及標準文獻檢索功能。后臺分析子系統是提供給注冊用戶的更加豐富詳細的分析工具,用戶可以自定義模板,對館藏資源與訂單資源進行查詢和分析。但是他們對于節能方面的標準也只是限于目錄查詢和訂購標準文本,只有一少部分的國際標準是有正規的電子文本可以查閱。一定程度上還未脫離傳統的標準檢索系統功能。
2)中國石油管道科技標準化研究所為天然氣與管道專業建立的標準內容揭示系統平臺,是一款新型的標準信息處理系統,該平臺針對天然氣與管道專業相關標準內容進行揭示,如技術指標、一般要求、引用標準等,用戶可以直接檢索或導航式檢索相關標準化對象,系統直接反饋具有邏輯關系的標準內容,達到用戶不同的查詢目的。而這款平臺也僅限于天然氣與管道專業,并不完全適用于節能相關的技術專業。
隨著標準化信息技術的不斷創新,節能標準信息使用者的要求不斷多樣化,根據節能工作者對標準信息的不同需求,發現現有的標準信息檢索技術無法滿足以下需求:
1)在海量的節能標準數據中,需要對節能標準進行精確檢索,以實現用戶的檢索目的。很多用戶對標準名稱不是很了解,只是想搜索里面的標準內容,在信息的檢索過程中,人們在表達一個概念的時候,總是希望能夠得到與此概念相關的一些東西,但是具體是一些什么東西,大多數用戶不能夠顯性的表達出來,使得檢索工具很難檢索[1]。而且,現有的搜索平臺,只是對標準的名稱進行搜索。
2)節能檢測和監測方面需要采集不同標準中的技術內容進行對比分析。例如,在現場進行檢測時,需要多個標準中的標準數值進行對比分析。而帶很多個標準文本去現場檢測根本是不太現實的事情,也非常不方便。
3)為了緊跟標準化技術的發展方向,不落后于行業發展水平,需要在現有標準信息平臺的基礎上進行進一步的基于節能標準內容的研究。緊跟標準信息化建設的腳步。
搜集所有節能方面的標準,做成電子文本。原來的很多現有的標準電子模式都是PDF模式的,想從中截取相應信息,難度非常大,很難對PDF格式的文件進行提取相關信息處理。還需把PDF的圖片格式轉化為Word文本格式,才能從中提取相應的標準信息數據,做到內容檢索。
現行節能標準體系的通用標準分類中包含了經濟運行、節能監測、能源審計、統計計量及平衡通則類標準[2]。對相關標準內容關鍵分詞和結構進行分析,提煉出標準中的相關重要標準數據。把Word文本的標準數據傳輸給負責做系統的計算機專業程序人員,讓其在大慶油田信息網站上上傳標準數據做出相應語義關聯的檢索程序。
目前的檢索工具僅提供了基于關鍵字的檢索,而忽略了關鍵字本身所含的語義內容。該文提出信息檢索系統,利用本體論中概念規范、語義豐富的特點,將用戶的檢索要求擴充成語義集。并且將檢索到的文檔通過文檔分析器進一步過濾,使用戶最終的到與檢索內容匹配度較高的文檔[3]。做到用戶可以從標準題錄信息到標準技術內容的分層檢索。通過此檢索方法的研究,能夠建立節能標準關鍵信息的檢索庫及索引庫以及確定語義關聯模型。
前文中涉及到本體論、搜索引擎技術、語義聯想模型設計、標準化信息處理等關鍵技術,研究成果將代表大慶油田標準化手段進入新的發展階段,代表大慶油田標準信息處理能力上升新的高度,預計未來將成為大慶油田標準化手段的重要信息處理工具。基于該項目成果開發的節能標準檢索系統可與現有大慶油田標準化信息系統整合,形成一套綜合的標準化服務產品,進一步提高標準化信息系統的效益空間。在油田各單位節能技術人員和管理人員進行推廣,為節能的技術人員和管理部門提供便捷的標準信息查詢工具,對開展實際工作帶來了無限便利。