衛珂玢(大慶油田技術監督中心標準化研究所)
眾所周知,節能減排一直是企業降本增效的重要手段,而節能標準是企業乃至國家節能制度的基礎,是化解產能過剩、推動建設綠色生態環境的有效支撐。節能標準信息的采集是標準使用者吸收節能專業關鍵內容的有效手段,但隨著標準化信息技術的不斷創新,標準信息使用者的要求不斷多樣化,僅針對標準名稱、編號進行檢索的標準信息處理技術無法滿足以下需求:
1)由于節能標準中標準信息的多元化,導致檢索者無法精確查詢所需要的標準信息。
2)需要采集不同標準中的節能數據或相關技術指標進行對比分析。
因此,需要研究基于節能標準內容的標準檢索技術,通過對標準相關內容進行分析和有效組織,提供一個更加豐富詳細的標準信息處理工具,滿足使用者提取不同標準信息內容的需求。
若按照GB/T 13017—2008《企業標準體系表編制指南》,可將現有標準數據分為技術標準、工作標準、管理標準[1]三大類。不同類別標準的內容層次繁多,很難統一。如:技術標準中包含技術指標、術語、要求和方法等層次;工作標準包含設備維修保養內容;而管理標準包含管理方法、考核細則等。通過對所有標準結構層次進行分析,確定標準層次(表1)。

表1 標準結構層次
通過梳理出標準內容層次結構,科學、合理地設計調查問卷,對高頻使用標準的技術人員和提供技術指導的相關專家展開問卷調查,以確定各部分標準內容關注度的排序情況,為設置權重規則奠定基礎。標準內容關注度反饋數據如圖1所示。
標準內容關注度排序結果如下:
第一,方法、要求;
第二,標準名稱、范圍;
第三,術語和定義;
第四,目次、前言;
第五,附錄、規范性引用文件、參考文獻、包裝、標志、運輸、貯存、引言。

圖1 標準內容關注度排序
以節能標準為基礎數據,前期搜集節能標準共171項,梳理標準之間內部層次。按照標準體系建立原則,建立節能專業標準體系,對標準體系內171項標準內容進行索引提取,以標準范圍、主要技術內容為對象,提取多個關鍵詞。例如,GB/T 12325—2008《電能質量 供電電壓允許偏差》的主要技術要求包含電壓、偏差、限值、測量、合格率等關鍵指標。提取索引時,將這些關鍵指標作為該標準的次關鍵索引,以此類推,從而建立標準索引集。最終提取索引共513項,其中關鍵索引312項,次關鍵索引201項。
現階段常用三種語義相似度計算方法[2]包括基于語義理解的相似度算法[3]、基于漢明距離的相似度算法[4]、基于向量空間模型的計算方法[2]。三種方法對比如表2所示。
由表2可知,基于語義理解的相似度算法遵循詞義間結構層次關系的語義樹進行計算。該語義樹[3]包括實體、屬性值、數量值、特征值等數據集合,與使用的節能標準內容所包含的技術指標、數值計算、操作步驟等概念屬性不謀而合;其次,該方法描述的概念含義的抽象性與其所表達的數據源所在位置相關,與根據檢索詞在標準內容關注度排序情況下設置權重規則的理念相同。
結合搜集的171項節能標準提取的關鍵索引,以及各關鍵索引語義關聯度,可知基于語義理解的相似度算法最為科學合理,其計算公式[2-3]為

式中:f(p1)、 f(p2)分別為詞p1、p2在語義樹中連接的節點數(含自身)/語義樹總節點數;LCN為兩個詞最小公共節點;dist(p1,p2)為p1、p2在語義樹中的路徑距離;α為可調節變量。
由語義相似度算法比較及計算公式可知,基于語義理解的相似度算法依據的核心模板為語義樹[3]:根據標準體系內部各標準間層次,遵循標準體系內在邏輯關系,結合索引集關鍵分詞,設立父節點和子節點,建立節能專業語義樹,如圖2所示。
檢索詞權重值計算規則[3-5]為

式中:tf(t,D)為標準中詞語t出現的頻率;idf(t)為與標準頻率成反比關系的倒置標準頻率[6];loc(t,D)為詞語t在標準中的位置。
結合標準內容關注度排序情況,賦予標準不同層次不同的權重分值:排名第一的“方法、要求”分值最高,排名最后的“附錄、規范性引用文件、參考文獻、包裝、標志、運輸、貯存、引言”分值最低,記為loc(t,D)。在語義樹中,越深層次的索引越具有技術指向性,權重分值也最高。
基于以上研究內容,建立語義關聯模型[7],即
f(i)=語義相似度×檢索詞權重值 (3)
式中:f(i)為一個反饋結果集合,即f(i)∈{標準檢索庫標準};語義相似度為檢索詞與索引集索引匹配程度,若與索引精確匹配,則相似度為1;若無任何相似,則相似度為0。

表2 三種語義相似度計算方法比較

圖2 節能專業語義樹(部分)
在驗證程序中輸入關鍵詞(評價指標),將程序反饋出的數據結果與現有標準數量進行對比,用以驗證提出的語義關聯模型的準確率。實驗環境為:windows7系統,4G內存。
計算公式中參數雖然還需進一步做出相應的調整,但建立的語義關聯模型所計算出的合格率基本符合建立的節能標準檢索庫中標準檢索的要求,實現了基于標準內容檢索的初步想法,為進一步研究標準內容檢索技術提供了關鍵性的技術支持。
節能作為企業降本增效的重要手段,其標準化功能也應具備高效的要求,在節能標準信息處理方式上需要進行創新,以滿足節能標準使用者日益增加的技術需求。
在現代數據檢索技術日趨完美、云計算逐漸完善的大環境下,打破固有的標準檢索模式,通過對搜集的節能標準相關內容進行有效組織,建立檢索內容相關性表達模型,研究出基于標準內容的檢索理論方法,將標準化檢索手段推進新的發展階段,將標準信息處理能力上升新的高度,成為標準化信息的重要處理工具。該創新成果不僅可用于節能標準數據的處理方式中,也能用于各行各業標準關鍵信息的提取方式中。因此,標準檢索系統研究成果的開發可進一步提高標準化信息系統的效益空間,該技術將成為標準化領域的“百度”和“知網”,對中國標準化領域在國際地位的提升具有一定的指導意義。