徐婷 張自成 李茹 張華 李炎華 呂華
摘 要:油氣行業標準內容技術指標比對對于明確油氣行業發展目標和提升油氣行業質量效率具有重大理論和現實意義。本文明晰了油氣行業標準指標比對的概念內涵,分別從人工比對與機器自動比對等兩方面對現有研究進行了總結和歸納。圍繞油氣行業標準技術指標比對的業務流程,提出了油氣行業標準指標自動比對的關鍵技術的解決方案。在此基礎上,研判了油氣行業標準指標比對技術或方法面臨的問題,并提出了針對性的對策建議。
關鍵詞:油氣行業,標準指標,比對,人工比對,機器輔助比對,對策建議
DOI編碼:10.3969/j.issn.1674-5698.2024.05.015
0 引 言
目前,“標準比對”尚沒有明確的定義。百度百科對“比對”一詞的解釋是比較對照、核對;全國科學技術名詞審定委員會審定的化學術語“比對”指通過對比試驗確定和評價分析方法的可靠性、實驗室的水平以及分析者技能的操作;與標準比對近似的電力術語“比對標準”指用于同準確度等級的標準器之間相互比對的標準器。
本研究嘗試將“標準比對”定義為:針對同一標準化對象,對不同(同類或有代替關系)的標準文件按照相同或相近的規則、指南或特性相互比對,以確定和評價這些規則、指南或特性的差別。標準比對起源于20世紀70年代美國的對標管理,最初是人們利用對標尋找與別的公司的差距,把它作為一種調查比較的基準的方法。后來,對標管理逐漸演變成為尋找最佳案例和標準,加強企業內部管理的一種方法。我國對標準比對有一個逐步認識與拓展的過程,近年來,我國進出口企業和一些研究機構基于自身需求做過大量的標準比對,我國的標準比對研究開始于畜牧業,主要是國內外產品質量標準的不同要求或具體指標差異進行對比,包括國內外羊肉質量對比[1]、梨質量國內外標準對比[2]等。
油氣行業在國民經濟中具有重要地位,其發展狀況對經濟、政治和軍事等方面都有著深遠的影響。石油和天然氣是重要的能源和化工原料,廣泛應用于交通、工業、農業等領域,滿足人們日常生產生活需求。當前,在油氣行業,標準化意識相對薄弱,主要表現在油氣管網建設和運營的參與主體較多,涉及指標范圍廣泛,缺乏統一規范的組織與引導。隨著油氣管網建設的快速推進,油氣行業標準指標比對工作也相對滯后,同時由于新技術的快速發展和市場需求的變化,導致已有的標準指標不能完全適應當前的發展需求。盡管我國已經發布了一些與油氣勘探開發相關的標準,但在油氣勘探開發、生產及儲運等環節仍存在許多不規范的行為。因此,需要開展油氣行業標準指標比對工作,進一步加強行業規范。鑒于此,針對目前國內外重點發展領域標準指標的比對需求,本研究將開展標準指標比對的通用方法和技術研究,在標準文獻結構分析基礎上提出標準內容指標比對的通用技術和方法,重點解決國內外重點發展領域標準比對技術問題,實現國內外重點領域標準內容獲取、標注和比對,為產業發展和技術創新提供技術和數據支撐。
1 研究現狀
1.1 專家主導的人工標準比對
標準作為專業技術文件,包含有眾多技術指標,隨著生產和管理需求不斷深入和擴大,同一對象涉及的標準不斷增加,相關技術指標也越來越多。因此在做人工對比時,大部分是根據具體比對目標和需求,專家提取核心指標進行對標對比,比對標準范圍包括新舊標準比對和國內外標準比對。
在國內外標準比對研究方面,目前研究內容集中在具體產品或領域的核心指標統一認定和提取上,采用方式和流程大都相似,比對目的是從技術標準角度說明產品的差異,研究給出直觀對比分析結論,目的是通過對比給產品生產和研究提供技術參考。如:陳曉穗等對國內外LED臺燈標準進行了比對,對安全、電氣 性能、光度學性能、色度學性能等要求和測試方法進行了比對分析,對比全球各地標準對 LED 臺燈的要求[3]。朱曉春等進行了中蒙《銅精礦·二氧化硅含量的測定方法》標準指標比對研究,對蒙古國國家標準與中國國家標準中的方法類標準指標進行了對比[4]。
在國內新舊標準比對方面,目前研究成果集中在新增或差異指標的選擇和指標值差異研究上,服務于新舊不同標準的宣貫和進一步的新技術宣傳,如:丁莉等對我國輕型車國六與國五排放標準進行比對分析,方便使用者理解標準差異[5]。馬冬妮等通過研究三峽工程水泥新舊標準比對方法,得出在我國新舊標準水泥強度檢驗方法使用上有著很大的差異,主要表現在試驗設備、使用標準砂、膠砂組成、人員操作、養護條件等指標要求上,以及在計算方法上的差異等,為相關企業和技術人員使用新標準提供相應的解釋材料,節省產業熟悉新標準時間,進一步提高效率[6]。
在比對流程方面,藺菲等在實驗室間電能計量標準比對的方法與數據中,介紹了電能計量標準實驗室間標準比對的過程、方法,通過實例給出比對結果,分析試驗數據并進行數據處理,得出比對試驗的結論,通過這一比對流程,真實地反映參加比對工作的實臉室電能計量的綜合技術水平[7]。付卉青和劉霞在開展消費品安全標準比對方法研究中,把消費品安全標準對比的步驟分為4步:確定消費品比較的范圍,收集和整理資料,建立消費品安全標準比對指標體系,比較分析并得出結論[8]。
1.2 基于技術手段的自動比對研究
由于人工開展標準比對的效率問題和開展比對人員的專業局限性,標準比對的范圍和比對結果時效性受到極大制約。近年來國內技術人員也對標準自動比對進行過研究,技術核心是解決對海量標準文本進行標準內容指標提取處理,從而建立基礎的指標數據庫,再通過語義識別、歸一化處理等技術,加上機器自動比對與專家經驗比對的綜合分析,對相關標準化對象的不同標準進行標準指標比對分析,最終輸出結果。目前整體研究還處于起步階段,當前研究成果集中在前期的不同類型標準數據庫建設和語言處理上。
計雄飛等提出實現標準文獻內容挖掘與比對需要經過標準文獻文本識別、特征提取、內容加工、內容檢索4個步驟[9]。王昕等基于語義網的理論,研究一種標準指標比對的方法,以“產品— 體例—指標”三元組的方式將標準文獻碎片化,對細粒度的指標碎片進行知識化組織,最終形成“標準指標比對”的應用系統并應用于電力行業[10]。周生龍等提出了在古文獻版本差異比對中的圖像文字自動比對方法,主要內容包括信息采集與分類、文獻圖像預處理、文字切分與存儲、文字比對與文獻差異標注等[11]。吳建港等以標準制修訂、標準內容研究、指標比對分析、產品質量提升等為最終目的,在傳統標準指標比對分析研究的經驗基礎上,通過構建以“標準體系——標準——產品——指標項——指標值”為數據模型,引入圖像識別技術,構建指標庫[12]。
1.3 研究述評
目前開展的標準比對工作大都選定具體產品(對象)采用人工方式進行,需要專業技術人員從大量標準中找到相關的、有差異的信息,雖然有能對Word、PDF等格式的標準文獻全文文件進行檢索的軟件工具,但是很難快速獲取所需要的信息,缺乏油氣行業標準內容技術指標比對方法研究,主要由于:(1)油氣行業標準文獻數量巨大,題錄檢索和手工查找難于滿足需求;(2)油氣行業紙質的標準文獻,雖然能夠掃描制作成PDF等格式的電子文件,建立了全文數據庫,實現了電子化館藏,但由于本身未進行文字識別,實現不了全文檢索功能;(3)現有油氣行業Word、PDF標準文獻全文文件為非結構化數據,很難實現如:結構化數據那樣的檢索、提取、挖掘和比對分析等功能。對于需要開展比對的油氣行業技術人員和企業來說,如何從海量的基礎標準、技術標準、管理標準、工作標準、產品標準中快速獲取所需相關信息顯得尤為重要。
2 研究方法
(1)文獻研究法。查閱相關資料,學習研究相關理論。著眼于標準比對的內涵和標準自身特征,進行綜合分析,力求方法的創新。
(2)調查研究法。調查當前開展油氣行業標準內容技術指標比對工作的現狀,分析判斷當前油氣行業標準比對工作開展的影響和制約因素,了解掌握豐富的第一手資料,為任務研究提供強有力的支撐。
(3)知識庫方法。使用專家+計算機結合的方式,進行油氣行業比對標準集成、內容指標提取,構建包含比對標準文本、內容、指標、比對結論、比對專家等相互關聯的知識庫。
3 油氣行業標準技術指標比對的實現路徑
3.1 油氣行業標準指標比對的流程
要開展油氣行業標準內容指標比對,實現比對任務,均需要在油氣行業不同的標準中找到相關內容,并根據具體判定標準進行對比,給出結論。按照解決問題的操作流程,需要解決3個關鍵問題:需要比對什么標準?需要比對的內容、指標是什么?結論是什么?
要解決這3個問題需要研究油氣行業標準的集成組織方法和工具,標準的結構化分析方法和工具,內容指標提取方法和工具以及標準內容指標組織、關聯、比對方法和工具。本研究提出的業務流程如下。
(1)梳理油氣行業中外技術標準體系,確定油氣行業比對基準標準及相關標準集合;
(2)建立油氣行業標準專業技術樹,確定標準比對指標點;
(3)結合油氣行業專業技術樹選擇待比較標準;
(4)識別油氣行業中外技術標準中的關聯條款;
(5)對油氣行業關聯條款進行差異分析比較;
(6)形成油氣行業標準指標比對結果報告。
3.2 油氣行業標準指標自動比對的關鍵技術
3.2.1 油氣行業標準內容指標比對層級
以油氣行業實際需求來說標準比對分3個層次:了解油氣行業宏觀層次的差異、了解油氣行業標準內容及工作思路差異、了解油氣行業標準技術細節差異。針對這些需求開展比對的層次也有所區別。在大多數情況下體系對比可以滿足宏觀層面管理及發展布局差異的需求,內容比對能了解標準內容結構、文本結構差異,了解不同操作方式的工作思路;指標比對能進一步確定技術細節差異,明確不同技術的實現目標,了解指標取舍的判定過程。因此,在設計油氣行業內容指標比對流程和給出比對結果時,也需要滿足3個層次的需求。給比對人員足夠的自由度,對結果的判定也需要油氣行業基礎專業背景并能提供可驗證的證據。
3.2.2 油氣行業標準比對結果的判定
專家比對采用的主要方式為兩兩比對,選定一個油氣行業標準作為基準比對標準,選定待比對的內容和指標,檢索其他標準中的相同或類似指標,將不同標準中的主要技術指標分別與基準標準中的指標進行對比。結果判定方法如下。
(1)基準標準的要求低于其他比對標準時,該項指標的單項評價為“低于”;
(2)基準標準的要求等同于其他比對標準時,該項指標的單項評價為“等同于”;
(3)基準標準的要求嚴于其他比對標準時,該項指標的單項評價為“高于”;
(4)若基準標準的該項指標在其他比對標準中未提及時,該指標的單項判定結果為“自定義新指標”;
(5)若基準標準缺少其他比對標準中的指標時,該指標的單項判定結果為“xx指標缺失”
結論判斷的一般描述為“***標準的此項要求等同于***標準”“***標準的此項要求高于/低于***標準,具體為***”“***標準的此項要求與***標準存在差異為指標缺失/自定義新指標,具體為***”。
3.2.3 油氣行業標準計算機輔助比對模型
(1)提取關鍵字
計算機通過分詞組件提取比對內容涉及的關鍵字。在油氣行業標準文本結構中字和標點符號共同構成一個段落,標點符號只是標準內容的分隔符,并沒有特殊的意義。因此,標點符號不能夠成為文件內容的關鍵字,同時停頓字在文件內容中也沒有特殊的意義,因此停頓字也不能夠成為文檔內容的關鍵字。
通過分詞組件完成以下功能:將比對內容分成單獨的字;去掉標點符號;分詞處理。
油氣行業標準比對內容經過以上的過程處理后,就成為算法處理的詞元。系統通過分詞處理的方法將詞元變成比對內容的關鍵字。油氣行業標準內容指標比對數據模型的研究單元為指標化數據,因此標準內容中的指標化數據可以作為關鍵字提取的最小單元,有效降低詞元的復雜性,提高了關鍵字的提取準確率。根據對漢語語法和統計學規律的研究,制定了特有的關鍵字提取機制,即段落中關鍵字的字數應盡可能多、單個分詞的根數盡可能少和總詞數盡可能少。
(2)權重計算
權重是比對模型中一個相對的概念,同時權重是一個可調的值,權重一般表示該元素對系統輸出結果的影響力,影響力越大表示該元素權重越高,也表示該元素和系統處理結果越相關。標準內容指標比對的對象為標準內容中的指標數據,通過對標準內容的研究和分析,確定影響關鍵字在指標數據中權重的因素。
通過兩個層次對標準文檔進行研究,第一個層次為針對單個標準文檔的研究,第二層次為針對整個標準文檔庫的研究,研究發現,每篇標準文檔都包含不同的主題,而工作人員為了描述該主題都采用了大量的專業詞匯,如果一篇文檔中某些關鍵字的詞頻比較高,這些關鍵字可能是用于描述文檔主題,那么這些關鍵字應該有較高的權重。同時文檔中詞頻較高的關鍵字并不都是用于描述文檔主題,有些關鍵字為生活中的常用詞匯,文檔在編寫過程中會用到較多的常用詞匯,通過統計學方法的分析,得出了相應的處理方法,即如果在一個數量比較大的文檔集群中,包含某些關鍵字文檔的數目越多,這些關鍵字越不重要,那么這些關鍵字的權值較低。
(3)相關性判斷
通過對指標數據之間相關性的判斷,就能夠實現指標數據之間的比對功能。將每段內容指標數據看作是由N個關鍵字(term)構成,每個關鍵字有一個權重,不同的關鍵字根據在指標數據中的權重來影響比對結果的相關性。通過處理將所有的關鍵字的權重看作一個向量,將比對對象看作是由N個關鍵字(term)構成,也用向量表示。通過計算兩個向量之間的夾角來判斷搜索內容和文檔之間的相關性,兩個向量之間的夾角越小,相關性越大。可以采用余弦公式作為向量相關性的打分標準,余弦值越大,分數越高,相關性越大。通過上述過程的處理,系統就能夠根據條件,自動實現指標數據的比對功能。
4 研究結論
當前,油氣行業標準內容指標比對模型提供的是計算機輔助功能,深層次的判定和比對工作還需要專業人員進行。對于油氣行業外文標準文獻,加工工具在人工比對操作時支持中英文比對,但機器輔助目前僅適用于中文標準(或中文譯文)。目前油氣行業國內外標準比對需求旺盛,在開展比對前需要對國外標準文獻進行轉化(翻譯),因此接入多語種自動翻譯平臺,研制支撐多語言的標準比對模型和工具,實現國內外標準自動翻譯、內容快速檢索、指標比對是下一步工作的重點。目前的方法對油氣行業標準關鍵技術指標的自動判定和提取僅限于表格和關鍵內容中,但技術指標的自動歸一化處理和組織還需要進一步研究,自動比對和自動結果判定方法也需進一步研究。因此需要對油氣行業標準文獻智能比對方法或技術開展更為深入的研究,突破油氣行業標準比對關鍵或共性技術。同時在油氣行業組織管理與制度機制建設、人才隊伍建設、資金投入與基礎設施建設、應用推廣服務等方面加強支持力度。
(1)加強油氣行業標準比對人才隊伍建設
油氣行業標準文獻內容指標比對是一項以應用和服務為目標的基礎性工作,是標準化科研的一個重要組成部分。但是,在比對方法、比對內容以及專業技能和知識構成上有別于傳統的標準化科研工作,需要進一步加強油氣行業數據資源建設、更新維護、軟件開發與市場營銷相關的人才隊伍建設,逐步完善標準比對人才隊伍。加強油氣行業科研人員和業務人員的相關意識和能力培養,建立一支由標準化研究和標準化服務機構共同組成的標準內容指標比對、翻譯、計算機與服務營銷隊伍。
(2)建立油氣行業標準比對資金持續投入機制
油氣行業標準內容指標比對數據庫建設是一項長期持續性工作,需要長期投入。采用科研投入和市場投入相結合的方式,多方調動資金,加強油氣行業標準內容指標庫更新維護和開發應用工作。同時,重視資源建設與應用的投入產出評估。
(3)加強油氣行業標準比對方法的推廣應用與服務工作
油氣行業標準內容指標庫建設不同于標準化科研工作,有其自身的特點,需要按照自身的規律科學建設才能夠可持續發展。該項工作涉及多學科、多領域的知識,是最基礎的資源建設,目標是應用服務,評價內容指標庫建設的重要指標是推廣應用。因此,在油氣行業標準內容指標庫建設立項的初期就要十分強調推廣應用,明確其市場化思路和步驟以及所服務的對象和市場前景。
參考文獻
劉春卉. 水泥窯余熱發電驗收標準法規比較手冊[M]. 北
京: 中國質檢出版社, 2018.
甘克勤. 標準大數據實踐[M]. 北京:中國質檢出版社,
2016.
陳曉穗,江紹華,徐晨. LED臺燈國內外標準比對[J]. 機械
工業標準化與質量, 2019(07):32-36.
朱曉春,唐文潔,斯慶圖婭. 中蒙《銅精礦·二氧化硅含量
的測定方法》標準指標比對研究[J]. 標準科學, 2019(05):
22-25.
丁莉,鄒雄輝,戴春蓓,等. 輕型車國六與國五排放標準比
對分析[J]. 小型內燃機與車輛技術, 2019,48(03):54-59.
馬冬妮,張淑芝,葉國強. 淺議三峽工程水泥新舊標準比
對方法[J]. 云南水力發電, 2002(03):81-82.
藺菲,莊磊,吳蘊潔. 實驗室間電能計量標準比對的方法
與數據處理[J]. 安徽電力, 2009,26(03):43-48+84.
付卉青,劉霞. 消費品安全標準比對方法研究 [J]. 中國標
準化, 2018(09):49-52.
計雄飛,張寶林,李抵非,等. 標準文獻內容挖掘與比對[J].
標準科學, 2012(08):16-19.
王昕,王宏,周育忠,等. 標準指標比對的方法與實踐[J]. 中
國科技資源導刊, 2017,49(04):83-92.
周生龍,張忠林.古文獻版本考究中的圖像文字自動比
對方法設計與應用研究[J]. 河南圖書館學刊, 2018,38
(09):72-74.
吳建港,國玉寶,崔紹輝. 基于標準指標庫的塑料注塑
機產品標準指標比對分析[J].工程塑料應用, 2019,47
(04):107-111.