張 迅,涂 亮,林正平,楊宇亮,陶秀杰
(1.貴州電網有限責任公司電力科學研究院,貴陽 550002; 2.南方電網科學研究院,廣州 510663)
標準是產品研發、設計與生產的基礎,貫穿產品設計、生產、使用及報廢的整個壽命周期。隨著制造業的全球化、數字化轉型,產品設計、開發、制造的成本大幅降低,質量明顯提高,效率顯著提升,信息系統產品數據集成能力成為推動行業發展的重要因素。《國家標準化發展綱要》將“標準數字化水平不斷提高”作為戰略目標之一,提出發展機器可讀標準、開源標準,推動標準化工作向數字化、網絡化、智能化轉型。
數字時代,需深度調整產業結構,數據已成為關鍵的生產要素。然而在產品各類數據紛紛轉為數字形式時,標準卻仍舊以文檔格式使用,僅僅從紙質文檔變為電子文檔[1],這給標準的使用推廣造成不必要的浪費,帶來潛在的風險。例如,標準的非結構化的文檔格式編寫,導致其編寫復雜、審查效率低、標引和檢索困難。不同機構的標準間沒有建立便利的引用鏈接關系,導致引用標準訪問困難。標準在企業生產運營流程中日益重要,但很難將標準內容嵌入流程中直接使用,不僅需要及時更新標準,還需要實時評估更新后標準的適用性。
隨著數字經濟時代的到來,產品生產和服務對標準的數字化使用提出了新要求。當前非結構化的標準不便于信息的加工和挖掘,信息的深度和粒度難以滿足用戶需求。推進標準的數字化轉型,將標準內容通過數字化手段與更高水平的平臺、系統進行傳遞和使用變得日益迫切。本研究在總結數字標準特征的基礎上,以存量模型化改良與增量結構化改革兩種模式探索數字標準的生成路徑,為實現數字標準的普及應用提供參考。
2011年底,ISO改進其出版系統,開發了期刊文章標簽集(JATS)的衍生品——ISO標準標簽集(ISO STS),用于ISO的標準出版。ISO STS是提供給標準組織、出版商、傳播者、檔案館及任何合法用戶的一種可以用來發布和交換標準內容的通用格式[2],設置的目的是保留標準的知識內容,使其區別于最初提供的標準內容形式。此后,BSI、SIS、NEN、SA及一些經銷商都采用了ISO STS。ISO STS是標準數字化工作的重要基礎。
國際標準化組織對“標準數字化“工作高度關注,ISO/IEC將機器可讀標準劃分為5個層級[3],如圖1所示,其中3~4級被稱為“SMART”標準。

圖1 機器可讀標準分級模型
我國的數字標準研究工作起步較早。GB/T 22373-2019《標準文獻元數據》規定了標準文獻數據集合的基本元數據,給出了標準文獻核心元數據、公共元數據的定義及其表示方法。中國航空綜合技術研究所曹平等利用XML Schema定義了交互式電子標準的數據結構和模型,開發了交互式電子標準編輯軟件,實現了標準的填空式編寫、免格式編輯、自主式校驗和交互式閱讀等[4]。機械工業儀器儀表綜合技術經濟研究所王春喜等探討了工業自動化領域機器可讀標準的應用場景、關鍵技術及標準研制,為將機器可讀標準用于智能制造設備和系統集成提供了參考依據[5]。江蘇省質量和標準化研究院胡甌靜從文字識別的概念中引出標準數字化的定義,闡述了標準數字化是未來標準信息服務和研究的基礎和發展趨勢[6]。
隨著《國家標準化發展綱要》的發布實施,我國在標準數字化領域進行了更加廣泛的探索和嘗試。南方電網公司全面開展了標準數字化轉型工作。中國航空綜合技術研究所立足軍工,提出“標準即數據、使用即標準”的思路并開展了數字標準場景化應用探索與工具開發[7]。中國電子技術標準化研究院提出標準知識圖譜智能化構建方法,發布《標準數字化知識圖譜白皮書》,并于IEEE立項“面向標準的知識圖譜技術要求”。機械工業儀器儀表綜合技術經濟研究所在標準管理殼、機器可讀相關標準制定等方面進行了研究與實踐[8]。可以看出,以數據為核心的數字標準已成為國內外標準數字化轉型工作的重要內容,研究其生成路徑是重要的基礎性工作。
盡管標準數字化轉型、數字標準等概念尚不統一,但各方均認同將“存量標準信息化處理后能融入信息化系統使用”作為標準數字化的重要內容。據此,可對數字標準的內涵作描述性揭示,即將紙質或PDF等格式的電子文檔標準向數字化形態轉化,將標準數據等內容碎片化為最小信息單元,將相互關聯的信息單元按照一定的結構進行存儲,通過計算機、移動信息設備等數字化終端以交互的方式使標準信息內容展現、推送或嵌入使用場景。數字標準從數據出發,以數據為提升生產力的核心要素,釋放數據資產價值,推動商業與運營模式轉變,從而實現管理與業務變革。
數字標準與機器可讀標準一脈相承,根據機器可讀標準分級模型,可將2~4級機器可讀標準轉化為數字標準。具體來看,高度成熟的數字標準主要有以下幾方面特征:
1)機器可讀。系統能夠自動采集某個標準數據,無需人工干預即可直接傳輸到處理系統。
2)人機交互。按照用戶使用習慣,實現語義化檢索與交互式閱讀,提升標準查詢與閱讀的效率和體驗感。
3)知識重用。利用已有的知識作為標準制修訂的參考依據,將數據、文本、表格、圖形及公式方程提取并跟蹤到其他程序。
4)多人協同。實現多人異地實時網絡協同,可在線完成標準內容的編輯,實時查看其他成員編寫的內容,實現對多個版本標準的管理。
5)數字出版。利用數字技術創建開放式電子標準,實現標準表達與存儲的數字化、結構化、規范化。
6)智能關聯。基于輸入的檢索詞自動補全、糾正候選詞,基于標準主題和內容實現相關標準的聯想推薦。
7)互操作性。根據應用場景選擇性訪問賦有語義的標準內容,利用應用程序界面對標準內容執行更加復雜的操作。
8)更新可追溯。數據源的更新自動傳輸到下游,保證全鏈條數據的可信、可追溯。
結合當前研究及實踐情況,根據標準數字化起點的不同,數字標準主要有兩種生成路徑——針對存量標準的“存量模型化改良模式”與針對未來標準的“增量結構化改革模式”,詳見圖2。

圖2 數字標準的生成路徑
所謂存量標準模型化改良模式是指標準文件正式出版后,基于XML內容模式(Schema)對標準文件進行結構化加工和標引,再形成新的XML文件,即XML文件獨立存在于標準文件之外。
存量標準模型化改良模式首先對已有的標準文本進行OCR識別、自動化特征提取和交互式標引,并存儲成結構化的XML文件。將XML文件中的元素(范圍、引用文件、章條、圖表、公式等)按照一定規則映射到標準元素庫。再結合行業背景知識庫、文本挖掘、知識關聯及個性化定制等技術為用戶提供智能化的標準應用服務。
存量模型化改良模式即是對基于現狀的存量標準的改進,優點是相關技術比較成熟,不用改變現有的標準化流程和機制,易于推廣實施。缺點是文本標引工作量巨大,結構化程度較低,主要用于解決目前存量標準的數字化定義及應用問題。
所謂增量標準結構化改革模式是指在新標準開始編制時,基于XML數據模式對標準進行結構化編寫,即標準本身就是XML文件。
增量標準結構化改革模式首先參照國家標準規定,按需將各類標準的編寫總結歸納成“標準內容范式”與“標準格式”兩部分。一方面將“標準內容范式”轉換成Schema,并基于此填寫內容,完成校驗。另一方面將“標準格式”轉換成多樣的標準出版樣式。將通過校驗的標準內容與出版樣式進行組合,根據使用場景需要自動生成不同格式的標準。
增量結構化改革模式是一種較徹底的“改革”模式,從源頭上改變了標準的編寫模式,優點是結構化、模式化程度高,內容和格式分開,便于標準交互式應用。缺點是會影響標準形態和流程,目前缺少國家相關法規支持。這種模式主要用于解決未來增量標準文件的數字化定義及應用問題。
隨著標準數字化工作的不斷推進,數字化技術將改變標準的管理模式和存在形式,利用數字化技術能夠實現標準的全生命周期管理、結構化存儲、語義化表達與交互式閱讀。標準數字化技術可有效促進標準實施,使標準實施真正成為科研生產的有機組成部分。基于XML的開放式電子文檔標準是解決文檔有效表達的必要前提,將標準技術內容整理加工后形成數字標準,開發出與現有軟件平臺集成的、便于廣大工程技術人員直接使用的軟件或數據庫,能夠達到標準自動實施的目的。在完成形式、業務和應用的數字化轉變之后,標準可與數字化環境完全融合,真正實現數字標準的普及應用。