標準數字化概念最早是從德國的工業4.0引出并 不斷演化延伸而來,在2018年形成了ISO SMART 的概念,這一概念是集成性的概念。從ISO SMART 的5層概念圖可知,從0到3層主要描述標準形態和處 理,第4層開始轉向描述標準內容怎么用,面向應用 來展開。標準數字化的目的是讓標準更好地給人和機 器使用,因此要兼顧人和機器兩個角度。目前,標 準數字化還有很多技術問題需要解決,一方面是自然 語言的復雜性、內容多樣性導致標準處理難;另一方 面是標準應用難,應用場景復雜,標準中定性的內容 (如原則要求等)也很難自動化應用。
目前我國國家標準數量很多,對企業、行業來 講,執行的不僅包括國家標準,還有大量的行標、地 標、企標,也有各級管理機構發布的規范、指南等文 件,這些都是標準數字化所要處理的對象。
標準數字化技術總體而言可分為兩個層次:第一 個是共性技術層面,解決通用、共性問題,并給出一 般性解決方案,如自動解析處理、智能編寫、全過程 管理、結構化表示、智能應用等;第二個是個性技術 層面,要結合具體領域特點,進行改造和優化,比如 電力領域標準數字化就要考慮電力專業特點、場景和 管理要求,需要具體問題具體分析。
標準解析、編寫、管理方面,主要涉及自然語 言處理、知識圖譜、本體論、機器學習、大語言模 型、數理邏輯等理論和技術。目前,這些技術都有比 較廣泛的研究和應用。特別是近兩年,大語言模型 (LLM)發展迅猛。大語言模型從通用性、處理效率 及智能化程度上,確實有很大的優勢,但在應用大語 言模型的時候,要特別注意數據和算法傾向性、安全 性、可靠性問題。無論是大語言模型還是其他技術, 在標準化領域應用時,未必能直接使用,直接使用的效果未必很好,需要再訓練、改造、優化或者適配。
其次,也要解決結構化表示問題,涉及存儲、 共享、處理、標注等一系列技術問題。對于內容的 結構化形式和要求,有一些成果是可以參考。比如 國際標準化組織語言與術語技術委員會(ISO/TC 37)下面有兩個分委會,其中術語資源管理分委會 (ISO/TC 37/SC 3)提出了術語結構化的標準,目 前已經納入ISO標準數字化基本的標注框架。標準術 語部分的結構化標注,就采用了ISO/TC 37發布的 ISO 30042:2019《術語資源管理 術語數據庫交換 (TBX)》。另外,ISO/TC 37下還設有語言資源 管理分委會(ISO/TC 37/SC 4),專門制定發布了 一系列關于語言標注、內容標注、語義標注的國際標 準,如針對時間、事件、角色、空間位置關系、數量 信息等相關語義要素的標注,給出了標注基本要求、 流程、方法、框架等。這些標準可以用來作為標準結 構化的參考。結合具體的結構化要求,還需要設計專 用的結構化表示方法。
另外還有標準應用相關的技術問題。標準數字 化最終的目的都是為了讓標準更好用。這更好用一方 面是服務人,一方面是服務設備。要分析標準應用場 景,將數字化手段與應用場景深度融合。舉一個例 子,醫院的自動血壓計是一個數字化的場景,血壓計 對血壓有預設的指標,這些預設指標在醫學里是標 準指標。如果超過或者低于這個值都是不健康的。 2022年,《中國高血壓臨床實踐指南》對高血壓判 斷標準進行了更新,我們可以把它視為標準的修訂。 修訂之后,怎么讓原有的血壓設備或者機器能隨之以 最簡單、人工干預最少的方式更新指標數據?例如: 如何自動“通知”所有血壓設備更新判斷指標、設備 如何自動獲取并使用新的指標等。所以對于標準數字 化應用場景已經不是簡單的查詢、瀏覽、檢索,而是 要與實際的行業、產業,甚至具體的設備進行密切的 融合、整合。這也就是為什么第4層(level 4)特別 提出通過自學習、分析、驗證改進內容處理和訪問能 力,實現價值鏈中無干擾數據流,實現自動問答或預測性內容服務。
此外,商業模式、產業鏈、價值鏈的創新也是標 準數字化的一個難點。由技術的變化、融合的需求, 引發出商業模式的變化,同時市場格局、產業鏈、價 值鏈也發生了變化。一方面是產業鏈各方在應用標準 時,對自身價值鏈會產生影響,同時相互間在標準理 解、應用方面將比較容易達成一致,提高市場共識和 開放性,減少信息差所導致的糾紛。另一方面,信息 技術公司將以標準數字化為切入點更加深度參與各行 業數字化轉型,這對信息技術公司的技術能力有了更 高的要求,如必須要有機器學習、人工智能等相關積 累,不再是簡單實現查詢檢索和網頁開發,從而提高 了行業準入門檻。
針對技術方案、應用和商業模式的難點,國際 上也是達成了共識。ISO/IEC SMART項目組也劃分 為三個子項目:技術方案、商業模式以及用戶用例。 用戶用例是為技術方案研究、商業模式創新提需求。 ISO/IEC最早開展工作的時候,不是做技術研究,是 先做用戶用例的調研,在所有的成員國和TC里調研相 關的用戶用例,去了解大家在行業里想怎么用,或者 已經用了什么,然后再基于這些去設計技術方案,設 計新的商業模式。可見,標準數字化不是一個簡單的 技術問題,是和產業行業深度融合、實現數字化轉型 的解決方案。
最后需要補充的是,以上這些都離不開基礎性工 作的支撐,如基礎術語、基礎資源等。例如,德國最 早提出類似的概念叫做機器可執行標準,后來演變成 了機器可用可讀可遷移標準,就是SMART標準。在 這個過程中,大家對術語的內涵的理解,其實是不斷 細化深入的。同時基礎的數據資源也是不可或缺的。 基礎數據資源(如知識庫、數據庫等)是標準數字化 所有處理、應用以及深度融合的重要支撐基礎,尤其 是涉及具體行業和產業層面的,更離不開專業領域的 數據資源。
點評:于欣麗
王海濤對SMART定義做了一些他的分享。實際上我理解就是標準數字化既要兼顧人,還要兼顧 機器,是給人和機器兩個方面使用的。另外在標準數字化過程中要兼顧到共性技術層面和個性技術層 面的內容。他還介紹了ISO/TC 37的工作,關于語言和術語,我理解所有的標準都是語言,自然語言 處理做了大概有30多項的國際標準,這些標準我們可以借鑒、可以用、可以轉化,語言進入到了專業
領域就是術語。在這方面,也充分發揮一些作用。 在國內,多個機構開展標準數字化研究,不能說哪個機構的路線就是正確的、科學的,同樣也不 能過于武斷地說哪個機構做的是偏頗的、錯誤的,需要在不斷碰撞中找出共識性的路徑來。