

摘 要:在數字化轉型的大背景下,推動我國產業鏈和供應鏈數字化轉型已成為提升產業競爭力和韌性的重要舉措。面對產業發展對標準制定效率和使用方式的新需求,標準化工作必須進行主動、系統的轉型升級。本文通過分析現有標準數字化概念和機器可讀能力分級模型,梳理現有研究標準數字化關鍵技術的概念、優勢與不足,探討了未來標準數字化技術路線圖,涵蓋層級間和大類技術內容,還展望了標準數字化的未來發展方向,對于推動機器可讀標準的發展和應用具有重要的理論和實踐價值。
關鍵詞:標準數字化,機器可讀,技術路線
DOI編碼:10.3969/j.issn.1002-5944.2024.015.004
0 引 言
在產業數字化進程中,數字技術得到廣泛的應用和推廣,使得生產效率和創新能力得到關鍵提升。數字經濟作為當下的一種主要經濟形態,通過信息技術融合與全要素數字化轉型,快速、廣泛、深刻地影響著生產生活治理方式的革新。2022年,中國的數字經濟總量達到了50.2萬億元,按名義值計算年增長率為10.3%,這標志著數字經濟增速已經連續第11年明顯超過同期的GDP增速。此外,數字經濟在國內生產總值(GDP)中的占比為41.5%,與第二產業在整個國民經濟中的比重相當。
數字化的歷史洪流要求我國全要素轉型,其中產業鏈和供應鏈數字化轉型是重中之重。標準作為國家質量基礎設施,對于產業鏈和供應鏈的發展與穩定意義深刻。為滿足服務主體轉型完成后的用標新型需求,適應產業高速發展,杜絕“扯后腿”現象,標準化工作同樣需要將數字化理念引入工作流程,系統改革、橫縱接納,從標準呈現形式與標準化活動雙向推進,培育標準高新服務模式,持續跟進發揮標準的基礎性、引領性作用。
本文圍繞標準數字化轉型的概念與核心要素,對轉型所需要的新興技術進行分析,重點梳理知識圖譜、大數據、機器學習、大模型等新興數字化技術的優缺點,并結合機器可讀標準分級模型,構建標準數字化技術路徑。
1 標準數字化概念
隨著數字化技術的不斷進步,標準領域的數字化轉型正成為一項迫切且充滿挑戰的任務。在我國,關于標準數字化的規范和操作框架尚未完全確立,但對其基本概念與理論基礎的探討已成為推動行業發展的關鍵一環。鑒于此,對標準數字化的基本概念和理論基礎進行深入研究與分析顯得尤為重要。
1.1 標準數字化
標準數字化是一種將傳統標準化活動與先進數字技術融合的創新實踐,通過電子化文檔、結構化數據格式及線上協作平臺,極大提升標準的制定、執行與監控的效率與精確性。此過程涉及將標準內容轉換為易于機器處理的電子格式,利用物聯網、大數據分析等技術進行實時的標準執行監控,從而實現標準實施的高度精準與動態調整。標準數字化不僅加速了標準的迭代更新和廣泛傳播,還提高了標準施行的透明度和公眾參與度,是推動行業快速響應市場變化、提升全球競爭力的關鍵驅動力。
在數字經濟時代,我國正在經歷標準數字化發展,出現了諸如開源標準、機器可讀標準、SMART標準等多種概念。全球趨勢也顯示標準數字化轉型是不可避免的,各國紛紛推動數字化、網絡化的標準化工作。開源標準是指一種公開發表的標準,為多個團隊和開發者提供了共同參與和改進的機會,推動了技術的共享和創新,其關鍵特征包括開放的源代碼、可自由獲取、可修改和可分發。關于機器可讀標準,依據IEC和ISO的相關文件,機器可讀標準指的是那些可以直接被機器、軟件或自動化系統解讀并應用的技術標準,這些標準以一種用戶和應用特定的數字化格式提供。SMART標準是指用戶(人類和機器)與標準互動所需的格式、流程和工具等形式,可滿足鏈條用戶利益相關者的需求。
1.2 機器可讀能力分級模型
在2019年,IEC、ISO以及其他區域性和國家級標準化機構提出了一個機器可讀標準的分級模型。此模型依據標準的機器可讀程度進行等級劃分,規范對機器可讀標準范疇的理解,同步規劃策略的演進層級。在2021年,德國國家標準化機構(DIN)與德國電工委員會(DKE)基于第一版分級模型向更高層級延伸了一級,并定義了Level 4以上的高級別機器可讀標準為機器可控內容,具體如圖1所示。
在標準分級模型中,0級代表傳統的紙質標準;1級代表數字文檔格式,如Word、PDF文件;2級為機器可讀文檔,標準文檔的架構被數字化解析,可以導出局部塊狀內容,初步分離內容與標題表現形式;3級為機器可讀和可執行內容,對標準中的信息單元模塊可以精準識別,關聯關系詳細標記;4級為機器可解釋內容,標準信息與其應用信息關聯,支持機器直接、自動執行復雜狀況和決策;5級為機器可控內容,標準可以被系統設備機器自主修改,支持自主決策,并將成果標準通過標準化組織的發布渠道進行自動審查與發布。從3級起,這些標準被稱為“SMART Standards”。此模型的每個級別都是基于前一級別的技術進一步構建的,可以細致評估標準的機器互操作性能力級別。
在機器可讀標準的分級模型中,等級2至等級5展示了從傳統的文檔管理到高度自動化和智能化的標準應用的演進。等級2主要涉及以PDF格式存儲的文檔,這些文檔通過成熟的技術和流程提供廣泛的信息和深入的索引,便于用戶查找和應用標準。隨著等級的提升至等級3,標準不僅可讀,還可執行,能夠直接集成到企業的產品設計、生產和售后服務中,通過自動化提高效率和降低成本。到了等級4,標準信息被進一步細化為可由機器解釋的語義組件,這些組件能夠根據特定的應用需求進行智能化的決策和自動化處理,使得標準的應用更加靈活和個性化。最終,在等級5中,標準化過程完全自動化,由人工智能驅動的決策流程取代傳統標準,實現動態更新和適應技術及監管框架的變化,從而支持全球生態系統的可持續發展。這一系列的演進不僅反映了技術在標準化工作中的應用深度,也展示了向數字化和自動化轉型的巨大潛力。
2 標準數字化關鍵技術
據統計分析,全球數字化轉型的七大重要數字技術分別是人工智能(AI)、大數據、區塊鏈技術(DLT)、物聯網(IoT)、機器人、3D打印和無人載具。對于標準數字化轉型,調研國內外相關機構、學者的研究成果發現,所涉及的數字化技術涵蓋面廣、類別跨度大,主要包含人工智能、云服務、大數據、通信安全等大類。具體來說,大部分研究工作中均使用和推薦的技術集中在知識圖譜、大數據、機器學習、自然語言處理上,且絕不是單一技術就可滿足標準數字化的需求,往往是核心技術與輔助技術集成處理。
2.1 知識圖譜技術
(1)概述
知識圖譜的概念最早可以追溯到20世紀60年代,但直到2012年,當Google引入其“知識圖譜”來增強其搜索引擎的語義搜索能力時,這一概念才廣為人知。知識圖譜是一種通過圖形結構來組織和表達知識的方法,它標志著信息檢索從關鍵詞匹配向深層語義理解的轉變。在知識圖譜中,實體(如人、地點、物體等)被表示為節點,實體的屬性用于描述節點的特性,而實體間的關系則由邊來表示。這種結構使得知識圖譜不僅能表達實體的屬性,還能描述實體之間的各種復雜關系,從而提供更豐富的語義信息。
(2)研究現狀
知識圖譜技術是當下標準數字化研究過程中突出重視的一環。知識圖譜技術通過構建和利用標準知識的結構化表示,顯著提升了標準內容的查詢效率和關聯分析能力,進而提高了標準的應用價值[1]。對于標準知識關鍵信息的識取,構建標準知識模型,并進行可視化展示,解決了標準知識未成體系的問題[1-2],有助于提高標準信息的可視化和互聯互通,增強標準內容的理解和應用。對于關聯分析能力的形成,該技術將關鍵信息以圖譜形式表達,建立了各知識元之間的顯隱關聯關系[2-3],通過構建標準中實體之間的關系網絡,使得復雜的標準信息可以以圖的形式表達,還可處理一些復雜要素信息,如表格數據和公式[4]。并且當對信息單元進一步擴展應用場景時,可以支持標準知識的關聯分析、智能推薦和推理等高級功能[4]。
在特定行業中,如電力行業,知識圖譜技術已經實現了對領域知識的結構化表達,這極大地提高了相關知識的查詢效率和利用率[5]。同時,在航空行業,基于實際操作經驗,已經開發出一種構建標準知識圖譜的方法。該方法從原始的標準數據開始,運用一系列的自動化或半自動化技術,支持知識圖譜的創建、輸出和輸入[6]。將標準內容轉換為互聯的知識點,知識圖譜技術構筑了一個行業內的知識網絡。這種轉換使得標準內容變得更加系統化和結構化,從而支持更復雜的查詢和決策流程,增強了標準應用的靈活性和智能化[7]。
(3)技術優缺點
綜合知識圖譜技術在標準領域的應用情況,總結提煉標準知識圖譜技術優缺點。其中,知識圖譜技術的優點,主要體現在:
一是標準知識結構化表示。知識圖譜以圖形結構的方式組織和表示知識,能夠清晰地展示實體之間的關系和屬性,有助于知識的理解和推理。二是標準知識關聯性。知識圖譜能夠捕捉到不同實體之間的關聯性,包括層級關系、相似性、關聯屬性等,幫助用戶發現新的知識。三是標準知識擴展性。知識圖譜可以不斷擴展和更新,添加新的實體、關系和屬性,適應不斷變化的知識和需求。四是標準多領域應用。知識圖譜可以應用于各個領域,實現跨領域的知識共享和應用。
對應缺點也比較明確:
一是標準知識獲取難度大。構建完整和準確的知識圖譜需要大量的人力和時間,進行數據收集和整理時可能遇到數據不一致、缺失和錯誤的問題。二是標準知識表示限制。知識圖譜通常以實體、關系和屬性的方式表示,對于復雜和抽象的知識可能無法很好地表示,如主觀知識、情感信息和隱含知識。三是標準知識更新延遲。知識圖譜的更新可能存在延遲,無法及時反映最新的信息,尤其是在快速變化的領域。四是標準知識推理限制。知識圖譜提供基于關聯性的簡單推理能力,但對于復雜的推理和推斷任務可能存在限制。
2.2 大數據技術
(1)概述
大數據技術是指從多源類型的數據中,快速挖掘獲取價值信息,即對大量數據進行采集、存儲、處理和分析的技術手段。這一技術體系繁雜,涵蓋了從數據采集、數據預處理、分布式存儲到數據庫管理、機器學習、并行計算、數據可視化等多個技術領域和層面。在標準化領域,盡管標準文本的數量本身并未達到大數據的規模,但標準知識則是典型的大數據技術處理范疇。
(2)研究現狀
在標準數字化工作研究中,大數據技術的作用體現在對于標準數據信息的處理與分析。從大規模的標準數據集中挖掘價值和模式,支持標準的決策制定,提供精準的標準制定和實施建議[1,8-9],更好地理解和預測標準的應用效果和市場需求,優化標準的設計和實施[10]。具體來說,大數據技術通過信息抽取、數據挖掘等手段,解決標準信息內容零散的問題,為標準知識主題、章節架構、核心內容的識別與應用等提供支持[8],還支持復雜的數據分析,如趨勢分析、模式識別等[3,7]。此外,采用IEC62599用例方法學作為建模工具,有助于評析規范多源輸入,確保了標準開發過程中用戶需求的準確捕捉和實現[11]。
(3)技術優缺點
綜合大數據技術在標準領域的應用情況,總結提煉標準大數據技術優缺點。其中,大數據技術的優點,主要體現在:一是數據驅動決策。大數據可以提供額外的數據信息,幫助用戶做出更好的決策。二是實時性和即時性。大數據技術可以實時地收集、處理和分析數據,提供即時的數據分析和反饋。三是高效的數據處理能力。大數據技術具有高效、快速的數據處理能力,能夠在短時間內處理和分析大量的數據。
對應缺點也比較明確:一是非結構化數據處理難度大。大數據收集的數據可能以隨機信息的形式排列或呈現,需要進行有效的整理和處理。二是數據安全問題。大數據存在安全問題,對于高度安全的數據或機密信息,需要高度安全的網絡保護。三是隱私問題。大數據涉及大量的個人和敏感信息,需要妥善處理和保護,防止數據泄露和濫用。四是技術和人力成本高。處理和分析大數據需要先進的技術和大量的計算資源,以及專業的數據科學家和分析師團隊,可能帶來較高的技術和人力成本。
2.3 機器學習技術
(1)概述
機器學習是人工智能領域的一個重要分支,它賦予計算機系統從經驗中學習并自我改進的能力,而無需進行明確的程序編碼。這個概念最早可以追溯到20世紀50年代,當時由阿蘭·圖靈提出的“圖靈測試”首次探討了機器是否能展現出類似人類的智能行為。1959年,阿瑟·薩繆爾(Arthur Samuel)開發了一款能自學玩跳棋的程序,這是機器學習早期應用的一個例子。機器學習算法主要分為三類:監督學習、無監督學習和強化學習,各自適用于不同的數據集和應用場景。這些算法使得機器能夠處理從簡單的數據分類到復雜的決策制定等多種任務。在處理標準文本數據、推理標準知識、智能化決策和預測分析等方面,機器學習技術展示了廣泛的應用潛力,這對提高標準制定的效率和服務的精確性具有顯著的意義。
(2)研究現狀
機器學習,主要用于自動化處理和解析標準文檔,提高標準文檔的智能查詢和應用效率。通過人工智能,可以實現標準文檔的自動分類、摘要生成、關鍵信息提取等功能,從而提升標準的易用性和訪問速度[9],支持標準的智能應用,如自動化的標準合規檢查和標準推薦系統[10]。在航空行業中,AI可以幫助設計更加智能的標準使用工具,實現按需、智能的標準應用[6]。
(3)技術優缺點
綜合機器學習技術在各個垂直領域的應用情況,總結提煉機器學習技術優缺點。其優點主要體現在:
一是自動化和高效率。機器學習可自動分析大規模數據集,顯著減少人工干預,從而提升處理速度和結果的準確性。二是模式識別和預測能力。通過訓練模型識別數據中的規律和趨勢,支持更精準的決策和預測分析。三是處理復雜問題。機器學習可以處理復雜的問題和任務,包括圖像識別、自然語言處理、推薦系統等,為解決現實世界中的多樣化挑戰提供支持。四是持續學習和改進。機器學習模型可以通過不斷的學習和反饋來改進自身的性能和準確性,具有自我適應和持續改進的能力。
對應缺點也比較明確:
一是數據依賴性強。機器學習的性能和準確性很大程度上依賴于訓練數據的質量和數量,如果數據不充分或不具有代表性,可能導致模型的性能下降。二是解釋性問題。某些機器學習模型(如深度學習)可能具有較高的復雜性和黑盒特性,難以解釋模型的決策過程和推理邏輯,給人們帶來一定的困擾。三是需要大量的算力資源和時間。訓練和優化機器學習模型需要大量計算和時間資源,尤其是在處理大規模數據和復雜任務時,可能需要昂貴的硬件和大量的時間。四是數據隱私和安全。機器學習需要大量的數據進行訓練和優化,可能涉及個人和敏感信息,需要妥善處理和保護,防止數據泄露和濫用。
2.4 標準大模型技術
(1)概述
自2022年底OpenAI發布ChatGP T 3.5之后,因其所表現出的卓越的自然語言理解能力與交互及推理能力,引起了全球范圍內對于大模型的研究關注。大型語言模型,也稱大語言模型、大模型(Large Language Model,LLM;Large LanguageModels,LLMs),是一種深度學習模型,屬于自然語言處理(NLP)的領域,是指包含千億級別以上參數的語言模型,通過學習大量的文本數據來預測下一個詞或生成與給定文本相關的內容。為了順利推進標準領域大模型技術的廣泛應用,需要全面借鑒典型行業(如醫療、金融等)開源微調大模型項目調研的研究成果,以及相關具有可復用或者可參考價值的工具接口及數據集。
(2)研究現狀
自然語言處理技術主要用于處理和分析標準文本,使之能夠進行智能檢索、智能問答等,提高標準應用的便利性。可以通過機器翻譯幫助實現國際標準的本地化和本地標準的國際化,同時也支持術語詞典的構建和問答系統的開發[2]。自然語言處理技術在標準數字化中用于理解和處理轉換后的文本數據,可以幫助分析文本內容的語義,提取關鍵信息,并進行內容的分類和標記[7]。ChatGPT等大模型逐漸通用,其發展到圖像、視頻等其他類型的數據,對于標準文本中的曲線、圖形、照片、公式、表格等越發適配。
(3)技術優缺點
綜合大模型技術在各個垂直領域的應用情況,總結提煉機器學習技術優缺點。其優點主要體現在:一是訓練數據規模更大,ChatGPT等大模型的訓練數據規模是其他語言模型的數倍甚至數十倍,可以學習到更多的語言知識和語言規律,具備更強的用戶交互能力和語言生成能力。二是模型參數更多,算力要求更高:ChatGPT等大模型使用了大量的模型參數,并基于極高的算力,通過不斷優化算法和模型結構,使得它在語言模型的各項任務上表現優異。三是語言生成能力更強:ChatGPT等大模型可以自動生成流暢、自然的文本,包括自然對話、見解文章,乃至于規范代碼等。四是自然語言理解能力更強,對話交互性更好:ChatGPT等大模型可以進行對話交互,能夠理解用戶提出的問題并生成相應的回答,且能生成長文本密集型答案。
雖然大模型于多個產業研究領域都表現出了卓越的性能,但其仍然有著不可忽視的弊端:一是不及時性,以ChatGPT 3.5為例,其所使用的訓練數據的截止日期為2021年底,也就是說大模型并不能針對實時問題進行回答,并且由于其模型訓練所需數據量極大,訓練周期較長,所以模型更新速度較慢。二是不可靠性,由于語言生成模型生成文本的模型特征,大模型可能寫出看似合理但不正確的答案。這既源于生成模型的語言生成機制,也與訓練時所用數據的專業性和真實性不夠有關。三是不可解釋性,大模型采用的依然是深度學習的訓練策略,其訓練過程依然是不可解釋的“黑盒”,那么也就導致在船舶工業制造領域,大模型生成的結果不敢用、不可用。四是不穩定性,大模型對輸入文本的變化和相同的提示很敏感,前后兩次相同用戶輸入對應的輸出不一樣。
3 標準數字化技術路徑
技術路線涵蓋標準數字化的各個方面,從數據資源建設、內容處理、平臺開發、服務應用、智慧決策到基礎設施建設和質量控制。它們相互關聯,共同構成了一個完整的標準數字化技術體系,旨在提高標準管理和應用的效率,促進標準的數字化轉型。
標準數字化的技術路線可以分為以下幾類:
(1)數據資源建設與管理。通過建立包括標準文本庫、元數據庫、章節庫、表格庫、圖片庫、公式庫、術語庫、指標庫以及標準知識圖譜庫在內的綜合標準數據資源庫,實現對標準規范及相關資料的有效整合和管理。
(2)標準內容的數字化處理。標準內容結構化,如使用XML技術對標準文檔進行結構化處理;標準題錄屬性抽取,從標準文獻中抽取關鍵屬性信息;標準條款(段落)抽取,精確抽取具體的條款或段落;主題詞生成,自動抽取標準文獻的主題詞,將傳統的標準文本轉化為機器可識別的文檔類型。
(3)標準數字化平臺與工具開發。搭建標準信息公共服務平臺,實現標準全生命周期管理,開發支持XML格式標準文檔的軟件工具,實現標準數據、技術、業務中臺的共享和共用。
(4)標準數字化服務與應用。完善標準數字化服務能力,如標準知識語義搜索、語義問答、場景推送、指標比對與更新預警、即時翻譯等;根據具體場景需求,開發應用工具,實現標準與業務場景融合的服務,規劃設計標準數字化應用場景,確保標準數字化的有效實施,實現標準的自動執行和決策支持。
(5)標準數字化的智慧化決策。對標準管理、服務、實施的數據進行自動采集和監測,開展標準大數據分析,實現對標準管理、服務、實施的評價,形成基于數據驅動的標準科學化決策能力。
(6)標準數字化的質量控制。標準數字化結果審核標注,通過人工審核確保準確性和可靠性,修正不通過審核的數據,并用于訓練和優化NLP模型。
基于以上研究,本文面向機器可讀標準分級模型設計了如圖2所示的標準數字化技術路線。
對標國際公認的標準數字化等級劃分方法,提出標準數字化關鍵技術路線,向信息單元和機器可控內容等數字化形態轉型。標準每個階段所蘊含的知識打散、解構、分類、辨析、聚合,標準中統領知識的智慧被階段之間的技術手段層層釋放出來,如當下標準處于Level0~Level1層級間的核心技術,包括成熟的光學識別技術、智能版面技術、三維掃描技術以及數據庫等,未來短時間內布局的核心技術包括元數據、結構化語言、自然語言處理以及CAD建模語言等。
4 結 語
隨著人工智能、大數據等新興技術的快速發展,構建面向機器可讀的標準分級模型已成為標準化工作的重要發展方向。本文通過分析現有標準數字化技術的優勢與不足,探討了未來標準數字化技術路線圖。未來標準數字化應圍繞以下方面展開:建立統一的標準描述語言和元數據規范,提高不同領域標準的互操作性;開發智能化的標準編制與管理工具,提升標準編制效率與質量;構建基于知識圖譜的標準語義關聯模型,實現標準內容的智能檢索與推薦;探索區塊鏈等技術在標準版本管理、標準實施評估等方面的應用。
總之,標準數字化轉型是大勢所趨,需要產學研各界通力合作,加快關鍵技術突破,助力我國標準化事業實現高質量發展。只有不斷探索創新,建立完善、智能、開放的標準數字化生態,才能更好地服務經濟社會發展,推動形成全球統一、國內外兼容的標準化新格局。
參考文獻
[1]王立璽,呂千千,牛艷茹.標準數字化工作關鍵路徑探究[J].信息技術與標準化,2022(10):27-30+42.
[2]王一禾,呂千千,祝賀.標準數字化轉型關鍵技術及其應用分析[J].信息技術與標準化,2022(10):51-55+59.
[3]呂黔蘇,林正平,王昕,等.電力標準數字化轉型路徑與策略研究[J].品牌與標準化,2023(3):10-12.
[4]陳家賓,趙鑫,王琮,等.機器可讀標準表達方式探討[J].信息技術與標準化,2022(10):43-46.
[5]馬超,鄧桃,周勤勇,等.面向電力領域的標準數字化轉型工作研究——需求分析、轉型路徑與應用場景[J].中國標準化,2022(23):87-92.
[6]李翔宇,傅田,潘鑫,等.標準數字化在航空行業應用探索與實踐[J].信息技術與標準化,2022(10):68-72+78.
[7]陳心怡,張華,賈君君,等.數字經濟下工業生產標準數字化轉型探索研究[J].中國標準化,2023(1):48-52.
[8]崔靜,王立璽.標準數字化工作路線圖探究[J].信息技術與標準化,2023(6):43-46.
[9]馬超,宋琛.電力標準數字化:概念、核心挑戰、治理路線圖及發展趨勢[J].電網技術,2024,48(2):480-497.
[10]狄矢聰.標準數字化轉型發展趨勢與策略研究[J].標準科學,2023(3):36-42.
[11]張寶林,侯常靚,鄔雨筍,等.國際標準化組織機器可讀標準工作動態[J].信息技術與標準化,2022(10):18-22.
作者簡介
王明皓,碩士,助理工程師,研究方向為船舶標準數字化。
殷濤,碩士,通信作者,助理工程師,研究方向為船舶標準數字驗證。
胡杰鑫,博士,高級工程師,研究方向為標準數字驗證、船舶標準化理論研究。
楊玉婷,本科,工程師,研究方向為船舶標準化。
陳家賓,碩士,高級工程師,研究方向為船舶標準化與開發。
高超,本科,工程師,研究方向為船舶標準化。
金建海,碩士,高級工程師,研究方向為船舶標準化。
(責任編輯:袁文靜)