999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

ISO 國際標準知識圖譜的構建方法研究

2024-12-31 00:00:00方思怡
標準科學 2024年12期

摘 要:標準數字化轉型對標準知識組織形式和相關服務模式提出了全新的要求。知識圖譜是標準數字化轉型的關鍵核心技術之一,能有效解決ISO標準信息和知識服務在數據顆粒度和關聯性等方面的局限性。本研究聚焦標準知識服務重點關注的ISO標準核心要素,通過深入分析其文本結構特性,在綜合比較不同ISO標準數據存儲格式后,提出適用于ISO的標準知識圖譜構建方法,并在塑料制品、橡膠等市場監管關注的領域開展初步應用,以期能夠為標準數字化轉型提供一定的技術參考。

關鍵詞:標準知識圖譜,ISO,國際標準,標準數字化,實體抽取,知識組織

DOI編碼:10.3969/j.issn.1674-5698.2024.12.012

0 引 言

標準是經各利益相關方協商一致形成的技術性文件。在不同類型的標準中,國際標準是在全球范圍內廣泛使用的技術性制度工具[1]。作為世界范圍內影響力最大的標準化組織,ISO歷來重視標準的推廣應用[2],聯合IEC共同提出了機器可讀標準的概念和相應的解決方案。近年來,面向機器可讀標準的標準數字化研究已逐漸成為標準領域的重大戰略方向,并催生了標準化工作的極大變革。

隨著數字經濟時代的深入發展和人工智能、大數據等技術的不斷普及,標準化工作已步入數字化發展的新階段[3],進而對標準情報服務提出了全新的發展要求[4]。在標準情報服務中,標準信息服務和標準知識服務的質量與標準數字化技術的應用深度密切相關。當前國內外機器可讀標準的能力等級普遍處于較低水平,標準信息和知識服務大多存在服務手段單一、技術方法落后、數據顆粒度不夠細等問題[5]。在數字化轉型的背景下,標準信息和知識服務亟需實現多元化、細粒度、深層次、關聯性的數據挖掘與組織形式。作為業內標準數字化轉型公認的關鍵核心技術[6,7],知識圖譜是一種以圖形式存儲和表征大規模數據及其關系的結構化知識庫[8,9],因此在標準知識組織方面享有一定的優勢,能體現不同標準核心要素的關聯性,并提供面向特定標準應用的圖譜計算以支撐標準化活動的相關決策。

當前國內外的標準數字化技術研究大多處于初級階段,知識圖譜在ISO國際標準中的應用還存在較大的提升空間。本研究從機器可讀標準的視角出發,通過深入分析ISO標準核心要素的文本結構特性,在綜合比較不同I SO標準數據存儲格式后,提出適用于ISO的標準知識圖譜構建方法,并選取特定領域開展初步應用,以期能夠為標準數字化相關工作提供一定的技術參考。

1 ISO國際標準知識圖譜的相關概念

本研究將標準知識圖譜界定為專業知識圖譜在標準領域的一大分支。標準知識圖譜是以標準文本及相關數據為來源、經由一定技術所形成的結構化知識庫,通過圖的形式來組織和存儲標準知識[10]。與常規的知識圖譜類似,標準知識圖譜在邏輯架構上可以分為模式層、數據層和應用層,其中模式層用來存儲標準知識的本體概念,也即標準核心要素的類型;數據層用來存儲模式層對應的實例數據;應用層則涵蓋了標準知識圖譜所涉及的智能計算。就數據類型而言,標準知識圖譜通常由標準實體和標準關系構成,其中標準實體通常是指標準文本中的具體核心要素,例如:標準名稱、標準號、標準指標、標準分類號等,而標準關系則是用來描述標準實體之間的具體聯系。

I S O國際標準知識圖譜是標準知識圖譜面向ISO文本的特定類型,以ISO文本及相關數據為來源,旨在存儲和表征ISO文本中的標準核心要素及其關聯性特點。本研究參考了ISO的文本編寫要求[11],并緊密結合標準數字化發展的業務需求和ISO標準核心要素的文本結構特性,在已有研究的基礎上[12]設計了ISO國際標準知識圖譜的模式層。本研究重點聚焦標準信息服務和知識服務所關注的ISO標準核心要素,包括標準號、標準英文名稱、標準發布時間、標準版本情況、標準化技術委員會、被代替標準號、標準ICS分類號、標準范圍、標準規范性引用文件名稱及標準號、標準術語、標準指標和基于標準全文的標準主題關鍵詞。在上述標準核心要素中,除了基于標準全文的標準主題關鍵詞外,均直接來自于標準文本。與其他核心要素相比,標準術語和標準指標在構成上更為復雜,可根據具體的元素功能進一步劃分為更小的知識單元,其中標準術語可以劃分為標準術語編號、標準首選術語、標準首選術語縮略語、標準棄用術語、標準術語同義詞、標準術語領域、標準術語定義、標準術語示例、標準術語條目注釋、標準術語來源;標準指標則可以劃分為標準指標名稱、標準關聯指標名稱、標準下一級指標名稱、標準指標值及單位、標準指標定義、標準指標描述說明、標準指標表格名稱、標準指標條目注釋、標準指標示例、標準指標符號、標準指標偏好值、標準指標最小值、標準指標分類和標準指標下一級分類。本研究以上述ISO標準核心要素為ISO國際標準知識圖譜模式層的標準實體類型,以標準號與上述核心要素的名稱指向形式“ISO標準核心要素+是”(例如:Termdefinition is)的英文表述為標準關系類型。

ISO國際標準知識圖譜模式層的框架圖如圖1所示。

2 ISO國際標準知識圖譜的構建方法

2.1 ISO國際標準文本數據資源的比較

ISO文本數據是ISO國際標準知識圖譜的知識來源,因此在開展ISO國際標準知識圖譜的構建之前,本研究選取上海市質量和標準化研究院標準文獻館中的部分ISO館藏資源,將ISO標準的數字PDF文本轉化為T XT、Word docx和XML文檔,對PDF、T XT、Word和X ML格式的I SO文本采用人機協作的方式進行數據讀取和標注效果的比對分析,所得的比較結果見表1。

經過詳細比對可知,在具有高質量PDF資源的前提下,ISO的XML文本在數據讀取準確性、表格數據的語義完整性和關聯性、數據標注的效果等方面表現優于其他類型的文本格式,因此本研究選取I S O的X M L文本作為I S O國際標準知識圖譜的數據來源格式,在ISO的XML文本數據基礎上開展標準實體抽取和標準知識圖譜的構建工作。

2.2 ISO國際標準知識圖譜的構建流程

標準是具有明確編寫規范的技術性文件,ISO標準文本在章節結構、要素構成、層次編排等方面遵從一定的編寫要求。本研究從ISO標準的文本編寫特點入手,結合知識圖譜的通用性構建步驟,制定了適用于ISO國際標準知識圖譜的構建流程,主要包括ISO標準知識獲取、ISO標準知識表示、ISO標準知識存儲和可視化這4個步驟(如圖2所示)。

在ISO標準知識獲取階段,旨在將ISO標準文本轉化為機器可直接讀取的ISO標準語料數據集,在完成數據清洗后采用特定技術抽取ISO標準實體,采用自然語言處理和文本挖掘技術批量生成ISO標準實體對應的ISO標準關系。在ISO標準知識表示階段,主要是將上一個階段獲取到的ISO標準實體和ISO標準關系轉化為ISO標準知識圖譜的基本數據存儲形式,也即實體關系三元組(實體—關系—實體),最終形成ISO標準實體關系三元組結構化數據集。在完成ISO標準知識表示后,采用特定的知識圖譜工具讀取ISO標準實體關系三元組結構化數據集,完成ISO標準知識存儲和可視化呈現。

2.3 ISO國際標準知識圖譜的標準實體抽取方法

在深入分析I S O標準核心要素的文本結構特性的基礎上,本研究提出了適用于不同ISO標準核心要素的標準實體抽取方法,主要分為基于規則的文本挖掘方法、基于有監督的深度學習方法和基于無監督的機器學習方法,其中標準號、標準名稱、標準發布時間、標準化技術委員會、標準版本、被代替標準號、標準規范性引用文件名稱及標準號、標準范圍、標準術語可采用基于規則的文本挖掘方法來自動抽取;基于標準全文的標準主題關鍵詞則需要采用無監督的機器學習方法來獲取,鑒于潛在狄利克雷分布主題模型(Latent DirichletAllocation Topic Model, LDA Topic Model)的理論相對成熟,本研究采用L DA主題模型來自動獲取ISO標準全文范圍內的主題關鍵詞;而對于不存在明顯規則的標準指標,考慮到當前尚未推出高度適配于ISO標準文本的大語言模型(Large language"model, L LM),本研究采用了有監督的深度學習方法,基于循環神經網絡模型(Recurrent NeuralNetwork, RNN)及其亞型組合,通過人工標注指標數據和訓練神經網絡模型的方式實現自動抽取術語的相關實體。

2.4 ISO國際標準知識圖譜的可視化路徑實現方法

在綜合比較不同的圖譜可視化工具后,本研究選取Neo4j平臺作為ISO標準知識圖譜的存儲和可視化呈現工具。作為當前應用最為廣泛的圖數據庫,Neo4j自帶包括構建Web應用程序、機器學習圖算法以及圖計算與分析相關的Graph Data ScienceLibrary(GDS庫)等工具的大型生態系統,可充分滿足ISO國際標準知識圖譜的快速存儲和功能模塊研發需要。本研究采用Python編寫了調用Neo4j平臺的程序,實現了ISO國際標準知識圖譜中各個實體和關系的可視化路徑。

3 ISO國際標準知識圖譜的應用

在形成ISO國際標準知識圖譜的構建方法后,本研究在綜合考量上海市市場監管的業務需求基礎上,選取與民生密切相關的塑料制品、油漆和清漆、橡膠及橡膠制品等領域的7篇ISO文本開展ISO國際標準知識圖譜的構建方法驗證與初步應用。經過統計可知,上述小樣本ISO國際標準語料數據集共計231,655個字符,生成的ISO國際標準知識圖譜涵蓋了1251個標準實體和1474個標準關系。ISO國際標準知識圖譜的Neo4j平臺界面截圖如圖3所示。

4 總結與展望

4.1 總結

在標準數字化轉型的背景下,本研究緊密結合標準信息和知識服務的業務發展需求,通過深入分析ISO國際標準的文本結構特性,聚焦標準信息和知識服務所重點關注的ISO標準核心要素,經詳細比對ISO不同格式的文本特點后,以XML格式的ISO文本為數據來源,采用基于規則和深度學習相結合的技術打造了適用于ISO的國際標準知識圖譜構建方法,并在塑料制品、橡膠等領域的小樣本ISO數據集上開展方法驗證和初步應用,為后續的標準知識庫構建和相關標準知識服務提供必要的技術支撐。

4.2 展望

標準數字化轉型是標準未來發展的必然趨勢。本研究將在后續工作中圍繞以下幾個方向開展深入研究:(1)拓展標準知識圖譜的數據規模和應用功能,嘗試提取ISO標準文本中圖片數據的技術信息;(2)繼續追蹤以大語言模型為例的前沿技術,優化當前ISO標準知識圖譜的實體抽取方法;(3)在ISO標準知識圖譜的基礎上進一步形成融合標準、專利、論文、法規等文件的標準綜合知識庫,為構建適用于標準領域的標準大語言模型和打造更為豐富的標準知識服務奠定數據基礎。

參考文獻

[1]張曉剛. 國際標準化發展的新趨勢[J]. 質量與標準化,2022(10):1-4.

[2]張寶林,侯常靚,鄔雨筍,等.國際標準化組織機器可讀標準工作動態[J]. 信息技術與標準化, 2022(10):18-22.

[3]崔靜,王立璽. 標準數字化工作路線圖探究[J]. 信息技術與標準化, 2023(06):43-46.

[4]彭國超,劉婕,張冰倩. 我國標準情報服務的分類及發展現狀研究[J]. 情報科學, 2022,40(10):179-186.DOI:10.13833/j.issn.1007-7634.2022.10.023.

[5]郝文建,魏梅,張浩,等. 標準知識圖譜的構建與應用[J]. 信息技術與標準化, 2021(08):44-47.

[6]范昊,王一帆. 知識關聯視角下標準文檔的多粒度知識組織方法研究[J]. 信息資源管理學報, 2024,14(04):133-145.DOI:10.13365/j.jirm.2024.04.133.

[7]王一禾,呂千千,祝賀. 標準數字化轉型關鍵技術及其應用分析[J]. 信息技術與標準化, 2022(10):51-55+59.

[8]穆天楊,陳華達,楊玉婷,等. 知識圖譜技術在機器可讀標準中的應用[J]. 信息技術與標準化, 2022(10):56-59.

[9]王萌,王昊奮,李博涵,等. 新一代知識圖譜關鍵技術綜述[J]. 計算機研究與發展, 2022,59(09):1947-1965.

[10]方思怡. 標準知識圖譜的技術路徑與應用場景探討[J].中國標準化, 2023(11):49-55.

[11]ISO/IEC Directives, Part 2:Principles and rules for the structure and drafting of ISO and IEC documents [S].

[12]方思怡.基于文本挖掘的ISO標準術語自動識別與標準術語知識圖譜構建研究[J]. 標準科學, 2024(08):84-89.

主站蜘蛛池模板: 中文字幕欧美日韩| 日韩人妻精品一区| 欧洲在线免费视频| 国产成人欧美| 午夜视频免费一区二区在线看| 国产97视频在线观看| 欧美日韩在线成人| 91在线免费公开视频| 蝴蝶伊人久久中文娱乐网| 国产在线视频导航| 极品性荡少妇一区二区色欲| 免费 国产 无码久久久| 成人在线第一页| 色婷婷视频在线| 久久国产拍爱| 色婷婷色丁香| 五月激情婷婷综合| 精品91自产拍在线| 91小视频版在线观看www| a网站在线观看| 老司机久久精品视频| 久久成人18免费| 亚洲黄色视频在线观看一区| 欧美午夜在线播放| 色香蕉影院| 亚洲精品国偷自产在线91正片| 亚洲国产精品日韩专区AV| 九月婷婷亚洲综合在线| 久久综合亚洲鲁鲁九月天| 成人免费午间影院在线观看| 国产在线精品人成导航| 看你懂的巨臀中文字幕一区二区| 色综合热无码热国产| 欧美成人午夜在线全部免费| 97精品伊人久久大香线蕉| 国产欧美日韩视频一区二区三区| 日韩欧美中文| 国产极品美女在线播放| 她的性爱视频| 国产欧美日本在线观看| 五月六月伊人狠狠丁香网| 成人中文字幕在线| 天堂成人在线| 国产丝袜精品| 亚洲日韩久久综合中文字幕| 亚洲成A人V欧美综合天堂| 亚洲天堂久久久| 无码久看视频| 国产成人免费视频精品一区二区| 全裸无码专区| 亚洲欧美日韩动漫| 亚洲人成网站观看在线观看| 综合亚洲网| 国内精品九九久久久精品| 亚洲第七页| 亚洲综合精品香蕉久久网| 亚洲人成网站18禁动漫无码| 亚洲综合色区在线播放2019| 久久精品亚洲专区| 99久久国产综合精品2020| 日韩A∨精品日韩精品无码| 日韩福利视频导航| 成人午夜久久| 国产在线观看第二页| 欧美a在线看| 亚洲一区二区约美女探花| 国产精品va| 精品视频一区二区三区在线播| 中文字幕日韩欧美| 97国产精品视频自在拍| 亚洲国产成人在线| 91色爱欧美精品www| 欧美日韩精品一区二区在线线| www.亚洲天堂| 91麻豆精品视频| 天天综合网站| 亚洲精品成人7777在线观看| 国产免费精彩视频| 国产男女免费视频| 蝌蚪国产精品视频第一页| 亚洲日韩图片专区第1页| 欧美成人综合在线|