999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機器可識別標(biāo)準(zhǔn)實現(xiàn)路徑及保障措施

2024-04-11 17:32:38陳心怡張華方偉謝軍太
中國標(biāo)準(zhǔn)化 2024年7期
關(guān)鍵詞:標(biāo)準(zhǔn)

陳心怡 張華 方偉 謝軍太

摘 要:標(biāo)準(zhǔn)作為經(jīng)濟活動和社會發(fā)展的技術(shù)支撐,是行業(yè)共同遵守的準(zhǔn)則和依據(jù)。隨著產(chǎn)業(yè)體系的數(shù)字化轉(zhuǎn)型,標(biāo)準(zhǔn)也急需向網(wǎng)絡(luò)化、數(shù)字化、智能化發(fā)展。標(biāo)準(zhǔn)數(shù)字化發(fā)展主要階段中,機器可識別作為其數(shù)據(jù)源基礎(chǔ)受到廣泛關(guān)注。本文系統(tǒng)梳理機器可識別標(biāo)準(zhǔn)轉(zhuǎn)化的關(guān)鍵技術(shù)路線,結(jié)合當(dāng)前現(xiàn)狀,提出傳統(tǒng)標(biāo)準(zhǔn)向機器可識別標(biāo)準(zhǔn)轉(zhuǎn)化的保障措施。最后,對機器可識別標(biāo)準(zhǔn)的挑戰(zhàn)及發(fā)展進行總結(jié),以期對標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型的發(fā)展提供借鑒。

關(guān)鍵詞:標(biāo)準(zhǔn),標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型,機器可識別標(biāo)準(zhǔn)

DOI編碼:10.3969/j.issn.1002-5944.2024.07.002

0 引 言

依托互聯(lián)網(wǎng)及數(shù)字技術(shù)的發(fā)展,產(chǎn)業(yè)鏈供應(yīng)鏈的上下游已開始全鏈路、全要素、全場景地優(yōu)化升級,進行產(chǎn)業(yè)體系的數(shù)字化轉(zhuǎn)變已成為當(dāng)下熱點[1]。標(biāo)準(zhǔn)作為行業(yè)共同遵守的準(zhǔn)則和依據(jù)[2],也急需向網(wǎng)絡(luò)化、數(shù)字化、智能化發(fā)展,標(biāo)準(zhǔn)數(shù)字化是標(biāo)準(zhǔn)未來發(fā)展的主要趨勢。

目前大部分標(biāo)準(zhǔn)只能以PDF文件或在線查看器(HTML)的形式存在,由人員制定和核查,出版后以人員為主要使用對象,很難滿足人機交互以及機器與機器交互的數(shù)字化需求。很多領(lǐng)域的自動化程度越來越高,標(biāo)準(zhǔn)的應(yīng)用與更新適應(yīng)能力不足、標(biāo)準(zhǔn)的數(shù)字化開發(fā)落后于市場發(fā)展需求等問題已不容忽視。標(biāo)準(zhǔn)的數(shù)字化轉(zhuǎn)型可以實現(xiàn)以數(shù)字形式提供規(guī)范,用于機器與其他系統(tǒng)(如CAD)之間的數(shù)據(jù)共享和數(shù)據(jù)交互,實現(xiàn)標(biāo)準(zhǔn)與機器或其他系統(tǒng)的自動讀取和應(yīng)用,這將進一步節(jié)省時間和成本,提高產(chǎn)業(yè)應(yīng)用的質(zhì)量。

標(biāo)準(zhǔn)數(shù)字化作為未來面向所有領(lǐng)域的基礎(chǔ)規(guī)范與制度,是受數(shù)字時代所驅(qū)動的自我變革,它是系統(tǒng)性的,覆蓋全鏈條、全生命周期的[3]。標(biāo)準(zhǔn)數(shù)字化具有交互智能化等特征,能夠有效支撐機器執(zhí)行或解析標(biāo)準(zhǔn)內(nèi)容,甚至自主應(yīng)答詢問,實現(xiàn)“標(biāo)準(zhǔn)即數(shù)據(jù)”“標(biāo)準(zhǔn)即軟件”“標(biāo)準(zhǔn)即服務(wù)”等新型標(biāo)準(zhǔn)應(yīng)用模式。

標(biāo)準(zhǔn)數(shù)字化包含三個階段,即機器可識別、機器可執(zhí)行以及機器可決策,以獲得人員使用的標(biāo)準(zhǔn)、機器使用的標(biāo)準(zhǔn)、人機協(xié)作的標(biāo)準(zhǔn)為目標(biāo)[3]。然而,人員和機器對標(biāo)準(zhǔn)內(nèi)容的解析方式存在明顯不同。人類在理解非結(jié)構(gòu)化數(shù)據(jù)和邏輯推斷方面通常比機器更好,能夠從更豐富的經(jīng)驗中獲得知識,因此可以關(guān)聯(lián)外部參考。機器通常無法理解非結(jié)構(gòu)化的數(shù)據(jù),也不能對未顯式定義的外部上下文進行推斷,通常不容忍語法和語義錯誤,因此內(nèi)容的數(shù)據(jù)準(zhǔn)確性對于機器而言尤為重要。將傳統(tǒng)標(biāo)準(zhǔn)準(zhǔn)確地轉(zhuǎn)化為計算機語言文件是當(dāng)前進行科技文檔數(shù)字化的基礎(chǔ)。作為標(biāo)準(zhǔn)數(shù)字化發(fā)展的第一個環(huán)節(jié),機器可識別標(biāo)準(zhǔn)轉(zhuǎn)化的實現(xiàn)可以讓機器準(zhǔn)確的“看見”標(biāo)準(zhǔn),為后續(xù)的標(biāo)準(zhǔn)數(shù)字化發(fā)展奠定數(shù)據(jù)源基礎(chǔ)。

1 關(guān)鍵技術(shù)路線

機器可識別標(biāo)準(zhǔn)轉(zhuǎn)化是標(biāo)準(zhǔn)所定義的規(guī)則與特性,能直接被機器所執(zhí)行的前提以及標(biāo)準(zhǔn)信息查詢、統(tǒng)計、交換、處理、統(tǒng)一管理的基礎(chǔ)。該階段需要利用相關(guān)數(shù)字化技術(shù)和工具,對標(biāo)準(zhǔn)進行加工、處理、解析、標(biāo)注和關(guān)聯(lián)等。該階段的主要技術(shù)路線為先將傳統(tǒng)標(biāo)準(zhǔn)文本進行數(shù)字化處理,形成標(biāo)準(zhǔn)原始數(shù)據(jù),基于原始數(shù)據(jù)進行分析標(biāo)注。采用自下而上的知識體系構(gòu)建模型進行數(shù)據(jù)處理,最后再進行該階段的綜合應(yīng)用,其實現(xiàn)原理結(jié)構(gòu)如圖1所示。

現(xiàn)有的標(biāo)準(zhǔn)以開放的標(biāo)準(zhǔn)數(shù)字文檔存在,PDF是主要的存在形式,一般來說,常見的標(biāo)準(zhǔn)PDF文檔有兩種:原生的PDF文檔,是文本文件生成的PDF文檔,這種文檔一般來說都可以直接復(fù)制文本;圖片轉(zhuǎn)PDF文檔,掃描件就是其中一種,復(fù)制文本需先進行OCR圖文識別才可復(fù)制。對于獲取的標(biāo)準(zhǔn)原始文件,首先需將標(biāo)準(zhǔn)掃描為圖像資料,且掃描分辨率要求為300dpi以上,并且將掃描好的標(biāo)準(zhǔn)圖片進行存檔,并依次按順序通過OCR識別,利用本身功能自動分析表格和文字,完成傳統(tǒng)標(biāo)準(zhǔn)的預(yù)處理,將圖像PDF標(biāo)準(zhǔn)統(tǒng)一轉(zhuǎn)化為可選中可編輯的雙層PDF格式[4]。

對雙層PDF標(biāo)準(zhǔn)進行初步結(jié)構(gòu)化處理可借助內(nèi)容特征進行信息抽取,進而實現(xiàn)將完整的標(biāo)準(zhǔn)文本離散為標(biāo)準(zhǔn)數(shù)據(jù)模塊。標(biāo)準(zhǔn)文檔的內(nèi)容具有科技文檔的屬性,主要包含文字、公式、表格和圖片等信息,這些信息構(gòu)成標(biāo)準(zhǔn)文檔的主體部分,也是標(biāo)準(zhǔn)中最小的獨立信息單元。對于雙層PDF中標(biāo)準(zhǔn)內(nèi)容的分析識別可通過信息單元特征確認(rèn)其在標(biāo)準(zhǔn)中的位置分布,其中表格分析需檢測所有的表格線,并組織成單元格結(jié)構(gòu),為之后的還原提供數(shù)據(jù)支撐,而文字和圖片可直接進行分析并識別,最終圖片、表格和文字形成相互對應(yīng)排列的關(guān)系[5]。進一步根據(jù)標(biāo)準(zhǔn)文檔結(jié)構(gòu)中字體、字號等信息確定標(biāo)準(zhǔn)名稱、正文等元數(shù)據(jù),根據(jù)位置信息,并結(jié)合少量的人工干預(yù)進行正文拼接、正文與標(biāo)題關(guān)聯(lián)等成文操作,從而使得整個版面上的標(biāo)準(zhǔn)行文能較快重新構(gòu)建,同時可以自動獲取到該標(biāo)準(zhǔn)所在的版面區(qū)域、標(biāo)準(zhǔn)文檔框架和標(biāo)題的字體、字號等標(biāo)引信息,解決了標(biāo)準(zhǔn)重新構(gòu)建過程費時費力或者效果不理想的問題。

基于上述路線,需要特別關(guān)注由于標(biāo)準(zhǔn)文本PDF文件里的文本往往缺少對于行、段落等結(jié)構(gòu)的描述,所以要根據(jù)一些文本語義特征和規(guī)則,通過文檔結(jié)構(gòu)識別來完成這項“組合”的工作。通過相應(yīng)的函數(shù)處理,每頁內(nèi)的文本結(jié)構(gòu)會以一個樹形結(jié)構(gòu)保存下來。采用的標(biāo)準(zhǔn)文檔結(jié)構(gòu)識別框架如圖2所示。結(jié)合內(nèi)容和標(biāo)準(zhǔn)格式的特征,對標(biāo)準(zhǔn)文本各部分的屬性和位置進行標(biāo)注,可實現(xiàn)對表格、文字和圖片分析識別的結(jié)果進行組織和導(dǎo)出,按照原始表格模式進行原版書格式還原。

2 保障措施

基于當(dāng)前現(xiàn)狀,將傳統(tǒng)紙質(zhì)標(biāo)準(zhǔn)轉(zhuǎn)化為機器可識別標(biāo)準(zhǔn)是一項系統(tǒng)工程,需要從組織和人員兩個方面進行過程保障,進而加強技術(shù)協(xié)調(diào)和實施,為下一步機器可執(zhí)行標(biāo)準(zhǔn)的形成奠定科學(xué)穩(wěn)定的基礎(chǔ)。

(1)加強組織領(lǐng)導(dǎo)。建立貼合數(shù)字化標(biāo)準(zhǔn)的新型管理協(xié)調(diào)機制,形成職責(zé)明確、協(xié)同推進的工作格局。標(biāo)準(zhǔn)數(shù)字化的推進需國標(biāo)委等各級平臺的共同配合,共同組織實施標(biāo)準(zhǔn)編制過程的轉(zhuǎn)型升級。

(2)拓寬新型標(biāo)準(zhǔn)使用渠道。機器可識別標(biāo)準(zhǔn)相較傳統(tǒng)的非結(jié)構(gòu)化標(biāo)準(zhǔn)進行了知識的碎片化處理,標(biāo)準(zhǔn)技術(shù)內(nèi)容的指向性提高,為各種應(yīng)用場景的智能對接提供可能,拓寬了機器可識別標(biāo)準(zhǔn)的使用渠道,為下一步機器可執(zhí)行標(biāo)準(zhǔn)的實現(xiàn)奠定基礎(chǔ),為未來生產(chǎn)應(yīng)用的對接提供條件。

(3)強化監(jiān)督管理。積極推進機器可識別標(biāo)準(zhǔn)相關(guān)規(guī)定的確定,構(gòu)建完善的新型標(biāo)準(zhǔn)全周期管理體系,充分結(jié)合新型標(biāo)準(zhǔn)的使用情況,提高標(biāo)準(zhǔn)的質(zhì)量。

(4)完善技術(shù)人員配置。機器可識別標(biāo)準(zhǔn)管理工作要求建立機構(gòu)配備具有相應(yīng)標(biāo)準(zhǔn)化經(jīng)驗和相關(guān)技術(shù)的工作人員,對機器可識別標(biāo)準(zhǔn)工作進行技術(shù)保障、安全保障、監(jiān)督檢查和長期保存等,對已有紙質(zhì)標(biāo)準(zhǔn)進行機器可識別轉(zhuǎn)化環(huán)節(jié)全過程有效控制。

3 結(jié) 語

本文以實現(xiàn)機器可識別標(biāo)準(zhǔn)轉(zhuǎn)化為基礎(chǔ),結(jié)合標(biāo)準(zhǔn)內(nèi)容,確定各要素涉及的知識數(shù)據(jù),構(gòu)建層次分明、結(jié)構(gòu)合理、可擴展性高的機器可識別標(biāo)準(zhǔn)轉(zhuǎn)化技術(shù)模型體系。然后,通過數(shù)字化技術(shù)實現(xiàn)從標(biāo)準(zhǔn)文本中提取多模態(tài)標(biāo)準(zhǔn)知識實體。針對不同的信息單元,建立具有特異性的分析識別方法。

機器可識別標(biāo)準(zhǔn)在未來有助于改變標(biāo)準(zhǔn)的檢索方式。隨著標(biāo)準(zhǔn)信息化的發(fā)展,標(biāo)準(zhǔn)應(yīng)用的領(lǐng)域和深度日益增加,單一的標(biāo)準(zhǔn)題錄檢索和卡片式管理模式已不適應(yīng)新型標(biāo)準(zhǔn)檢索需求,需要能夠提供更加快捷、更加精確的檢索模式來實現(xiàn)對標(biāo)準(zhǔn)內(nèi)容的精準(zhǔn)檢索。基于機器可識別標(biāo)準(zhǔn)的應(yīng)用,計算機對標(biāo)準(zhǔn)可進行信息化管理與查詢,逐步實現(xiàn)了標(biāo)準(zhǔn)紙質(zhì)文檔向標(biāo)準(zhǔn)電子文檔的轉(zhuǎn)變,提高了標(biāo)準(zhǔn)檢索的效率,加快了標(biāo)準(zhǔn)信息傳遞及信息共享的速度,使標(biāo)準(zhǔn)的應(yīng)用、管理更加高效,同時實現(xiàn)對標(biāo)準(zhǔn)的動態(tài)跟蹤,進一步增強了標(biāo)準(zhǔn)信息的及時性、準(zhǔn)確性[6]。

參考文獻(xiàn)

[1]李倩,田雪.數(shù)字化轉(zhuǎn)型背景下企業(yè)產(chǎn)業(yè)鏈現(xiàn)代化水平提升路徑研究[J].商場現(xiàn)代化,2024(1):103-105.

[2]米愛娟,楊曉玲, 竇玲.淺析標(biāo)準(zhǔn)的重要性[ J ] .中國纖檢,2009(2):41.

[3]汪爍,盧鐵林,尚羽佳.機器可讀標(biāo)準(zhǔn)——標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型的核心[J].標(biāo)準(zhǔn)科學(xué),2021(S1):6-16.

[4]王珂,楊芳,姜彬.光學(xué)字符識別綜述[J].計算機應(yīng)用研究,2020,37(S2):22-24.

[5]馮亞南.基于深度學(xué)習(xí)的光學(xué)字符識別技術(shù)研究[D].南京:南京郵電大學(xué),2020.

[6]曹永生.標(biāo)準(zhǔn)數(shù)字化系統(tǒng)的構(gòu)建與實現(xiàn)[J ].中國標(biāo)準(zhǔn)化,2016(8):62-66.

作者簡介

陳心怡,通信作者,工程師,主要研究方向為標(biāo)準(zhǔn)數(shù)字化。

(責(zé)任編輯:袁文靜)

猜你喜歡
標(biāo)準(zhǔn)
2022 年3 月實施的工程建設(shè)標(biāo)準(zhǔn)
忠誠的標(biāo)準(zhǔn)
標(biāo)準(zhǔn)匯編
上海建材(2019年1期)2019-04-25 06:30:48
美還是丑?
你可能還在被不靠譜的對比度標(biāo)準(zhǔn)忽悠
一家之言:新標(biāo)準(zhǔn)將解決快遞業(yè)“成長中的煩惱”
專用汽車(2016年4期)2016-03-01 04:13:43
2015年9月新到標(biāo)準(zhǔn)清單
標(biāo)準(zhǔn)觀察
標(biāo)準(zhǔn)觀察
標(biāo)準(zhǔn)觀察
主站蜘蛛池模板: 在线免费看片a| 色成人亚洲| 中文字幕佐山爱一区二区免费| 亚洲一级无毛片无码在线免费视频| 亚洲中文字幕久久精品无码一区| 国产成人三级| 国产成人精品一区二区三区| 亚洲欧美成人影院| 精品午夜国产福利观看| 国产精品女主播| 国产精品中文免费福利| 亚洲日韩久久综合中文字幕| 成人亚洲天堂| 被公侵犯人妻少妇一区二区三区| 亚洲精品你懂的| 亚洲日本精品一区二区| 91精品综合| 日韩a在线观看免费观看| 激情综合网址| 热热久久狠狠偷偷色男同| 久草视频中文| 亚洲精品桃花岛av在线| 亚洲综合激情另类专区| 亚洲精品少妇熟女| 亚洲女同一区二区| 99热这里只有精品国产99| 亚洲第一国产综合| 亚洲精品国产乱码不卡| 亚洲欧美h| 精品无码人妻一区二区| 在线播放精品一区二区啪视频| 高清大学生毛片一级| 波多野结衣视频网站| 亚洲av无码片一区二区三区| 精品国产香蕉在线播出| a免费毛片在线播放| 午夜激情婷婷| 很黄的网站在线观看| 国产a在视频线精品视频下载| 热久久这里是精品6免费观看| 日韩美毛片| 欧美精品v欧洲精品| 国产极品美女在线播放| 久久综合色播五月男人的天堂| 国产美女在线观看| 99久久精品免费看国产免费软件 | 免费观看国产小粉嫩喷水| 国产欧美日韩综合在线第一| 精品无码国产自产野外拍在线| 日韩a级毛片| 欧美一级视频免费| 国产精品亚洲一区二区三区在线观看| 日本91视频| 亚洲天堂视频在线播放| 亚洲视频在线观看免费视频| 日韩第九页| 亚洲精品国偷自产在线91正片| 国产男人天堂| 精品夜恋影院亚洲欧洲| 国产女人在线| 日韩国产精品无码一区二区三区| 国产日韩欧美视频| 国产精品毛片一区视频播| 日韩高清欧美| 久久精品人人做人人爽97| 久热中文字幕在线| 欧美色99| 91成人试看福利体验区| 91偷拍一区| 狠狠五月天中文字幕| 欧美亚洲另类在线观看| 国产丝袜无码精品| 麻豆国产在线观看一区二区 | 成人一级黄色毛片| 欧美日韩国产高清一区二区三区| 丁香婷婷综合激情| 欧美国产综合视频| 91久久国产综合精品女同我| 国内精品视频| 亚洲日韩高清无码| 色婷婷综合激情视频免费看| 日本一本在线视频|