999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

標準電子文件轉XML校驗方法

2024-12-31 00:00:00王海虹楊萌張勁松譚笑羅小強
中國標準化 2024年16期

摘 要:本研究關注于標準電子文件轉換為XML格式的校驗方法,目的是確保轉換過程中內容的準確性和一致性。涉及455個國家標準、企業標準和行業標準的PDF文件,轉換為Word后再編程為機器可讀的XML格式。研究應對轉換中出現的內容錯亂、標簽錯誤等問題,強調校驗的重要性。采用IntelliJ IDEA、Notepad++和Acrobat Adobe等工具,在初驗、復驗和終驗三個階段執行校驗。通過建立嚴格的校驗標準和檢查表,本研究將XML內容錯誤率控制在萬分之五以下,有效支持標準文件的數字化轉型。

關鍵詞:標準行業,標準電子文件轉換,XML格式校驗,機器可讀標準

DOI編碼:10.3969/j.issn.1002-5944.2024.16.006

0 引 言

隨著數字化轉型的深入,將標準電子文件有效轉換為XML格式并確保其機器可讀性成為一項關鍵任務。XML校驗研究解決轉換過程中出現的內容錯亂、標簽錯誤等問題,強調準確性校驗的重要性。本研究涵蓋455個標準文件的轉換工作涉及復雜的編程和準確的校驗過程。通過一系列細致的校驗步驟,確保了轉換后XML文件的高度準確性和機器可讀性。

1 研究背景

XML校驗研究旨在探索和發展一種方法或技術,以驗證是標準電子文件在轉換為XML格式時的準確性和一致性。在本次分析研究中,主要針對于國家標準、企業標準、行業標準三種標準類型,合計455個PDF文件,轉化成為的455個Word文件后,通過程序轉換成機器可讀的XML文件,共25,052頁標準進行XML校驗的研究分析。

1.1 標準電子文件機器可讀應用

2021年10月發布的《國家標準化發展綱要》[1]明確要求,發展機器可讀標準,推動標準化工作向數字化、網絡化、智能化轉型。利用HTML、XML、JSON等文件結構化描述語言對現有標準內容進行重構或編寫,可以實現標準內容的結構化,實現標準的機器可讀[2]。目前各標準化組織最廣泛使用的是基于XML格式的標準[3]。

1.2 轉換過程中潛在的問題

在將標準電子文件轉換為XML格式的過程中,可能會遇到多種問題,如內容錯亂、標簽錯誤、標簽丟失、標簽內容錯誤等。這些問題可能會導致XML文件與原版PDF內容的不一致性和錯誤,從而大大降低標準文件的機器可讀性和可用性。

1.3 校驗的重要性

針對上述的轉換過程中存在的一些潛在的問題,對于重要的標準文件,確保轉換后的文件與原始文件一致非常重要。校驗過程可以幫助發現潛在的問題和錯誤,并提供修復或改進的機會,從而提高文件轉換的質量和準確性,并保障校驗后的XML內容的錯誤率在萬分之五以內。

2 校驗過程

校驗過程是為了驗證轉換后的XML文件與原始文件的一致性和準確性。本次研究在將標準的電子文件轉化為XML的過程中,針對于XML文件的準確性校驗主要分為三個步驟,分別為初驗、復驗、終驗。

初驗過程是程序在生成XML時,遇到標簽未閉合、非XML所需標簽、正文序號異常、特殊符號亂碼等問題時,程序會報錯并生成錯誤日志,根據報錯日志修改程序。

復驗過程是人工對程序生成的XML文件進行審核,記錄存在問題,及時修改程序或數據問題,并對修改數據或程序后生成的XML文件進行再次審核。

終驗是對于復驗結果進行抽查驗證的過程,針對復驗后的文件選擇抽查多組標準電子文件樣本,確保抽查出來的樣本具有不同的特征和復雜性水平,以覆蓋潛在的識別問題,是對復驗后XML文件的可讀性和正確性的最終校驗評判。

以此三個環節來對文件的正確性和規范性進行審核并修改,用以保障標準XML文件內容的錯誤率低于萬分之五的標準。

3 校驗方法步驟

3.1 校驗工具選擇

在本次標準電子文件轉XML的校驗研究過程中,主要使用的文件準確性校驗工具如下文所示:

(1)IntelliJ IDEA:IntelliJ在業界被公認為最好的Java開發工具,尤其在智能代碼助手、代碼自動提示、重構、JavaEE支持、各類版本工具(git、svn等)、JUnit、CVS整合、代碼分析、創新的GUI設計等方面的功能可以說是超常的。IDEA所提倡的是智能編碼,是減少程序員的工作,IDEA對所有流行框架的XML文件都支持全提示。

(2)Notepad++:Windows操作系統下的一套文本編輯器(軟件版權許可證: GPL),有完整的中文化接口及支持多國語言編寫的功能(UTF8技術)。

功能比 Windows 中的 Notepad(記事本)強大,除了可以用來制作一般的純文字說明文件,也十分適合編寫計算機程序代碼。Notepad++ 不僅有語法高亮度顯示,也有語法折疊功能,并且支持宏以及擴充基本功能的外掛模組。

(3)Acrobat Adobe:由Adobe公司開發的一款PDF(Portable Document Format,便攜式文檔格式)編輯軟件。可以以PDF格式制作和保存文檔,以便于瀏覽和打印,或使用更高級的功能。PDF 格式的文檔能如實保留原來的面貌和內容,以及字體和圖像。

3.2 初驗校正

通過IntelliJ IDEA開發工具對生成XML的JAVA程序進行初驗校正。在IntelliJ IDEA工具中,對代碼進行自動分析,檢測不符合JAVA規范、預定義規范的,存在風險的代碼,任何不符合規范的都將在頁面中加亮顯示,根據加亮顯示的內容進行初步校對核驗以及修改JAVA程序。

3.3 復驗校正

3.3.1 建立校驗標準

建立校驗標準是確保文件質量和一致性的重要步驟,以下是本次研究中針對轉換的XML文件建立校驗標準的相關內容:校驗目的:

本次校驗標準的目的是為了確保標準電子文件轉XML文件后標準內容的規范性、正確性以及機器可讀性的檢驗。保障轉換后的XML的標簽、正文內容以及文件圖表等的正確性。在標準電子文件的原文本與轉換后的XML文本內容一致性下,保證兩者相參照對比后,識別轉換后的XML文件內容以及標簽的錯誤率在萬分之五以內。

創建校驗清單及檢查表:針對本次研究課題中共455個PDF標準電子文件轉換后的XML文本文件,合計25,052頁內容建立在線文件,進行各標準文件的明細錄入,包含標準類型、名稱、頁數、審核情況、審核日期、審核人、問題清單等字段注明。

邀請在本行業的標準方面專家對于轉換后的XML文本文件進行審查糾改,并提出專業性的修改意見,確保識別后標準的正確性與準確性。并基于這一修改意見對XML程序進行不斷糾改、版本迭代、再進行專家審核,直至形成準確性與一致性以及機器可讀性兼容的標準文件。

3.3.2 校驗標準正文

校驗標準正文字段內容,確保和標準PDF中標準正文內容部分文字順序、換行一致。正文中附錄標題如果有換行需要去掉。校驗正文中標簽內容如表1所示。

3.3.3 校驗公告

校驗公告字段內容,確保和標準PDF中公告正文內容部分文字順序、換行一致。校驗公告正文中標簽內容如表2所示。

3.3.4 校驗條文說明

校驗條文說明字段內容,確保和標準PDF中條文說明正文內容部分文字順序、換行一致。校驗條文說明正文中標簽內容如表3所示。

3.3.5 校驗封皮字段

根據標準PDF封皮校驗如表4所示字段內容。

3.3.6 校驗目次

校驗T A B L E O F C O N T E N T 目次、TABLEOFCONTENTENG英文目錄內容,目次中缺少附錄或參考文獻,但是正文中有附錄或參考文獻的,需要補充目次內容。目次中一行是一個一級標題,若出現一個標題多行的情況需要去掉換行。

3.3.7 校驗前言

校驗FOREWORD前言字段,確保和標準PDF中標準前言內容部分文字順序、換行一致。根據前言內容拆分字段內容如表5所示。

3.3.8 校驗引言

校驗INTRODUCTION引言字段,確保和標準PDF中標準引言內容部分文字順序、換行一致。根據引言內容拆分字段內容如表6所示。

3.4 終驗校正

本次研究采用分層抽樣的抽樣方法,將總體劃分為國家標準、行業標準、企業標準三個模塊,然后從三個模塊中進行等比的隨機抽樣,以確保每個層級的代表性在最終審核的樣本中得到體現。檢驗標準同復驗的檢驗標準。

4 XML文件常見問題

針對XML文件遇到常見問題進行匯總,具體內容如下。

4.1 特殊符號

根據標準PDF內容進行修改,一般需要改成~,\" 需改成 “。如圖1所示。

4.2 正文標題換行錯誤

根據標準PDF內容進行修改,標題序號與標題內容之間的換行需要去掉。如圖2所示。

4.3 多余符號

需要去掉“。”和“II”。如圖3所示。

4.4 術語中文多余展示英文

術語中文標簽內容中需要去掉英文內容。如圖4所示。

4.5 圖名錯誤

圖名標簽內容應該是標準中圖片下方的以“圖+序號”開頭的內容。如圖5所示。

4.6 正文多余內容

需要去掉多余的標簽內容,例如lt;Pgt;B lt;/Pgt;,lt;Pgt; lt;/Pgt;。如圖6所示。

4.7 正文中標準號引用標簽

正文中或者表格中涉及到標準號的需要添加reference引用標簽。如圖7所示。

4.8 標題正文錯位

需要根據標準PDF內容校驗標題和標題對應的正文內容。如圖8所示。

4.9 標題標簽缺失

帶序號的標題需要添加標題標簽。如圖9所示。

4.10 正文中示例標簽

正文中帶有示例的內容需要添加example示例標簽。如圖10所示。

5 記錄和結果分析

根據上述對于標準電子文件轉XML的校驗方法和校驗流程,記錄校驗過程中的結果和發現的問題,并進行分析。如果發現了問題,可以追蹤問題的原因,并采取適當的措施進行修復或改進。并通過三位一體的審查體系,最終保障轉換后的XML文件的準確性和與原PDF文件的內容一致性標準,確保了上述校驗標準的PDF電子文件轉換為XML文件后錯誤率在萬分之五以內。

參考文獻

[1]國家標準化發展綱要[J].大眾標準化,2023(10):200.

[2]陳家賓,趙鑫,王琮,等.機器可讀標準表達方式探討[J].信息技術與標準化,2022(10):43-46.

[6]陳雙玲,宋青霞.為何文本文件歸檔推薦采用XML格式[C]//山東省檔案學會.齊魯檔案論壇——山東省檔案學會2009年學術年會會刊.濟鋼集團有限公司辦公室,2009:5.

作者簡介

王海虹,碩士研究生,教授級高工,從事標準研究工作。

楊萌,碩士研究生,教授級高工,從事產品質量檢驗及標準化研究工作。

張勁松,本科,高級工程師,從事標準化工作。

譚笑,碩士研究生,高級工程師,從事標準研究工作。

羅小強,本科,中級職稱(應急工程),從事應急救援工作。

(責任編輯:張瑞洋)

主站蜘蛛池模板: 精品人妻系列无码专区久久| 女人一级毛片| 久久黄色影院| 亚洲av色吊丝无码| 秋霞午夜国产精品成人片| 国产电话自拍伊人| 91精品国产福利| 最新日本中文字幕| 精品1区2区3区| 亚洲日韩每日更新| 国产午夜精品一区二区三| 亚洲成人在线免费| 久久久国产精品无码专区| 国产99在线| 91亚洲影院| 欧美一区二区啪啪| 中国国产高清免费AV片| 91午夜福利在线观看| 国产精品私拍在线爆乳| 毛片大全免费观看| 国产一级做美女做受视频| 91九色国产porny| 国产福利小视频高清在线观看| 极品国产在线| 亚洲三级网站| 国产精品久久国产精麻豆99网站| 国产在线观看91精品亚瑟| 精品国产91爱| 日本一本在线视频| 中文字幕亚洲综久久2021| 热伊人99re久久精品最新地| 97国产精品视频自在拍| 国产农村精品一级毛片视频| 国产午夜不卡| 欧美综合一区二区三区| 呦女亚洲一区精品| 国产精品福利社| 成人日韩欧美| 中文字幕在线不卡视频| 亚洲区一区| 日韩毛片免费| 天堂在线视频精品| 性视频久久| 亚洲成人动漫在线| 美美女高清毛片视频免费观看| 99精品免费欧美成人小视频| 久久亚洲欧美综合| 97超级碰碰碰碰精品| 婷婷午夜影院| 人人艹人人爽| 国产激情第一页| 亚洲天堂成人| 欧美日韩国产在线观看一区二区三区 | 成年片色大黄全免费网站久久| 亚亚洲乱码一二三四区| 久久免费精品琪琪| www亚洲天堂| 国产人人乐人人爱| 欧美激情伊人| 国产香蕉一区二区在线网站| 亚洲不卡网| 欧美精品导航| 国模粉嫩小泬视频在线观看| 日本欧美在线观看| 亚洲a级毛片| 99精品高清在线播放| 特级aaaaaaaaa毛片免费视频| 日本欧美成人免费| 国产一区二区三区日韩精品| 一本大道香蕉久中文在线播放 | 狠狠色丁香婷婷| 日韩毛片在线播放| 综合网天天| 亚洲精品国产日韩无码AV永久免费网| 亚洲欧美精品一中文字幕| 国产丝袜无码精品| 亚洲丝袜中文字幕| 亚洲香蕉久久| 狠狠综合久久| 亚洲三级电影在线播放| 男女男精品视频| 中国一级毛片免费观看|