999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

標準電子文件轉XML校驗方法

2024-12-31 00:00:00王海虹楊萌張勁松譚笑羅小強
中國標準化 2024年16期

摘 要:本研究關注于標準電子文件轉換為XML格式的校驗方法,目的是確保轉換過程中內容的準確性和一致性。涉及455個國家標準、企業標準和行業標準的PDF文件,轉換為Word后再編程為機器可讀的XML格式。研究應對轉換中出現的內容錯亂、標簽錯誤等問題,強調校驗的重要性。采用IntelliJ IDEA、Notepad++和Acrobat Adobe等工具,在初驗、復驗和終驗三個階段執行校驗。通過建立嚴格的校驗標準和檢查表,本研究將XML內容錯誤率控制在萬分之五以下,有效支持標準文件的數字化轉型。

關鍵詞:標準行業,標準電子文件轉換,XML格式校驗,機器可讀標準

DOI編碼:10.3969/j.issn.1002-5944.2024.16.006

0 引 言

隨著數字化轉型的深入,將標準電子文件有效轉換為XML格式并確保其機器可讀性成為一項關鍵任務。XML校驗研究解決轉換過程中出現的內容錯亂、標簽錯誤等問題,強調準確性校驗的重要性。本研究涵蓋455個標準文件的轉換工作涉及復雜的編程和準確的校驗過程。通過一系列細致的校驗步驟,確保了轉換后XML文件的高度準確性和機器可讀性。

1 研究背景

XML校驗研究旨在探索和發展一種方法或技術,以驗證是標準電子文件在轉換為XML格式時的準確性和一致性。在本次分析研究中,主要針對于國家標準、企業標準、行業標準三種標準類型,合計455個PDF文件,轉化成為的455個Word文件后,通過程序轉換成機器可讀的XML文件,共25,052頁標準進行XML校驗的研究分析。

1.1 標準電子文件機器可讀應用

2021年10月發布的《國家標準化發展綱要》[1]明確要求,發展機器可讀標準,推動標準化工作向數字化、網絡化、智能化轉型。利用HTML、XML、JSON等文件結構化描述語言對現有標準內容進行重構或編寫,可以實現標準內容的結構化,實現標準的機器可讀[2]。目前各標準化組織最廣泛使用的是基于XML格式的標準[3]。

1.2 轉換過程中潛在的問題

在將標準電子文件轉換為XML格式的過程中,可能會遇到多種問題,如內容錯亂、標簽錯誤、標簽丟失、標簽內容錯誤等。這些問題可能會導致XML文件與原版PDF內容的不一致性和錯誤,從而大大降低標準文件的機器可讀性和可用性。

1.3 校驗的重要性

針對上述的轉換過程中存在的一些潛在的問題,對于重要的標準文件,確保轉換后的文件與原始文件一致非常重要。校驗過程可以幫助發現潛在的問題和錯誤,并提供修復或改進的機會,從而提高文件轉換的質量和準確性,并保障校驗后的XML內容的錯誤率在萬分之五以內。

2 校驗過程

校驗過程是為了驗證轉換后的XML文件與原始文件的一致性和準確性。本次研究在將標準的電子文件轉化為XML的過程中,針對于XML文件的準確性校驗主要分為三個步驟,分別為初驗、復驗、終驗。

初驗過程是程序在生成XML時,遇到標簽未閉合、非XML所需標簽、正文序號異常、特殊符號亂碼等問題時,程序會報錯并生成錯誤日志,根據報錯日志修改程序。

復驗過程是人工對程序生成的XML文件進行審核,記錄存在問題,及時修改程序或數據問題,并對修改數據或程序后生成的XML文件進行再次審核。

終驗是對于復驗結果進行抽查驗證的過程,針對復驗后的文件選擇抽查多組標準電子文件樣本,確保抽查出來的樣本具有不同的特征和復雜性水平,以覆蓋潛在的識別問題,是對復驗后XML文件的可讀性和正確性的最終校驗評判。

以此三個環節來對文件的正確性和規范性進行審核并修改,用以保障標準XML文件內容的錯誤率低于萬分之五的標準。

3 校驗方法步驟

3.1 校驗工具選擇

在本次標準電子文件轉XML的校驗研究過程中,主要使用的文件準確性校驗工具如下文所示:

(1)IntelliJ IDEA:IntelliJ在業界被公認為最好的Java開發工具,尤其在智能代碼助手、代碼自動提示、重構、JavaEE支持、各類版本工具(git、svn等)、JUnit、CVS整合、代碼分析、創新的GUI設計等方面的功能可以說是超常的。IDEA所提倡的是智能編碼,是減少程序員的工作,IDEA對所有流行框架的XML文件都支持全提示。

(2)Notepad++:Windows操作系統下的一套文本編輯器(軟件版權許可證: GPL),有完整的中文化接口及支持多國語言編寫的功能(UTF8技術)。

功能比 Windows 中的 Notepad(記事本)強大,除了可以用來制作一般的純文字說明文件,也十分適合編寫計算機程序代碼。Notepad++ 不僅有語法高亮度顯示,也有語法折疊功能,并且支持宏以及擴充基本功能的外掛模組。

(3)Acrobat Adobe:由Adobe公司開發的一款PDF(Portable Document Format,便攜式文檔格式)編輯軟件。可以以PDF格式制作和保存文檔,以便于瀏覽和打印,或使用更高級的功能。PDF 格式的文檔能如實保留原來的面貌和內容,以及字體和圖像。

3.2 初驗校正

通過IntelliJ IDEA開發工具對生成XML的JAVA程序進行初驗校正。在IntelliJ IDEA工具中,對代碼進行自動分析,檢測不符合JAVA規范、預定義規范的,存在風險的代碼,任何不符合規范的都將在頁面中加亮顯示,根據加亮顯示的內容進行初步校對核驗以及修改JAVA程序。

3.3 復驗校正

3.3.1 建立校驗標準

建立校驗標準是確保文件質量和一致性的重要步驟,以下是本次研究中針對轉換的XML文件建立校驗標準的相關內容:校驗目的:

本次校驗標準的目的是為了確保標準電子文件轉XML文件后標準內容的規范性、正確性以及機器可讀性的檢驗。保障轉換后的XML的標簽、正文內容以及文件圖表等的正確性。在標準電子文件的原文本與轉換后的XML文本內容一致性下,保證兩者相參照對比后,識別轉換后的XML文件內容以及標簽的錯誤率在萬分之五以內。

創建校驗清單及檢查表:針對本次研究課題中共455個PDF標準電子文件轉換后的XML文本文件,合計25,052頁內容建立在線文件,進行各標準文件的明細錄入,包含標準類型、名稱、頁數、審核情況、審核日期、審核人、問題清單等字段注明。

邀請在本行業的標準方面專家對于轉換后的XML文本文件進行審查糾改,并提出專業性的修改意見,確保識別后標準的正確性與準確性。并基于這一修改意見對XML程序進行不斷糾改、版本迭代、再進行專家審核,直至形成準確性與一致性以及機器可讀性兼容的標準文件。

3.3.2 校驗標準正文

校驗標準正文字段內容,確保和標準PDF中標準正文內容部分文字順序、換行一致。正文中附錄標題如果有換行需要去掉。校驗正文中標簽內容如表1所示。

3.3.3 校驗公告

校驗公告字段內容,確保和標準PDF中公告正文內容部分文字順序、換行一致。校驗公告正文中標簽內容如表2所示。

3.3.4 校驗條文說明

校驗條文說明字段內容,確保和標準PDF中條文說明正文內容部分文字順序、換行一致。校驗條文說明正文中標簽內容如表3所示。

3.3.5 校驗封皮字段

根據標準PDF封皮校驗如表4所示字段內容。

3.3.6 校驗目次

校驗T A B L E O F C O N T E N T 目次、TABLEOFCONTENTENG英文目錄內容,目次中缺少附錄或參考文獻,但是正文中有附錄或參考文獻的,需要補充目次內容。目次中一行是一個一級標題,若出現一個標題多行的情況需要去掉換行。

3.3.7 校驗前言

校驗FOREWORD前言字段,確保和標準PDF中標準前言內容部分文字順序、換行一致。根據前言內容拆分字段內容如表5所示。

3.3.8 校驗引言

校驗INTRODUCTION引言字段,確保和標準PDF中標準引言內容部分文字順序、換行一致。根據引言內容拆分字段內容如表6所示。

3.4 終驗校正

本次研究采用分層抽樣的抽樣方法,將總體劃分為國家標準、行業標準、企業標準三個模塊,然后從三個模塊中進行等比的隨機抽樣,以確保每個層級的代表性在最終審核的樣本中得到體現。檢驗標準同復驗的檢驗標準。

4 XML文件常見問題

針對XML文件遇到常見問題進行匯總,具體內容如下。

4.1 特殊符號

根據標準PDF內容進行修改,一般需要改成~,\" 需改成 “。如圖1所示。

4.2 正文標題換行錯誤

根據標準PDF內容進行修改,標題序號與標題內容之間的換行需要去掉。如圖2所示。

4.3 多余符號

需要去掉“。”和“II”。如圖3所示。

4.4 術語中文多余展示英文

術語中文標簽內容中需要去掉英文內容。如圖4所示。

4.5 圖名錯誤

圖名標簽內容應該是標準中圖片下方的以“圖+序號”開頭的內容。如圖5所示。

4.6 正文多余內容

需要去掉多余的標簽內容,例如lt;Pgt;B lt;/Pgt;,lt;Pgt; lt;/Pgt;。如圖6所示。

4.7 正文中標準號引用標簽

正文中或者表格中涉及到標準號的需要添加reference引用標簽。如圖7所示。

4.8 標題正文錯位

需要根據標準PDF內容校驗標題和標題對應的正文內容。如圖8所示。

4.9 標題標簽缺失

帶序號的標題需要添加標題標簽。如圖9所示。

4.10 正文中示例標簽

正文中帶有示例的內容需要添加example示例標簽。如圖10所示。

5 記錄和結果分析

根據上述對于標準電子文件轉XML的校驗方法和校驗流程,記錄校驗過程中的結果和發現的問題,并進行分析。如果發現了問題,可以追蹤問題的原因,并采取適當的措施進行修復或改進。并通過三位一體的審查體系,最終保障轉換后的XML文件的準確性和與原PDF文件的內容一致性標準,確保了上述校驗標準的PDF電子文件轉換為XML文件后錯誤率在萬分之五以內。

參考文獻

[1]國家標準化發展綱要[J].大眾標準化,2023(10):200.

[2]陳家賓,趙鑫,王琮,等.機器可讀標準表達方式探討[J].信息技術與標準化,2022(10):43-46.

[6]陳雙玲,宋青霞.為何文本文件歸檔推薦采用XML格式[C]//山東省檔案學會.齊魯檔案論壇——山東省檔案學會2009年學術年會會刊.濟鋼集團有限公司辦公室,2009:5.

作者簡介

王海虹,碩士研究生,教授級高工,從事標準研究工作。

楊萌,碩士研究生,教授級高工,從事產品質量檢驗及標準化研究工作。

張勁松,本科,高級工程師,從事標準化工作。

譚笑,碩士研究生,高級工程師,從事標準研究工作。

羅小強,本科,中級職稱(應急工程),從事應急救援工作。

(責任編輯:張瑞洋)

主站蜘蛛池模板: 午夜少妇精品视频小电影| 欧美日韩午夜| 亚洲综合极品香蕉久久网| 五月天综合婷婷| 国语少妇高潮| 欧美国产日韩另类| 国产91麻豆免费观看| 亚洲人成网址| 18禁高潮出水呻吟娇喘蜜芽| 91视频99| 国产丝袜第一页| 免费Aⅴ片在线观看蜜芽Tⅴ | 中国精品自拍| 欧美.成人.综合在线| 国产天天射| 国产69精品久久久久妇女| 3344在线观看无码| 亚洲视频一区在线| 色婷婷色丁香| 色综合成人| 亚洲熟女中文字幕男人总站| 日韩中文无码av超清 | 熟妇丰满人妻| 99无码中文字幕视频| 精品久久久久久久久久久| 久久国产高清视频| 成人国产精品一级毛片天堂| 久久综合九九亚洲一区| 中文国产成人久久精品小说| 99久视频| 欧美成人区| 欧美19综合中文字幕| 亚洲欧洲日韩久久狠狠爱 | 女人18毛片水真多国产| 亚洲欧美国产视频| 99热这里只有精品久久免费| 性喷潮久久久久久久久| 无码AV动漫| 国内99精品激情视频精品| 国产亚洲精品自在久久不卡| 996免费视频国产在线播放| 老司机久久99久久精品播放| 日本www色视频| 爆乳熟妇一区二区三区| 亚洲一区二区成人| 国模私拍一区二区| 国产成人综合网在线观看| 亚洲天堂2014| 在线观看国产精品日本不卡网| www.亚洲色图.com| 国产丝袜丝视频在线观看| 麻豆国产精品一二三在线观看| 亚洲一区二区无码视频| 国产精品自在线天天看片| 伊人色天堂| 狠狠色香婷婷久久亚洲精品| 午夜视频日本| 国产一级视频久久| 国产永久在线视频| 国产精品视频猛进猛出| 99久久精品免费看国产免费软件| 亚洲天堂免费在线视频| 乱系列中文字幕在线视频| 欧美精品v欧洲精品| 国产精品区网红主播在线观看| 国产污视频在线观看| 亚洲精品第一页不卡| 午夜小视频在线| 成人欧美在线观看| 99久久免费精品特色大片| 婷婷六月在线| 国产嫩草在线观看| 免费激情网站| 国产成人毛片| 国产精品天干天干在线观看| 麻豆精品久久久久久久99蜜桃| 亚洲无码A视频在线| 亚洲综合日韩精品| 四虎成人免费毛片| 欧美成一级| 亚洲AV成人一区国产精品| 国产91透明丝袜美腿在线|