摘 要:本研究關注于標準電子文件轉換為XML格式的校驗方法,目的是確保轉換過程中內容的準確性和一致性。涉及455個國家標準、企業標準和行業標準的PDF文件,轉換為Word后再編程為機器可讀的XML格式。研究應對轉換中出現的內容錯亂、標簽錯誤等問題,強調校驗的重要性。采用IntelliJ IDEA、Notepad++和Acrobat Adobe等工具,在初驗、復驗和終驗三個階段執行校驗。通過建立嚴格的校驗標準和檢查表,本研究將XML內容錯誤率控制在萬分之五以下,有效支持標準文件的數字化轉型。
關鍵詞:標準行業,標準電子文件轉換,XML格式校驗,機器可讀標準
DOI編碼:10.3969/j.issn.1002-5944.2024.16.006
0 引 言
隨著數字化轉型的深入,將標準電子文件有效轉換為XML格式并確保其機器可讀性成為一項關鍵任務。XML校驗研究解決轉換過程中出現的內容錯亂、標簽錯誤等問題,強調準確性校驗的重要性。本研究涵蓋455個標準文件的轉換工作涉及復雜的編程和準確的校驗過程。通過一系列細致的校驗步驟,確保了轉換后XML文件的高度準確性和機器可讀性。
1 研究背景
XML校驗研究旨在探索和發展一種方法或技術,以驗證是標準電子文件在轉換為XML格式時的準確性和一致性。在本次分析研究中,主要針對于國家標準、企業標準、行業標準三種標準類型,合計455個PDF文件,轉化成為的455個Word文件后,通過程序轉換成機器可讀的XML文件,共25,052頁標準進行XML校驗的研究分析。
1.1 標準電子文件機器可讀應用
2021年10月發布的《國家標準化發展綱要》[1]明確要求,發展機器可讀標準,推動標準化工作向數字化、網絡化、智能化轉型。利用HTML、XML、JSON等文件結構化描述語言對現有標準內容進行重構或編寫,可以實現標準內容的結構化,實現標準的機器可讀[2]。目前各標準化組織最廣泛使用的是基于XML格式的標準[3]。
1.2 轉換過程中潛在的問題
在將標準電子文件轉換為XML格式的過程中,可能會遇到多種問題,如內容錯亂、標簽錯誤、標簽丟失、標簽內容錯誤等。這些問題可能會導致XML文件與原版PDF內容的不一致性和錯誤,從而大大降低標準文件的機器可讀性和可用性。
1.3 校驗的重要性
針對上述的轉換過程中存在的一些潛在的問題,對于重要的標準文件,確保轉換后的文件與原始文件一致非常重要。校驗過程可以幫助發現潛在的問題和錯誤,并提供修復或改進的機會,從而提高文件轉換的質量和準確性,并保障校驗后的XML內容的錯誤率在萬分之五以內。
2 校驗過程
校驗過程是為了驗證轉換后的XML文件與原始文件的一致性和準確性。本次研究在將標準的電子文件轉化為XML的過程中,針對于XML文件的準確性校驗主要分為三個步驟,分別為初驗、復驗、終驗。
初驗過程是程序在生成XML時,遇到標簽未閉合、非XML所需標簽、正文序號異常、特殊符號亂碼等問題時,程序會報錯并生成錯誤日志,根據報錯日志修改程序。
復驗過程是人工對程序生成的XML文件進行審核,記錄存在問題,及時修改程序或數據問題,并對修改數據或程序后生成的XML文件進行再次審核。
終驗是對于復驗結果進行抽查驗證的過程,針對復驗后的文件選擇抽查多組標準電子文件樣本,確保抽查出來的樣本具有不同的特征和復雜性水平,以覆蓋潛在的識別問題,是對復驗后XML文件的可讀性和正確性的最終校驗評判。
以此三個環節來對文件的正確性和規范性進行審核并修改,用以保障標準XML文件內容的錯誤率低于萬分之五的標準。
3 校驗方法步驟
3.1 校驗工具選擇
在本次標準電子文件轉XML的校驗研究過程中,主要使用的文件準確性校驗工具如下文所示:
(1)IntelliJ IDEA:IntelliJ在業界被公認為最好的Java開發工具,尤其在智能代碼助手、代碼自動提示、重構、JavaEE支持、各類版本工具(git、svn等)、JUnit、CVS整合、代碼分析、創新的GUI設計等方面的功能可以說是超常的。IDEA所提倡的是智能編碼,是減少程序員的工作,IDEA對所有流行框架的XML文件都支持全提示。
(2)Notepad++:Windows操作系統下的一套文本編輯器(軟件版權許可證: GPL),有完整的中文化接口及支持多國語言編寫的功能(UTF8技術)。
功能比 Windows 中的 Notepad(記事本)強大,除了可以用來制作一般的純文字說明文件,也十分適合編寫計算機程序代碼。Notepad++ 不僅有語法高亮度顯示,也有語法折疊功能,并且支持宏以及擴充基本功能的外掛模組。
(3)Acrobat Adobe:由Adobe公司開發的一款PDF(Portable Document Format,便攜式文檔格式)編輯軟件。可以以PDF格式制作和保存文檔,以便于瀏覽和打印,或使用更高級的功能。PDF 格式的文檔能如實保留原來的面貌和內容,以及字體和圖像。
3.2 初驗校正
通過IntelliJ IDEA開發工具對生成XML的JAVA程序進行初驗校正。在IntelliJ IDEA工具中,對代碼進行自動分析,檢測不符合JAVA規范、預定義規范的,存在風險的代碼,任何不符合規范的都將在頁面中加亮顯示,根據加亮顯示的內容進行初步校對核驗以及修改JAVA程序。
3.3 復驗校正
3.3.1 建立校驗標準
建立校驗標準是確保文件質量和一致性的重要步驟,以下是本次研究中針對轉換的XML文件建立校驗標準的相關內容:校驗目的:
本次校驗標準的目的是為了確保標準電子文件轉XML文件后標準內容的規范性、正確性以及機器可讀性的檢驗。保障轉換后的XML的標簽、正文內容以及文件圖表等的正確性。在標準電子文件的原文本與轉換后的XML文本內容一致性下,保證兩者相參照對比后,識別轉換后的XML文件內容以及標簽的錯誤率在萬分之五以內。
創建校驗清單及檢查表:針對本次研究課題中共455個PDF標準電子文件轉換后的XML文本文件,合計25,052頁內容建立在線文件,進行各標準文件的明細錄入,包含標準類型、名稱、頁數、審核情況、審核日期、審核人、問題清單等字段注明。
邀請在本行業的標準方面專家對于轉換后的XML文本文件進行審查糾改,并提出專業性的修改意見,確保識別后標準的正確性與準確性。并基于這一修改意見對XML程序進行不斷糾改、版本迭代、再進行專家審核,直至形成準確性與一致性以及機器可讀性兼容的標準文件。
3.3.2 校驗標準正文
校驗標準正文字段內容,確保和標準PDF中標準正文內容部分文字順序、換行一致。正文中附錄標題如果有換行需要去掉。校驗正文中標簽內容如表1所示。
3.3.3 校驗公告
校驗公告字段內容,確保和標準PDF中公告正文內容部分文字順序、換行一致。校驗公告正文中標簽內容如表2所示。
3.3.4 校驗條文說明
校驗條文說明字段內容,確保和標準PDF中條文說明正文內容部分文字順序、換行一致。校驗條文說明正文中標簽內容如表3所示。
3.3.5 校驗封皮字段
根據標準PDF封皮校驗如表4所示字段內容。
3.3.6 校驗目次
校驗T A B L E O F C O N T E N T 目次、TABLEOFCONTENTENG英文目錄內容,目次中缺少附錄或參考文獻,但是正文中有附錄或參考文獻的,需要補充目次內容。目次中一行是一個一級標題,若出現一個標題多行的情況需要去掉換行。
3.3.7 校驗前言
校驗FOREWORD前言字段,確保和標準PDF中標準前言內容部分文字順序、換行一致。根據前言內容拆分字段內容如表5所示。
3.3.8 校驗引言
校驗INTRODUCTION引言字段,確保和標準PDF中標準引言內容部分文字順序、換行一致。根據引言內容拆分字段內容如表6所示。
3.4 終驗校正
本次研究采用分層抽樣的抽樣方法,將總體劃分為國家標準、行業標準、企業標準三個模塊,然后從三個模塊中進行等比的隨機抽樣,以確保每個層級的代表性在最終審核的樣本中得到體現。檢驗標準同復驗的檢驗標準。
4 XML文件常見問題
針對XML文件遇到常見問題進行匯總,具體內容如下。
4.1 特殊符號
根據標準PDF內容進行修改,一般需要改成~,\" 需改成 “。如圖1所示。
4.2 正文標題換行錯誤
根據標準PDF內容進行修改,標題序號與標題內容之間的換行需要去掉。如圖2所示。
4.3 多余符號
需要去掉“。”和“II”。如圖3所示。
4.4 術語中文多余展示英文
術語中文標簽內容中需要去掉英文內容。如圖4所示。
4.5 圖名錯誤
圖名標簽內容應該是標準中圖片下方的以“圖+序號”開頭的內容。如圖5所示。
4.6 正文多余內容
需要去掉多余的標簽內容,例如lt;Pgt;B lt;/Pgt;,lt;Pgt; lt;/Pgt;。如圖6所示。
4.7 正文中標準號引用標簽
正文中或者表格中涉及到標準號的需要添加reference引用標簽。如圖7所示。
4.8 標題正文錯位
需要根據標準PDF內容校驗標題和標題對應的正文內容。如圖8所示。
4.9 標題標簽缺失
帶序號的標題需要添加標題標簽。如圖9所示。
4.10 正文中示例標簽
正文中帶有示例的內容需要添加example示例標簽。如圖10所示。
5 記錄和結果分析
根據上述對于標準電子文件轉XML的校驗方法和校驗流程,記錄校驗過程中的結果和發現的問題,并進行分析。如果發現了問題,可以追蹤問題的原因,并采取適當的措施進行修復或改進。并通過三位一體的審查體系,最終保障轉換后的XML文件的準確性和與原PDF文件的內容一致性標準,確保了上述校驗標準的PDF電子文件轉換為XML文件后錯誤率在萬分之五以內。
參考文獻
[1]國家標準化發展綱要[J].大眾標準化,2023(10):200.
[2]陳家賓,趙鑫,王琮,等.機器可讀標準表達方式探討[J].信息技術與標準化,2022(10):43-46.
[6]陳雙玲,宋青霞.為何文本文件歸檔推薦采用XML格式[C]//山東省檔案學會.齊魯檔案論壇——山東省檔案學會2009年學術年會會刊.濟鋼集團有限公司辦公室,2009:5.
作者簡介
王海虹,碩士研究生,教授級高工,從事標準研究工作。
楊萌,碩士研究生,教授級高工,從事產品質量檢驗及標準化研究工作。
張勁松,本科,高級工程師,從事標準化工作。
譚笑,碩士研究生,高級工程師,從事標準研究工作。
羅小強,本科,中級職稱(應急工程),從事應急救援工作。
(責任編輯:張瑞洋)