馬小雯 孫紅軍 劉彥林 甘克勤



關鍵詞:標準知識,數字化,通用模型,自動抽取,語義關聯
0 引言
以新一代信息技術為代表的新一輪科技革命和產業變革加速演進,經濟、產業數字化轉型成為時代趨勢。標準作為經濟活動和產業發展的技術支撐,以及國家基礎性制度的重要方面,無論在深度還是在廣度上都即將受到這一趨勢的影響。《國家標準化發展綱要》指出,“發展機器可讀標準、開源標準,推動標準化工作向數字化、網絡化、智能化轉型”。標準數字化轉型已成為新時代我國重點產業發展的戰略任務,對增強我國產業發展安全、參與全球市場競爭具有重要意義。
隨著我國食品與農產品行業的迅速發展, 企業規模不斷增長, 食品與農產品行業的安全形勢比較嚴重, 面臨的挑戰和競爭前所未有, 同時暴露出的安全、健康、環境問題也愈來愈多,在新產品研制面臨的對象、要求的技術條件、新工藝、新技術應用等方面的安全與環保問題日益突出。為進一步加快標準數字化轉型步伐和有效解決食品與農產品領域安全與環保問題,本研究將以食品與農產品領域標準為研究對象開展標準知識數字化表達模型與自動提取技術研究,首先,明確國內外標準化數字化當前研究現狀與問題;其次,通過文獻和實地調研,提出標準知識數字化表達模型;再次,開展標準知識數字化自動提取技術研究,實現對表達模型的知識要素的自動標注和抽取,并據此形成具有語義關聯的標準知識庫;最后,以2000項食品與農產品領域標準為例進行標準知識數字化表達模型與自動提取技術的實證研究,以驗證理論或技術的可行性。
1 國內外研究現狀
有關標準知識數字化表達模型主要集中于以下3個方面。
(1)在圖書文獻領域,越來越多的信息研究機構正在推進語義解析,支持各種細粒度的知識單元關聯與計算,不僅包括段落、表格、人物、機構,還包括知識點、概念等復雜本體關系的構建。并通過XML系列置標語言的描述和標記,與特定領域的各種知識相關聯,支持可計算、可推理的智能檢索與語義知識發現。國外已推出文獻知識表達服務,將傳統以文獻為中心的搜索平臺,轉換為以事件為中心和RDF為基礎的復合語義架構。許多國際信息研究機構已經在語義解析方面進行諸多實踐,卓有成效。數字技術和數字環境在顛覆傳統資源形態的同時,也在全面改造信息資源建設與服務模式。國家科技圖書文獻中心(NSTL)構建科技知識組織體系共享服務系統(STKOS),收錄615,384個概念,2,321,681個術語,應用于NSTL數以億計的外文期刊內容的本體揭示,形成NSTL更具語義特征的知識搜索和關聯體驗。
(2)在商業應用方面,知名醫學數據庫PubMed通過醫學主題詞(MeSH),對自然語言表達的醫學文獻進行規范化處理和標引,表明文章核心內容,實現基于語義樹的引導式搜索。PubMed憑借其語義級別的標引,在醫學領域得到廣泛應用,在知網以PubMed為關鍵詞搜索,可以查到2000余篇論文是基于PubMed產出的科研成果。目前,國內也有一些數字化公司開發產業數字大腦平臺,即按照產業鏈的思路,對某一企業發展的上下游企業、所需人才、技術、資源進行語義化關聯,實現對企業或產業的動態跟蹤和管理。
(3)在標準知識層面,2019 年,I S O / I E C正式提出了一種名為SM A RT(S t a nd a r d s Ma ch i neApplicable, Readable and Transferable)標準數字化的新型標準概念[1-3]。將標準數字化發展劃分為5個階段,包括:“紙質文本(階段0)”“開放數據格式(階段1)”“機器可讀文檔(階段2)”“機器可讀內容(階段3)”“機器可交互內容(階段4)①”。ISO/IEC在工業領域已經提出并積極實踐了面向機器可讀的工業通用語義知識庫。目前,各國際標準組織及部分先進國家部分標準數字化已達到階段2,并率先在食品和農產品、信息技術、智能裝備、航空航天等領域開展了面向階段3~4標準數字化的應用和探索。
在標準知識領域,我國尚缺少統一標準知識數字化表達模型,即如何明確標準文獻關鍵知識的組織要素是本研究的重點。同時,在我國,由于我國食品和農產品安全領域不同標準文本內容及結構的差異,我國食品和農產品環保安全知識數字化技術推進緩慢,整體還處于紙質標準電子化、結構化的標準數字化初級階段(階段1)針對特定標準知識尚未實現自動化標注與抽取,尚未有對食品和農產品領域標準數字化轉型過程中建立類似于ISO/IEC面向機器可讀的標準知識抽取與知識庫,存在檢索標準資源不全,檢索手段落后、查全率和查準率低、檢索質量不高等問題,與國外存在較大差距。
2 標準知識數字化表達通用模型與自動抽取技術研究
2.1 基于知識本體理論的標準知識數字化表達的通用模型
為更好對標準文獻結構進行結構化、知識化、可視化分析,本文基于語義網理論,基于知識本體理論,采用敘詞表等組織方式(示例見表1),開展了標準知識三元數據模型研究,深化標準文獻的多粒度內容描述和知識關系的表達揭示,對標準化對象、指標項等實體概念進行語義關聯。通過對國家標準、行業標準的內容主題分析與標引,涵蓋工作場景、業務流程、應用設備等多種組織維度,對同專業的各個類型的標準按照相同或相似的要素結構進行分析分解,在分析歸納的基礎上提煉出了既適合于結構化分解標準文獻的技術指標,又能適應不同類型標準揭示標引的統一數據分解模型,構建了較為通用標準的知識模型和人工加工方法,形成了標準數字化的通用模型和方法的相關標準,率先創新性地提出了本體(標準化對象)-體例(標準段落結構)-標準指標的三元數據結構。
其中,本體和體例均需要建立同義詞和上下位的關系,標準指標則還包括指標項、指標值、計量單位、限定類等,從而實現文獻碎片化分析,實現對標準知識的數字化表示,這樣就通過三元組數據模型,將標準內容轉化為具有語義關聯關系的數據。值得強調的是,由于標準文獻結構和形式各異,即使同一標準文獻也可能由文字、數值、圖表以及引用等不同內容結構組成。因此,為更好理解上述三元數據模型,本文后續將通過具體例子實證檢驗不同內容結構下的本體(標準化對象)-體例(標準段落結構)-標準指標的確定問題。
2.2 基于自然語言處理和機器學習的標準知識數字化抽取技術
為大幅度降低標準知識標準化和抽取的人工成本,開展基于自然語言處理和機器學習的半自動化標準知識組織技術研究,通過對半結構化數據及非結構化數據做半自動化處理[4 - 6]:以人工處理的結構化數據為訓練集,應用機器學習框架,針對半結構化數據,實現自動的實體與關系標注;以人工構建的詞表和語法規則范式為基礎,針對非結構化數據,實現實體識別與消歧、關系標注,并構建標準知識庫。再由專家對關鍵信息進行總結,通過迭代的方式優化標注結果,供專家篩選判斷,以此加快標準知識的構建過程。具體如下。
(1)針對自然語言文字為主的失信信息,采用基于規則的方法,如:使用正則表達式或者巴克斯范式等規則框架的模式,配合詞表進行范式匹配,基于規則的模板匹配,基于語義規則的解析等,實現描述性內容的實體識別和關系抽取。
(2)針對表格為主的失信信息,采用基于機器學習的方法,如:基于樸素貝葉斯的文本分類,基于深度學習的段落分類,基于神經網絡的句子分類等,實現關鍵要素的實體識別和關系分類。
(3)針對需重點分析的失信信息,采用基于統計的方法,如:基于詞袋模型的文本分類,基于統計特征的段落分類,基于統計模型的句子分類等,實現細粒度的知識圖譜的構建。
(4)針對其他類型的失信信息,采用基于搜索的方法,如:基于搜索引擎專業的關鍵詞表的段落和句子抽取,實現失信內容的細粒度命中。
3 食品和農產品標準知識的實證研究
本文基于“標準化對象—體例—指標項—取值范圍—指標值—計量單位—限定條件”等知識組織模型(如圖1所示),通過人工或已有標注的食品和農產品的訓練數據集(見表1),利用自然語言處理和機器學習等技術實現了對2000項食品和農產品標準知識的自動高精度標注和抽取。
限于篇幅,本研究僅展示了鮮蘋果和乳制品標準知識的抽取結果,見表2和表3。根據表2所示,在鮮蘋果中優等品的大型果的質量要求中,對質量等級要求是果徑(最大橫切面直徑)≥70mm,通過上述標準知識數字化表達模型,將標準內容轉化為具有語義關聯關系的數據。根據表3所示,乳制品中乳粉的色澤應呈均勻一致的乳黃色或具有應有的色澤。
4 研究結論
本研究將以食品與農產品領域標準為研究對象開展標準知識數字化表達模型與自動提取技術研究,首先,明確國內外標準化數字化當前研究現狀與問題;其次,通過文獻和實地調研,創新性地提出標準知識數字化表達模型;再次,開展標準知識數字化自動提取技術研究,實現對數字化表達模型知識要素的自動標注和抽取,據此形成具有語義關聯的標準知識;最后,以2000項食品與農產品領域標準為例進行標準知識數字化表達模型與自動提取技術的實證研究,驗證理論或技術的可行性。研究發現如下:(1)構建了適用于標準知識的數字化表達模型,即本體(標準化對象)-體例(標準段落結構)-標準指標的三元數據結構模型,通過上述標準知識數字化表達模型,能夠將標準技術內容轉化為具有語義關聯關系的數據。(2)提出了基于自然語言處理和機器學習的標準知識數字化提取技術,利用自然語言處理和機器學習等技術實現了對20 0 0項食品和農產品標準知識的自動高精度標注和抽取,為我國標準化工作邁向ISO/IEC提出的階段3“機器可讀文檔”提供技術參考。