朱金連 法勇 呂健 沈卓 張雨
(1.南京海關,江蘇 南京 210001; 2.南通海關,江蘇 南通 226006)
海關治理體系和治理能力現代化是國家治理體系和治理能力現代化的重要組成部分。“十四五”海關科技發展規劃指出,“將法律法規、技術標準、工作規范、業務基礎知識匯聚、融合,建設海關通用和業務重點領域知識圖譜。引入智能規則引擎等工具,應用語音識別、視頻識別、圖像識別、自然語言處理等技術,建設海關業務知識庫平臺”。
海關知識庫平臺需要以海關內外部各條線業務數據為基礎,重點解決領域知識圖譜的構建,并圖像識別、自然語言處理、文字識別、多語種翻譯、語音識別等人工智能技術為輔助,以海關業務知識資源持續開發和運營為手段,實現“前臺綜合執法后臺知識支撐”的智能化服務,滿足海關內外部用戶不同群體的知識獲取需要,實現海關領域知識的“業務百科”。
作為知識來源,各業務條線的數據資源匯聚,既是海關知識庫的平臺特色,也是平臺建設的關鍵點。各業務條線的數據主要包括海關各類政策法規、海關辭庫、數字圖書館、動植標本庫、貿易單據無紙化數據、國外證書樣本數據、商品庫數據等內容,具有對接系統眾多、數據量大、數據時效性差異顯著、數據結構及對接環境復雜等特點[1]。基于此,數據采集應采用一次性采集、增量采集、定期采集等多種方式,接口應采用數據庫接口、文件接口、系統接口等多種對接方法,逐步匯聚起海關知識庫底層數據資源。
主要體現在以下兩個方面:一方面是通過對海關長期積累的大量文檔、業務數據等資源進行圖譜構建,逐步建立領域的基礎知識圖譜平臺和可視化場景,并通過對接智能搜索等應用,輔助海關對積累的知識進行管理,提升內、外用戶對知識的獲取效率。另一方面,知識圖譜的專業性體現在特定領域的知識圖譜構建方面,逐步實現特定領域的專項知識圖譜構建[2]。比如建設洋垃圾專項圖譜、瀕危物種專項圖譜等,可以廣泛應用于海關業務領域的知識發現、關聯關系挖掘、風險分析控制等場景。
“圖庫、研庫、學庫及關搜、關問、智識、智用”等“三庫四用”應用體系開創性地提出了知識庫的領域應用解決方案。作為一種應用框架,“三庫四用”通過各具特色的應用場景發揮各自的應用價值。“圖庫”重點面向圖像檢索、識別,“研庫”側重于各類政策法規、文獻期刊等應用,“學庫”面向于微學習場景;“四用”方面,“關搜”是典型的多模態搜索應用,“關問”則側重專家系統、問答系統,“智識”為業務場景提供智能識別支持,“智用”則貼合具體業務場景,以現場操作、執法依據、作業流程為核心,輔助用戶的實際作業,切實發揮出海關知識庫應用價值。
海關知識庫平臺AI服務中心,同樣可為其他業務系統提供相應的AI服務。作為基本能力平臺,通過匯集各其他業務場景中涉及的AI能力,可支撐海關建立起規模化、體系化、共建共享的海關AI服務資源池。比如:標簽識別能力可以作為“智能審圖”的基礎支撐,為進出口食品監管等場景提供智能識別服務;智能翻譯可通過服務開放,為輿情分析、緝私辦案及監管等場景提供文本翻譯服務等。通過建設共建共享的AI服務中心,可有效提高服務能力本身,并降低全國海關在類似服務能力建設方面的成本投入。
多種AI技術在海關知識生產和應用過程中還應加快場景化融合。比如,平臺支持文字、語音、圖像等多種識別技術的多模態搜索服務,能夠在語義理解的基礎上對語音輸入內容、文字輸入內容或者是拍照圖片內容進行精準識別及需求理解;融合自然語言理解、情感分析、智能問答等能力,精準理解用戶問題中提及的業務、服務領域和意圖,并基于此對意圖、指代等進行準確分析,提供以自然語言對話、語音合成對話等形式,使關員有更良好的知識檢索、知識應用體驗[3]。
知識圖譜是當前很受熱捧的人工智能研究方向。從概念上講,知識圖譜是由各類本體相互連接而成的語義網絡,它基于圖數據庫,本質上是一張具有N個節點、M條邊的圖。它能在現有web基礎之上構建一層覆蓋網絡,在web表達上建立概念之間的語義鏈接關系,從而將網絡上各種信息組織起來,成為可以被利用的知識。在海關知識庫平臺中,可利用動態本體知識圖譜構建技術,基于對現有數據的再加工、結構化,逐步形成一個統一的、邏輯上全局的海關行業性知識庫。
本體最早起源于哲學上的一個概念:本體是客觀存在的一個系統的解釋或說明,是客觀現實的抽象本質。目前業界關于“本體”的定義,已被人工智能賦予新的內容。(見表1)

表1 本體定義的演變過程
在上述定義中,人們引用最廣泛的是1998年Studer提出的:本體是共享概念模型的明確的形式化規范說明。這個定義體現了本體O的四層含義:概念模型M、明確U、形式化F和共享R,可以表達為:O={M(),U(),F(),R()}[4]。
在海關業務領域,我們認為“概念模型”是指通過抽象出海關業務中的具體概念而得到的模型MC,比如法人機構、口岸、商品等;“明確U”是指所使用的業務概念及使用這些業務概念的約束都有明確的定義UC,比如針對商品,應有海關領域的具體約束,區別于其他行業對商品的不同定義;“形式化”是指本體OC是能被計算機處理的FC,即能夠結構化描述;“共享”是指海關業務本體體現的是行業認可的知識,反映的是領域中公認的概念集RC,以下是海關業務領域的本體定義:

通常本體所展示的邏輯或概念是相對穩定的,甚至是固定的。但在實際行業應用中,本體的概念和外延并非一成不變,往往需要隨著時間、政策調整、業務變更等因素進行動態調整。因此,我們在海關知識庫項目中,運用動態本體理論,將通過基于動態本體的知識圖譜構建技術,來實現領域知識圖譜的構建。
動態本體是指動態的本體結構,它可以在本體部署應用之后,仍然可以不斷地進行修改。基于動態本體的知識構建是目前本體研究的熱點課題,不少機構對動態本體的知識建模、構建流程、本體構建標準等進行了較為深入的研究,但目前國內外學者尚未形成統一的認識[5]。
本文主要從海關業務領域,通過對本體的概念模型MC、約束定義UC、本體的形式化FC以及領域公認的概念集RC進行領域化處理,嘗試通過對領域本體對象根類型定義來促進動態本體的知識圖譜構建。
通過對海關行業的海量數據分析,我們首先歸納出兩種基本的數據對象:實體對象和事件對象。其中,實體對象一般是作為主體存在的,和我們現實世界中有著明確的實體對應關系。在海關業務中,實體是各業務環節中的關鍵要素,比如進出口食品監管環節,實體主要包括企業、食品、國家/地區、口岸等,數據來源基本以特定業務系統數據為主;事件對象則通常是某實體的行為集,或者某幾個實體之間的事件關系集,在海關業務中,事件對象是對業務行為的具體描述,比如針對某個物品的查驗業務,查驗環節就是事件描述,它發生在物品、企業和查驗機構等實體關系之間,具有查驗事件、查驗過程、查驗結果等屬性,其數據來源也以業務系統數據采集為核心。
對于海關行業領域,文本、圖片、視頻等數據所占的比例非常高。比如眾多的海關相關政策法規、業務指南、圖書文獻等,基本以文本格式存在的數據為主,用戶往往需要從大量文本中進行業務知識的提取、分析,這些業務知識對充實實體或事件對象的描述非常重要。因此,我們認為應將文本對象當作海關行業的一種基礎對象類型,研究將主要圍繞基于NLP技術的海關領域智能分詞、文本智能識別等方面展開,其數據來源包括海關內部各管理系統產生的文本文檔、資源庫中存儲的大量非結構化文本數據或者從互聯網爬取的部分補充描述數據等。
除此之外,在有害生物監管、進出口食品安全監管等領域,會產生大量的圖片、音頻、視頻等數據,在AI分析技術能力不斷提高的基礎上,用戶也需要從大量現場圖片、樣本圖片、監控視頻、語音錄音等數據中進行業務知識提取,比如從現場拍攝的物品照片中對商標進行識別,從而驗證該物品的歸屬,并與特定企業進行關聯管理。因此,我們認為應將圖片對象、音視頻對象也作為重要對象類型加以研究[6]。
基于以上分析,海關知識圖譜領域的本體對象基本就可以總結為五種基本類型:實體對象CE、事件對象CV、文本對象CT、圖片對象CP和音視頻對象CM,它們同樣具有繼承性、封裝性、多態性等對象特征。比如實體對象作為父類,可以擴展出機構類實體、人員類實體、商品類實體等子類,并可通過繼承關系進行約定和描述。
為了在知識庫平臺中形成對知識的統一規范性描述,我們為五種對象設立了一個知識本體根對象CR,這五種類型的對象都從該本體對象CR向下進行擴展、繼承,從而構成海關知識圖譜的動態本體表達D。以下是海關業務領域的動態本體表達:

海關知識庫平臺應用動態本體技術進行知識圖譜構建,還需重點考慮動態本體的構建標準問題。目前,關于動態本體的構建標準大多使用本體評估方法,我們認為應該系統性地提出動態本體構建的指標評價體系。
動態本體指標評價體系的建立,需要綜合考慮海關知識庫平臺的定位,以及整個海關業務知識的運營體系構建。通過組織、制度、管理和技術等措施,從知識應用、知識資源、能力服務三個層面逐步推進海關動態本體指標評價體系的建設:
“三庫四用”的特色應用體系應進一步專業化,為業務提供知識應用的“業務中臺”組件,不斷豐富知識應用的場景,增強平臺的業務價值和用戶黏性,以知識應用為抓手推動動態本體的指標評價標準。
通過組織、制度手段,確立知識庫平臺對各業務條線數據的匯聚職責和權利,從根本上保證各業務條線數據對知識庫的數據供給,促進知識庫的“數據中臺”組件建設,并通過與知識應用良性互動,推動建立、完善海關知識圖譜的動態本體評價指標集。
不同于普通的業務應用軟件,知識庫不僅需要技術上的運維保障,更需要進行業務上的運作。建立專門的知識運營管理機構、工作機制和配套制度規范,梳理、構建海關知識體系,協調海關知識資源基礎數據,保障知識圖譜等的順利構建,并有力推動動態本體評價指標體系的落地。