

摘要:“十四五”海關發展規劃是海關未來五年發展的戰略規劃,通觀全文,全領域覆蓋、全鏈條監管、全面提升智能化是高質量發展的新要求。以發展規劃為綱,結合作業中心在加貿領域的企業畫像探索,筆者提出企業畫像的智能路徑研究,即構建以“大數據+知識圖譜”為基礎的“數據+知識”中臺,以雙中臺為基礎構建企業數字孿生模式,打通從數據到知識再到智慧的通道。在新發展階段,以新發展理念,展現海關改革強關、科技興關的責任與擔當。
關鍵詞:智能化 雙中臺 數字孿生 企業畫像
一、以發展規劃為綱,全面提升智能化
“十四五”海關發展規劃是海關未來五年發展的戰略規劃,是我們未來的行動綱領,通觀全篇,高質量監管與服務離不開科技引領與支撐,未來的五年,將是海關全面提升智能化水平的五年,是全面促進業務科技融合的五年,是全面踐行改革強關、科技興關的五年。在新發展階段,以新發展理念,進一步服務經濟發展總體格局,充分展現海關新的使命擔當。在這一總體框架設計下,以“三智”核心精神為引領,在加工貿易領域加快創新實踐,進一步深化專業化審核等特色工作,進一步提升作業中心對關區加貿企業智能監管與服務水平,通過構建以“數據+知識”雙中臺引擎,對關區加工貿易企業進行畫像,對未來進行展望,通過推進建設企業數字孿生全面提升加工貿易領域的智能化水平。
(一)迎接業務規范化挑戰,構建加貿業務指標體系。
根據規劃(二十七)完善海關技術規范和業務規范體系。
在未來五年內建立全國海關統一的業務指標體系,完善統一的數據規范體系,優化支撐性業務規范,遵循國家和國際有關標準規范,構建適用于全鏈條監管的統一技術規范,提升信息數據交換水平等要求。
筆者認為,全面智能化的基礎必定是業務指標規范統一,業務指標規范統一需要各業務部門在統一目標下、統一領導下,齊心協力才有可能構建成功。作業中心通過在加工貿易領域進行企業畫像,以多種途徑收集和分析企業基本資料、運行管理、關聯關系、監管評價等信息,開發數據集成功能,按一定的分析框架形成統一的指標體系,通過對風險模型建設及調優做到對企業的精準監管與服務,達到“業務指標系統化、風險分析模型化”。
(二)迎接業務智能化挑戰,構建加貿業務智能體系。
規劃中17次出現“信息化”、30次出現“大數據”、51次出現“智能”,可見,全面提升智能水平是海關各業務領域根本需求,是探索全業務領域高質量發展、全鏈條智能監管的根本途徑;同時根據規劃(三十四)增強海關信息化支撐能力、(三十五)深化海關大數據應用,完善信息化基礎、構建從數據到知識再到智慧的通道都是實現業務智能化的挑戰。
作業中心以線上大數據畫像、線下專業化審核構建閉環,做到對關區加工貿易企業、行業格局發展心中有素,進一步提升業務監管智能化水平,進一步提升監管效能、嚴守風險防控底線,從而更好地加強對企業的服務支持與風險防控,為在下一階段全面提升智能化打好基礎,達到“業務監管智能化、風險判別精準化”。
(三)迎接人才培養挑戰,構建加貿綜合人才培養體系。
根據規劃(四十五)加強人才隊伍建設中大力實施人才強關,以優化人才結構為重點,強化人才在科技創新中的主體地位,持續優化人才發展環境和成長路徑,可見,人才培養是我們干事創業的基礎,全面提升業務智能化,一定要培養業務科技一體化人才。
作業中心通過業務與科技相融合的企業畫像,通過專業化審核、結合數據分析,我們為下一階段創新改革工作打好專業化、綜合化的人才堅實基礎,為隊伍發展培養科技業務融合的綜合性人才,達到“創新工作常態化、人才培養綜合化”。
二、以雙中臺為引擎,塑造智慧新平臺
“十四五”規劃(三十五)深化海關大數據應用中提到“完善大數據基礎設施,匯聚多形態數據資源,形成海關大數據湖,為海關數據治理提供基礎支撐。構筑集專家經驗與業務知識為一體的知識計算新引擎,建設海關特色知識圖譜,打通從數據到知識再到智慧的能力提升通道。”這將進一步推動“大數據+知識圖譜”在海關中的理論及應用探索,筆者認為基于這一理念建設“數據+知識”雙中臺,能夠進一步提升海關大數據治理能力,為全面提升智能化打下平臺基礎。
(一)從數字化到智能化,重塑信息化格局
海關歷來重視信息化建設,從H883、H2000到H2010再到H2018、金關二期建設,積累了大量信息化建設經驗,但是傳統的信息化系統多以流程和管控作為任務目標,缺少智能化的技術手段,無法有效處理和應對信息與知識的爆發,主要體現在①對一線執法的智慧決策及輔助仍顯不足,海關在北京、上海、廣東等地建設了多個大數據中心,目前來看,中心的計算能力仍無法被充分使用,還不能夠在全業務領域形成智能決策方案,業務一線得到智能決策支持仍不足;②數據形態越來越復雜,金關二期在全國各地海關建設了各級監控指揮中心,收集了大量的音視頻數據,多形態的數據越來越復雜,傳統的數據處理方式已經無法滿足需求,急需借助智能化技術和應用的幫助;③全鏈條的數據聯通仍顯不足,人機智慧交互仍顯不夠,在海關各系統之間業務鏈條、數據鏈條還不夠通暢,在業務人員與業務系統交互方面,系統仍然顯得不夠“聰明”,業務專家知識無法有效地被系統理解利用,數據與業務場景結合不夠緊密,上述因素都阻礙著海關監管與服務的高水平發展,都需要通過進一步提升智能化水平來解決,最終打通從數據到知識再到智慧通道。
中臺的作用在于打通固有多業務系統之間的數據壁壘,融合各個不同業務系統間所產生的數據,通過數字化驅動支撐前端業務的快速變化,從而產生更大的價值。隨著數據中臺之后,以知識圖譜、人工智能技術為代表的知識中臺作為新經濟形態下的智能化方案,將持續從技術、行業應用、生態合作的角度進行提升,更好地賦能和提升海關創新能力和治理水平。技術方面,知識中臺的數據處理能力將由結構類、文檔類數據,拓展至圖片、音頻、視頻在內的多模態數據;通過圖譜技術,知識中臺將提升復雜知識表示和快速構建技術,提升數據知識化的效率。應用方面,知識中臺將由搜索、問答、推薦,升級至輔助決策、預測、推理等各類業務場景的知識深度應用,滿足海關各業務領域自動化定制需求,提升各業務領域智能化水平。
同時,筆者認為知識中臺可以理清海關全業務領域邏輯,用機器可以理解的方式將知識組織起來,從而建立符合總體需求的智能化應用,全面提升智能化水平,重塑信息化發展格局。推動作用體現在①為各業務領域快速提供定制類智能化服務,助力業務智能化水平提升。從“十四五”規劃整體來看,各業務領域都有對智能化的要求,構建統一的知識中臺,將共性的智能化分析以服務形式提供,能夠以較低的成本,自動化提供定制服務,滿足更多業務領域內需求,助力監管與服務;②各業務領域利用和反饋中臺,使中臺能夠提供更具業務價值的洞察,有效支撐各級業務人員決策,降低執法風險,提升服務效率,使得人民滿意,踐行“人民海關為人民”;③在知識中臺的智能技術支撐下,各業務領域能夠積極推動業務模式創新,及時得到改革效果反饋,進一步推動改革強關,知識中臺建設將成為推動創新成功、人民滿意的核心驅動力。
(二)從數據中臺到知識中臺,打通數據到知識再到智慧通道。
1、知識中臺架構體系。
數據中臺理解為數據大腦,這個數據大腦主要是用技術鏈接計算平臺的數據處理能力,來負責對數據進行收集、分析、下發、整理等一系列的工作。因此,數據中臺不但要將很復雜的大數據處理技術封裝起來,形成計算平臺;同時進入數據中臺的數據都需按照規范的建模方法論將數據形成主題域模型、形成標簽模型或者算法模型,這類數據模型就是數據中臺的核心。
知識中臺在架構中處于承上啟下地位,包括三個層面:基礎技術、核心功能、產品矩陣。其中,基礎技術層提供以人工智能為核心的技術支持,主要包括知識圖譜、自然語言處理、多模態數據(結構化數據、音視頻等非結構化數據)的綜合處理及分析;核心功能層涵蓋知識生產、知識組織、知識應用的全流程;產品矩陣層封裝了平臺、應用、行業解決方案多層級產品,為各行業、各類場景提供全方位服務。面向智能化升級需求,知識中臺可以提供靈活、多樣的服務方式,包括標準化產品服務、組件化服務能力輸出、集成解決方案構建,和定制服務的設計與實施。
2、引入知識中臺解決傳統企業畫像工程實踐三大問題。
(1)數據問題——數據治理的問題。
從加工貿易領域企業畫像工程實踐分析,所需信息包括行業地位、生產經營、商品信息、加貿業務、監管記錄、風險行為六個維度,①行業地位,產業鏈情況、是否為上市公司、當前海關認證等級、企業信用情況、企業投資額、企業進出口金額企業人數等;②生產經營,逾期手冊企業、剩余料件比例、結轉比例、內銷比例、有進口無出口、首辦企業、半年未進出口企業、進出口倒掛等;③商品信息,企業主要進出口商品,企業生產工藝,企業單耗分析,有無超配額、禁止類、固廢、風險類等商品信息等;④加貿業務,加工貿易增幅、加工貿易降幅、手賬冊辦理有無違規情況等;⑤監管記錄,企業稽核查記錄,涉案情況,第三方盤庫等信息;⑥風險記錄,對企業風險行為進行記錄,及企業司法訴訟、行政處罰、政策法規、監管問詢等等。
以上這些數據基本來源于海關業務數據、外部工商數據、行業數據、政府公開數據以及其他來源數據,可以說是真正的多源異構,如何將這些信息有效的關聯起來本身是一項非常有挑戰的工作,急需數據標準、業務標準的統一,工程落地難!
(2)業務問題——知識轉化與沉淀的問題
傳統企業畫像有待解決的業務問題主要體現在大數據與業務監管分析之間的鴻溝。以企業供應鏈分析為例,我們可以從海關業務數據中獲取到部分供應鏈上下游數據,經過加工處理,形成供應鏈圖譜。但業務領域對以供應鏈為單元的監管顯然有更明確要求和目標,簡單的供應鏈路無法滿足業務監管的要求,我們需要按照業務場景來定制處理。這就帶來了企業畫像的一個業務難題,就是什么樣的標簽和關聯分析是符合以供應鏈為單元這種業務場景需求的?這不僅僅是大數據處理的問題,也涉及到大量的業務領域專業知識,所以,企業畫像是很有必要引入專家經驗、人機協同,專家如何將業務知識落地沉淀到畫像系統,都是畫像系統要解決的問題。
(3)技術問題——算法模型的天花板
企業畫像因為沒有更全面的外部數據及企業財務、管理行為數據的支撐,所以畫像標簽面臨不完整、不準確的問題。標簽不完整是源于很多我們目前數據來源還是非常有限,那么我們定義的畫像各種數據維度缺乏數據支撐,傳統打標平臺無法解決這塊信息的補全。標簽的不準確表現為缺乏背景知識的語義理解不準確,舉個例子,如果某篇資訊通篇在提光纜、通信設備、基站以及車聯網相關的話題,那么我們在給與上述實體標簽基礎上,最應該打上還有個“5G“標簽,即便文章中并未提到5g,但事實上,文章內容是對5g產業鏈的一個綜合性描述,而系統如何知道5g跟那些關鍵詞的對應關系的呢?這就需要賦予系統一個5g產業鏈的背景知識。很顯然,單純的機器學習模型哪怕是預測模型也是解決不了這類標簽準確性問題的。
對于一份數據稀疏的大數據,用傳統機器學習方法打標,很快還會遇到一個算法的天花板。工程界算法和調參基本處在同一個起跑線,語料是決定算法結果質量的關鍵,企業畫像數據過于稀疏、數據價值密度低,使得從顯性數據里獲取的語料非常有限,但我們知道在顯性數據背后還有很多隱性數據關聯,類似實控人這類標簽業務,就是有效關聯帶來的成果。問題就是,如何發現這些隱性關聯,以及這些關聯后的新知識。
(4)引入知識圖譜技術,解決三類難題。
通過引入知識圖譜技術,需要在工程實踐中做出思維方式的3大改變。①基于過程的分析轉向基于領域的分析,這主要應對的是業務問題;②基于顯性實體關系轉向隱性關聯關系的發現,這點主要應對的是數據問題;③基于實體關系數據的模型走向基于語義的模型,這點應對的是算法模型的天花板問題。
為了解決前述分析的企業畫像系統的各種問題,我們需要引入新的“領域驅動”模式。領域分析主要在實體之間建立語義連接。我們看個具體的例子,在過程驅動中,可以將企業在產業中的信息用ER關系進行表達,于是會形成企業信息表、企業關聯行業表、企業主營產品表,如果有新的數據源,比如企業供應關系,就需要增加一張表解決問題。這樣一個ER關系如果轉化成領域圖,就是一個產業鏈知識圖譜,這張圖里有企業、行業、主營產品、供應關系、上下游等數據結構,所有數據表達采用統一的模式圖”三元組“,形成的就是產業鏈知識圖譜。面向過程的ER圖的使用,需要人來找數據用數據,而面向領域的產業鏈知識圖譜,既可以作為行業分析人員的背景知識,更重要的是,基于三元組的語義網絡的數據組織形式,是可以讓計算機理解產業鏈數據,進而可以產生機器認知的某種能力,諸如知識推理、知識補全等等,這不是面向過程的數據組織方式可以提供的能力。
我們將畫像業務從基于過程的分析轉變為領域分析后,需要借助知識圖譜做工程落地,有了知識圖譜,我們就可以利用知識推理、挖掘、發現、關聯,從顯性ER關系獲取更多的隱性數據關聯。也可以將專家邏輯跟AI邏輯做統一整合。進而,企業畫像系統依賴的機器學習標簽、預測標簽,可以從基于ER數據的模型,走向基于語義的模型。ER模型走向語義模型我們可以有幾條路徑去驅動:1)特征支持,圖譜的schema是特征的源,相對于實體屬性關系網絡特征應該是區分度最好的特征來源之一;2)語料樣本數據支持,圖譜的三元組數據是一個個事實,隱性關聯的知識也是這樣的一個個事實,從而對于標簽理解或者機器學習標簽可以提供語料或者樣本數據;3)圖分析的一整套方法可以補充進機器學習標簽模型里,豐富算法空間。4)基于知識圖譜的表示學習可以和深度學習結合,完成更加有挑戰的標簽數據的建設。
(5)構建“數據中臺+知識中臺”雙中臺驅動。
引入知識中臺,建立“數據中臺+知識中臺”雙中臺驅動。體現在①從數據到信息再到知識最后到智能,數據中臺主要定位在從數據到信息這個環節,知識中臺定位在從信息到知識這個環節;②知識中臺是知識相關、事實相關、關系相關的信息的再組織,它無法取代數據中臺對應的數據中心,大多數情況下,數據中臺和知識中臺是共生的,他們合在一起是更加廣義的數據中臺。數據中臺為知識中臺提供大數據支撐,知識中臺為數據中臺賦能AI認知能力;③畫像系統以及其他業務系統按需從數據中臺、知識中臺或者原始數據中獲取數據,他們不是多選一,而是多方協作。
三、以數字孿生為基,構建智能新模式。
“十四五”規劃(三十五)深化海關大數據應用中提到“探索構建與業務實體運行良性互動的數字鏡像,以大數據驅動風險防控、通關監管、稅收征管、檢驗檢疫等海關主要業務運行”,這將推動數字孿生在海關中的應用探索,筆者認為基于“數據+知識”雙中臺實現數字孿生,能夠進一步推進該智能新模式落地。
(一)以數字孿生為基礎,構建業務實體數字鏡像。
1、數字孿生是實體的鏡中世界。
數字孿生是以數字化方式創建物理實體的虛擬實體,借助歷史數據、實時數據以及算法模型等,模擬、驗證、預測、控制物理實體全生命周期過程的技術手段,基于這一原理,在虛擬世界可以實現實體世界難以做到的操作,核心在試錯、評估,所以在國家的十四五規劃中,構建數字孿生城市對于城市治理有著巨大的提升作用,同理,構建企業、海關特殊區域等一系列的數字孿生,對于提升海關全業務領域智能化都有巨大的作用。
數字孿生模型基于多維度、實時大數據,具有如下六個特征:①互操作性,數字孿生中的物理對象和數字空間能夠雙向映射、動態交互和實時連接,具備以多樣的數字模型映射物理實體的能力;②可擴展性,數字孿生具備集成、添加和替換數字模型的能力,能夠針對多尺度、多物理、多層級的模型內容進行擴展;③實時性,數字孿生要求數字化,即以一種計算機可識別和處理的方式管理數據以對隨時間軸變化的物理實體進行表征。表征的對象包括外觀、狀態、屬性、內在機理,形成物理實體實時狀態的數字虛體映射;④保真性,數字孿生的保真性指描述數字虛體模型和物理實體的接近性。要求虛體和實體不僅要保持幾何結構的高度仿真,在狀態、相態和時態上也要仿真;⑤閉環性,數字孿生中的數字虛體,用于描述物理實體的可視化模型和內在機理,以便于對物理實體的狀態數據進行監視、分析推理、優化工藝參數和運行參數,實現決策功能,即賦予數字虛體和物理實體一個大腦。因此數字孿生具有閉環性。
2、數字孿生是虛實映射的復雜架構。
如下圖,是基于雙中臺構建的數字孿生架構圖,雙中臺負責基礎支撐,上有數據建模與仿真分析層、共性應用層、行業應用層。
數字孿生是虛實映射的復雜架構,虛擬實體的生命周期包括起始、設計和開發、驗證與確認、部署、操作與監控、重新評估和退役,物理實體的生命周期包括驗證與確認、部署、操作與監控、重新評估和回收利用。值得指出的是,一是虛擬實體在全生命周期過程中與物理實體的相互作用是持續的,在虛擬實體與物理實體共存的階段,兩者應保持相互關聯并相互作用。二是虛擬實體區別于物理實體的生命周期過程中,存在迭代的過程。虛擬實體在驗證與確認、部署、操作與監控、重新評估等環節發生的變化,可以迭代反饋至設計和開發環節。
(二)從企業畫像到數字孿生,構建智能監管新模式。
1、構建線上線下閉環,推動企業畫像建設。
從加工貿易領域企業畫像工程實踐分析,所需信息包括行業地位、生產經營、商品信息、加貿業務、監管記錄、風險行為六個維度,作業中心通過線下線下構建業務閉環,推進企業畫像。
線上,通過構建企業調研及行為管理工具、商品及單耗管理工具、政策分析及檢索工具、指標及標簽建模工具、智能畫像可視化工具、數據分析及調度工具這六個工具,對關區加工貿易企業進行畫像,實現如下主要目標①業務指標系統化,業務指標體系建設是一個動態過程,按照監管作業的需要不斷調整,從六個維度提取風險指標。通過對這些指標的分析計算構成評分模型,實現對企業精準畫像,輔助全過程監管和服務;②行業沙盤數字化,通過可視化技術,構建加貿業務總覽、行業總覽、企業畫像、企業集團畫像、供應鏈畫像、無感監管畫像等系列數字沙盤;③企業信息可視化,從行業地位、生產經營、商品管理、加貿業務、監管記錄、風險行為六個維度形成企業信息雷達圖,可視化展現企業狀況;④企業關系圖譜化,以Neo4J圖數據為知識圖譜存儲平臺,構建如下關系圖譜:企業集團關系、深加工結轉、外發加工、供應鏈關系等,提升風險判別智能化水平。
線下,推動專業化審核,從行業中選取典型企業,從企業六個維度對企業進行調研,搭建企業智能知識庫,編寫調研報告書,結合線上分析對企業整體進行再分析、再提煉。
2、實現全要素數字化,推動企業數字孿生建設。
傳統企業畫像是站在海關監管角度上,以部分數據對企業畫像,往往并不是企業全貌,數字孿生則是以企業為主體,對企業的全要素數字化,各監管部門從不同角度進行監管。從社會治理整體來看,這也是監管的大趨勢。現階段,企業數字孿生仍面臨技術和非技術兩大瓶頸難以突破,技術瓶頸是指當前基于云計算和互聯網的聚合式的模式創新比較成功,而基于物聯網、大數據、人工智能、區塊鏈、量子通信等技術的原始創新則極度缺乏,未出現殺手級應用,各功能模塊有機融合的架構未能實現,造成創新只停留在表面,企業運行和治理的水平有量的提升,但沒有質的改變。非技術瓶頸,則表現在企業數字孿生整體建設是一個龐大的社會性工程,不是一個單位或部門能完成的,所需資金龐大,政府和市場邊界不好劃分,工程周期長投入大充滿變數,企業盈利和資本回報前景模糊,觀望躑躅之下,推進效果可想而知。此外,彰顯智慧所必須的資源共享與業務協同機制也一直沒有建立起來,信息打通仍困難,協同共治難實現。兩大瓶頸懸而未決將導致推進企業數字孿生建設困難,現有的建設發展模式亟待突破。
企業數字孿生建設通過對物理世界的企業運行管理的所有要素數字化,在網絡空間再造一個與之對應的“虛擬世界”,形成物理維度上的實體世界和信息維度上的數字世界同生共存、虛實交融的格局。物理世界的動態,通過多種手段采集數據,精準、實時地反饋到數字世界。數字化、網絡化實現由實入虛,智能化實現由虛入實,通過虛實互動,持續迭代,實現物理世界的最佳有序運行。因為數字孿生是企業真實情況的全反應,各個監管部門能迅速提升監管與服務,實現治理智能化;同時,通過對虛擬世界的“假設”分析和虛擬規劃,把握企業運行脈搏,提升風險管理水平,評估改革效果;在改革實施前就能了解企業特性、評估實施影響,避免浪費時間與資金,防止在驗證階段重新進行設計,以更少的成本、更快的速度實施改革,體現出海關十四五規劃中業務實體數字鏡像的巨大社會治理作用。
作者簡介:金劍鋒 蘇州海關駐相城辦事處 一級主辦、副科長。