程光明

[摘要]本文首次將數據挖掘技術引入進境集裝箱風險評估中,沿著“理論研究——數據概念模型——風險評估模型——軟件化”來探討進境集裝箱風險評估系統的建立。本文旨在通過對大量已有的檢疫數據進行探索和分析,揭示入境集裝箱風險的影響因素,并進一步將其模型化,以便計算機能夠迅速對入境集裝箱的風險進行預判,從而達到幫助檢疫工作人員“有的放矢”的檢查、布控。使口岸檢疫業務部門對進境集裝箱風險做到“心中有數”。
[關鍵詞]數據挖掘 風險評估 集裝箱
一、引言
隨著我國對外貿易的快速發展,進境箱量顯著增長。“十一五”期間,檢出攜帶疫情及有毒有害物質箱數呈持續增長趨勢。僅2010年度,共受理進境集裝箱申報3699.06萬箱,同比增長14.04%,檢出攜帶疫情或有毒有害物質的43.66萬箱,比去年同期提高了28.20%。進境檢出疫情箱數占查驗箱數的比例(即查驗檢出率)為3.26%,同比提高0.43個百分點。這反映出進境集裝箱攜帶疫情及有毒有害物質情況十分普遍,進境集裝箱檢疫面臨形勢十分嚴峻。
目前,在進境集裝箱檢疫工作中主要采用以人工判斷為主的經驗式方法,效率比較低,工作量繁重,經驗知識傳承性差。但是在多年來的實踐過程中,我們已經積累了大量的經驗和數據。通過數據挖掘技術在已有的數據中發現未知的模式和知識可以為入境集裝箱風險進行評估,并為檢疫業務決策提供輔助支持。
二、數據挖掘技術
數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。簡而言之,數據挖掘其實是一類深層次的數據分析方法。數據挖掘已廣泛應用于生物醫學、金融、零售業、電信業、海關監管等領域,并產生了巨大的效益。數據挖掘技術同樣能夠將大量的檢疫數據提煉、轉化為可以理解和應用的模式和知識來指導檢疫業務。
數據分類(DataClassification)是數據挖掘技術的一個重要分支。從根本上說,數據分類就是通過對源數據的特點進行歸納和描述。要進行數據分類,必須使用特定的分類工具,方法主要包括:ID3算法、C4.5算法、SPRINT算法、SLIQ算法、EM算法、AQ算法、CN2算法等。數據分類是數據挖掘的基本功能、重要功能,目前在商業、工業、軍事、生活、海關監管上應用最多,具有非常高的使用價值。
三、數據概念模型
根據從進境集裝箱中檢出疫情及有毒有害物質情況的不同,將檢出問題分為7類,分別是:①人類傳染病和動物傳染病病原體;②植物危性病、蟲、雜草以及其它有害生物;③嚙齒動物、蚊、蠅、蟑螂等病媒生物;④土壤、動物尸體等禁止進境物;⑤動植物殘留物;⑥生活垃圾及其他有毒有害物質;⑦其他問題——7類問題,對應每一類問題需要建立一個可用于數據挖掘的數據概念模型,其主要包括:
(1)7大類問題集裝箱同諸如:①來源地;②箱主公司;③承運人;④貨運方式等特征數據存在哪些未知的、潛在有用的模式和知識,明確對每類問題集裝箱產生影響的特征數據,建立一套對應各類問題集裝箱的風險數據字典;
(2)CIQ數據庫中并不包含所有的特征數據,一些重要的特征數據需要通過與場站、貨運公司的比對才能獲得。同時,要對數據進行采集、清洗、轉換等步驟,建立可以用于數據挖掘的數據概念模型。
四、風險評估模型
對進境集裝箱進行風險評估主要用到數據挖掘中的重要分支——分類技術,建立和完善風險評估模型關系到風險評估系統研究的成敗,主要研究內容如下:
(1)分類技術有ID3算法、C4.5算法、SPRINT算法、SLIQ算法等,結合檢疫工作實際選擇合適的算法進行數據挖掘,并在實踐中對模型進行修正和完善;
(2)選擇和使用SAS公司提供的SAS/BASE、SAS/STAT、SAS/LAB等模塊化分析工具對7類問題集裝箱進行逐類數據挖掘、建模。
五、典型系統應用開發
基于上述的研究成果,設計實現一個基于數據挖掘技術的進境集裝箱風險評估管理系統,重點關注下面系統,如圖1所示:
(1)面向檢疫查驗人員設計并實現一個基于Web技術的軟件系統,通過此軟件,檢疫管理人員可以將已有風險評估模型軟件化,系統接收進境集裝箱特征數據,自動對風險進行預評估。同時,將用于風險評估的數據獨立于CIQ數據庫存在,為以后進一步完善風險評估模型提供數據庫支持。
(2)面向檢疫查驗人員設計并實現一個軟件終端,考慮到檢疫查驗一線人員工作環境分散、移動的特點,重點面向主流嵌入式系統(Apple、Angel、Symban、Windows-Mobile等)和移動終端(如手機、PDA、iPOD等)展開研發。
圖 基于數據挖掘技術的風險評估系統
六、結論
針對出入境檢驗檢疫部門在對進境集裝箱檢疫查驗中盲目性大、工作效率低等客觀實際,研究一個基于數據挖掘技術的進境集裝箱風險評估模型,并將其軟件化、實用化,通過軟件自動對進境集裝箱進行風險等級評估,指導日常檢疫查驗工作,降低檢驗查驗的盲目性,提升檢疫查驗人員的工作效率,提高把關成效。
參考文獻:
[1]舒軍生.數據挖掘技術在企業信用分類管理系統中的應用.安徽:安徽大學碩士論文.2010
[2]高燕. 基于數據挖掘技術的海關執法評估系統的研究與開發.武漢:武漢理工大學碩士論文.2002
[3]任爾偉,牟青杰,孫學文著.數據挖掘技術在海關查驗和價格瞞翩輔助決策中的應用,上海海關高等專科學校學報,2002年第3期
[4]朱偉軍.數據倉庫在海關統計中的實踐與應用,知識經濟,2009年10期