陳 港 應一豪 王 鈺
1.浙江公共安全技術研究院有限公司,浙江 杭州 310052;
2.浙江省玉環市人民法院,浙江 玉環 317600;
3.浙江公共安全技術研究院有限公司,浙江 杭州 310052
失信被執行人目前并沒有明確的概念,從廣義上而言,失信行為的范圍可以包括日常生活、經濟領域、政治領域以及司法領域等當中的失信行為。在民事執行程序當中,失信被執行人的失信行為主要從狹義角度分析,在司法領域當中對失信行為特有的內涵及特征進行提取。根據不同的失信行為嚴重程度,將失信行為分為失信和嚴重失信行為,前者通常嚴重程度較低,對他人或社會造成損害較小,而后者會對他人及社會的合法權益造成嚴重的損害[1]。當前針對被執行人特征提取的相關技術,無論是在學術研究還是在應用上都存在較大的發展空間[2]。對此,本文提出一種基于多元異構數據融合的失信被執行人特征提取研究。
在利用多元異構數據融合技術對失信被執行人特征進行提取前,首先應當根據失信被執行人的行為特征,構建面向失信被執行人的多維數據標簽體系,見圖1。
由圖1可知,本文構建的面向失信被執行人的多維數據標簽體系中共包含九個維度,分別覆蓋失信被執行人的基本信息、日常生活信息、經濟信息、政治信息等。失信被執行人基本信息主要包括:姓名、性別、年齡等。[3]。將九個維度數據標簽存儲為不同的屬性Property,并將屬性存儲在圖的頂點或邊上。以此實現對大規模數據進行存儲,對千億級特征數據實時檢索、分析、計算達到秒級響應速度。

圖1 面向失信被執行人的多維數據標簽體系
根據本文上述構建的失信被執行人多維數據標簽體系,針對多維數據對其進行基于多元異構數據融合的特征提取計算。利用曲線排齊算法對兩種數據特征進行融合。假設兩個序列分別為X1和X2,在X1和X2之間的錯位函數為:



當通過公式(3)計算得出的相關系數最大值達到實現特征提取方位時,則說明該人員屬于失信被執行人屬性,其相關信息將立即被提取。
對于本身不存在相關性的序列,不需要進行序列的曲線排齊。針對如何選擇需要進行排齊的序列的問題,本文首先將所有的多維數據標簽進行分類,將相同維度數據標簽分為一組。假設在同一組維度數據標簽中,其內部的數據有著一定的相關性,則說明,在同一組維度數據標簽中,可以進行隨機的選擇,選出任意一個作為參照序列都不會對后續的曲線排齊產生影響。
由于失信被執行人的相關信息在一定程度上還屬于隱私信息,以此本文實驗主要采用公開的UCI smartphone數據集作為實驗對象,從數據集中選取30名參與者,年齡分布在25-45周歲之間。根據本文構建的面向失信被執行人的多維數據標簽體系,提取九個維度的數據信息。分別選取6-8個圖像作為訓練樣本。實驗組采用本文提出的基于多元異構數據融合的失信被執行人特征提取方法對特征進行提取,對照組采用傳統方法對特征進行提取。根據上述實驗準備,完成對比實驗,將實驗結果記錄,見表1。

表1 實驗結果對比表
對表1中的數據進行縱向比較可以得出,實驗組通過增加訓練樣本的個數可以有效提高對特征信息數據的提取量,而對照組通過增加訓練樣本的個數無法實現對特征信息數據提取量的增加。通過對比實驗可知,本文提出的基于多元異構數據融合的失信被執行人特征提取的提取效率明顯優于傳統提取方法,可以有效保證后續失信被執行人特征識別的準確性,具有更高的應用價值。
本文通過對失信被執行人行為的研究,提出一種基于多元異構數據融合的特征提取方法,從一定程度上減輕了傳統特征提取方法由于受到外界和內在因素影響造成提取信息不完整的問題。在后續的研究中還將對后續特征提取和識別進行更加深入的研究,從而降低失信被執行人對社會造成的不利影響。