張 成, 劉亞東, 謝彥紅, 李金娜, 張可意, 李 元
(1.沈陽化工大學 數理系, 遼寧 沈陽 110142; 2.大連理工大學 公共管理與法學院, 遼寧 大連 116024)
基于PCA與MLE方法的人群分類新方法研究
張 成1, 劉亞東1, 謝彥紅1, 李金娜1, 張可意2, 李 元1
(1.沈陽化工大學 數理系, 遼寧 沈陽 110142; 2.大連理工大學 公共管理與法學院, 遼寧 大連 116024)
針對人群分類管理問題,提出一種基于主元分析方法的新的單變量貢獻度方法.首先,研究各行為屬性對主元的貢獻率,確定人群關鍵行為屬性.然后,在確定關鍵屬性的基礎上,利用最大似然估計方法對人群進行分類管理.應用人群分類管理方法到警方偵破案件中,可大大減小案件的搜索范圍,達到提高警方辦案效率的目的.通過實例驗證了方法的有效性.
主元分析(PCA); 屬性分類; 最大似然估計(MLE)
近年來,我們國家物質生活與精神文明的水平得到了較大的提高,社會更加穩定與和諧.但由于我國人口基數較大,每天仍然有較多的違法犯罪行為發生.又因為警力有限,有時不得不根據案子的輕重來決定其偵破的優先等級,因此,對于一些小型犯罪行為很難再付出較大警力進行專門排查,一小撮犯罪分子或成漏網之魚.
目前,許多國家和城市都在研究犯罪行為分析系統.國內現有的犯罪行為分析方法大多是采用心理學的方法.這種方法在數據量不大的情況下是很有效的,但在海量數據下,就存在分析不夠全面的缺點.科學的案件分析和預測機制,可以對犯罪模式進行有效的識別,從而快速配置警力,發現和揭露犯罪行為.在實際工作中,必須在制度保證下完善刑警工作OA(Office Automation)機制,提高刑事案件信息的收集效率,增加刑事案件分析的數據來源,提高分析質量[1].針對這一工作,黃建設[2]等利用數據挖掘技術對犯罪行為進行分析.
為了能夠以最小的代價來偵破更多的案件,需要對大規模的人群進行分析.在對大規模人口進行多種行為屬性調查時,存在參考價值較低的行為屬性,因此,首先應確定警方所需要的關鍵屬性.對某一地區人口進行大規模屬性調查,根據各項屬性表現強弱,進行量化處理.針對該問題的建模可以轉化為多變量統計分析問題,利用主元分析PCA[3-5],研究各行為屬性對主元的貢獻率,確定人群關鍵行為屬性.
在獲得居民關鍵屬性的基礎上,利用最大似然估計MLE分類方法對人群進行分類管理,減小案件的搜索范圍,達到提高警方辦案效率的目的.
大量數據分析中,將抽象的各種行為指標量化,然后對其進行PCA統計分析.量化后的數據矩陣為Xm×n,其中m為受訪人數,n為普查統計的行為屬性個數,如下所示:
(1)
基于協方差的PCA方法將X的每一列數據進行減去相應變量均值除以相應變量標準差的標準化操作以后,認為所有變量自身數據分布為標準正態分布.定義標準化后的樣本X的協方差矩陣為:

(2)
對該矩陣進行特征值分解,并且按照特征值的大小降序排列.PCA模型對X進行如下分解:
(3)
T=XP
(4)


(5)
其中λ1≥λ2≥…≥λA表示S的前A個較大的特征值.
主元變量在代數學上是n個行為屬性x1,x2,…,xn的線性組合,而在幾何上這些線性組合代表選取了一個新的坐標系,它是以原坐標空間旋轉后得到的.考慮到主元變量為各行為屬性指標的線性組合,從而得到:
(6)
在上式中第n個行為屬性對第A個主元變量的權重記為wAn,其絕對值表示該行為屬性指標對該主元變量的貢獻值.由上式可以看出:對單主元的信息量,各原始變量x1,x2,…,xn所占的權重各不相同.
由此,提出使用PCA方法衡量各變量對數據主元信息貢獻的比重.將第j個行為屬性在主元空間中的貢獻度記為單個變量貢獻度SVC(Single Variable Contribution),如下式所示:

(7)
將SVC較大的幾個行為屬性作為關鍵行為屬性.同時假設不同犯罪分子在某些行為屬性上的確異于常人,反映到量化指標上,是嚴重偏離正常分布中心范圍的;且假設參與信息統計的所有正常人群類個體嚴格不具備犯罪傾向.在以往大量歷史統計的數據中,選擇幾種不同的群類,分別求取該類的SVC.不同犯罪群類的SVC與正常人群類的SVC對比,求異去同,得出該犯罪群類的關鍵行為指標.
針對上述討論得到人群關鍵屬性信息Xm×n′,利用MLE方法將人群進行分類,將居民分為K組[6-7].
P(xj|Ci)表示第j名居民屬于第Ci組的條件概率,Pi表示第i組居民所占的人口比例,每一組居民人數為Ni(i=1,…,k).
(8)

μi)∑-1(xj-μi)T)
(9)
居民xj屬于第i組的概率為:

(10)
在對P(xj|Ci)、Ni初始化后,每組居民關鍵屬性的特征參數{μi,∑i}和后驗概率可以通過最大似然估計迭代算法估計得到.
E-step:

P(l)(Ci|xj)為在第l次迭代過程中樣本xj屬于第i個高斯分布的后驗概率.
M-step:



(11)
當案件發生后,根據案件性質對居民進行分組,找出與罪犯行為屬性相似的人群并進行調查,以便能快速找到犯罪嫌疑人,偵破案件.
從2013年遼寧省首屆研究生數學建模競賽試題A:提高案件偵破率問題中通過提取得到55名居民的20種行為屬性數據,其中包含正常居民與4種不同犯罪分子各11名,20種行為屬性名稱如表1所示.

表1 行為屬性
將一些抽象的行為屬性量化(如健康程度等).首先按照各變量的程度等級不同,對其分別賦值量化.在實際生活中,特定的某類犯罪分子在特定的關鍵屬性中表現有所差異.在犯罪案件發生后,只需根據案件的性質,在關鍵屬性上查找相關對應的人群,就可縮小搜索范圍.
首先,利用屬性建立PCA模型,累計方差貢獻率為85 %時,得到各行為屬性對主元的貢獻率,結果如圖1所示.

圖1 不同行為屬性貢獻率
由圖1可以看出:每一行為屬性對主元的貢獻率各不相同,經線性轉換后主元能夠代表原始數據的最大變化信息;行為屬性對主元的貢獻率越大,在一定程度上說明不同人群的該行為屬性中表現的差異越大,所包含信息量越大,通過該行為屬性區分出不同罪犯的效果就明顯.
經過算法仿真得出各行為屬性的主元貢獻率后,選取變化較大的行為屬性作為關鍵屬性,仿真中選擇11個作為關鍵屬性,選取的編號如表2所示.

表2 關鍵屬性
抽取關鍵屬性后,將一定范圍內的504名居民通過利用PCA與MLE結合方法進行分類.從圖2可以看出:將所有人根據4種不同犯罪行為分為4類人群.當案件發生時,針對關鍵屬性在不同人群中查找與之相應的居民,避免了案件調查的盲目性,為案件偵破提供了有效的切入點.該方法減少了案件偵破的時間和人員搜索范圍,提高了診斷效率.

圖2 4種犯罪案件的潛在人口數
在對罪犯以及正常居民行為屬性進行主元分析(PCA)的基礎上,深入挖掘行為屬性對主元的貢獻率,所提出的PCA確定關鍵屬性的方法在實例仿真中達到了獲得關鍵屬性的效果.在進行案件偵破時,利用MLE方法實現對居民分類管理,對分類后最有嫌疑人群進行詳細調查,節約了案件偵破時間,為案件的偵破提供了合理的切入點.
[1] 丁世潔.刑事案件分析模型的研究與設計[J].武漢理工大學學報,2006,28(3):138-140.
[2] 黃建設,姚奇富.數據挖掘技術在犯罪行為分析中的應用[J].浙江工商職業技術學院學報,2005,4(3):45-47.
[3] 周東華,李鋼,李元.數據驅動的工業過程故障診斷技術[M].北京:科學出版社,2011:57-100.
[4] Ge Z Q,Song Z H.Process Monitoring Based on Independent Component Analysis-principal Component Analysis(ICA-PCA) and Similarity Factors[J].Industrial & Engineering Chemistry Research,2007,46(7):2054-2063.
[5] Zhao C H,Wang F L,Lu N Y,et al.Stage-based Soft-transition Multiple PCA Modeling and on-line Monitoring Strategy for Batch Processes[J].Journal of Process Control,2007,17(9):728-741.
[6] 何正風.MATLAB概率與數理統計分析[M].2版.北京:機械工業出版社,2012:60-87.
[7] 許國根,賈瑛.模式識別與智能計算的MATLAB實現[M].北京:北京航空航天大學出版社,2012:90-125.
A Novel Method for Classification of Crowd Based on PCA and MLE Methods
ZHANG Cheng1, LIU Ya-dong1, XIE Yan-hong1, LI Jin-na1, ZHANG Ke-yi2, LI Yuan1
(1.Shenyang University of Chemical Technology, Shenyang 110142, China;2.Dalian University of Technology, Dalian 116024, China)
A novel classification of the crowd is investigated based on principal component analysis method in this paper.First,the contribution rates provided by each behavior attributes for principal component are studied to determine the key behavioral attributes.Then,based on the identification of key attributes,the residents are divided into several groups by the maximum likelihood estimator method.The presented classification method of the crowd not only narrows the search areas,but also improves the efficiency of the police investigations.Finally,a case is given to show the effectiveness of the proposed method.
principal component analysis(PCA); attribute classification; maximum likelihood estimation(MLE)
2014-03-24
國家自然科學基金資助項目(60774070,61174119);國家自然科學基金重點課題資助項目(61034006)
張成(1979-),男,遼寧錦州人,講師,博士,主要從事故障診斷的研究.
2095-2198(2015)02-0168-04
10.3969/j.issn.2095-2198.2015.02.016
C939
A