秦勝君 李婷



摘? 要:針對(duì)現(xiàn)有異常軌跡檢測(cè)方法沒(méi)有捕捉軌跡數(shù)據(jù)時(shí)序特征,不能有效識(shí)別業(yè)務(wù)異常和新型異常等問(wèn)題,提出基于長(zhǎng)短記憶模型的異常軌跡挖掘模型.首先通過(guò)優(yōu)化長(zhǎng)短記憶模型進(jìn)行軌跡預(yù)測(cè),然后基于進(jìn)化理論將預(yù)測(cè)軌跡轉(zhuǎn)化為異常軌跡,從而構(gòu)建了基于長(zhǎng)短記憶模型的異常判別模型.該模型可以有效地識(shí)別業(yè)務(wù)異常和新型異常,提高了異常檢測(cè)的精準(zhǔn)度和可擴(kuò)展性,同時(shí)適用于無(wú)標(biāo)簽數(shù)據(jù),解決了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)必須應(yīng)用于有監(jiān)督學(xué)習(xí)的問(wèn)題.最后通過(guò)與改進(jìn)的密度聚類(lèi)算法和馬爾科夫過(guò)程的對(duì)比實(shí)驗(yàn)驗(yàn)證了該模型在交通軌跡異常檢測(cè)的優(yōu)越性.
關(guān)鍵詞:長(zhǎng)短記憶模型;異常軌跡;交通大數(shù)據(jù);深度學(xué)習(xí)
中圖分類(lèi)號(hào):TP273;U491? DOI:10.16375/j.cnki.cn45-1395/t.2021.02.010
0引言
隨著傳感器網(wǎng)絡(luò)和無(wú)線(xiàn)通信等新興技術(shù)的不斷發(fā)展,越來(lái)越多的軌跡數(shù)據(jù)被收集和保存,軌跡數(shù)據(jù)挖掘有助于找出移動(dòng)對(duì)象隱藏的模式信息或行為意圖[1].異常軌跡數(shù)據(jù)挖掘是指識(shí)別隱藏在正常軌跡數(shù)據(jù)中的異常軌跡.異常軌跡不同于噪聲點(diǎn),噪聲點(diǎn)會(huì)干擾挖掘工作,降低結(jié)果的有效性,而異常軌跡可能預(yù)示著有趣事件的發(fā)生,比如公共安全中的突發(fā)事件、交通事故、高速逃費(fèi)行為等,從而具有更高的研究?jī)r(jià)值[2].
根據(jù)實(shí)現(xiàn)方法的不同,異常軌跡檢測(cè)方法可以分為4類(lèi):基于聚類(lèi)的檢測(cè)方法、基于網(wǎng)格的檢測(cè)方法、 基于分類(lèi)的檢測(cè)方法、基于統(tǒng)計(jì)學(xué)的檢測(cè)方法.
基于聚類(lèi)的檢測(cè)方法是使用密度聚類(lèi)、模糊聚類(lèi)等方法,發(fā)現(xiàn)遠(yuǎn)離主體軌跡的少部分軌跡.例如,文獻(xiàn)[3]先對(duì)軌跡進(jìn)行切分分組,然后使用密度聚類(lèi)方法找出異常軌跡.何明等[4]提出改進(jìn)密度聚類(lèi)與模式信息挖掘的異常軌跡識(shí)別方法,結(jié)合上海市與北京市出租車(chē)軌跡進(jìn)行實(shí)驗(yàn),驗(yàn)證了該算法的有效性.
基于網(wǎng)格的檢測(cè)方法是將城市路網(wǎng)劃分成均等大小的網(wǎng)格單元,從而識(shí)別出異常的網(wǎng)格單元序列.主要的實(shí)現(xiàn)方法有基于似然比統(tǒng)計(jì)量的檢測(cè)方法[5]和基于隔離機(jī)制的異常檢測(cè)方法[6].也有學(xué)者提出路網(wǎng)空間下基于馬爾科夫決策過(guò)程的異常軌跡檢測(cè)方法[7].
基于分類(lèi)的檢測(cè)方法是使用有監(jiān)督的分類(lèi)方法識(shí)別正常軌跡和異常軌跡.如俞慶英等[8]提出基于BP神經(jīng)網(wǎng)絡(luò)的異常軌跡檢測(cè)方法.Li等[9]使用支持向量機(jī)進(jìn)行特征學(xué)習(xí),該方法可處理高維特征空間的異常檢測(cè).
基于統(tǒng)計(jì)學(xué)的檢測(cè)方法是應(yīng)用統(tǒng)計(jì)學(xué)相關(guān)理論進(jìn)行異常檢測(cè).例如,安計(jì)勇等[10]提出一種多因素異常檢測(cè)集成算法.首先通過(guò)統(tǒng)計(jì)數(shù)據(jù)分布給每種特征賦予一個(gè)異常分值,然后利用組合函數(shù)對(duì)分值集成,由此進(jìn)行最終異常檢測(cè).汪霜霜等[11]研究了一種車(chē)輛軌跡學(xué)習(xí)自適應(yīng)稀疏重構(gòu)方法,以識(shí)別一場(chǎng)車(chē)輛運(yùn)動(dòng)模式.
綜上所述,異常軌跡領(lǐng)域已有很多研究成果,為數(shù)據(jù)挖掘和智能交通提供了重要的理論基礎(chǔ)和應(yīng)用支撐.但是上述研究存在以下兩個(gè)問(wèn)題:1)基于聚類(lèi)或分類(lèi)的方法都沒(méi)有考慮時(shí)序問(wèn)題,交通軌跡是時(shí)序數(shù)據(jù),分析軌跡時(shí)序有助于提高異常檢測(cè)有效性;2)業(yè)務(wù)異常問(wèn)題,現(xiàn)有的方法大多是根據(jù)歷史數(shù)據(jù)中正常軌跡和異常軌跡的距離來(lái)判斷是否異常,但是并沒(méi)有考慮過(guò)業(yè)務(wù)異常問(wèn)題,因此無(wú)法有效識(shí)別業(yè)務(wù)異常.為解決上述問(wèn)題,本文提出基于長(zhǎng)短記憶模型的異常軌跡檢測(cè)方法.首先優(yōu)化長(zhǎng)短記憶模型預(yù)測(cè)下一階段軌跡,在已預(yù)測(cè)出的軌跡數(shù)據(jù)中進(jìn)行特征值的變異從而形成異常軌跡,再將正常軌跡和異常軌跡輸入神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,最終形成基于長(zhǎng)短記憶模型的異常軌跡檢測(cè)方法.該模型解決了傳統(tǒng)算法在識(shí)別業(yè)務(wù)異常時(shí)需要大量有標(biāo)簽數(shù)據(jù)的問(wèn)題,并且在異常檢測(cè)時(shí)加入變異因子,提高了模型在識(shí)別新型異常時(shí)的有效性.
1相關(guān)定義
車(chē)輛行駛軌跡本質(zhì)是多屬性的時(shí)間空間點(diǎn)序列,聚類(lèi)等方法是使用距離來(lái)判別異常,該方法可以有效地判別數(shù)值異常,也就是在數(shù)值上偏離大部分軌跡的異常軌跡,而無(wú)法判斷業(yè)務(wù)異常. 比如高速路上大貨車(chē)的行駛軌跡,兩段路程中車(chē)輛載重變化在核定載重范圍內(nèi)浮動(dòng)都屬正常,但是速度變化過(guò)大則有可能是超速,屬于異常事件,因此不能僅僅以?xún)蓷l軌跡的距離來(lái)判斷是否異常,以非線(xiàn)性的判別方式更符合需求.
1.1?? 軌跡基本定義
軌跡數(shù)據(jù)集中包含多輛車(chē)的多條軌跡.假設(shè)車(chē)輛軌跡數(shù)據(jù)集[CTD={CT1, CT2, …, CTi, …, CTn}],[i=0, 1, …, n].每輛車(chē)的軌跡數(shù)據(jù)集合可以表示為:[CTi={Ti1, Ti2, …, Tij, …, Tim}],[j=0, 1, …, m].單條軌跡[T]又包含相關(guān)特征,表示為:[Tj=(pj1, pj2, …, pjs, tj)],[t0 軌跡[T]包含地理位置、速度、平均速度、時(shí)長(zhǎng)、載重等相關(guān)特征. 1)地理位置:該特征表明車(chē)輛的行駛路線(xiàn),可能是車(chē)輛所在的經(jīng)緯度,也可以是車(chē)輛的出發(fā)地點(diǎn).地理位置標(biāo)志著車(chē)輛在運(yùn)動(dòng)空間內(nèi)的位置移動(dòng)情況. 2)速度:速度指的是在某個(gè)時(shí)刻車(chē)輛的行駛速度,一般是使用GPS等設(shè)備采集. 3)平均速度:該特征表示在某一段時(shí)間內(nèi)車(chē)輛運(yùn)行的平均速度. 4)時(shí)長(zhǎng):表明車(chē)輛從軌跡的出發(fā)點(diǎn)到某個(gè)位置的行駛時(shí)長(zhǎng). 5)載重:表示車(chē)輛所載重量.比如高速路上貨車(chē)的載重量是判斷異常的指標(biāo)之一;出租車(chē)是否載人也有助于判斷出租車(chē)軌跡是否異常. 除上述特征之外,還有加速度、轉(zhuǎn)角等可用于識(shí)別軌跡異常,根據(jù)實(shí)際情況不同,可選擇不同的特征. 1.2?? 異常相關(guān)定義 文中根據(jù)軌跡異常情況不同,將異常分為數(shù)值異常和業(yè)務(wù)異常. 1)數(shù)值異常 數(shù)值異常(data anomaly,DA)也可稱(chēng)為線(xiàn)性異常,指與正常軌跡的距離超過(guò)某個(gè)閾值的異常軌跡.可如下定義: [Ti-Ta≥Av]? (1) 式(1)中:假設(shè)[Ti]為正常軌跡,[Av]為設(shè)定的閾值,[·]為距離度量,可以是歐式距離或者Hausdorff等距離度量方式.如果兩條軌跡滿(mǎn)足式(1),則[Ta]為數(shù)值異常軌跡. 在實(shí)際業(yè)務(wù)中,有可能出現(xiàn)距離度量無(wú)法判別異常軌跡.例如一輛貨車(chē)在高速公路的正常行駛軌跡為120 km/h,載重20 t,該軌跡可表述為(120,20).假如軌跡變換為(120,40),沒(méi)有超出載重范圍,因此該軌跡仍然為正常軌跡,但是如果軌跡變?yōu)椋?40,20),則被認(rèn)為是超速,視為不安全駕駛行為,由此該軌跡檢測(cè)為異常軌跡.雖然上述假設(shè)的兩條軌跡與原始軌跡的距離一樣,但是前者為正常,后者為異常.文中將此類(lèi)異常定義為業(yè)務(wù)異常. 2)業(yè)務(wù)異常 業(yè)務(wù)異常(business anomaly,BA)也可稱(chēng)為非線(xiàn)性異常,指正常軌跡和異常軌跡經(jīng)過(guò)某個(gè)非線(xiàn)性函數(shù)映射為指定值,例如1或者0.文中設(shè)置1為異常值,而0為正常值.于是,業(yè)務(wù)異常可定義如下: [F(Ta)=1],[F(Ti)=0](2) 式(2)中:[F]為非線(xiàn)性函數(shù);[Ti]為正常軌跡.如果滿(mǎn)足式(2),則[Ta]為業(yè)務(wù)異常軌跡. 識(shí)別業(yè)務(wù)異常類(lèi)似于分類(lèi)算法,但是和分類(lèi)不同之處在于,一方面異常數(shù)據(jù)大多是無(wú)標(biāo)簽數(shù)據(jù),而且異常數(shù)據(jù)量較少.另一方面,業(yè)務(wù)異常是從數(shù)值上變換而來(lái),通過(guò)業(yè)務(wù)分析也可以捕捉到業(yè)務(wù)異常,此方法比有監(jiān)督的分類(lèi)算法更靈活,更適合于快速變換的數(shù)據(jù)模式.由于業(yè)務(wù)異常分析比分類(lèi)或數(shù)值異常更復(fù)雜,因此需要進(jìn)行深入研究,建立有效的異常判別模型. 2異常挖掘模型 本文首先將軌跡點(diǎn)[(T1, T2, …, Ti-1)]輸入到長(zhǎng)短記憶模型預(yù)測(cè)出軌跡[Ty],[Ty]是[Ti]的預(yù)測(cè)軌跡,然后在軌跡[Ty]基礎(chǔ)上加入變異因子生成異常軌跡[Ta],再將正常軌跡[Ti]和異常軌跡[Ta]輸入到邏輯回歸模型中進(jìn)行異常檢測(cè)訓(xùn)練,最終構(gòu)建了基于長(zhǎng)短記憶模型的異常判別檢測(cè)框架. 2.1長(zhǎng)短記憶模型 長(zhǎng)短記憶模型(long short term memory,LSTM)是循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的擴(kuò)展.RNN不同于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)之處在于其輸入和輸出序列之間的映射過(guò)程中利用了上下文相關(guān)信息.RNN是由輸入層、一個(gè)隱含層和一個(gè)輸出層組成,展開(kāi)之后的結(jié)構(gòu)如圖1所示. 由圖1可知,[x]是輸入向量;h是隱含層,該層其實(shí)是多個(gè)節(jié)點(diǎn),節(jié)點(diǎn)數(shù)與h的維度相同;[U]和[V]分別表示輸入層和隱含層的權(quán)重矩陣;[o]表示輸出層的值.從RNN的結(jié)構(gòu)可看出,隱含層h的值不僅取決于當(dāng)前的輸入[x],還取決于上一次隱含層的h值.權(quán)重矩陣[W]為上一次隱含層的值作為這一次的輸入權(quán)重.可以用以下公式來(lái)表示RNN的計(jì)算方法: [st=f(Uxt+Wst-1)]?? (3) [ot=g(Vst)]?? (4) 式(3)、式(4)中:[g]和[f]都是激活函數(shù).從以上公式可以看出RNN的輸出值受前面歷次輸入值的影響.但是RNN存在著梯度消失或梯度爆炸等問(wèn)題[12],為解決上述問(wèn)題LSTM誕生了[13]. LSTM通過(guò)設(shè)計(jì)記憶單元保存歷史信息,記憶單元包括輸入門(mén)、遺忘門(mén)、輸出門(mén)等主要部分[14].LSTM可以選擇遺忘或更新記憶單元存儲(chǔ)的信息,由于LSTM考慮輸入對(duì)應(yīng)輸出之間的時(shí)間滯后性,使得該網(wǎng)絡(luò)可以處理和預(yù)測(cè)時(shí)間序列中間隔和延遲相對(duì)較長(zhǎng)的重要事件.LSTM關(guān)鍵的擴(kuò)展是使自循環(huán)的權(quán)重視上下文而定,而不是固定的. LSTM通過(guò)設(shè)計(jì)“門(mén)”的結(jié)構(gòu)來(lái)遺忘或增加信息到細(xì)胞狀態(tài)的能力.門(mén)是一種讓信息選擇式通過(guò)的方法,其包含一個(gè)sigmoid函數(shù)和一個(gè)pointwise乘法操作.Sigmoid層輸出[0,1]之間的數(shù)值,描述每個(gè)部分的通過(guò)量.0表示不許任意量通過(guò),1表示允許任意量通過(guò). 由于車(chē)輛軌跡具有變換性,比如經(jīng)過(guò)很長(zhǎng)一段時(shí)間直線(xiàn)行駛之后轉(zhuǎn)彎,因此軌跡數(shù)據(jù)帶有一定的不平衡性.為避免軌跡預(yù)測(cè)時(shí)偏向大類(lèi)數(shù)據(jù),本文提出對(duì)LSTM模型優(yōu)化,在原有的結(jié)構(gòu)中加入變換門(mén),從而提高預(yù)測(cè)精度.優(yōu)化之后的結(jié)構(gòu)如圖2所示. 2.2?? 異常挖掘模型 LSTM可以保存歷史信息,獲取時(shí)間序列的特征,因此,使用LSTM進(jìn)行軌跡預(yù)測(cè)有助于提高預(yù)測(cè)結(jié)果的精確度.假設(shè)[(T1, T2, …, Ti-1, Ti)]為某輛車(chē)的行駛軌跡,Lstm為長(zhǎng)短記憶模型,[Ty]是[Ti]的預(yù)測(cè)軌跡,則預(yù)測(cè)模型可表示如下. [Ty=Lstm(T1, T2, …, Ti-1)]?? (13) 在預(yù)測(cè)軌跡的基礎(chǔ)上對(duì)軌跡進(jìn)行變異形成異常軌跡.軌跡變異的思想主要來(lái)源于進(jìn)化算法,與進(jìn)化算法不同之處在于,進(jìn)化算法是為尋找最優(yōu)解,而文中的變異相對(duì)較為簡(jiǎn)單,其目標(biāo)是獲得不同于正常軌跡的異常軌跡. 假設(shè)s為軌跡的特征數(shù),則每次隨機(jī)選擇m個(gè)特征進(jìn)行變異,其中[m≤s/3].假設(shè)[pi]為被選中的特征之一,[1≤i≤m],[pmin]和[pmax]分別為該特征的最小值和最大值.則[pi]的變異過(guò)程如下: