李克祥,邵衛華,鄭國華,朱忠和,周昌智
(浙江索思科技有限公司,浙江 溫州 325000)
作為一種特殊的交通工具,電扶梯具有長時間不間斷運行、負載動態不斷變化的特性,且由于乘客搭乘扶梯時安全防范意識不夠,導致扶梯上的安全事故層出不窮,若未能及時緊急制動,將會對人身造成持續嚴重傷害。
傳統的電扶梯檢測局限于諸如梯級變形、電氣安全裝置失效等對當時運行狀態進行安全檢測,無法對電扶梯正常運行狀態下的乘客危險行為做出預測。深度學習的出現使得人體檢測相關算法的準確度與性能逐年提升,經過優化的圖像識別算法可以在高速GPU平臺上對視頻進行實時分析,對于畫面中可能存在的人身安全事故作出及時報警,最大限度減輕扶梯事故中的傷害。相比人工檢測與傳統檢測方法,此方法能有效應對復雜多變環境,在減少人力支出成本的同時具有更高的準確率及抗干擾能力。
本文是基于圖嵌入學習和粒子群優化的人體穩定捕捉和跟蹤的基礎上,對人體的行為進行分析和理解。
行為理解是指對人的行為作分析和識別,可以簡單地認為是時變數據的分類問題,即將測試序列與預先標定的代表典型行為的參考序列進行匹配。由此可見,行為理解的關鍵問題是如何從學習樣本中獲取參考行為序列,并且學習和匹配的行為序列必須能夠處理在相似的運動模式類別中空間和時間尺度上輕微的特征變化。行為理解的主要方法如下。
(1)主成分分析PCA(Principal Component Analysis)。PCA是一種用于目標行為識別的統計學方法。
(2)動態時間規整DTW(Dynamic Time Warping)。DTW具有概念簡單、算法魯棒的優點,可以用于匹配人的運動模式。
(3)有限狀態機FSM(Finite State Machine)。FSM最大的特點是有一個狀態轉移函數,它可以確定最佳狀態,并用該狀態確定測試序列與參考序列是否匹配。
(4)隱馬爾可夫模型HMMs(Hidden Markov Models)。HMMs的使用涉及訓練和分類兩個階段,確認隱藏狀態數和優化匹配序列,其被廣泛地應用于行為識別中。
除了上述提到的幾種行為分析算法,基于骨架建模的深度學習行為識別方法不斷涌現,如使用循環神經網絡、時域卷積神經網絡來提取骨架信息并對行為進行端到端識別。本文利用形狀上下文來表述人體的輪廓特征,再通過主導級方法算法對所有特征學習,統計圖像類的行為類分布情況,得到圖像類到動作類的轉換概率表,從而建立魯棒的行為模型,依靠此行為模型來判斷乘梯的異常行為。
人體行為理解主要通過人的跟蹤來分析其自身行為及與其它目標的交互行為。人體是一個具有高自由度的非剛體,因此難以找到一個合適的特征來描述人體行為,并且同一個人做同一個動作所用的時間也是變化的。此外,人體自遮擋,模糊的視頻,不統一的攝像機參數等等都會給行為理解帶來很多困難?,F有人的行為理解系統都依賴已知的特定場景,在這些場景下,人是以預先定義好的方式運動的。這種方法對環境的適應性不強,一方面,對每個場景都要定義一套人的行為模式,一旦人的行為模式有了變化,又要重新定義;另一方面,在某些實際應用中,人的行為模式有時無法很好地預定義。這就需要建立一個通用的、無須手工定義人行為模式的行為理解方法。針對上述問題,本項目提取人體動作局部時空特征的本征結構,從而顯著改善時空特征的區分力,實現有效的人體行為識別。具體內容如下:
(1)研究基于時空流形學習的人體動作本征結構特征提取問題;(2)研究基于多特征聯合稀疏編碼的人體動作識別方法;(3)研究提取人體輪廓的形狀上下文特征,通過主導級學習建立行為模式的方法。
在視頻監控中,由于人體受到視角變化、方位變化、光照變化等因素的影響,即便是同一人體,其動作特征也會千差萬別,從而給識別和分類帶來巨大挑戰。因此,人體動作時空特征的本征結構提取是人體行為識別的關鍵,通過有效的特征降維理論提取人體動作時空特征的本征結構,能夠顯著改善時空特征的區分力,為后續識別和分析提供可靠的特征輸入。本課題針對人體目標的非剛體運動、外觀表現的多變性(動作執行者不同、環境不同)和人體動作的高時空復雜性和長時空相關性等特點,采用非線性降維方法,將傳統的空間流形學習算法向時空域擴展,從而提取不依賴物理意義的數學新特征。
如圖1所示,首先,將人體跟蹤的圖像區域分離出來,并這些圖像塊放縮到統一的尺度上,然后把每個圖像塊按照列的方式串聯起來形成列向量其中,p是每幀所包含的像素數。令表示所有的個人體跟蹤圖像塊,其中列向量ix描述該人體動作幀的空間信息。
算法具體實施步驟分成以下3步:
(1)對原始動作序列空間提出一種新的距離度量,以確保:①引起動作變化的本質變量鄰近的動作樣本彼此鄰近;②在同一種動作序列下的動作彼此鄰近;③不同動作序列樣本集之間的距離最大。假定動作ix的變化可 描 述 為,其中是造成動作變化的本質變量,如角度、光照等,則按上述要求定義的距離度量D應同時滿足下述條件:
可以想象,按照這種原則可以建立不同的距離測度,其評價系統和選擇應取決于對檢測和跟蹤的試驗結果的分析。
(2)結合現有的非線性降維算法理論,在給定原始高維空間的基礎上,尋找保持最優條件(1)的低維特征空間,從而獲得高維空間到特征空間的非線性顯性表達。原始高數據空間到低維空間的映射f應滿足如下相似性要求:
式中,S是根據新的距離度量D定義的相似性度量,如可定義為
(3)進一步,將把非線性降維方法提取的新的本質特征與物理特征進行有效融合,共同幫助實現準確的動作識別。
近年來,詞袋模型在人體動作識別任務中取得了較好的結果,并已成為人體動作識別的主流方法。但是,基于詞袋模型的表示有2個主要缺點:(1)詞袋模型在特征編碼的時候,將局部特征量化到最近的一個視覺單詞(硬編碼),這將帶來較大的量化誤差,量化誤差會隨著后續進一步的建模而傳播,使得表示不可靠,最終降低識別效果;(2)詞袋模型中用到的特征往往是單一的,即使用到了幾種不同的特征,也只是將這些特征進行簡單疊加,而沒有探究各個特征間的一致關系。由于不同特征在表示形式、意義、量綱方面的差異,使得難以將不同特征在進行有效的融合。為了解決上述問題,本課題擬提出基于多特征聯合稀疏表示框架,來有效融合動作的多種特征,從而實現動作的準確識別。
該模型的主要流程如圖3所示。具體分為以下幾步:
(1)在基于人體跟蹤獲得人體的動作圖像序列后,我們采用Laptev等人提出的Harris3D檢測器檢測時空興趣點。
(2)在每個興趣點處抽取視頻立方塊來計算動作的局部時空描述,它們包含若干幀該興趣點處的局部運動,即每個視頻立方塊都是一個三維張量,大小為其中為興趣點圖像塊的尺寸,n3為視頻的幀數。
(3)針對每個視頻立方塊,提取K種不同特征(比如顏色、形狀、紋理等),對于第k個特征,其對應 的 特 征 字 典 可 以表 示 為其中n是字典原子的個數,其中字典可以通過K-means聚類算法來對訓練數據中提取的大量視頻立方塊的第k個特征進行聚類獲得,令第k個特征表示下的一個立方塊為它可以表示為:其中為第k個特征下該立方塊的表示系數,為殘差項。我們希望用盡可能少的模板對該立方塊進行重構,這可以通過對加上L0范數的約束來實現。為了實現不同特征之間的共享和互補,我們將屬于同一立方塊但對應于不同特征的表示系數加上2L范數的約束,從而使得該立方塊在多特征表示下達到共同系數。綜上所述,多特征聯合系數表示的優化問題可以表示為:其中上 式 中L2,0混合范 數 的具體 計算表達式為:。然而優化問題(3)是NP難問題,因此我們用L2,p范數(0
現有的人的行為理解系統都依賴已知的特定場景,在這些場景下,目標是以預先定義好的方式運動的。然而,在實際應用中,人的行為模式有時無法很好地預定義,這就限制了此類方法對環境的適應性。針對這個問題,本課題擬采用提取人的形狀上下文特征,通過基于圖論的主導級學習方法對特征進行分類。具體來說,行為理解的過程分為以下兩個階段:
(1)第一階段:訓練樣本庫。樣本的動作種類由人工標定,每一類行為作為一種類別,這樣每一幀圖像都有了自己的行為類。在實現人的跟蹤后,提取每一幀圖像上的目標輪廓信息作為特征,并用形狀上下文進行描述。這樣一個視頻序列就被解析成了一個特征序列。然后,用主導級方法對所有特征進行學習,所獲得的類別作為圖像類。統計每一圖像類序列中的行為類分布情況,就可以得到一個圖像類到行為類的轉換概率表。
(2)第二階段:識別測試視頻。對于測試視頻段,在實現人的跟蹤提取后,同樣使用形狀上下文將其表述成一個特征序列,然后,用主導級方法將每一幀圖像進行分類。當測試視頻幀序列轉化成了圖像類序列后,通過訓練時得到的圖像類到行為類的轉換概率表,可以得到每一幀到所有行為類的轉換概率,這樣在視頻幀序列上做局部統計,就得到了這個局部里的幀所屬的行為類別,實現了行為理解。
針對上述的研究內容,在扶梯的進出口安裝網絡攝像頭,采集現場扶梯的視頻,另外,再結合網上搜集的扶梯意外視頻進行實驗,對實驗結果進行分析和總結。
乘客危險行為識別結果及分析。為分析扶梯乘客危險行為識別算法的效果,對16段離線采集的扶梯監控視頻進行實驗,其中包含10個人員摔倒視頻、6個扶梯逆行視頻,并對其指標進行分析。算法在i7-7700 3.6GHz CPU、GTX1660 GPU、16G RAM、Ubuntu1604操作系統的計算機上用Python編程實現,視頻圖像大小為749像素×720像素,處理速度達到15幀/秒。
實驗數據結果如表1所示,其中人體目標檢測及運動檢測率達100%,目標運動跟蹤率達93.75%,人員摔倒檢測率達100%,逆行行為檢測率為83.3%,可見逆行的判斷準確率還是比較低。

表1 乘客行為識別結果
實驗結果表明,在GTX1660GPU的運行環境下,文中提出的識別算法的處理速度能達到15fps,異常行為識別準確率達93.75%,能夠實時準確地識別電扶梯乘坐人員的危險行為,滿足智能視頻監控系統實時性、準確性和魯棒性的要求。但算法仍然存在不足,比如,人員逆行檢出率較低,且當扶梯中乘客過多時,擁擠的乘客會出現嚴重的遮擋使得不能很好地描述人體的行為,從而增加異常行為誤檢率,造成算法效果不佳。下一步將會在多人異常行為檢測與識別方面改善算法的性能,增強算法在多人情況下的魯棒性。