邱楷洋 李敏



[摘要]視頻場景中運動人體行為語義計算是一個多學科交叉的研究課題,具有廣泛的應用前景。其關鍵技術包括:場景語義提取和場景分類,場景空間關系以及運動人體行為的自然語言描述與推理。論文對這三個關鍵技術近10年的主要研究成果進行了分別介紹,在對這些方法的優缺點總結的基礎上,預測了這三種關鍵技術的發展方向。
[關鍵詞]行為語義計算 場景語義提取 自然語言描述方法 場景空間關系描述
一、引言
視覺是人類最重要的感覺器官,視覺信息是人類最主要的信息來源。機器視覺是一種典型的仿生學,是人工智能的主要研究內容,有著重要的研究價值。而基于機器視覺信息對運動人體的行為識別和理解,是一個多學科交叉,并充滿挑戰的科學領域。該領域的典型的應用有:智能機器人、智能監控、人機交互技術、運動分析、虛擬現實技術等。運動人體行為識別研究主要分為三個層次:底層研究,中層研究和高層研究。底層是指信息采集、關鍵幀提取以及信號去噪等環節;中層是指運動人體檢測與跟蹤、行為識別與理解、異常行為判定與處理、運動軌跡分析、手勢識別與理解等。高層研究則是指對運動人體的行為進行建模,根據場景敏感度對人體行為進行語義描述與推理。對于底層研究和中層研究,相關的技術已經發展了數十年,各類研究成果已經相當豐富,典型的技術手段有:模版匹配法和狀態空間法,與之相關的各種文章也出現了很多。人類的自然語言產生和文字的出現是人類文明發展的里程碑式的標志。自然語言記錄了人類的文明成果,實現了人類文明成果的交流和分享。運動人體行為識別的高層次研究就是研究如何實現運動人體行為的自然語言描述和計算推理及語義計算。
語義是概念與其在概念中的表達關系以及不同概念在時間,空間及因果上的聯系。計算是指尋找語義的方法。此項技術是在底層研究和中層研究的基礎上發展起來的,是近幾年才興起的,已經越來越受到各國研究機構和學者的關注。運動人體行為語義計算技術目前已經有了一個相對明確的技術框架,如圖1所示。
由圖1可以按看出,運動人體行為語義計算涉及場景的語義,場景空間位置關系,運動人體本身語義三個方面的技術。本文將關注運動人體行為語義識別研究,從運動人體的場景分類識別,空間位置關系描述,運動人體行為語義識別三個方面進行歸納和總結,分類介紹現有的科研成果,并對該領域研究將來的發展方向進行展望。
二、場景語義提取與場景分類
場景信息直接影響著運動人體的行為,并且相同的行為在不同的場景會有不同的理解。所以場景的情景語義和場景識別是運動人體行為語義識別的關鍵技術之一。對于場景的識別,目前有兩大主流技術:①基于數學模型的方法;②基于語義模型的方法,文章將分別介紹這兩種方法的發展現狀。
(一)基于數學模型的場景識別
這類方法都是采用了人工智能領域的典型數學成果,包括(隱馬爾科夫)ttMM,神經網絡,貝葉斯網(BN)等。何彥斌等人提出了一種基于HMM模型的場景識別方法,指定相關情境信息,以隱含場景集和觀察情境集作為參數,利用HMM對隱含場景關系進行建模而設計了相應的算法。一種基于部分連接神經網絡的場景識別方法被提出來。該方法不依賴圖像特征值的選取和圖像特征數目的精簡,將每個像素都作為神經網絡的輸入。還有學者將貝葉斯網和HMM結合起來實現對上下文場景的識別。支持向量機(supportvector machine)SVM是近些年發展很活躍的一種分類方法,LuMing Zhang在其論文中重點考慮了場景的幾何特性、空間特性(拓撲、方位等),采用了SVM實現了空間圖像場景的分類。在一些特定的應用中,室內場景的識別也顯得很有價值。比如在看護機器人的應用中,有學者用室內的普通物體作為中間描述向量,并用這些向量生成統計空間模型,實現了室內場景的分類和識別。無論是HMM,SVM,BN還是其他數學統計模型都是在特定的使用條件下有著優異的表現,但這些模型離識別系統的可持續性和普適性還有一定距離。