劉 信
(中鐵上海設計院集團有限公司, 200070, 上海市∥高級工程師)
隨著我國經濟的快速發展,軌道交通建設項目與日俱增,針對高鐵站的監視與控制管理的研究已成為軌道交通安全的重要課題[1]。目前,高鐵車站的安全運營問題愈發突出[2],如鐵軌異物、旅客逆行等事件,若能及時采取措施,則可有效預防事故的發生。在日常工作中,由于高鐵站內監控繁多,監控人員需長時間監視各路畫面的視頻[3],極易產生視覺疲勞,無法實現大面積區域的連續觀測,監控效率低下;在警報發生時,監控人員無法實時關聯警報和相關監控視頻進行事態評估[4]。因此,在信息技術[5]快速發展的今天,“智能化、高效率、人機友好性”是對高鐵車站安防監控的新要求[6],也是實現減少人力資源消耗的新途徑。
高鐵車站傳統視頻監控系統受各種主、客觀因素的制約,不能完全滿足重要場合安全管理的實戰需要[7]。傳統視頻監控系統的弊端主要有:
1) 盲點不易察覺。在傳統視頻監控系統模式下,雖攝像設備數量較多,但資源配置不合理,極易出現監控盲區。
2) 海量數據零散且難以對應。傳統視頻監控系統顯示的視頻畫面過多,長此以往,監控人員會感到身心俱疲,既看不過來,也不愛看,從而加劇其抵觸心理,使該監控視頻淪為事后追責的工具。
3) 無法全局實時監控。監控中心受顯示屏幕數量的制約,需要輪流切換多個分鏡頭畫面。傳統監控系統僅刻板地顯示監控畫面,缺乏位置感和方向感,整體布局難以體現。攝像機輪詢模式與實際應用場景的空間位置相對獨立,出現突發狀況時,無法使各類攝像機聯動,需人工干預,這極大地制約了應急處置效率。
4) 用戶體驗較差。傳統視頻監控系統忽視監控人員的用戶體驗,導致工作效率低,追責時易出現責任推諉等問題。
1) 視頻三維場景融合。傳統視頻的二維畫面展示無法給予足夠的空間感,使得用戶時刻處于時空斷裂之中。視頻融合智能監控系統將某一場景的幀序列視頻通過建模、特征拼接等方式與三維場景有效融合,生成一體化的VR(虛擬現實)世界,大幅度地增加了視頻畫面的互動性和虛擬模型的信息承載量。
2) 三維實景監控。將監控視頻通過視頻融合的方式與三維場景進行組合,可有效提升用戶對于監控視頻關聯性的理解,對監控場景整體事態的監管和決策具有重大意義。
3) 統一歷史時間線。視頻融合智能監控系統支持NVR(網絡視頻錄像機)的歷史視頻流訪問,為所有監控視頻流建立統一時間線,讓用戶可方便地切換到某歷史時刻,所有的視頻流可同步到該時刻同時播放,并可隨時進行暫停和繼續,簡化了現有歷史視頻檢索方法。
4) 多源信息融合。用戶可根據需要自行設置POI(信息點)說明,以圖標或圖片的方式植入到虛擬場景中,配置網頁鏈接,設置熱區、熱鏈。這樣用戶不僅能從三維世界直接獲取數據,還可集成添加各類傳感器(如溫度、濕度、煙霧傳感器),并標識出傳感器所在位置,在虛擬現實世界中實時顯示動態傳感信息。
高鐵車站視頻融合智能監控系統(見圖1)主要由用戶層、表現層、應用層、服務層、數據層及基礎設施層等6部分組成。
1) 用戶層:是指使用該視頻融合智能監控系統的各類用戶,主要包括指揮中心監控值班人員、指揮人員、管理人員和上級管理部門的相關人員,可通過網絡在中間層進行通信,從而完成所需工作。
2) 表現層:可為視頻融合智能監控系統提供圖形工作站供監控人員日常執勤使用,同時將視頻推送至移動端以供領導調閱,也可將系統投影到監控大屏;監管人員對系統的操作和觀看等人機交互行為都在圖形工作站完成。該工作站放置在指揮中心,可投放于大屏幕顯示,也可用電腦顯示器觀看,還可根據不同業務需求構建三維模型。
3) 應用層:是終端用戶與虛擬現實視頻融合監控平臺進行互動的唯一接口。該層具有為用戶提供業務運行的基礎環境、視頻處理的基礎應用,以及基于視頻圖像的智能應用等一系列功能,并提供二次開發接口,滿足其他系統數據共享需求。其主要包括視頻融合監控、智能視頻分析和多源信息融合等應用軟件模塊。
4) 服務層:提供各類基礎服務,包括視頻分析、圖像分析、數據分析、視頻流媒體和警報等服務。視頻分析基礎服務是通過較高精度的行人識別算法,對接入系統的多路視頻進行定時抓怕、圖形分析等操作。基于機器學習,提取輸入圖像前景以獲取邊緣特征、前景特征、HOG(方向梯度直方圖)特征等;對獲取到的特征做透視變換,增大距離較遠的圖像像素特征的權值,實現不同的報警分析。
5) 數據層:能提供系統所需的各類數據,其包括空間數據、三維模型數據、系統配置數據、視頻圖片數據和系統管理數據等。
6) 基礎設施層:可最大化地利用監管人員重點防控區域已有的設備資源。其主要包括網絡基礎設施、監控指揮中心大屏、NVR(網絡硬盤錄像機)/DVR(硬盤錄像機)、存儲和服務器等。視頻支持海康威視、大華等主流品牌的NVR平臺接入。對目前尚未支持的設備,只要提供平臺或設備的SDK(軟件開發工具包)通信協議即可進行二次開發接入。

注:Web為全球廣域網,也稱為萬維網。圖1 高鐵車站視頻融合智能監控系統整體架構圖
高鐵車站視頻融合智能監控系統建設了虛擬顯示視頻融合監控平臺,可將多個分鏡頭的畫面進行融合[8]。利用智慧自動巡邏機制,實現基于時空位置的智能精準定位和時空動態分析,從而提升視頻分析及人工智能的應用價值。
1個平臺系指虛擬現實視頻融合監控平臺。利用三維全景視頻融合技術,在前端視頻監控點布設的基礎上,直觀地將高鐵車站安全行政執法相關部門以及周邊場景中處在不同位置、不同視角的分鏡頭監控圖像實時、智能地融合到已構建好的三維模型中。
1種機制系指基于重點區域的智慧自動巡邏機制。作為視頻管理的核心區域,對人流量大、站內環境復雜的重點區域,制定合理的虛擬現實視頻融合空中自動巡邏路線。在高鐵車站安全行政執法相關部門的三維全景視頻系統中,按照制定的空中自動巡邏路徑,為監控指揮人員帶來直觀的視頻監控畫面,從而形成一套體系完整的設備自動巡檢機制。
7項功能系指高鐵車站視頻融合智能監控系統滿足用戶需求的7項主要功能(見圖2)。即虛擬現實視頻融合顯示、智慧自動巡邏、三維全景歷史視頻統一回放、三維中球機關聯顯示、三維測量與規劃預演、警報聯動掛屏顯示和三維全景視頻智能分析。

圖2 高鐵車站視頻融合智能監控系統的7項主要功能圖
目前,很多高鐵車站的現實場景中都安裝有監控安防系統,但大多數場所的監控系統只具有原始的功能。車站視頻融合智能監控系統由大量的監控攝像頭接入,并需要人工進行觀察和檢測異常,這導致了人力資源浪費,以及不能及時發現與處理異常情況。
隨著計算機深度學習技術的不斷發展,深度神經網絡已滲透到各個領域,特別是在多媒體數據的分類與目標識別上取得了巨大的成就。卷積神經網絡[9]模型對數據的紋理特征有著較好的提取能力,且無需太多的人工干預,故其取代了絕大多數的傳統識別算法。
針對現有的問題,本文提出了一種基于深度神經網絡的智能監控系統,旨在進一步提高目標識別的速度、數據處理的智能化與高效化,以及減少一定的人力資源消耗。高鐵車站視頻融合智能監控系統的工作流程如圖3所示。該系統能夠對視頻流進行實時分析處理,且保留異常報警分析結果,并將異常報警日志存入相應的數據庫中。

圖3 高鐵車站視頻融合智能監控系統的工作流程圖
圖3中,如何利用深度神經網絡模型對數據進行精確的特征提取與分析,是該研究內容的重點與難點。本文主要使用了卷積神經網絡來實現視頻數據中目標物體的監督,且對異常情況進行預測與分析。因此,可將該問題歸納為特征提取和特征分類2類,即如何提高特征的表達能力和分類器的準確度和速度。因此,對視頻融合智能監控系統的現實需求和神經網絡進行了綜合研究。基于深度神經網絡的目標檢測算法如圖4所示。
圖4是針對解析過的監控視頻流進行處理,并將處理好的數據輸入到卷積神經網絡當中。該卷積神經網絡是一個端到端的網絡,其完成了輸入的圖像數據到目標物體位置的輸出,即該模型將目標物體預測和分類預測歸納到單個深度神經網絡模型中,在保證目標檢測和識別高準確率的情況下,能極大地契合現實應用場景。

圖4 基于層深度神經網絡的目標檢測算法圖Fig.4 Graph of target detection algorithm based on deep neural network
該卷積神經網絡主要由卷積層、采樣層和全連接層組成。卷積層是網絡的核心,其主要作用是產生網絡中大部分的計算量;采樣層主要作用是逐步降低數據量的空間尺寸,對數據量進行簡化,降低計算資源消耗;全連接層在網絡中充當分類的作用,將分布式特征映射到樣本標簽空間,可對模型的復雜度有著一定程度的保留。在該網絡中,主要用到的激活函數是雙曲正切函數,其優點是收斂速度較快,減少模型的迭代次數。
綜上所述,視頻融合智能監控系統的詳細處理過程描述如下:
1) 從攝像頭或者所保存的視頻文件中獲取每秒的視頻流并進行解碼;
2) 將解析后的數據進行量綱一化和白化操作,即減去每幀圖像的像素平均值;
3) 將上述結果輸入卷積神經網絡,通過卷積神經網絡采樣計算后輸出特征向量,該特征向量就是這一秒視頻提取出的用于對目標物體分類的特征;
4) 將該特征向量輸入到全連接層中,輸出預測結果;
5) 將真實的樣本標簽與預測結果進行比較,計算誤差。
基于深度學習的視頻融合智能監控算法相較于傳統的算法而言,大大提升了數據的處理能力和識別準確率,減少人力資源消耗,更加適用于大型場景和多目標的應用環境。
協作機器人是學術界和工業界的熱門研究內容之一,并為不同的應用領域提供關鍵技術,其中最突出的是視頻融合智能監控。針對大多數監控系統而言,多個視頻流的監控對操作員而言是一項繁重的任務。因此,基于協作機器人的視頻融合智能監控系統,可以監控和分析多個視頻流。
基于協作機器人的視頻融合智能監控系統主要通過使用智能攝像設備和視覺處理技術來提供有關特定環境或場景中不同活動的有用信息。該系統提供的信息可有助于行為分析、事件和活動分析和目標跟蹤,詳細描述如圖5所示。

注:算法處理單元嵌入了智能機器人攝像頭,以便執行對象檢測和跟蹤,可在監控應用中協助操作員。
高鐵車站視頻融合智能監控系統定位為全融合高新視頻解決方案,其通過將真實世界中的大量視頻實時融合到虛擬現實中,構建實時反映真實世界動態變化的虛擬現實世界,帶給用戶更高清、更沉浸、更自由的視頻新體驗。該系統支持可視化指揮調度和管理,實現事前主動預防、事中快速掌控、事后高效復盤;實現快速瀏覽真實世界的演化狀態和歷史變化,統一按時間調度視頻歷史數據,形成真正意義上高鐵車站的最佳運營、運維,從而構建三維全景視頻融合監控體系。