李政謙, 王 娟, 李志強
(北京華電天仁電力控制技術有限公司, 北京 100039)
隨著深度學習的不斷發展,一系列重要成果將工業界和研究界的關注點轉移到產生有價值的數據,并從中訓練學習算法,使基于深度學習的各種應用能夠獲得越來越高的準確度。想要將這些應用在現場大規模部署,必須有一個能夠泛化的檢測模型,因此除了算法本身性能外,還需要數以十萬計的高質量數據作為訓練集。一些場景容易獲得數據集,如微博上的用戶觀點、股票的各項數據等。但同時有一些場景很難獲得大規模訓練集用來訓練高泛化能力的模型,如武器檢測、設備異常檢測、安全帽檢測等。同時為了能夠正確識別這些圖片,必須手動修改數據(如對圖片進行標注),這需要付出相當大的人力成本。
選擇安全帽檢測作為研究對象的原因一是因為安全帽檢測領域沒有公共訓練集,且對環境、遮擋、人物姿態、實時性等方面要求較高,這可以使用虛擬引擎來模擬復雜環境并生成大量圖片;二是網絡上現有五千張左右適用于安全帽檢測的圖片,數量適中,可以通過調整數據集數量來研究使用虛擬圖片對不同規模數據集的影響。
在本研究中,使用專業的游戲引擎Unity3D來解決該領域訓練圖片較少的問題并對獲取的圖片進行自動標注。首先創建一個虛擬訓練集,包括室內控制室、室外現場等不同場景,晴天、雨天、陰天等不同天氣條件,明暗等不同光線情況,虛擬人物存在胡須、眼鏡等不同特征,并設置正面、背面、側面、跑動、低頭等不同姿態。……