覃福鈿



【摘 要】人工智能時代,現實生活的方方面面都在發(fā)生智能化的轉變。本文以手勢識別為例,講述了基于Tensorflow的卷積神經網絡人工智能技術,在人機交互的實際應用中是如何實現的,包括了手勢圖像數據的采集和預處理、卷積神經網絡的搭建、模型訓練、以及如何應用到實際工程項目中。
【關鍵詞】人工智能;卷積神經網絡;人機交互;手勢識別
人機交互是指人與計算機之間使用某種語言,以一定的方式進行信息交換的過程 [1]。常見的人機交互方式有大家比較熟悉的鍵盤、鼠標、圖形化界面、觸摸屏等,隨著信息技術的發(fā)展,越來越智能化的交互方式也逐漸出現,比如語音識別、智能客服、手勢識別等。本文論述手勢識別這個人機交互功能利用卷積神經網絡的實現原理和過程。
1.卷積神經網絡
卷積神經網絡(Convolutional Neural Networks,CNN)是一種包含卷積計算且具有深度結構的前饋神經網絡,是深度學習的最經典算法之一。卷積神經網絡避免了對參數的過度依賴,相比全連接神經網絡,能更好地識別高維數據。
卷積神經網絡有輸入層、卷積層、激活函數、池化層、全連接層構成。卷積層(Convolutional layer)有多個卷積核單元組成,是神經網絡中不可缺少的部分,主要作用是提取圖像中的特征數據。激活函數(Activation Function)是在卷積之后加入偏置形成的,它的作用是增加卷積神經網絡的非線性能力。池化層(Pooling layer),也叫降采樣層(subsampling),的作用是將卷積層提取到的不重要特征數據去掉,留下主要的特征數據,即降低特征空間。全連接層(Full-Connected layer)是卷積神經網絡隱含層的最后部分,并只向其它全連接層傳遞信號,它的作用則是對提取的特征進行非線性組合以得到輸出,即利用現有的高階特征完成學習目標。
2.數據集采集和預處理
由于手勢操作的人機交互方式適合全年齡段的人,所以采集的數據集包括了老年人、中年人、青年和兒童,男女各5組數據,每組數據包括了上、下、左、右、停止五種手勢,因此總共有200個數據。
首先,通過電腦的攝像頭進行采集手勢視頻的每一幀圖像,并將其保存到一個指定的目錄images中,且目錄images下再細分為up、down、right、left、stop五個子文件夾,分別保存上、下、左、右、停止五種手勢的圖片,然后將labels用數組[0,0,0,0,0]標識,對應位置為1標識分類值。如圖1所示。
最后,將預處理好的數據使用shuffle()方法打亂,并且劃分為80%的訓練數據集和20%的測試數據集,如圖2、圖3所示。
3.卷積神經網絡搭建及訓練
本文的手勢識別卷積神經網絡設置三層卷積層,使用relu激活函數增加網絡的非線性,同時池化層使用max_pooling進行降采樣,網絡的最后搭建兩層全連接層,具體如下。
(1)定義卷積神經網絡的一些參數,輸入圖像尺寸f_height為64,濾波器的寬度filter_width為3,濾波器的高度filter_height為3,輸入數據通道數depth_in為3,隱含層1的通道數(特征數目)depth_out1為32,隱含層1的通道數(特征數目)depth_out2為32,隱含層2的通道數(特征數目)depth_out3為64,手勢分類數n_classes為5種。
(2)初始化權重weight和偏置值bias。
(3)定義卷積層和池化層如下圖所示,conv2d是卷積層,maxpool2d是池化層。卷積層的步長是1,池化層的步長是2,同時padding設置為same,即對圖像邊緣進行填充,避免卷積后圖像大小大幅度減小。
(4)構建卷積神經網絡,包括全連接層,如下圖所示,conv1、conv2、conv3分別是卷積層1、卷積層2、卷積層3,卷積層與全連接層的連接,全連接層fc1、fc2,如圖4所示。
(5)模型訓練如圖所示,激活函數使用softmax( ),損失函數使用Tensorflow中reduce_mean( )方法進行計算,然后優(yōu)化器采用AdamOptimizer算法,此算法可以尋找全局最優(yōu),它通過反向傳播不斷修正權重和偏置值,不斷提高學習正確率。模型訓練開始后,隨著時間的改變準確率也在不斷改變,最終準確率穩(wěn)定再90%左右。最后將訓練好的參數使用tf.train.Saver( ).save( )進行保存。
參考文獻:
[1]李晶,李強,張彤宇.基于軟件交互設計綜合實踐教學研究[J].計算機教育,2017(09):167-171.
[2]邢志恒,黃澤坤.基于FPGA的手勢識別系統設計[J].科學技術創(chuàng)新,2020(28):122-124.
[3]王鑫,陳成凱,陳梓威,霍非凡,林樂坤,吳珂,劉浩.基于FDC2214單通道閾值分析的手勢識別系統[J].實驗技術與管理,2020,37(06):112-115+178.
[4]李凱,王永雄,孫一品. 一種改進的 DTW 動態(tài)手勢識別方法. 小型微型計算機系統,2016,37(7):1600–1603.
[5]陳國良,葛凱凱,李聰浩. 基于多特征 HMM 融合的復雜動態(tài)手勢識別. 華中科技大學學報(自然科學版),2018,46(12):42–47.
[6]陳甜甜,姚璜,左明章,等. 基于深度信息的動態(tài)手勢識別綜述. 計算機科學,2018,45(12):42–51,76.
基金項目:
廣東省高等教育學會“十三五”規(guī)劃2020年度高等教育研究專項課題(20GQN43);教學質量與教學改革工程立項建設項目(東軟學院校(東軟學院校〔2020〕137號)。