(北京物資學院 北京 101149)
近些年,我國物流發展迅速,同時出現現代化、智能化的趨勢。現在的物流環節中主要存在著兩個問題,其一是訂單增長過快,傳統人工模式,響應不夠及時,完成效果有明顯不足,其二是場地,人工等成本的增長,讓物流企業承擔著較大的壓力。因此機器人已經廣泛的應用于工業與物流的各個環節之中,不僅降低了物流企業的成本,同時提高了物流企業各個環節的效率。隨著各種智能配件與傳感器等應用于物流機器人中,解除了機器人自身的各種限制,使得機器人擁有了感知能力,讓機器人可以識別、處理、收集各種信息,例如RFID技術,通過電磁波實現電子標簽的讀寫與通信。
識別技術也廣泛的應用于我們的生活之中,語音識別,圖像識別等,例如解鎖用到的指紋解鎖,人臉解鎖等,用于翻譯的文字識別等。這些技術的廣泛應用都依靠機器視覺。機器視覺是用機器人與攝像頭的配合實現對人眼功能的模擬,特點是應用方便、速度快、精度高、控制簡單。機器視覺使用攝像機采集場景圖像,并通過圖像處理與分析[1]。機器視覺在工業生產過程中,應用于識別、檢測、分揀等過程,機器視覺的應用既降低了成本,又提高了效率。
人工智能一直是各種研究的熱點,而機器學習是人工智能的核心,是讓機器擁有智能的重要途徑。而深度學習是近些年研究的新方向與熱點。通過對于人工神經的模擬,實現對數據的利用,取得知識。深度學習的發展加強了目標識別與定位技術的發展。隨著卷積神經網絡的深入研究,被廣泛的應用于圖像識別。在2013年的Image Net大規模視覺識別挑戰比賽大部分參賽隊伍都用上了深度卷積網絡。
深度學習在信息技術發展的現代,在大數據背景的下,可以自主的進行學習,無需人工參與的學習方法,無疑會成為研究熱點,并深刻的影響人們的生活。
機器學習主要分為兩類研究方向:第一類是傳統機器學習的研究,該類研究主要是研究學習機制,注重探索模擬人的學習機制;第二類是大數據環境下機器學習的研究,該類研究主要是研究如何有效利用信息,注重從巨量數據中獲取隱藏的、有效的、可理解的知識。
圖像識別的主要目的是對圖像、圖片、景物、文字等信息經過處理和識別,來解決計算機與外部環境的直接通信過程[2]。圖像識別主要分為三個階段:獲取圖像、處理圖像、圖像分類。圖像獲取,是指在通過攝像頭進行獲取或者在輸入需要識別的圖像后,對其進行轉化,使得機器可以識別和處理輸入圖像。圖像處理,包括預處理與特征提取,預處理是指將輸入圖像進行優化改善,以便于加快后續識別與處理的速度與精度。特征提取是將輸入圖像的高層特征轉化為底層特征,這些底層特征可以一定程度上表示圖像包含的元素和數值,同時與設定特征進行比較,進而進行圖像的識別。圖像分類,即根據圖像處理后的結果,通過其中的特征、信息等數據與設定進行對比,進而進行對輸入圖像的識別、定位、分類。
圖像的特征提取,主要分為兩部分,高層特征與底層特征。相對來說,底層特征較為簡單,是通過簡單處理就可以得到的,就像是一眼可以看出來的特征,例如形狀特征,顏色特征。而高層特征就像是人的思考模式,人的思維所確定的特征。傳統的機器學習工作時,用于描述圖像的特征一般是由人為設定,這稱為特征工程,所以設定的特征好壞很大程度影響到識別效果。即使采用的人為設定特征的方法,高層特征也會面臨諸多問題,特征相近卻錯誤,特征不全導致識別錯誤等。所以普通的發展很難提取合適的高層特征,即使提取了高層特征,也無法很好的體現輸入圖像的高層特征,也就造成了圖像識別的發展的瓶頸。但是大數據環境下的機器學習的研究一定程度上解決了高層特征的問題。
深度學習是機器學習在大數據環境下熱門的研究領域。深度學習始于神經網絡。神經網絡的初衷是想通過像人一樣的神經網絡,賦予機器人像人一樣的思維模式與思考方式,進而可以像人一樣識別和處理圖像、文字、語音等。深度學習通過神經網絡的配合用于從底層特征中提取更加深層的高層特征,可以更好的表現圖像的分布式特征,更豐富的表達圖像的內在信息。深度學習的發展有三個主要的原因,首先,計算機計算能力的提升,即GPU性能足夠進行深度學習的計算;其次,是訓練數據增加與共享,使得學習的成本降低;最后,是深度學習模型規模的改變。
深度學習算法在高層特征的提取中,有兩個方面的重點,第一個是多層次的非線性信息處理,第二個是學習過程中是否有監督學習。深度學習的高層特征由底層特征綜合學習得到,這種過程因為是自主學習,減少了人為因素的影響,同時可以更全面、更抽象的表達特征。而有監督的深度學習,可以讓訓練結果更加接近設計目標。深度學習可以使用一種更加簡單的方式完成較大的函數集合的嵌套,一個復雜函數,一般的單層結構神經網絡很難表達,而多層神經網絡,可以看成函數的嵌套,就可以使用簡單的方式表達復雜函數,在表達的同時還可以不破壞原有函數的線性表達。
深度學習的常用方法主要包括兩種,分別是深度信念網絡(DBN)和卷積神經網絡(CNN)。
深度信念網絡由多層學習模型所組成,以深度神經網絡為基礎,使用其訓練結果作為初始權值,再使用其他算法對權值調整,以達到目標。深度信念網絡由多層限制性玻爾茲曼機構成,可以通過有效的無監督貪婪訓練方法進行訓練。深度信念網絡適用于缺少訓練數據的情況。通過合適的算法進行對初始權值的確定,有益于模型的性能,提高模型速度。
卷積神經網絡由多個卷積層、池化層和全連接層組成。卷積神經網絡具有表征學習(representation learning)能力,能夠按其階層結構對輸入信息進行平移不變分類(shift-invariant classification),因此也被稱為“平移不變人工神經網絡(Shift-Invariant Artificial Neural Networks,SIANN)”[3]。
深度學習作為人工智能重要的研究方向,通過對圖像數據的學習,自主的發現圖像的特征。卷積神經網絡的出現,極大的提高了特征提取的處理速度和識別精度。將深度學習用于目標識別,可以減少物流企業中的成本與工作效率。