張仕遠 盧彪 楊晨 倪冰倩
摘 要:整個系統的協調需要有一套完整又優良的程序支撐。需要做到,既能實現相應的單個功能,又要創新將各個功能進行聯系而不僅限于實現。各模塊相互協調,功能的實現與優化存在多方面的依賴。系統的完整性、穩定性、交互性都是開發時需要考慮的重點。
關鍵詞:人工智能;機械臂;交互;YOLO
一、引言
當前人工智能領域正在不如我們的日常生活,人工智能領域的研究為人們的生活帶來了極大的改變。除此之外,應用于商業的人工智能研究也在不斷進步。對于當前的人工智能領域的研究,重點之一是模式識別。說起模式識別,一些主流的算法為設計者搭建自己的項目也提供了一些方便,同時讓更多人更容易參與其中的開發,也就為更多人工智能領域的作品能夠應運而生。特別是對于一些還在使用人力的單調工作,為了解決此類問題,智能化的機械臂代替人工操作也就由此開始研究、開發。
二、項目架構
Python人工智能視語雙聯合交互臂的研究針對于大多數產業及一些其他普通工作的智能自動化。項目采用了Python語言設計,內部嵌入式環境為Linux衍生的Ubuntu系統。項目開發之所以采用嵌入式,原因在于該方式可以極大程度上降低項目的開發周期,同時能夠在項目開發過程中出現問題時便于調試。
YOLOv5在圖像識別方面采用多方面圖像處理算法。在圖像處理上,通過卷積神經網絡來對開發人員的數據集進行訓練。反復訓練能夠提高對于同樣一個模型的角度的準確率。模型訓練過程中能夠自適應圖像的位置,能夠對于要識別物體的特征進行分析,同時屏蔽掉一些干擾,識別中通過調整對目標檢測的相似度來保證得到的訓練結果能夠更加精確。
模型檢測中,在視頻輸入流下,對于攝像模塊的適配需要注意。視頻流的目標檢測是通過對于視頻中的每一幀進行單獨檢測輸出到屏幕從而實現視頻流檢測功能。如果視頻的刷新率為25Hz,那么就要求程序在檢測時,需要保證在一秒內能夠對流中讀取到的幀檢測能力超過25次,由此可見,對于目標的檢測時間必須要保證在較短的時間里把一張圖像的檢測結果分析處理,否則就無法流暢地進行視頻流目標檢測,用戶也就無法有更好的體驗。
視頻流帶寬需要滿足:帶寬≥刷新頻率×視頻尺寸×視頻灰度等級
語言功能開發包括兩個方面:一是需要對外界的語音進行識別。二是能夠把需要輸出的文字轉化為音頻輸出。語音的交互能力是機器走向智能化的趨向,當機器能夠通過自然語言把欲表達的信息能夠通過語音輸出模塊輸出為音頻后能夠友好地與人匯報時,對于人機交互的實現就成功了一半。另一半是能夠將人類語言能夠通過一定的算法,轉化為一個參數從而能夠被機器理解,通過一定的處理后做出合理的動作,此時的人機語音交互能力就提升了一大臺階。
語言的應用目前十分熱門,其開發熱度不亞于圖像處理。語言的處理不僅僅停留于將自然語言轉化為相應的文字即可,也不是對于同樣的文字執行固定的指令,而是執行相應的指令。這里的“相應的指令”是指在不同的環境下能夠通過同樣的一句話做出不同的動作并且達到交互者預期的動作。
三、程序設計
Python人工智能視語雙聯合交互臂的視覺開發主要依賴于cv2及numpy等主流圖像處理庫。開發中要盡量只導入工程開發需要的函數,整個工程中過多地導入冗余函數會使得工程過大,運行速度也會受到影響。
client = AipBodyAnalysis(APP_ID, API_KEY, SECRET_KEY)
調用百度官方API實現機械臂的手勢識別,同時也可以通過模型訓練實現無需API即可識別使用者手勢。通過手勢的識別,為多種返回的識別結果進行定義,以此實現機械臂的簡單視覺交互功能。對于較完善的視覺交互還需要一定地深度學習。通過長期地訓練得到更加智能化的人機交互。
人臉采用PID算法過濾:
import cv2 as cv
import PID
import Arm_Lib
人臉識別的人機交互能夠實現對于不同的人,機械臂得到同樣一個參數時做出的不同反映。程序結果在可控情況下的多樣性是機械臂往人工智能方向發展的一大進步。
在人機交互上,如果要實現語音方面的人機交互,對于機械臂的自動協調能力要有較高的能力。在不同的人說出不同的語言時通過機械臂的自動化智能識別,需要根據用戶的語言判斷語種,從而做出準確判斷。其形成初期是需要用戶在切換語種時需要事先傳達切換指令,但是在成熟時期,就需要作品能夠自我協調,能夠有識別出語種切換的能力。
四、開發導引
智能交互臂的開發進步具體的算法實現還有很大的提升空間。例如,當我們進行人機交互時,對于每一次的交互結果進行函數計算,動態更新判斷資料庫,對于偏差較大的值能夠忽略,達到優則用,劣則棄的目的。語言上的學習和視覺上的學習是能夠進行聯合分析進步的,兩者雖然在人工智能領域上各自獨占一方,但是在人工智能方向的發展兩者密不可分。
人機交互的結果能夠通過定制機器語言字典,結合一定的隨機性算法,構建出獨特的機器神經網絡,機器獨立裁決及機器提疑答疑。
五、結語
Python人工智能視語雙聯合交互臂的定義是:在Python環境下為開發者提供了更便捷快速的開發環境。
人機交互是讓人工智能走向平民化的一大研究,其研究重要程度不可忽視。即人工智能的研究的最終目的不是局限于相關專業人員,也不是部份工廠,而是能夠與普通的人民群眾進行“友好相處”。
參考文獻:
[1] 薛廣月, 任雪梅. 基于任務空間的無標定視覺機械臂自適應跟蹤控制[J]. 控制與決策, 2013, 28(7):5.
[2] 許建剛, 任萱, 包磊,等. 基于視覺機械臂的變電房高壓柜旋轉機構操作[J]. 高電壓技術, 2018, 44(zk).
[3] 蘇萌韜. 面向運動物品的視覺機械臂自動抓取方法與系統:, CN112518748A[P]. 2021.
[4] 譚盛江, 曹暉, 郭書超. 基于ROS視覺機械臂的目標抓取研究[J].? 2021.
[5] 薛廣月, 任雪梅. 參數不確定的視覺機械臂自適應逆動力學跟蹤控制[C]// 中國多智能體系統與控制會議. 中國人工智能學會, 2011.
[6] 張建民,許志輝,龍佳樂,陳富健,羅順祺,羅鑫春,林根源,李鴻彬. 三維立體視覺機械臂智能抓取分類系統的開發[J]. 計算機工程與應用(235-240).
[7] 譚盛江, 曹暉, 郭書超. 基于ROS視覺機械臂的目標抓取研究[J]. 中國寬帶, 2021(6):1.