郭都 盛志恒 齊美旭 李明東


摘 要:隨著科學技術和人類社會的不斷進步,人們對美好生活的需求日益增長,人們越來越需要從繁雜瑣碎的任務中解脫出來。于是智能機器應運而生,其在家庭中的應用已形成了穩定正常的市場。語音識別中采用Transformer算法,借助正向最大匹配法進行中文分詞,提取語音指令中特定物體的關鍵詞。將所提取的關鍵詞與數據庫中場景物體類進行匹配,保留符合條件的,過濾無關的關鍵詞。提出了一種多模態融合的特定物體識別測距方法,在圖像的基礎上融合語音與測距技術,通過語音指定目標識別并測算距離。旨在以高度集成化算法提高整體系統運行效率、減少檢測時間。實現了基于語音控制的特定目標識別及測距功能,以識別特定目標為基礎,先通過語音識別算法提取說話者指定物體的關鍵字。
關鍵詞:特定目標;語音識別;Transformer
一、引言
對不同位置的物體進行識別標識,根據立體視覺技術的計算原理,計算出指定物體的距離并通過基于語音控制的特定目標識別系統,將最終結果個性化呈現。由于在實際操作過程中,相機分辨率、鏡頭材質、標定板的格式等因素會對測算結果的準確度造成很大的影響。且高質量、高精度攝像頭價格昂貴,會增加系統成本。所以,本文借助中等品質攝像頭設備,采用已優化的算法對精度進行一定的提升,進而滿足實際生產需求。
二、語音識別的研究現狀
美國微軟的開發平臺ROBOTIES以及斯坦福大學實驗室的ROS系統都在系統層面對機器人的發展提供決策支撐。國內的機器人所采用的系統基本上都是封閉式或半封閉式,即開發者根據自己機器人的特定結構,采用專用計算機、專用機器人語言、專用操作系統進行開發。在系統中所使用的各項技術也日益完善。機器學習技術的發展改變了一些傳統的行業,在多個領域中逐步投入應用。深度學習則屬于此類技術中的重要課題,其最初源自于人工神經網絡,用于對人腦結構進行模擬,便于對輸入信號進行多重非線性變化,在圖像處理等領域中顯示出廣闊的前景。因此一些研究者也在此領域投入了巨大的研究精力,致力于在算法以及應用等方面取得突破,使其在語音交互領域中發揮應有的價值。
三、棉線時序鏈接的端到端的語音識別系統模型
基于HMM的語音識別系統仍然存在一定的問題:傳統語音識別框架組件復雜,搭建和訓練系統過程繁瑣;各部分模塊需要單獨訓練,導致各模塊的訓練最優結果不一定是全局最優解;各幀訓練數據需標注且標簽和序列之間需進行強制對齊。針對這些問題,國外研究人員提出端到端模型用于語音識別建模。
CTC模型專門用于時序分類任務的建模,也可以說是用于處理這樣的一種序列標注問題,這種序列標注數據輸入和輸出之間的沒有一一對齊。與混合DNN-HMM方法不同,CTC只需使用神經網絡就可以對序列的所有方面進行建模,而不再需要將RNN與HMM結合。此外,CTC模型也不需要對訓練數據預先分段或者對模型網絡的輸出進行額外處理以獲取序列標簽。
(一)CTC算法及對齊方式
根據輸入的X,基于CTC算法可以得到各個Y的條件概率,在計算過程中需要考慮到輸入、輸出對齊的方式,該問題至關重要,將會直接影響到最終的求解結果。因此需要先對對齊方式進行研究,然后闡述通過對齊方式對損失函數計算的過程。
CTC算法并不要求輸入、輸出保持嚴格的對齊。然而為了方便訓練模型,需要知道X的輸出路徑和最終輸出結果的對應關系,因為在CTC中,多個輸出路徑可能對應一個輸出結果。知道輸入輸出的對應關系才能更好的理解之后損失函數的計算方法和測試使用的計算方法。為了更好的理解CTC的對齊方法,先舉個簡單的例子。假設有一段音頻長度為6,如果希望輸出的序列是Y=[c,a,t],則可以通過一定的對齊方式進行處理,即針對各個輸入設置對應的輸出,并剔除重復的字符。
(二)目標檢測方法
目標檢測是一項復雜任務,需要不同的算法和模型進行實現。隨著深度學習技術的發展,目標檢測的精度和效率均有了顯著提高,特別是YOLO的應用使得目標檢測技術實現又快又準、又輕又穩,與以往技術相比實現了質的飛躍。YOLO將圖像分為網格單元,每個單元預測物體的中心、寬度、高度等信息,并進行分類。YOLO采用卷積神經網絡來提取特征,然后使用全連接層進行分類和邊界框回歸。與其他基于區域提議的方法相比,YOLO具有實時性和快速性的優勢。YOLOv5是YOLO算法的里程碑版本,它在運行速度和檢測準確率等性能指標上均有良好表現。但是,YOLO算法也有其一定的局限性,在對小目標和重疊目標的檢測準確率方面需要根據特定的應用場景進行算法調整。GIOU計算公式如下:
式中A代表圖片真實框(Ground truth)的面積,B代表預測框(Prediction)的面積,C是指能包含A與B的最小面積。
四、面向Transformer的語音識別信息及預處理
Transformer的主要思想是使用自注意力機制來學習長距離的依賴關系,并去掉了傳統的循環神經網絡和卷積神經網絡中的序列結構,因此可以大大減少模型訓練的時間成本。transformer模型由兩個部分組成:編碼器(Encoder)部分和解碼器(Decoder)部分。編碼器(Encoder)的任務是將輸入的序列編碼成另一個向量形式,解碼器(Decoder)的任務是將編碼的向量轉換為目標序列。其輸入到輸出的轉化過程可以視為一個黑盒。在語言轉換任務中,某一語種的句子可以通過這個黑盒被轉換成相同意思的另一語種。模型框架如圖1所示。
TRANSFORMER模型指的是編碼部分和解碼部分。其中編碼部分是由兩個子模塊組成:多頭自注意力模型和前向傳遞網絡。輸入序列首先經過自注意力模型來捕獲序列中不同位置的交互關系,然后通過前向傳遞網絡對每個位置的特征進行非線性變換,解碼部分也是由由兩個子模塊組成:多頭自注意力模型,多頭注意力模型和前向傳遞網絡。
五、總結
從用戶層面出發,介紹了利用Transformer模型進行的語音識別,旨在以文本方式存儲用戶語音信息以便后續的相關操作。然后介紹了對識別出的文本進行關鍵字提取,這里主要介紹了jieba組件的特性、功能、算法基本思想及提高準確性的方法,緊接著介紹的相似度匹配則是對上一步所提取的關鍵詞與語料庫或詞典中的字詞進行匹配,篩選出相同字詞組。接著則介紹了基于改進的YOLOv5s
目標檢測算法,從原理、架構、優點改進等方面進行闡述從而為系統成功設計提高算法上的保障。
參考文獻:
[1]孫林超. 基于WiFi的語音識別的智能家居控制系統的設計與實現[D].杭州電子科技大學,2020.
[2]李登峰,王雷鳴,徐雪潔.基于云平臺的自然語言識別系統的設計[J].信息技術,2017(11):117-120.
基金項目:安徽省教育廳重點科研項目(項目號:2023AH052240),教育部高等教育司產學合作協同育人項目(項目號:202102223021),教育部高等教育司產學合作協同育人項目(編號:220904723130951),教育部高等教育司產學合作協同育人項目(項目號:202102049012)。