999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向特定目標的語音識別系統的設計與研究

2024-05-29 04:22:08郭都盛志恒齊美旭李明東
客聯 2024年2期

郭都 盛志恒 齊美旭 李明東

摘 要:隨著科學技術和人類社會的不斷進步,人們對美好生活的需求日益增長,人們越來越需要從繁雜瑣碎的任務中解脫出來。于是智能機器應運而生,其在家庭中的應用已形成了穩定正常的市場。語音識別中采用Transformer算法,借助正向最大匹配法進行中文分詞,提取語音指令中特定物體的關鍵詞。將所提取的關鍵詞與數據庫中場景物體類進行匹配,保留符合條件的,過濾無關的關鍵詞。提出了一種多模態融合的特定物體識別測距方法,在圖像的基礎上融合語音與測距技術,通過語音指定目標識別并測算距離。旨在以高度集成化算法提高整體系統運行效率、減少檢測時間。實現了基于語音控制的特定目標識別及測距功能,以識別特定目標為基礎,先通過語音識別算法提取說話者指定物體的關鍵字。

關鍵詞:特定目標;語音識別;Transformer

一、引言

對不同位置的物體進行識別標識,根據立體視覺技術的計算原理,計算出指定物體的距離并通過基于語音控制的特定目標識別系統,將最終結果個性化呈現。由于在實際操作過程中,相機分辨率、鏡頭材質、標定板的格式等因素會對測算結果的準確度造成很大的影響。且高質量、高精度攝像頭價格昂貴,會增加系統成本。所以,本文借助中等品質攝像頭設備,采用已優化的算法對精度進行一定的提升,進而滿足實際生產需求。

二、語音識別的研究現狀

美國微軟的開發平臺ROBOTIES以及斯坦福大學實驗室的ROS系統都在系統層面對機器人的發展提供決策支撐。國內的機器人所采用的系統基本上都是封閉式或半封閉式,即開發者根據自己機器人的特定結構,采用專用計算機、專用機器人語言、專用操作系統進行開發。在系統中所使用的各項技術也日益完善。機器學習技術的發展改變了一些傳統的行業,在多個領域中逐步投入應用。深度學習則屬于此類技術中的重要課題,其最初源自于人工神經網絡,用于對人腦結構進行模擬,便于對輸入信號進行多重非線性變化,在圖像處理等領域中顯示出廣闊的前景。因此一些研究者也在此領域投入了巨大的研究精力,致力于在算法以及應用等方面取得突破,使其在語音交互領域中發揮應有的價值。

三、棉線時序鏈接的端到端的語音識別系統模型

基于HMM的語音識別系統仍然存在一定的問題:傳統語音識別框架組件復雜,搭建和訓練系統過程繁瑣;各部分模塊需要單獨訓練,導致各模塊的訓練最優結果不一定是全局最優解;各幀訓練數據需標注且標簽和序列之間需進行強制對齊。針對這些問題,國外研究人員提出端到端模型用于語音識別建模。

CTC模型專門用于時序分類任務的建模,也可以說是用于處理這樣的一種序列標注問題,這種序列標注數據輸入和輸出之間的沒有一一對齊。與混合DNN-HMM方法不同,CTC只需使用神經網絡就可以對序列的所有方面進行建模,而不再需要將RNN與HMM結合。此外,CTC模型也不需要對訓練數據預先分段或者對模型網絡的輸出進行額外處理以獲取序列標簽。

(一)CTC算法及對齊方式

根據輸入的X,基于CTC算法可以得到各個Y的條件概率,在計算過程中需要考慮到輸入、輸出對齊的方式,該問題至關重要,將會直接影響到最終的求解結果。因此需要先對對齊方式進行研究,然后闡述通過對齊方式對損失函數計算的過程。

CTC算法并不要求輸入、輸出保持嚴格的對齊。然而為了方便訓練模型,需要知道X的輸出路徑和最終輸出結果的對應關系,因為在CTC中,多個輸出路徑可能對應一個輸出結果。知道輸入輸出的對應關系才能更好的理解之后損失函數的計算方法和測試使用的計算方法。為了更好的理解CTC的對齊方法,先舉個簡單的例子。假設有一段音頻長度為6,如果希望輸出的序列是Y=[c,a,t],則可以通過一定的對齊方式進行處理,即針對各個輸入設置對應的輸出,并剔除重復的字符。

(二)目標檢測方法

目標檢測是一項復雜任務,需要不同的算法和模型進行實現。隨著深度學習技術的發展,目標檢測的精度和效率均有了顯著提高,特別是YOLO的應用使得目標檢測技術實現又快又準、又輕又穩,與以往技術相比實現了質的飛躍。YOLO將圖像分為網格單元,每個單元預測物體的中心、寬度、高度等信息,并進行分類。YOLO采用卷積神經網絡來提取特征,然后使用全連接層進行分類和邊界框回歸。與其他基于區域提議的方法相比,YOLO具有實時性和快速性的優勢。YOLOv5是YOLO算法的里程碑版本,它在運行速度和檢測準確率等性能指標上均有良好表現。但是,YOLO算法也有其一定的局限性,在對小目標和重疊目標的檢測準確率方面需要根據特定的應用場景進行算法調整。GIOU計算公式如下:

式中A代表圖片真實框(Ground truth)的面積,B代表預測框(Prediction)的面積,C是指能包含A與B的最小面積。

四、面向Transformer的語音識別信息及預處理

Transformer的主要思想是使用自注意力機制來學習長距離的依賴關系,并去掉了傳統的循環神經網絡和卷積神經網絡中的序列結構,因此可以大大減少模型訓練的時間成本。transformer模型由兩個部分組成:編碼器(Encoder)部分和解碼器(Decoder)部分。編碼器(Encoder)的任務是將輸入的序列編碼成另一個向量形式,解碼器(Decoder)的任務是將編碼的向量轉換為目標序列。其輸入到輸出的轉化過程可以視為一個黑盒。在語言轉換任務中,某一語種的句子可以通過這個黑盒被轉換成相同意思的另一語種。模型框架如圖1所示。

TRANSFORMER模型指的是編碼部分和解碼部分。其中編碼部分是由兩個子模塊組成:多頭自注意力模型和前向傳遞網絡。輸入序列首先經過自注意力模型來捕獲序列中不同位置的交互關系,然后通過前向傳遞網絡對每個位置的特征進行非線性變換,解碼部分也是由由兩個子模塊組成:多頭自注意力模型,多頭注意力模型和前向傳遞網絡。

五、總結

從用戶層面出發,介紹了利用Transformer模型進行的語音識別,旨在以文本方式存儲用戶語音信息以便后續的相關操作。然后介紹了對識別出的文本進行關鍵字提取,這里主要介紹了jieba組件的特性、功能、算法基本思想及提高準確性的方法,緊接著介紹的相似度匹配則是對上一步所提取的關鍵詞與語料庫或詞典中的字詞進行匹配,篩選出相同字詞組。接著則介紹了基于改進的YOLOv5s

目標檢測算法,從原理、架構、優點改進等方面進行闡述從而為系統成功設計提高算法上的保障。

參考文獻:

[1]孫林超. 基于WiFi的語音識別的智能家居控制系統的設計與實現[D].杭州電子科技大學,2020.

[2]李登峰,王雷鳴,徐雪潔.基于云平臺的自然語言識別系統的設計[J].信息技術,2017(11):117-120.

基金項目:安徽省教育廳重點科研項目(項目號:2023AH052240),教育部高等教育司產學合作協同育人項目(項目號:202102223021),教育部高等教育司產學合作協同育人項目(編號:220904723130951),教育部高等教育司產學合作協同育人項目(項目號:202102049012)。

主站蜘蛛池模板: 制服丝袜在线视频香蕉| 中文字幕一区二区视频| 毛片网站在线播放| 伊人天堂网| 日韩av资源在线| 人妻精品久久无码区| 激情国产精品一区| 青青青国产视频手机| 国产91在线|中文| 国产农村妇女精品一二区| 亚洲国产天堂在线观看| 乱码国产乱码精品精在线播放| 熟女成人国产精品视频| 中文字幕在线观| 国产毛片网站| 香蕉久久永久视频| 538国产在线| 色婷婷成人网| 91精品aⅴ无码中文字字幕蜜桃| 免费播放毛片| 成人在线欧美| 国产欧美在线观看一区 | 97视频精品全国在线观看| 暴力调教一区二区三区| 国产屁屁影院| 日韩成人免费网站| 真人高潮娇喘嗯啊在线观看| 福利视频久久| 99精品一区二区免费视频| 亚洲天堂免费| 啪啪国产视频| 高潮毛片无遮挡高清视频播放| 狠狠干欧美| 亚洲精品成人片在线观看 | 欧美成一级| 国产青榴视频在线观看网站| 色偷偷av男人的天堂不卡| 国产视频你懂得| 中文字幕天无码久久精品视频免费 | 欧类av怡春院| 国产内射一区亚洲| 人人91人人澡人人妻人人爽| 五月婷婷综合色| 99久久亚洲综合精品TS| 国内精自视频品线一二区| 欧美视频免费一区二区三区 | 国产一区二区三区夜色| 国产拍揄自揄精品视频网站| 国产一区二区三区夜色| 黄片一区二区三区| 婷婷六月在线| 日韩小视频在线播放| 亚洲精品桃花岛av在线| 国产成人做受免费视频| 少妇人妻无码首页| 日韩欧美网址| 国产综合无码一区二区色蜜蜜| 国产91透明丝袜美腿在线| 欧美色视频网站| 国产成熟女人性满足视频| 四虎永久在线精品国产免费| 欧美中文字幕在线视频| 国产欧美精品午夜在线播放| 青草视频网站在线观看| 无码日韩视频| 婷婷99视频精品全部在线观看| 91久久偷偷做嫩草影院| 日韩精品久久久久久久电影蜜臀| 99偷拍视频精品一区二区| 丁香婷婷综合激情| 香蕉精品在线| 亚洲综合经典在线一区二区| 国产精品亚欧美一区二区三区| 亚洲另类国产欧美一区二区| 九九热精品视频在线| 欧美α片免费观看| swag国产精品| 欧洲亚洲欧美国产日本高清| 久视频免费精品6| 久热re国产手机在线观看| 国产精品天干天干在线观看| 日本久久久久久免费网络|