999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語音識別技術在地學領域的應用

2023-12-29 00:00:00劉洋張明林王良玉王青
西部資源 2023年1期

[摘要]語音識別是通過計算機將語音自動轉換成文字的技術,是一種以語音為基礎的人與機器之間的交互方法,在生產生活方面都有廣泛的應用。語音識別的工作流程主要包括特征提取—識別建模及模型訓練—解碼得到結果。隨著移動終端設備的智能化和硬件性能的飛速發展,傳感器種類不斷豐富,研究并加以利用這些最新的軟件環境和硬件設備,使得野外數據采集更為高效準確是數字勘查技術的發展趨勢。采用基于語音識別的、方便快速又智能的方法來提高技術人員野外數據采集的效率,對于革新傳統意義上的野外數據采集具有重要意義。

[關鍵詞]語音識別;聲學模型;神經網絡;數據采集

[資助項目]中國核工業地質局基礎項目《鈾礦勘查大數據匯聚與挖掘利用》(202104)。

語音識別(ASR)是通過計算機將語音自動轉換成文字的技術[1],與語言理解、語言生成和語音合成等技術密不可分,是一種以語音為基礎的人與機器之間的交互方法[2]。語音識別技術的形成與發展涉及眾多學科,包括語言學、語音學、聲學、神經生物學、模式識別理論、信息理論等。語音識別技術的3個關鍵要素為數據、算法和芯片,大量優質的數據、精準快速的算法及高性能語音識別芯片是提升識別效果的核心[3]。

1.應用場景

目前語音識別在智能家居、智能車載、智能客服機器人等領域有廣泛的應用,未來將會深入到學習、生活、工作的各個環節。國內外許多公司都在傾力研究此技術,并不斷推出實際產品,比如科大訊飛的翻譯器譯唄,百度的智能行車助手CoDriver,科大訊飛與奇瑞推出的飛魚汽車助理,搜狗與四維圖新推出的飛歌導航,云知聲、思必馳推出的智能語控車載產品等,在同聲互譯、行車導航、語音操控等方面取得了不錯的應用效果。

2.語音識別的原理

語音識別的主要工作流程包括特征提取—識別建模及模型訓練—解碼得到結果。

2.1特征提取

2.1.1采樣

聲音實際上是一種波,我們通過聲波采樣形成非壓縮的純波形文件,常用的.wav音頻文件就是一種非壓縮的波形文件。人類語音的頻率范圍位于16kHz以內,每秒16000個采樣的采樣頻率足以覆蓋。如果將一段語音每秒采樣16000次,把聲波在每秒鐘1/16000處的振幅用數字進行表示,則會形成一個數列。將這些數字繪制為簡單的折線圖,我們就得到了原始聲波的形狀(圖1)[4]。

2.1.2分幀

分幀就是把聲波按等間距切割成小段,每小段稱為一幀。分幀后,聲波就變成了小段的波形(圖2)[4]。

2.1.3特征提取

波形在時域上的描述能力極為有限,需要將波形進行轉換。目前常用的轉換方法是梅爾頻率倒譜系數算法(MFCC)[13],其原理是依照人耳生理特性,把每段波形轉換成一個多維向量,而這個向量就是語音信息的具象化表達。該過程被稱為聲學特征提取。

聲波由不同頻率的低、中、高音組合在一起,需要通過傅里葉變換(FourierTransform)將聲波從低音到高音分解成一個個頻段,然后將每個頻段中的能量(與振幅的平方成正比)相加,最終得到的結果便是從低音到高音每個頻段的重要程度(色塊的顏色深淺表示重要程度)(圖3)[4],從而為本幀創建了一個“指紋”。

對聲音的每幀(每20ms)重復這個過程,將會得到一個頻譜(圖4),每一列從左到右都是一個20毫秒的切片,這是能夠輸入到神經網絡中去的數據呈現方式(圖5)[4]。就神經網絡的工作方式而言,從頻譜中尋找規律要比從原始聲波中尋找規律容易得多。

2.2識別建模及模型訓練

2.2.1識別單元

(1)音素:人類每個詞匯的發音都由音素組成,在語言學上不同語種的音素劃分方式是不同的,例如,英語主要采用一種由39個音素組成的音素集,而漢語的音素集則由聲母和韻母組成。在進行語音識別時,音素區分的方式基本相同,一般使用能夠兼顧前后各一個音素的三音子作為建模單元。

(2)狀態:三音子作為建模單元還可以被分解為更細的粒度,稱之為“狀態”。一般情況下,一個三音子對應三個狀態。在識別過程中,計算機首先將幀識別為狀態,然后把狀態組合為音素,再把音素拼接成單詞。如圖6所示,圖中每一豎條為一幀,數幀對應一個狀態;相鄰三個狀態構成一個音素;數個音素拼接成一個單詞[4]。

2.2.2識別建模

語音識別是由計算機尋找、比對與音頻匹配度最高的文字,進而將音頻序列轉換為文字序列的過程。其匹配度可以用概率來表示,可分為3個部分:轉移概率(狀態之間跳轉的概率)、觀測概率(幀和狀態之間匹配的概率)、語言概率(符合詞匯組合規律的概率)。識別建模主要包括聲學模型、語言模型,聲學模型負責計算音頻與音素的對應概率(轉移概率和觀測概率),語言模型負責計算音素與文字的對應概率(語言概率)。

(1)聲學模型

在聲學模型中通常使用隱馬爾科夫模型(HMM)來獲取轉移概率,通過高斯混合模型(GMM)獲取觀測概率。隨著神經網絡技術的發展,深度神經網絡(DNN)、循環神經網絡(RNN)、卷積神經網絡(CNN)等機器學習模型在觀測概率的建模中也得到了廣泛應用[3]。

A.高斯混合模型(GMM)

GMM-HMM混合模型是語音識別系統中典型的并且截止到現在仍被廣泛使用的模型[6],利用HMM對語音單元(如音素)的演化進行建模,利用GMM來表示聲學輸入與語音單元之間的關系[12]。GMM是一種輕量化、淺層次的學習模型[7],其優點是參數量小,訓練的收斂速度快,更加符合終端設備的應用場景;缺點是建模能力有限,在語境信息的利用上存在瓶頸。

B.深度神經網絡(DNN)

DNN是比較典型的深層學習結構,也是最早用于聲學建模的神經網絡[7]。在數據表示上,DNNHMM混合模型比GMM-HMM混合模型更加高效,使得語音識別率有了大幅提升。DNN-HMM混合模型以其高識別率和相對較低的訓練成本,成為一些特定語音識別場景中常用的聲學建模方式。DNN模型對輸入的特征長度有一定要求,受該條件約束DNN需要采用固定長度的滑動窗來提取特征。

C.循環神經網絡(RNN)

RNN在語音序列建模過程中,具備記憶和向前追溯的能力,使其在進行狀態分析和音素組合時能夠最大限度地利用音頻的上下文信息(語境信息),其識別結果具有更高的準確性和可靠性。RNN模型使用的神經網絡層數更深、更為復雜,運行時向前追溯和計算的過程會增加額外的時間成本,這也是RNN模型在語音識別實時率要求較高的場景下應用受限的主要原因[9]。

D.卷積神經網絡(CNN)

CNN可以通過使用相對較小的卷積核、建立更深的神經網絡層,對頻譜圖中頻率軸和時間軸上的信息同時進行卷積,進而實現對可變長度語境信息的利用。面對不同的語速環境,CNN、RNN相比于DNN表現出更強的適應性和穩定性,從而取得了更好的識別效果。CNN作為DNN的延伸越來越得到廣泛的應用,但是CNN需要進行大量的參數訓練,需要投入的人力物力等訓練成本更高[8]。

各個聲學模型都有其優勢和局限性(表1),分別適用于不同的應用場景。但是在實際應用過程中,其語音識別的環境往往更加復雜,單一模型難以解決多方面的應用需求,而混合模型能夠發揮各個模型的優勢。目前,混合模型已成為聲學模型建模的一種常用解決方案。

(2)語言模型

語言模型對語音識別的準確性至關重要,在無語言模型約束的情況下,僅由聲學模型得到的識別結果是一種基于單詞匯最大概率的無序組合,不符合詞組的正常使用習慣。語言模型是通過對日常使用的詞組(文本)進行大量訓練,使機器逐漸掌握詞組的使用規則和規律,進而作為一種約束條件對聲學模型的識別結果進行校正,得到最佳的詞組序列組合。在語音識別和搜索引擎中,常用N-Gram模型作為語言模型。隨著神經網絡技術的發展,RNN、CNN等建模方法也逐漸應用于語言模型的建立。

(3)模型訓練

如前所述,聲學模型是由大量參數組成的,這些參數的產生是通過對大量語音數據進行識別“訓練”和修正后得到的結果。近年來,神經網絡在模型訓練中得到了廣泛應用。神經網絡是一種層疊式結構,可分為輸入層、隱層、輸出層等三層,每層均由“神經元”組成。輸入層的神經元為所提取的語音信號特征,隱層的神經元通過樣本訓練構建,輸出層的神經元為語音識別詞匯。進行模型訓練時,首先提取詞匯的語音特征作為輸入,并對詞匯進行編號作為目標輸出;再通過隱層的概率計算和匹配,得到輸出層的結果;然后求取實際輸出和目標輸出的誤差,如果二者誤差高于設定的閾值,需要對神經元間的鏈接權值進行修正并繼續訓練,直至誤差低于所設閾值時停止訓練,保存隱層神經元的訓練參數及各神經元間的鏈接權值(圖7)[10]。

2.3解碼

解碼是將輸入聲學模型中的語音幀序列與語言模型中的詞組進行匹配的過程,需要建立聲音信號與文本結果間的匹配關系。通常是把聲學模型、語言模型、詞典展布在一個網絡中,通過維特比(Viterbi)算法(一種動態規劃剪枝算法)來尋找全局最優路徑,以最大后驗概率從這個網絡空間選擇一條或多條最優路徑作為識別結果(最優的輸出字符序列)[3]。

3.在地學領域的應用

3.1應用趨勢

隨著移動終端設備的智能化和硬件性能的飛速發展,傳感器種類不斷豐富,研究并加以利用這些最新的軟件環境和硬件設備,使得野外數據采集更為高效準確是數字勘查技術的發展趨勢。近年來,語音識別技術正逐步應用于地學領域,如中國地質調查局的野外數據采集系統(DGSS)、中國核工業地質局的鉆孔數據采集系統(QuantyU_PAD),均引進了語音識別技術,用于野外數據采集時快速錄入數據。

語音識別的應用打破了紙質書寫緩慢、鍵盤輸入不便的困境,提高了野外工作信息的采集效率,改善了便攜式采集設備的用戶體驗。采用基于語音識別的、方便快速又智能的方法來提高技術人員野外數據采集的效率,對于革新傳統意義上的野外數據采集具有重要意義。

3.2現階段存在的問題及下一步的解決方案

3.2.1專業術語的識別率低

語音識別建立在龐大的數據量基礎上,其整體識別率很高,在理想實驗中正確率可達到98%以上[11],已能滿足大多數用戶的日常需求。但這種高識別率是由日常使用的高頻詞匯拉升起來的,專業術語所占詞匯量的比例要遠遠低于常用詞匯,實際應用顯示,語音識別在地學領域的術語識別率尚未達到理想效果。從識別建模及模型訓練的原理中我們可以看出,識別結果本質上是一個概率結果,取決于詞匯在龐大參考數據內出現的頻率,那么對于占比不高的專業術語,其識別率就不易提高。另外,由于應用場景的不同,相同的發音在不同領域對應的理想輸出結果應是不同的,以漢語發音的“chángshí”為例,在教育領域、文學領域,其對應的理想輸出結果是“常識”;而在地學領域,其對應的理想輸出結果應為“長石”。再如漢語發音“cìyuán”,在數學領域、物理學領域,其對應的理想輸出結果是“次元”;而在地學領域,其對應的理想輸出結果應為“次圓”。

目前,在移動設備上語音識別分為在線、離線兩種模式:在線模式與云端數據相連,聲學模型、語言模型較為完備,識別結果相對精確,經鉆孔編錄實際應用測試,準確率可達87%左右,基本已能滿足生產工作需求,但對專業術語的識別仍未達到理想效果,需要用戶再次介入修改;離線模式啟用離線語音包,容量小,基于有限的聲學模型、語言模型,識別速度、輸出結果不盡如人意,應用測試的準確率僅有70%,甚至更低,在地學領域離投入生產應用還有很大的差距。

讓機器根據語義去判斷使用者所處的專業領域,反饋理想的術語識別結果,需要人工智能與大數據的高度融合,是未來的發展趨勢,需要建立更為龐大、更為復雜的識別模型,其實現周期很長。面向不同領域建立專屬的語言模型、詞典庫,配合機器學習與模型訓練,將識別結果限制在一個可控的范圍內,是提高專業術語識別準確率最直接的途徑。另一方面,由于野外施工環境的復雜多變,在沒有網絡信號接入的情況下,移動設備只能啟用離線模式,那么硬件的儲存空間和運算速度將會成為限制離線識別率的瓶頸,研發大容量、高性能、低價位的芯片是提高離線識別率、普及便攜式采集設備的突破口。

3.2.2缺乏有效的降噪手段

地質行業大多處于露天工作環境,大風天氣或現場施工產生的噪音會不同程度地影響識別效果。傳統降噪是基于統計意義上面的一個處理,難以做到瞬時噪聲的精準估計,這個本身就是一個近似的、粗略模糊化的處理,即不可避免的對噪聲欠估計或者過估計,本身難把握。強噪聲環境中系統無法正確判別干擾雜音與用戶聲源的情況下,將會把用戶聲音中的一部分或大部分一同當作噪聲過濾掉而不進行判別,這就導致了識別系統呆滯或識別效果不佳。只有用戶不斷提高音量,才有可能得到識別結果,嚴重影響了用戶體驗。

現階段,系統算法能夠起到的作用是有限的,要想進一步改善降噪效果,還需要從硬件上著手。波束賦形技術是目前使用相對廣泛的降噪技術,與傳統降噪不同,波束賦形更加強調聲源。通過建立指向軸并轉向聲源的方向,利用多個麥克風的相位差,降低聲源方向以外的噪聲。配合噪聲抑制功能,可以進一步降低殘留在指向軸上的固定噪音[14]。該技術支持在窄間距范圍內安裝2個麥克風甚至多個麥克風組成的陣列,可以應用于筆記本電腦、平板電腦、手機、錄音筆等便攜式設備上,是一種硬件與算法相結合的降噪方式。

4.結論

語音識別正逐步成為信息技術中人機接口的關鍵技術[5],它使得人們能夠甩掉鍵盤,通過語音命令進行操作。語音識別技術在地學領域得到了一定程度的應用,但也發現了一些切實存在的問題。由于工作環境和識別需求的特殊性,造成地質生產應用過程中語音識別的準確度尚未達到理想效果。今后需根據地質工作的實際需求,建立具有針對性的識別模型,充分運用人工智能、機器學習及云計算和芯片的新技術,實現人工智能模型的遷移學習,節省成本,提高效率,全面提升語音識別的速度與精度。

[參考文獻]

[1]何湘智.語音識別的研究與發展[J].計算機與現代化,2002(3):3-6.

[2]楊勝捷,朱灝耘,馮天祥,等.基于Kaldi的語音識別算法[J].電腦知識與技術,2019,15(2):163-166.

[3]李萬鴻.論語音識別三大關鍵技術[EB/OL].

[4]郭少悲.語音識別技術基礎理解[EB/OL].

[5]淺談語音識別技術的發展趨勢與應用前景[EB/OL].

[6]楊洋,汪毓鐸.基于改進卷積神經網絡算法的語音識別[J].應用聲學,2017,37(6):940-946.

[7]侯一民,李永平.基于卷積神經網絡的孤立詞語音識別[J].計算機工程與設計,2019,40(6):1751-1756.

[8]楊鶴標,龔文彥.基于卷積神經網絡的反向傳播算法改進[J].計算機工程與設計,2019,40(1):126-130.

[9]張舸,張鵬遠,潘接林,等.基于異構計算的語音識別解碼加速方法[J].網絡新媒體技術,2019,8(3):34-38.

[10]冀瑞國.神經網絡在語音識別中的應用[J].電子技術與軟件工程,2019,249.

[11]周玨嘉,相非,崔寶秋,等.AI下的智能語音開放創新平臺[J].信息技術與標準化,2019,1-2:21-23.

[12]楊鴻武,周剛.基于改進混合CTC/attention架構的端到端普通話語音識別[J].西北師范大學學報(自然科學版),2019,55(3):48-53.

[13]許元洪,郭瓊.數據挖掘技術在語音識別中的應用[J].應用技術學報,2019,19(1):84-87.

[14]潘麗杰,徐本亮,朱琪,等.基于雙麥克風降噪技術的語音識別系統[J].現代電子技術,2016,39(2):137-142.

主站蜘蛛池模板: 99久久精品美女高潮喷水| 国产电话自拍伊人| 婷婷久久综合九色综合88| 亚洲成在线观看| 性视频久久| a网站在线观看| 色哟哟国产精品一区二区| 久久综合干| 免费国产高清精品一区在线| 国产婬乱a一级毛片多女| 2024av在线无码中文最新| 国产精品漂亮美女在线观看| 久久77777| 亚洲成人精品在线| 在线视频97| 亚洲视频在线网| 国产自视频| 国产一区二区丝袜高跟鞋| 日本精品视频一区二区| 综合成人国产| 18禁高潮出水呻吟娇喘蜜芽| 无码日韩视频| 四虎永久在线精品影院| 欧美激情综合一区二区| 欧美亚洲国产视频| 中文字幕在线播放不卡| 国产欧美日韩资源在线观看| 成人免费黄色小视频| 伊人激情综合网| 国产精品浪潮Av| 国产精品一线天| 大香伊人久久| 色国产视频| 国产精品护士| аⅴ资源中文在线天堂| 欧美激情第一欧美在线| 伊人天堂网| 免费国产在线精品一区| 午夜无码一区二区三区| 久久久精品国产亚洲AV日韩| 午夜国产小视频| 久99久热只有精品国产15| 亚洲欧美不卡视频| 国产亚洲精品资源在线26u| 91小视频在线观看免费版高清| 亚洲区一区| 国产91丝袜在线观看| 97综合久久| 热思思久久免费视频| 激情午夜婷婷| 亚洲国产日韩视频观看| 在线免费a视频| 精品久久人人爽人人玩人人妻| 亚洲精品少妇熟女| 婷婷伊人五月| 亚洲精品第一在线观看视频| 亚洲欧美国产五月天综合| 亚洲欧美成人在线视频| 国产在线专区| 日韩亚洲综合在线| 国产经典三级在线| 亚洲国产一成久久精品国产成人综合| 欧美一区二区人人喊爽| 精品国产www| 国产91导航| 欧美亚洲一区二区三区在线| 成年片色大黄全免费网站久久| 亚洲精品色AV无码看| 色亚洲成人| 日韩国产综合精选| 亚洲娇小与黑人巨大交| 国产精品亚欧美一区二区三区| 一级成人欧美一区在线观看| 69免费在线视频| 久久久受www免费人成| 国内精自视频品线一二区| 久久午夜影院| 香蕉国产精品视频| 国产真实乱人视频| 亚洲专区一区二区在线观看| 91精品综合| 国产精品免费电影|