999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

智能機(jī)器人語(yǔ)音交互專利技術(shù)分析

2020-08-04 20:28:41張媛媛宋海榮楊少魁
河南科技 2020年9期

張媛媛 宋海榮 楊少魁

摘要:語(yǔ)言是人類最自然便捷的溝通手段,是人類之間進(jìn)行交流的重要表達(dá)方式。語(yǔ)音交互技術(shù)在智能機(jī)器人的應(yīng)用,主要是通過語(yǔ)音輸入設(shè)備輸入語(yǔ)音,再通過相應(yīng)的軟件、程序等使計(jì)算機(jī)分辨出人類語(yǔ)音的內(nèi)容,實(shí)現(xiàn)人與計(jì)算機(jī)之間的交互。基于語(yǔ)音的機(jī)器人交互技術(shù),主要包括語(yǔ)音采集、語(yǔ)音識(shí)別、語(yǔ)音合成等關(guān)鍵技術(shù)環(huán)節(jié)。因此,本文從語(yǔ)音采集、語(yǔ)音合成、語(yǔ)音識(shí)別三個(gè)分支通過歷年申請(qǐng)量、區(qū)域分布、技術(shù)活躍度、主要申請(qǐng)人以及技術(shù)演進(jìn)等角度,對(duì)智能機(jī)器人語(yǔ)音交互的專利進(jìn)行了梳理,以期對(duì)智能機(jī)器人語(yǔ)音交互專利進(jìn)行深入分析,為機(jī)器人語(yǔ)音交互技術(shù)領(lǐng)域提供技術(shù)發(fā)展方向和專利布局指導(dǎo)。

關(guān)鍵詞:機(jī)器人;語(yǔ)音采集;語(yǔ)音合成;語(yǔ)音識(shí)別

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-5168(2020)09-0153-08

1 概述

隨著人工智能的蓬勃發(fā)展,智能機(jī)器人在商業(yè)、軍事、醫(yī)療等方法都有廣泛的應(yīng)用。追求智能化的今天,實(shí)現(xiàn)人和機(jī)器之間“無障礙”的對(duì)話與交流,以提高機(jī)器的主動(dòng)性與能動(dòng)性,也能不斷擴(kuò)大應(yīng)用的領(lǐng)域[1]。因此,語(yǔ)音交互技術(shù)是智能機(jī)器人的核心技術(shù),其通過語(yǔ)音輸入設(shè)備輸入語(yǔ)音,再通過相應(yīng)的軟件、程序等使計(jì)算機(jī)分辨出人類語(yǔ)音的內(nèi)容,實(shí)現(xiàn)人與計(jì)算機(jī)之間的交互。基于語(yǔ)音的機(jī)器人交互技術(shù),主要包括語(yǔ)音采集、語(yǔ)音識(shí)別、語(yǔ)音合成等關(guān)鍵技術(shù)環(huán)節(jié)。因此,本文從語(yǔ)音采集、語(yǔ)音合成、語(yǔ)音識(shí)別三個(gè)分支通過歷年申請(qǐng)量、區(qū)域分布、技術(shù)活躍度、主要申請(qǐng)人以及技術(shù)演進(jìn)等角度,對(duì)智能機(jī)器人語(yǔ)音交互的專利進(jìn)行了梳理,以期對(duì)智能機(jī)器人語(yǔ)音交互專利進(jìn)行深入分析,為機(jī)器人語(yǔ)音交互技術(shù)領(lǐng)域提供技術(shù)發(fā)展方向和專利布局指導(dǎo)。

2 專利技術(shù)分支及其發(fā)展路線

2.1 基于語(yǔ)音的智能機(jī)器人專利技術(shù)分支

2.1.1 語(yǔ)音采集。語(yǔ)音采集,基于語(yǔ)音的人機(jī)交互中通常采用麥克風(fēng)進(jìn)行語(yǔ)音采集。麥克風(fēng)(又稱微音器和話筒,正式的中文名是傳聲器),是一種將聲音轉(zhuǎn)換成電子信號(hào)的換能器。麥克風(fēng)的歷史可以追溯到19世紀(jì)末,貝爾等科學(xué)家致力于尋找更好的拾取聲音的辦法,以用于改進(jìn)當(dāng)時(shí)的最新發(fā)明——電話。期間他們發(fā)明了液體麥克風(fēng)和碳粒麥克風(fēng),這些麥克風(fēng)效果并不理想,只是勉強(qiáng)能夠使用。20世紀(jì),麥克風(fēng)由最初通過電阻轉(zhuǎn)換聲電發(fā)展為電感、電容式轉(zhuǎn)換,大量新的麥克風(fēng)技術(shù)逐漸發(fā)展起來,這其中包括鋁帶、動(dòng)圈等麥克風(fēng),以及當(dāng)前廣泛使用的電容麥克風(fēng)和駐極體麥克風(fēng)、ECM麥克風(fēng)、MEMS麥克風(fēng)[2]。

2.1.2 語(yǔ)音合成。語(yǔ)音合成,即將文本信息轉(zhuǎn)換為語(yǔ)音信號(hào)。語(yǔ)音合成的發(fā)展經(jīng)歷了機(jī)械式語(yǔ)音合成、電子式語(yǔ)音合成和基于計(jì)算機(jī)的語(yǔ)音合成發(fā)展階段。語(yǔ)音合成方法按照設(shè)計(jì)的主要思想分為規(guī)則驅(qū)動(dòng)方法和數(shù)據(jù)驅(qū)動(dòng)方法,前者的主要思想是根據(jù)人類發(fā)音物理過程從而制定一系列規(guī)則來模擬這一過程,后者則是在語(yǔ)音庫(kù)中的數(shù)據(jù)上利用統(tǒng)計(jì)方法如建模來實(shí)現(xiàn)合成的方法,因而數(shù)據(jù)驅(qū)動(dòng)方法更多的依賴語(yǔ)音語(yǔ)料庫(kù)的質(zhì)量、規(guī)模和最小單元等[3-5]。

2.1.3 語(yǔ)音識(shí)別。語(yǔ)音識(shí)別是將人類的聲音信號(hào)轉(zhuǎn)化為文字或者指令的過程。語(yǔ)音識(shí)別系統(tǒng)包括前端處理、特征提取、聲學(xué)模型、語(yǔ)言學(xué)模型和解碼幾個(gè)模塊。前端處理包括對(duì)高頻信號(hào)進(jìn)行預(yù)加重,將語(yǔ)音信號(hào)分幀,對(duì)語(yǔ)音信號(hào)做初步處理,特征提取將聲音信號(hào)從時(shí)域轉(zhuǎn)換為頻域,聲學(xué)模型以特征向量作為輸入,對(duì)應(yīng)到語(yǔ)音到音節(jié)的概率,語(yǔ)言學(xué)模型根據(jù)語(yǔ)言特性,對(duì)應(yīng)到音節(jié)到字的概率,解碼器結(jié)合聲學(xué)模型和語(yǔ)言學(xué)模型及詞典信息輸出可能性最大的詞序列。其中,聲學(xué)模型和語(yǔ)言模型是語(yǔ)音識(shí)別中比較重要的環(huán)節(jié)[6-10]。

2.2 基于語(yǔ)音的智能機(jī)器人專利申請(qǐng)總體情況

2.2.1 數(shù)據(jù)來源及檢索要素。本文采用了中國(guó)專利文摘數(shù)據(jù)庫(kù)(CNABS)、德溫特世界專利索引數(shù)據(jù)庫(kù)(DWPI)。其中,CNABS用于中文專利檢索,DWPI用于英文庫(kù)專利的檢索,最后數(shù)據(jù)匯總到DWPI數(shù)據(jù)庫(kù)進(jìn)行統(tǒng)計(jì)查看。檢索時(shí)限截止到2019年7月10日,其中由于專利文獻(xiàn)從提出申請(qǐng)到向公眾公開有時(shí)間的延后,因此,2018年的樣本會(huì)有不完整的問題,所以對(duì)于以下分析圖中有關(guān)2018年申請(qǐng)量的下降曲線不排除是由于樣本數(shù)據(jù)量的不完整而造成的。2019年數(shù)據(jù)缺少比較多,其中的數(shù)據(jù)就沒有體現(xiàn)在分析的范圍內(nèi)。

2.2.2 全球?qū)@暾?qǐng)量分析

①全球歷年專利申請(qǐng)量

下圖示出了語(yǔ)音人機(jī)交互技術(shù)的全球?qū)@暾?qǐng)趨勢(shì)狀況。自1992年起,全球申請(qǐng)量趨勢(shì)如下。后面基于歷年專利申請(qǐng)量,對(duì)語(yǔ)音人機(jī)交互技術(shù)的發(fā)展趨勢(shì)進(jìn)行了分階段的分析。

萌芽階段(1992—1998年):語(yǔ)音人機(jī)交互技術(shù)的專利申請(qǐng)量較少,雖然機(jī)器人的概念已經(jīng)被提出了幾十年了,但是限于通過語(yǔ)音與機(jī)器人交互的方面研究較少,人機(jī)交互相關(guān)的語(yǔ)音識(shí)別技術(shù)還不成熟,音頻數(shù)據(jù)處理所需的CPU還不能滿足其大量計(jì)算的需求,企業(yè)和研究機(jī)構(gòu)對(duì)其研發(fā)的熱度不高,尚處于技術(shù)萌芽階段。

快速增長(zhǎng)階段(1999—2015年):語(yǔ)音人機(jī)交互技術(shù)專利申請(qǐng)量開始呈現(xiàn)一定的增長(zhǎng)趨勢(shì),從1999年到2015年,伴隨著計(jì)算機(jī)硬件技術(shù)尤其是Intel和NVDIA兩家公司的CPU產(chǎn)品性能的發(fā)展,以及機(jī)器人相關(guān)硬件如傳感器、攝像頭等的快速發(fā)展,使得語(yǔ)音人機(jī)交互技術(shù)不斷成熟,因此年專利申請(qǐng)量迅速增長(zhǎng)了好幾倍。但由于成本因素以及實(shí)際效果難以達(dá)到消費(fèi)者滿意的程度,仍舊無法達(dá)到大規(guī)模商業(yè)生產(chǎn)的條件。

急速增長(zhǎng)階段(2015年至今):2015年以后,隨著計(jì)算機(jī)技術(shù)和處理器技術(shù)的快速發(fā)展,以及市場(chǎng)對(duì)于智能機(jī)器人語(yǔ)音人機(jī)交互技術(shù)的需求,各類企業(yè)紛紛開始在該領(lǐng)域進(jìn)行大量專利布局,以期在后續(xù)的市場(chǎng)中搶占先機(jī)。

②各國(guó)家/地區(qū)/組織專利申請(qǐng)量

由上圖可以看出,語(yǔ)音人機(jī)交互技術(shù)全球?qū)@暾?qǐng)量前五位國(guó)家分別為日本、中國(guó)、美國(guó)、韓國(guó)和歐洲,這五個(gè)國(guó)家的申請(qǐng)量占全球申請(qǐng)量的82%,其他國(guó)家/地區(qū)/組織的申請(qǐng)量?jī)H占全球申請(qǐng)量的18%,可見該領(lǐng)域的專利申請(qǐng)較為集中。其中日本、中國(guó)、美國(guó)、韓國(guó)和歐洲都是世界上工業(yè)較為發(fā)達(dá)的幾個(gè)國(guó)家,有著先進(jìn)的科學(xué)技術(shù)作為支撐,并且有市場(chǎng)需求的驅(qū)動(dòng)。因此這些國(guó)家對(duì)機(jī)器人的專利申請(qǐng)和布局占據(jù)了絕大部分比例。

③技術(shù)活躍度分析

上圖顯示了語(yǔ)音人機(jī)交互技術(shù)的申請(qǐng)人的數(shù)量的變化情況,可以看出,從2000年至2005年,各個(gè)申請(qǐng)人剛開始關(guān)注語(yǔ)音人機(jī)交互技術(shù),每年新增申請(qǐng)人少量增加。從2006年開始,到2014年由于技術(shù)不成熟,商業(yè)化應(yīng)用不廣泛,雖然關(guān)注語(yǔ)音人機(jī)交互技術(shù)的申請(qǐng)人有所增加,但是并沒有引起足夠多的企業(yè)關(guān)注。而從2015年開始,大量申請(qǐng)人踴躍加入語(yǔ)音人機(jī)交互技術(shù)的研究。

④全球/中國(guó)主要申請(qǐng)人分析

從全球?qū)@暾?qǐng)量排名前10位的申請(qǐng)人來看,主要來自日本、韓國(guó)和中國(guó)。其中日本企業(yè)占據(jù)7個(gè)席位,中國(guó)和韓國(guó)分別只有2個(gè)和1個(gè)席位。可見雖然中國(guó)語(yǔ)音人機(jī)交互專利申請(qǐng)量在全球地區(qū)分布時(shí)所占比例與日本差不多,但僅有北京光年無線一家企業(yè)的專利申請(qǐng)量排在全球第二,可見中國(guó)申請(qǐng)人的專利申請(qǐng)較為分散,目前還沒有實(shí)力較強(qiáng)的申請(qǐng)人出現(xiàn)。從企業(yè)類型來看,索尼、本田、夏普、豐田、三星、日本電氣、日本電報(bào)電話公司和松下都是日本和韓國(guó)知名的企業(yè),占據(jù)了8個(gè)席位。

上圖示出了國(guó)內(nèi)主要申請(qǐng)人在語(yǔ)音人機(jī)交互領(lǐng)域申請(qǐng)專利的情況。與全球主要申請(qǐng)人相比,國(guó)內(nèi)主要申請(qǐng)人在申請(qǐng)量上具有一定的差距,申請(qǐng)量相對(duì)較少。

2.3 基于語(yǔ)音的智能機(jī)器人的專利技術(shù)演進(jìn)

2.3.1 麥克風(fēng)。麥克風(fēng)的歷史可以追溯到19世紀(jì)末,貝爾等科學(xué)家致力于尋找更好的拾取聲音的辦法,以用于改進(jìn)當(dāng)時(shí)的最新發(fā)明——電話。期間他們發(fā)明了液體麥克風(fēng)和碳粒麥克風(fēng),這些麥克風(fēng)效果并不理想,只是勉強(qiáng)能夠使用。二十世紀(jì),麥克風(fēng)由最初通過電阻轉(zhuǎn)換聲電發(fā)展為電感、電容式轉(zhuǎn)換,大量新的麥克風(fēng)技術(shù)逐漸發(fā)展起來,這其中包括鋁帶、動(dòng)圈等麥克風(fēng),以及當(dāng)前廣泛使用的電容麥克風(fēng)和駐極體麥克風(fēng)、ECM麥克風(fēng)、MEMS麥克風(fēng)。

在機(jī)器人語(yǔ)音交互的語(yǔ)音傳感器中,2011年CN102137321A提出一種薄膜型傳聲器陣列,其針對(duì)傳統(tǒng)的駐極體電容傳聲器結(jié)構(gòu)復(fù)雜、體積無法減小的問題,采用多孔聚合物薄膜的壓電駐極體薄膜,減小了零件數(shù)目及器件的體積,使得薄膜型傳聲器陣列的聲電轉(zhuǎn)換性能穩(wěn)定。隨后,MEMS傳感器因其相比傳統(tǒng)的傳感器具有體積小、重量輕、成本低、功耗低、可靠性高、適用批量生產(chǎn)、易于集成和實(shí)現(xiàn)智能化等特點(diǎn),在機(jī)器人語(yǔ)音交互中得到了廣泛應(yīng)用。KR20130044761A提出的MEMS麥克風(fēng)將集成電路與具有壓電特性的納米線組合以最大化壓電效應(yīng)。US201815938665A基于現(xiàn)有的MEMS組件質(zhì)檢存在的差異導(dǎo)致各個(gè)部件的電容發(fā)生變化而提出能夠確定MEMS換能器的電容的MEMS換能器系統(tǒng),其中所確定的電容可用于校準(zhǔn)MEMS換能器電路以實(shí)現(xiàn)給定輸入壓力或聲波的給定輸出信號(hào)。

2.3.2 語(yǔ)音合成。語(yǔ)音合成方法按照設(shè)計(jì)的主要思想分為規(guī)則驅(qū)動(dòng)方法和數(shù)據(jù)驅(qū)動(dòng)方法,前者的主要思想是根據(jù)人類發(fā)音物理過程從而制定一系列規(guī)則來模擬這一過程,如共振峰合成、發(fā)音規(guī)則合成等,后者則是在語(yǔ)音庫(kù)中的數(shù)據(jù)上利用統(tǒng)計(jì)方法如建模來實(shí)現(xiàn)合成的方法,因而數(shù)據(jù)驅(qū)動(dòng)方法更多的依賴語(yǔ)音語(yǔ)料庫(kù)的質(zhì)量、規(guī)模和最小單元等,如波形拼接合成、單元選擇合成、波加噪聲模型、HMM合成、神經(jīng)網(wǎng)絡(luò)模型合成等。

在機(jī)器人語(yǔ)音交互的語(yǔ)音合成中,最早由索尼公司JP2002268699A提出采用波形拼接進(jìn)行語(yǔ)音合成,其通過在文本分析結(jié)果中的音素信息獲取必要的音素片數(shù)據(jù),并且把音素片數(shù)據(jù)連接起來,同時(shí)根據(jù)韻律數(shù)據(jù)和合成控制參數(shù)處理數(shù)據(jù),以生成具有相應(yīng)韻律和音調(diào)質(zhì)量的合成音調(diào)數(shù)據(jù),但存在占用內(nèi)存大、耗費(fèi)人力物力等缺點(diǎn)。緊接著松下、日本電氣株式會(huì)社相繼采用單元選擇合成方法進(jìn)行語(yǔ)音合成,其中WO2006123539A1根據(jù)所述韻律生成單元所獲得的音韻串及韻律和所述說話位置決定單元所決定的說話位置,從標(biāo)準(zhǔn)聲音單元記錄部或所述特殊聲音單元記錄部選擇聲音單元,并生成聲音波形,實(shí)現(xiàn)在表現(xiàn)情感或表現(xiàn)力的聲音中經(jīng)常可以見到的豐富的聲音表現(xiàn);CN101379549A采用從單位波形數(shù)據(jù)記憶部中根據(jù)發(fā)聲形式所選擇的單位波形數(shù)據(jù)記憶部,根據(jù)發(fā)音符號(hào)串和韻律信息選擇單位波形,從韻律信息和單位波形數(shù)據(jù)產(chǎn)生合成聲音波形。但是單元選擇合成方法存在拼接時(shí)選擇錯(cuò)誤單元的情況。而后,CN101751921A選用諧波加噪聲模型作為語(yǔ)音分析合成模型,該模型將語(yǔ)音信號(hào)看成是各種分量諧波和噪聲的加權(quán)和,解決了單元選擇中的誤拼情況。如今,神經(jīng)網(wǎng)絡(luò)模型合成方法成為主流,大大提升了語(yǔ)音合成系統(tǒng)對(duì)語(yǔ)音的描述能力。KR20180100001A采用深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行語(yǔ)音合成,其解決了傳統(tǒng)方法中上下文建模的低效率、上下文空間和輸入空間分開聚類而導(dǎo)致的訓(xùn)練數(shù)據(jù)分裂、過擬合和音質(zhì)受損的問題。CN109036371A采用WaveNet神經(jīng)網(wǎng)絡(luò)合成器,利用WaveNet生成的語(yǔ)音,在音質(zhì)上大大超越了之前的參數(shù)合成效果,滿足了對(duì)高采樣率的音頻時(shí)域信號(hào)建模的要求。

3 語(yǔ)音識(shí)別

3.1 聲學(xué)模型

在機(jī)器人語(yǔ)音交互中,目前最常用也最有效的幾種聲學(xué)識(shí)別模型包括動(dòng)態(tài)時(shí)間規(guī)整模型(DTW)、隱馬爾可夫模型(HMM)、神經(jīng)網(wǎng)絡(luò)模型等。

3.1.1 動(dòng)態(tài)時(shí)間規(guī)整(DTW)。時(shí)間規(guī)整的語(yǔ)音識(shí)別方法最早由來自RCA實(shí)驗(yàn)室的Martin在上世紀(jì)60年代提出并實(shí)現(xiàn)了解決語(yǔ)音時(shí)長(zhǎng)不統(tǒng)一的歸一化打分機(jī)制。后來,來自前蘇聯(lián)的Vintsyuk提出了采用動(dòng)態(tài)規(guī)劃實(shí)現(xiàn)動(dòng)態(tài)時(shí)間規(guī)則的方法。在應(yīng)用DTW算法進(jìn)行語(yǔ)音識(shí)別時(shí),就是將已經(jīng)預(yù)處理和分幀過的語(yǔ)音測(cè)試信號(hào)和參考語(yǔ)音模板進(jìn)行比較以獲取他們之間的相似度,按照某種距離測(cè)度得出兩模板間的相似程度并選擇最佳路徑。動(dòng)態(tài)時(shí)間規(guī)整算法是在非特定人語(yǔ)音識(shí)別中一種簡(jiǎn)單有效的方法,該算法基于動(dòng)態(tài)規(guī)劃的思想,解決了發(fā)音長(zhǎng)短不一的模板匹配問題,是語(yǔ)音識(shí)別技術(shù)中出現(xiàn)較早、較常用的一種算法,在小詞匯量、孤立詞語(yǔ)音識(shí)別中獲得了良好性能,但因其不適合連續(xù)語(yǔ)音大詞匯量語(yǔ)音識(shí)別系統(tǒng),目前已逐漸被HMM和ANN模型替代。不過仍然可以看見DTW在機(jī)器人語(yǔ)音識(shí)別中的應(yīng)用,CN103971682A提出冰雪機(jī)器人的語(yǔ)音控制方法,采用數(shù)字語(yǔ)音命令DTW識(shí)別算法得到識(shí)別的語(yǔ)音數(shù)字命令;CN108447477A提出一種基于自然語(yǔ)言理解的機(jī)器人控制方法,獲取語(yǔ)音信號(hào)并轉(zhuǎn)化為相應(yīng)數(shù)字信號(hào),而后通過動(dòng)態(tài)時(shí)間規(guī)整算法將數(shù)字信號(hào)轉(zhuǎn)換為相應(yīng)的文本信息。

3.1.2 隱馬爾科夫鏈(HMM)。20世紀(jì)70年代,隱馬爾可夫法(HMM)被應(yīng)用于語(yǔ)音識(shí)別的研究中,該方法的應(yīng)用使得語(yǔ)音識(shí)別技術(shù)取得了重大進(jìn)展。隱馬爾可夫模型是傳統(tǒng)語(yǔ)音識(shí)別的主流模型,其是由短時(shí)間內(nèi)看做平穩(wěn)變化的聲學(xué)信號(hào)模型串聯(lián)構(gòu)成的馬爾可夫鏈組成的,表示了一個(gè)雙重隨機(jī)過程,一個(gè)是用具有有限狀態(tài)數(shù)的馬爾可夫鏈來模擬語(yǔ)音信號(hào)統(tǒng)計(jì)特性變化的隱含的隨機(jī)過程,另一個(gè)是與馬爾可夫鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測(cè)序列的隨機(jī)過程。索尼WO0172478A1最早將HMM模型應(yīng)用于機(jī)器人語(yǔ)音識(shí)別中,HMM很好的模擬了人得語(yǔ)言過程,目前應(yīng)用十分廣泛,出現(xiàn)了很多以改進(jìn)隱含馬爾可夫鏈為基礎(chǔ)的機(jī)器人語(yǔ)音識(shí)別申請(qǐng),US2012130716A1使用隱馬爾可夫模型(HMM)、最大后驗(yàn)概率(MAP)、最大似然線性回歸(MLLR)的聲學(xué)模型對(duì)接收到的語(yǔ)音信號(hào)執(zhí)行機(jī)器人語(yǔ)音識(shí)別;由于神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中突出表現(xiàn),將神經(jīng)網(wǎng)絡(luò)與HMM結(jié)合使用成為研究熱點(diǎn),如CN106228982A基于HMM-DNN聲學(xué)模型的Token-passing算法對(duì)其進(jìn)行語(yǔ)音識(shí)別。

3.1.3 神經(jīng)網(wǎng)絡(luò)模型。人工神經(jīng)網(wǎng)絡(luò)(ANN)是20世紀(jì)80年代末期提出的一種新的語(yǔ)音識(shí)別方法。ANN以數(shù)學(xué)模型模擬神經(jīng)元活動(dòng),將人工神經(jīng)網(wǎng)絡(luò)中大量神經(jīng)元并行分布運(yùn)算的原理、高效的學(xué)習(xí)算法以及對(duì)人的認(rèn)知系統(tǒng)的模仿能力充分運(yùn)用到語(yǔ)音識(shí)別領(lǐng)域。2011年,微軟以深度神經(jīng)網(wǎng)絡(luò)替代多層感知機(jī)形成的混合模型系統(tǒng)大大提高了語(yǔ)音識(shí)別的準(zhǔn)確率。此外,由于神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中突出表現(xiàn),后來人們又將卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)以及深度神經(jīng)網(wǎng)絡(luò)(DNN)應(yīng)用在了語(yǔ)音識(shí)別中。在機(jī)器人語(yǔ)音識(shí)別中,US2017098444A1采用基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型進(jìn)行語(yǔ)音識(shí)別;CN105681318A基于DNN-UBM模型(深層神經(jīng)網(wǎng)絡(luò)和通用背景模型)建立身體狀態(tài)對(duì)應(yīng)的聲學(xué)模板;CN106898350A采用卷積神經(jīng)網(wǎng)絡(luò)CNN進(jìn)行語(yǔ)音識(shí)別;CN108281139A基于深度全序列卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行語(yǔ)音識(shí)別。在RNN基礎(chǔ)之上進(jìn)一步提出的長(zhǎng)短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM),解決了RNN中由于引進(jìn)了時(shí)間維度信息而可能出現(xiàn)的梯度消失問題。目前最好的語(yǔ)音識(shí)別系統(tǒng)采用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM),這種網(wǎng)絡(luò)能夠?qū)φZ(yǔ)音的長(zhǎng)時(shí)相關(guān)性進(jìn)行建模,但是這一系統(tǒng)存在訓(xùn)練復(fù)雜度高、解碼時(shí)延高的問題,在工業(yè)界的實(shí)時(shí)識(shí)別系統(tǒng)中很難應(yīng)用,直到CN108364066A采用LSTM深度神經(jīng)網(wǎng)絡(luò)編碼器進(jìn)行語(yǔ)音識(shí)別,引入了attention模型和語(yǔ)言模型共同處理LSTM神經(jīng)網(wǎng)絡(luò)處理后的固定長(zhǎng)度向量, 保證了聊天過程中答復(fù)信息的準(zhǔn)確性,使對(duì)話更加真實(shí)。

3.2 語(yǔ)言模型

語(yǔ)言模型是對(duì)一段文本的概率進(jìn)行估計(jì)即針對(duì)文本X,計(jì)算P(X)的概率,語(yǔ)言模型在整個(gè)語(yǔ)音識(shí)別過程中的作用非常重要,其性能的好壞直接影響到了整個(gè)語(yǔ)音識(shí)別系統(tǒng)的使用范圍和識(shí)別效率。常用的語(yǔ)言模型包括n-gram模型、神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型。

3.2.1 n-gram語(yǔ)言模型。n-gram模型也稱為n-1階馬爾科夫模型,它有一個(gè)有限歷史假設(shè):當(dāng)前詞的出現(xiàn)概率僅僅與前面n-1個(gè)詞相關(guān),即。n-gram語(yǔ)言模型通常包括參數(shù)估計(jì)和數(shù)據(jù)平滑等過程,其中,n-gram語(yǔ)言模型的參數(shù)估計(jì)一般采用最大似然估計(jì)(MLE)方法,n-gram模型的數(shù)據(jù)平滑可以采用加法平滑、Good-Turing平滑、Katz平滑、插值平滑等。N-Gram因其簡(jiǎn)單有效被廣泛應(yīng)用,CN105931218A,CN106056207A,CN106782502A,均通過隱馬爾科夫模型進(jìn)行聲學(xué)模型建模,均采用N-gram統(tǒng)計(jì)語(yǔ)言模型,CN108364066A利用N-GRAM、WFST技術(shù)生成語(yǔ)言模型,保證了聊天過程中答復(fù)信息的準(zhǔn)確性,使對(duì)話更加真實(shí)。

3.2.2 神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型。神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的提出解決了N-gram模型當(dāng)n較大時(shí)會(huì)發(fā)生數(shù)據(jù)稀疏的問題。與N-gram語(yǔ)言模型相同,神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(NNLM)也是對(duì)n元語(yǔ)言模型進(jìn)行建模,與統(tǒng)計(jì)語(yǔ)言模型不同的是,神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型不通過計(jì)數(shù)的方法對(duì)n元條件概率進(jìn)行估計(jì),而是直接通過一個(gè)神經(jīng)網(wǎng)絡(luò)對(duì)其建模求解。隨著深度學(xué)習(xí)的不斷發(fā)展,神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型得到了很多關(guān)注。在機(jī)器人語(yǔ)音識(shí)別中,CN107451126A采用神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型應(yīng)用于聊天機(jī)器人中;US20180307779A1使用深度神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型來學(xué)習(xí)如何映射自然語(yǔ)言命令以在適當(dāng)級(jí)別上獎(jiǎng)勵(lì)函數(shù);相比全連接網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)同一層各個(gè)節(jié)點(diǎn)間也是有連接的,當(dāng)前節(jié)點(diǎn)的輸出與前面節(jié)點(diǎn)的輸出有關(guān)。因此,循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(RNNLM)可以獲得很長(zhǎng)的歷史信息,解決了句子的長(zhǎng)距離依賴問題,相比N-gram模型,RNNLM模型的效果有很大的提升,如KR20180054408A使用循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型RNNLM,生成并輸出與自然語(yǔ)言處理生成的自然語(yǔ)言對(duì)應(yīng)的會(huì)話語(yǔ)句單位使用學(xué)習(xí)結(jié)果。

4 結(jié)論與建議

智能機(jī)器人語(yǔ)音交互是智能機(jī)器人人機(jī)交互中的關(guān)鍵環(huán)節(jié),對(duì)機(jī)器人控制起著關(guān)鍵性的作用。本文從語(yǔ)音采集、語(yǔ)音合成、語(yǔ)音識(shí)別三個(gè)分支通過歷年申請(qǐng)量、區(qū)域分布、技術(shù)活躍度、主要申請(qǐng)人以及技術(shù)演進(jìn)等角度,對(duì)智能機(jī)器人語(yǔ)音交互的專利進(jìn)行了梳理,專利申請(qǐng)主要集中在語(yǔ)音識(shí)別這一分支,從申請(qǐng)量以及技術(shù)演進(jìn)來看,日本在智能機(jī)器人語(yǔ)音交互方面占據(jù)領(lǐng)先地位,國(guó)內(nèi)的新型企業(yè)如北京光年、芋頭科技以及高校也在乘勝追擊,但是智能機(jī)器人語(yǔ)音交互仍然面臨諸如識(shí)別精度和準(zhǔn)確性等問題,相關(guān)企業(yè)、高校可以考慮從這些方面對(duì)智能機(jī)器人語(yǔ)音交互進(jìn)行改進(jìn)。

參考文獻(xiàn):

[1] 溫昕等.基于語(yǔ)音識(shí)別的機(jī)器人研究[J].科技廣場(chǎng),2017:190-192.

[2] 張永強(qiáng).基于專利文獻(xiàn)分析的MEMS麥克風(fēng)技術(shù)發(fā)展趨勢(shì)[J].科技展望,2016:254-258.

[3] 劉豫軍等.計(jì)算機(jī)語(yǔ)音合成技術(shù)研究及發(fā)展方向[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2014:22-24.

[4] 張丹烽等.語(yǔ)音合成技術(shù)發(fā)展綜述與研究現(xiàn)狀[J].科技風(fēng),2017:72.

[5] 張斌等.語(yǔ)音合成方法和發(fā)展綜述[J].小型微型計(jì)算機(jī)系統(tǒng),2016,37(1):186-192.

[6] 李雪林.基于人機(jī)互動(dòng)的語(yǔ)音識(shí)別技術(shù)綜述[J].電子世界,2018:105.

[7] 趙英娣.語(yǔ)音識(shí)別聲學(xué)模型發(fā)展現(xiàn)狀綜述[J].科技風(fēng),2017:76.

[8] 邢銘生等.語(yǔ)音識(shí)別技術(shù)綜述[J].科協(xié)論壇,2010:62-63.

[9] 惠益龍等.語(yǔ)音識(shí)別中的統(tǒng)計(jì)語(yǔ)言模型研究[J].信息技術(shù),2017:44-46.

[10] 王慧健等.基于神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的時(shí)間序列趨勢(shì)預(yù)測(cè)[J].計(jì)算機(jī)工程,2018:1-8.

主站蜘蛛池模板: 中文字幕久久波多野结衣| 中文字幕2区| 欧美一区二区丝袜高跟鞋| 亚洲精品久综合蜜| 波多野结衣一区二区三区四区视频| 国产亚洲欧美日韩在线一区| 国产精品香蕉在线观看不卡| 精品欧美一区二区三区在线| 日韩毛片视频| 尤物视频一区| 亚洲愉拍一区二区精品| 亚洲日本中文字幕天堂网| 制服丝袜在线视频香蕉| 国产欧美中文字幕| 手机在线免费不卡一区二| 国产在线视频福利资源站| 欧美日韩北条麻妃一区二区| 日本免费高清一区| 国产主播喷水| 国产成人精品亚洲日本对白优播| 亚洲人成日本在线观看| 重口调教一区二区视频| 国内精品小视频在线| 日韩高清无码免费| 欧美色伊人| 国产成人AV综合久久| 99这里精品| 久青草国产高清在线视频| 中文字幕在线看| 澳门av无码| 性激烈欧美三级在线播放| 99re66精品视频在线观看 | 欧美亚洲香蕉| 久久中文字幕2021精品| 欧美色图第一页| 国产黑人在线| 色呦呦手机在线精品| 亚洲中文字幕97久久精品少妇| 欧美激情伊人| 久久久久久久久18禁秘| 国产不卡一级毛片视频| 亚洲成人福利网站| 国产91线观看| 亚洲大尺度在线| 免费在线观看av| 日韩欧美综合在线制服| 在线观看亚洲精品福利片| 亚洲欧美成人综合| 国产成人精品18| 91亚洲精选| 欧美日韩第二页| 在线中文字幕网| 亚洲美女高潮久久久久久久| 欧洲av毛片| 中国一级特黄大片在线观看| 国产精品视频导航| 成人午夜亚洲影视在线观看| 97久久超碰极品视觉盛宴| 国产美女无遮挡免费视频| 亚洲天堂区| 成人在线不卡视频| 九九久久精品免费观看| 日韩在线成年视频人网站观看| 黄色三级网站免费| 色首页AV在线| 成年女人a毛片免费视频| 狼友av永久网站免费观看| 午夜国产大片免费观看| 91精品专区国产盗摄| 亚洲一区网站| 久久亚洲国产视频| 亚洲国产综合精品中文第一| 玖玖免费视频在线观看| 色悠久久综合| 天天激情综合| 国产成人啪视频一区二区三区| 国产精品美女自慰喷水| 久久精品只有这里有| 欧美精品亚洲精品日韩专区va| a级毛片一区二区免费视频| 成人日韩欧美| 日韩不卡高清视频|