潘嘉惠,賈寧
(大連東軟信息學(xué)院,遼寧 大連 116023)
在人與人的交流過(guò)程中,除了語(yǔ)言、面部和行為所表達(dá)的直接的語(yǔ)義信息外,人類的情感也傳遞了重要的信息。對(duì)人類情感機(jī)理的研究與探索一直是科學(xué)研究的重要方向,人類的智能不僅表現(xiàn)為正常的理性思維和邏輯推理能力,也應(yīng)表現(xiàn)為正常的情感能力。
在日常生活、學(xué)習(xí)和工作過(guò)程中,長(zhǎng)時(shí)間的勞累很容易為用戶帶來(lái)一系列的負(fù)面的情緒影響,從而危害用戶的健康。計(jì)算機(jī)作為現(xiàn)有的核心溝通工具之一,在與其進(jìn)行交互時(shí),人們希望機(jī)器能理解自己的需要和感受,并做出適當(dāng)?shù)姆磻?yīng)。
因此,對(duì)于用戶情感的識(shí)別與調(diào)節(jié),具有很大的市場(chǎng)應(yīng)用前景。未來(lái)的個(gè)人計(jì)算機(jī)通過(guò)情感識(shí)別技術(shù),在對(duì)用戶情感進(jìn)行建模、分析的基礎(chǔ)上,可以對(duì)用戶的疲倦程度做出一個(gè)合理的判斷。
進(jìn)而通過(guò)語(yǔ)音對(duì)話、播放輕松音樂(lè)、調(diào)節(jié)舒適燈光、控制家居外設(shè)等多種形式,調(diào)節(jié)用戶的情緒,緩解用戶的疲倦感,提醒用戶合理的休息,提供更健康、更優(yōu)質(zhì)的和諧人機(jī)交互體驗(yàn)。
現(xiàn)階段的語(yǔ)音識(shí)別與生成技術(shù)都是基于大規(guī)模語(yǔ)音數(shù)據(jù)庫(kù)來(lái)實(shí)現(xiàn)的,語(yǔ)音數(shù)據(jù)庫(kù)的主要實(shí)現(xiàn)目標(biāo)主要有兩個(gè):一是語(yǔ)音的訓(xùn)練階段,通過(guò)統(tǒng)計(jì)學(xué)方法,深入挖掘大量語(yǔ)音數(shù)據(jù)中所蘊(yùn)含的規(guī)律與模型二是在語(yǔ)音的生成階段,提供大量的合成基元,通過(guò)一定規(guī)律來(lái)拼接成語(yǔ)音。
因此,語(yǔ)音庫(kù)的構(gòu)建是語(yǔ)音合成的一個(gè)重要組成部分。現(xiàn)有數(shù)據(jù)庫(kù)由于版權(quán)、規(guī)模、費(fèi)用、功能用途等方面原因很難滿足現(xiàn)有的語(yǔ)音合成系統(tǒng)要求,而情感語(yǔ)音庫(kù)相關(guān)方面的研究更加匱乏,綜合以上原因,建立一個(gè)情感表達(dá)準(zhǔn)確、語(yǔ)音質(zhì)量高、數(shù)據(jù)規(guī)模大的情感語(yǔ)音數(shù)據(jù)庫(kù)是研究情感語(yǔ)音處理的重要前提與基礎(chǔ)。
情緒調(diào)節(jié)器分為三個(gè)部分:情緒調(diào)節(jié)裝置、服務(wù)器端和家居外設(shè)。通過(guò)三者之間的通信和聯(lián)動(dòng)達(dá)到與用戶進(jìn)行良好的情緒溝通的目。其主要運(yùn)行順序是通過(guò)喚醒模塊進(jìn)行喚醒可以通過(guò)語(yǔ)音和距離,然后用戶的語(yǔ)音通過(guò)情緒識(shí)別模型從而識(shí)別用戶是悲傷開(kāi)心平靜還是生氣。
識(shí)別情緒之后通過(guò)情緒對(duì)話策略裝置找到緩解用戶情緒的辦法比如通過(guò)用戶的情緒來(lái)找到一些緩解他情緒的歌曲最后通過(guò)語(yǔ)音生成模型來(lái)表達(dá)裝置分了三種模式:(1)說(shuō)話者識(shí)別模型根據(jù)稱呼和個(gè)性化聲紋模型進(jìn)行識(shí)別;(2)語(yǔ)音識(shí)別模型根據(jù)語(yǔ)音轉(zhuǎn)為語(yǔ)音文本然后對(duì)文本進(jìn)行判別后通過(guò)硬件反饋內(nèi)容生成對(duì)話文本和相應(yīng)的情緒調(diào)節(jié)文本最后生成了語(yǔ)音模型;(3)情緒識(shí)別模型識(shí)別情緒反饋應(yīng)答最終進(jìn)入到語(yǔ)音模型共同完成情緒文本進(jìn)行語(yǔ)音應(yīng)答。模型如圖1所示:

圖1 交互體體系(Interactive Architecture)
情緒調(diào)節(jié)裝置由喚醒模塊、情緒識(shí)別模型、情緒對(duì)話策略和語(yǔ)音生成模塊構(gòu)成。喚醒模塊用于裝置的語(yǔ)音喚醒,可通過(guò)語(yǔ)音喚醒或距離喚醒方式實(shí)現(xiàn)。情緒識(shí)別模型則利用流行的深度學(xué)習(xí)算法,在線識(shí)別用戶語(yǔ)音中表達(dá)的高興、憤怒、悲傷或平靜等情緒。情緒對(duì)話策略則注重于用戶特定情緒的反饋,其輸出為調(diào)節(jié)用戶的特定情緒表達(dá)。
語(yǔ)音生成模塊則根據(jù)生成模型,在線生成指定聲紋特征、指定情感的文字的語(yǔ)音,并使用富有感情的語(yǔ)氣朗讀出來(lái)。在針對(duì)情緒識(shí)別之前,首先需要確定語(yǔ)音信號(hào)中的情感特征,本項(xiàng)目針對(duì)韻律學(xué)特征、基于譜的相關(guān)特征、聲學(xué)質(zhì)量特征、融合特征、深度學(xué)習(xí)下語(yǔ)音特征等進(jìn)行情感分析,目前,已經(jīng)獲得的聲學(xué)特征與情感之間的關(guān)聯(lián),如表1所示。

表1 不同情感語(yǔ)音的特征規(guī)律(Characteristics of speech sound with different emotions)
服務(wù)器端在獲取語(yǔ)音數(shù)據(jù)后,可以上傳用戶的語(yǔ)音到服務(wù)器,可以使用各自的標(biāo)簽對(duì)進(jìn)行數(shù)據(jù)的提取,針對(duì)不同的音頻文件,設(shè)計(jì)其具有特色的文件名解析規(guī)則,即提供不同的正則表達(dá)式模板,在鎖定標(biāo)簽對(duì)所包含的數(shù)據(jù)范圍后,對(duì)其進(jìn)行數(shù)據(jù)拆分,解析目標(biāo)信息。
家居外設(shè)將系統(tǒng)可識(shí)別的控制信號(hào)送至CPU處理器。控制軟件進(jìn)行系統(tǒng)功能識(shí)別,在串口向無(wú)線模塊發(fā)出相應(yīng)的操作指令,借助無(wú)線模塊,系統(tǒng)控制命令被快速傳送至外設(shè)中,從而實(shí)現(xiàn)針對(duì)家庭內(nèi)部的各種電器和傳感器進(jìn)行有效的監(jiān)測(cè)活動(dòng)。操縱家居外設(shè)的基本流程如圖2所示:

圖2 家居外設(shè)操縱基本流程(Home Peripherals Control Basic Process)
采用低級(jí)描述符(LLD)和高級(jí)統(tǒng)計(jì)功能(HSF)可以獲得語(yǔ)音特征局部信息,但是無(wú)法涵蓋語(yǔ)音特征的全局信息,特征提取的維度越高,特征表示越全面,但隨之而來(lái)的是更為復(fù)雜的深度學(xué)習(xí)模型,反而無(wú)法獲得更高的識(shí)別精度。針對(duì)韻律學(xué)特征、基于譜的相關(guān)特征、聲學(xué)質(zhì)量特征、融合特征、深度學(xué)習(xí)下語(yǔ)音特征等進(jìn)行情感分析
考慮在傳統(tǒng)的手工制作的基礎(chǔ)上,增加原始語(yǔ)音的全局信號(hào)輸入,這樣既保證了手工制作特征的維度適當(dāng),又可以得到語(yǔ)音的全局信息。基于此,利用神經(jīng)網(wǎng)絡(luò)構(gòu)建手工制作的HSF和CRNN學(xué)習(xí)特征的聯(lián)合表示,專注于包含強(qiáng)烈發(fā)音信息記錄的特定部分和全局信息,從而實(shí)現(xiàn)對(duì)語(yǔ)音情感強(qiáng)弱的判定。
具體地,通過(guò)隱藏層,將兩種類型的特征一起投影到相同的特征空間中,同時(shí)減少原始特征的維度。網(wǎng)絡(luò)架構(gòu)由兩個(gè)部分組成,第一部分是卷積特征提取器,它以頻譜圖作為輸入,頻譜圖的橫坐標(biāo)是時(shí)間,縱坐標(biāo)是頻率,坐標(biāo)點(diǎn)值為語(yǔ)音數(shù)據(jù)能量。由于其采用二維平面表達(dá)三維信息,所以能量值的大小是通過(guò)顏色來(lái)表示的。
對(duì)于預(yù)先分段的語(yǔ)音,可以獲得每個(gè)片段的CNN學(xué)習(xí)特征。第二部分是BMLSTM,其中每個(gè)時(shí)間步對(duì)應(yīng)于原始音頻輸入的一段,無(wú)需對(duì)音頻進(jìn)行削波或填充,而且可以保留段間的長(zhǎng)期依賴性。服務(wù)器端主要是Hadoop的分布式存儲(chǔ)架構(gòu),HDFS的數(shù)據(jù)存儲(chǔ)方式,基于云服務(wù)器的數(shù)據(jù)庫(kù)設(shè)計(jì)基于Hadoop的分布式存儲(chǔ)架構(gòu)基于HDFS的數(shù)據(jù)存儲(chǔ)方式,自動(dòng)完成多次備份操作基于云服務(wù)器的數(shù)據(jù)庫(kù)設(shè)計(jì)
在獲取語(yǔ)音數(shù)據(jù)后,可以上傳用戶的語(yǔ)音到服務(wù)器,可以使用各自的標(biāo)簽對(duì)進(jìn)行數(shù)據(jù)的提取,針對(duì)不同的音頻文件,設(shè)計(jì)其具有特色的文件名解析規(guī)則,即提供不同的正則表達(dá)式模板,在鎖定標(biāo)簽對(duì)所包含的數(shù)據(jù)范圍后,對(duì)其進(jìn)行數(shù)據(jù)拆分,解析目標(biāo)信息。此部分工作冗余性較強(qiáng),解析規(guī)則顯得格外重要。
通過(guò)最大池化層、最小池化層和平均池化層計(jì)算輸出的統(tǒng)計(jì)數(shù)據(jù),并將得到的池化向量連接成一體。解析后的數(shù)據(jù)存入HDFS中,并自動(dòng)完成多次備份操作,此處設(shè)置為3個(gè)副本,便于后續(xù)數(shù)據(jù)的存儲(chǔ)與查詢。服務(wù)器端存儲(chǔ)數(shù)據(jù)的基本流程如圖3所示:

圖3 服務(wù)器端存儲(chǔ)數(shù)據(jù)的基本流程(The basic process of storing data on the serve side)
關(guān)鍵詞識(shí)別算法. 首先采用一種基于度量距離的改進(jìn)型語(yǔ)音分割算法, 將連續(xù)語(yǔ)音流分割成孤立音節(jié), 再將音節(jié)細(xì)分成和音素狀態(tài)聯(lián)系的短時(shí)音頻片段, 分割后的音頻片段具有段間特征差異大, 段內(nèi)特征方差小的特點(diǎn).接著利用一種改進(jìn)的矢量量化方法對(duì)音頻片段的狀態(tài)特征進(jìn)行編碼。
實(shí)現(xiàn)了關(guān)鍵詞集內(nèi)詞的高精度量化編碼和集外詞的低精度量化編碼. 最后以音節(jié)為識(shí)別單位, 采用壓縮的狀態(tài)轉(zhuǎn)移矩陣作為音節(jié)的整體特征, 送入深度神經(jīng)網(wǎng)絡(luò)進(jìn)行語(yǔ)音識(shí)別. 仿真結(jié)果表明, 該算法能從自然語(yǔ)音流中較為準(zhǔn)確地識(shí)別出多個(gè)特定關(guān)鍵詞。
自相關(guān)基音檢測(cè)算法是語(yǔ)音信號(hào)處理的關(guān)鍵技術(shù),算法的效率直接影響語(yǔ)音信號(hào)實(shí)時(shí)處理的質(zhì)量.在對(duì)自相關(guān)基音檢測(cè)算法基本原理進(jìn)行分析的基礎(chǔ)上,設(shè)計(jì)了Matlab算法實(shí)現(xiàn)方案,通過(guò)對(duì)一段具體語(yǔ)音時(shí)域信號(hào)采樣值進(jìn)行濾波、分幀、求短時(shí)自相關(guān)函數(shù)得到了濁音語(yǔ)音的基音周期.試驗(yàn)結(jié)果表明,該算法結(jié)構(gòu)簡(jiǎn)單,運(yùn)算量小,效率高。
聲音作為一種重要的信息媒介,能夠?yàn)榫S修人員提供大量的裝備信息;但實(shí)際維修環(huán)境受到車輛啟動(dòng)噪聲的干擾,難以準(zhǔn)確直觀地對(duì)聲音進(jìn)行判斷;為實(shí)現(xiàn)對(duì)炮控系統(tǒng)各主要聲音部組件啟動(dòng)過(guò)程的識(shí)別,提出了一種基于改進(jìn)譜減法降噪和多類型識(shí)別策略的聲音識(shí)別算法;通過(guò)對(duì)炮控系統(tǒng)各部組件與發(fā)動(dòng)機(jī)聲音信號(hào)的分析。
利用改進(jìn)譜減法對(duì)聲音樣本進(jìn)行了降噪處理,并通過(guò)實(shí)驗(yàn)優(yōu)化了譜減參數(shù),進(jìn)一步提升了降噪性能,解決了強(qiáng)噪聲干擾的問(wèn)題;利用滑窗校正和短時(shí)能量同步檢測(cè)的方法制定了具體的識(shí)別策略,解決了實(shí)際應(yīng)用中識(shí)別結(jié)果不穩(wěn)定以及多類型過(guò)程識(shí)別的問(wèn)題;通過(guò)實(shí)驗(yàn)驗(yàn)證,該聲音識(shí)別算法對(duì)炮控系統(tǒng)各部件啟動(dòng)狀態(tài)識(shí)別準(zhǔn)確率達(dá)92.4%,具有較好的識(shí)別性能
情緒調(diào)節(jié)裝置:深度學(xué)習(xí)網(wǎng)絡(luò)模型情緒識(shí)別關(guān)鍵詞識(shí)別語(yǔ)音聽(tīng)寫(xiě)去噪。
系統(tǒng)主要從語(yǔ)音庫(kù)中的數(shù)據(jù)提取情感語(yǔ)音的韻律特征并進(jìn)行建模,其生成的語(yǔ)音質(zhì)量與語(yǔ)音庫(kù)的原始數(shù)據(jù)有直接關(guān)系。所以研究情感語(yǔ)音生成技術(shù)的首要工作就是建立一個(gè)數(shù)據(jù)規(guī)模大、情感表達(dá)準(zhǔn)確、收錄語(yǔ)音質(zhì)量高的情感語(yǔ)音庫(kù)。情感語(yǔ)音按采集方式不同分為自然語(yǔ)音、誘導(dǎo)語(yǔ)音和表演語(yǔ)音。本數(shù)據(jù)庫(kù)是基于自然語(yǔ)音的形式構(gòu)建真實(shí)情感的集合,共收錄高興、憤怒、平靜和悲傷四種情感。
構(gòu)成語(yǔ)音數(shù)據(jù)庫(kù)的文本要求覆蓋盡可能多的語(yǔ)言單元,同時(shí)又要求語(yǔ)音數(shù)據(jù)庫(kù)的規(guī)模不能過(guò)大,因此在建立情感語(yǔ)音數(shù)據(jù)庫(kù)時(shí),擬引入改進(jìn)的貪婪算法,將傳統(tǒng)的文本篩選方式與統(tǒng)計(jì)方法相結(jié)合。語(yǔ)料形式選擇富有豐富情感的言語(yǔ),相對(duì)不同的語(yǔ)境具有不同的理解形式,話語(yǔ)樣式在一定程度上滿足情感豐富多樣性的需要。錄音文件以wav格式保存,采樣率為4400Hz,精度為16bit,采用單聲道錄制。
實(shí)現(xiàn)一個(gè)可以在線調(diào)節(jié)用戶情緒的裝置,根據(jù)用戶的語(yǔ)音識(shí)別情緒,從而對(duì)其進(jìn)行調(diào)節(jié),基于此,將智能情緒調(diào)節(jié)器分為三個(gè)部分:情緒調(diào)節(jié)裝置、服務(wù)器端和家居外設(shè)。通過(guò)三者之間的通信和聯(lián)動(dòng)達(dá)到與用戶進(jìn)行良好的情緒溝通的目。其主要運(yùn)行順序是通過(guò)喚醒模塊進(jìn)行喚醒可以通過(guò)語(yǔ)音和距離,然后用戶的語(yǔ)音通過(guò)情緒識(shí)別模型從而識(shí)別用戶是悲傷開(kāi)心平靜還是生氣,識(shí)別情緒之后通過(guò)情緒對(duì)話策略裝置找到緩解用戶情緒的辦法比如通過(guò)用戶的情緒來(lái)找到一些緩解他情緒的歌曲最后通過(guò)語(yǔ)音生成模型來(lái)表達(dá)。
家居外設(shè)內(nèi)部實(shí)現(xiàn)向無(wú)線模塊發(fā)出相應(yīng)的操作指令借助無(wú)線模塊,系統(tǒng)控制命令被快速傳送至外設(shè)中針對(duì)家庭內(nèi)部的各種設(shè)備和相關(guān)傳感器進(jìn)行有效的監(jiān)測(cè)活動(dòng)輔助情緒調(diào)節(jié)樹(shù)莓派設(shè)備結(jié)合無(wú)線模塊,實(shí)現(xiàn)服務(wù)器與外設(shè)通信針對(duì)用戶特定情緒,自動(dòng)播放治愈語(yǔ)音、樂(lè)曲多種模式,實(shí)現(xiàn)自動(dòng)喚醒。
智能情緒裝置我們主要用了卷積神經(jīng)網(wǎng)路,韻律學(xué)特征,深度學(xué)習(xí)下語(yǔ)音特征技術(shù),服務(wù)器端主要是Hadoop的分布式存儲(chǔ)架構(gòu),HDFS的數(shù)據(jù)存儲(chǔ)方式,基于云服務(wù)器的數(shù)據(jù)庫(kù)設(shè)計(jì),家居外設(shè)主要是樹(shù)莓派開(kāi)發(fā)板,Wifi通信設(shè)備,傳感器。
本項(xiàng)目的創(chuàng)新點(diǎn)1提出傳統(tǒng)語(yǔ)音特征的提取方法、深度學(xué)習(xí)特征表示的情感語(yǔ)音特定的提取方法2將語(yǔ)音識(shí)別、說(shuō)話者識(shí)別、情感識(shí)別及個(gè)性化語(yǔ)音生成模型相結(jié)合,提出一種新型的智慧情緒調(diào)節(jié)系統(tǒng)3設(shè)計(jì)了一種全局特征選擇、局部感受野與注意力機(jī)制相結(jié)合的多通道神經(jīng)網(wǎng)絡(luò)模型,在增加注意力機(jī)制的基礎(chǔ)上,構(gòu)建語(yǔ)音情感分類模型。外設(shè)模型如圖4所示:

圖4 外設(shè)(Peripheral equipment)
提出傳統(tǒng)語(yǔ)音特征的提取方法、深度學(xué)習(xí)特征表示的情感語(yǔ)音特定的提取方法設(shè)計(jì)了一種全局特征選擇局部感受野與注意力機(jī)制相結(jié)合的多通道神經(jīng)網(wǎng)絡(luò)模型,在增加注意力機(jī)制的基礎(chǔ)上,構(gòu)建語(yǔ)音情感分類模型。 將語(yǔ)音識(shí)別、說(shuō)話者識(shí)別、情感識(shí)別及個(gè)性化語(yǔ)音生成模型相結(jié)合,提出一種新型的智慧情緒調(diào)節(jié)系統(tǒng)。
為用戶提供及時(shí)性的情感溝通與家居生活服務(wù),促進(jìn)用戶生活服務(wù)智能化,無(wú)線網(wǎng)絡(luò)區(qū)域內(nèi)實(shí)現(xiàn)數(shù)字可視化溝通。可用于智能汽車、智慧社區(qū)、智能機(jī)器人等產(chǎn)品中;可應(yīng)用在情緒分析、心理治療、抑郁癥治療等多種應(yīng)用領(lǐng)域。