999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語音信號與腦電信號轉換研究

2016-10-28 08:30:22肖景芬
網絡安全與數據管理 2016年18期
關鍵詞:特征信號模型

肖景芬,夏 斌

(上海海事大學 信息工程學院,上海 201306)

?

語音信號與腦電信號轉換研究

肖景芬,夏斌

(上海海事大學 信息工程學院,上海 201306)

由于身體原因導致無法進行語音交流的群體越來越受到大家的關注,為了這部分群體能重新使用語音交流,科研工作者們進行了各種嘗試性研究。以前的研究主要圍繞著肌電信號與語音信號間的映射關系,而本文是通過深度神經網絡建立語音信號與腦電信號間的映射關系。將從語音中提取的特征作為前饋神經網絡的輸入,將腦電信號的特征作為輸出目標建立模型。對回歸預測的模型使用R-square進行評估,R-square的值達到了0.75。

語音信號;腦電信號;回歸預測;深度神經網絡

引用格式:肖景芬,夏斌. 語音信號與腦電信號轉換研究[J].微型機與應用,2016,35(18):52-54.

0 引言

語音是人類最方便、最自然的交流方式。但是對于那些失語,不方便直接進行語音交流的特殊人群,這種交流方式就變得十分困難了。不少科研人員對此進行了研究。JOHNER C等人[1]利用獲取的肌電信號訓練模型,從而判斷正常的語音中句子的正誤,并且區分語音中正常的詞語和強調的詞語。而在參考文獻[2]中,JANKE M等人使用深度神經網絡建立從臉部的肌電信號到語音信號的轉換關系。此文具有很大的參考意義。文中提出了直接從肌電信號到語音信號的映射方法,從多個肌電信號通道中提取特征,通過前饋神經網絡[3],實現了輸入肌電信號輸出語音。文中還對輸出的語音信號進行了兩種方式的評價:Mel-Cepstral Distortion[4]得分和人為聽語音評分[5]。參考文獻[6]中使用了電磁關節造影術采集數據,提取特征合成語音信號。

上述研究中主要從肌電信號出發,研究語音信號和肌電信號之間的關系。而本文從另外一個角度——腦電信號數據出發,研究語音信號和腦電信號(EEG signals)之間的關系。本文分別對語音信號和腦電信號提取特征,建立語音信號與腦電信號特征間的映射關系,最后使用R-square方法評估此回歸映射模型效果。

1 方法概述

對于每一層的每個神經元i,除了輸入層都有一個激活函數σ和一個偏置量bi,神經元和權重相乘后,將其結果作為激活函數的輸入得到的就是神經元的輸出結果。對于l層神經元i的輸出等式為:

其中nl-1是hl-1層的神經元數目。

使用深度神經網絡處理回歸預測問題時,它的輸入神經元是輸入數據的值,通過訓練整個模型,讓輸出層的輸出值擬合輸出數據值。具體細節可以查看參考文獻[7]。

深度神經網絡(DNN)訓練通常是復雜的難題,因為如果初始化權重較大的話通常會導致較差的局部最優值,而較小的初始化權重得到的梯度較小,這樣在訓練多個隱藏層時行不通[8]。通常使用BP算法來訓練整個網絡,一般選擇連續添加各層網絡。首先,網絡只由輸入層 h0、第一個隱藏層h1,最后是輸出層hL+1組成。初始網絡模型是隨機初始化,使用BP算法進行精調。然后,加入下一層,這樣新的網絡模型有輸入層h0,接著是兩個隱藏層h1、h2,最后是輸出層hL+1。從輸入層h0到第一個隱藏層h1的連接權重矩陣就是剛才訓練得到的權重矩陣,其他的權重仍然是隨機初始化得到的。然后利用BP算法進行網絡模型的精調。整個處理過程一直重復,直到所有的隱藏層都被添加進網絡模型中。輸入和輸出數據在加入網絡模型前進行了z-scores歸一化處理。

在每一步中權重都是使用均值為0.000 1、方差為1的標準高斯分布進行隨機初始化。預測值和實際值間使用均方誤差(MSE)作為誤差標準。

圖1顯示了使用的五層神經網絡結構,用于建立語音信號特征與腦電信號特征間的映射關系。

圖1 語音特征轉換成腦電特征的深度神經網絡結構

訓練神經網絡模型建立腦電信號特征和語音信號特征映射關系,即如果G(xi)表示映射,則映射的誤差為:

此處,w(n)和b(n)分別表示隱藏層和輸出層的權重矩陣和偏置矩陣。ReLu[9]表示Rectified Linear Units激活函數,ReLu(x)=max(0,x)。

2 實驗數據及其處理

本文用到的數據集是圖賓根大學采集的受試母語為意大利語的語音和腦電信號。實驗過程中一邊播放語音信號,一邊采集受試者的腦電信號。腦電信號有12個通道的數據,信號的采樣率為200 Hz。每段語音信號的長度都不一樣。在播放的句子中有正確的和錯誤的,本研究中取的是正確的句子。對于每個語音信號都取出對應的腦電信號。

對于每個語音和腦電信號樣本都作光滑處理,語音信號和腦電信號處理方法一樣。以語音信號處理方法為例,為了處理語音信號,需要對語音信號進行加窗,也就是一次僅處理一個窗中的數據。因為實際的語音信號比較長,不能也不必對非常長的數據進行一次性處理。實際解決方法就是每次取一段數據進行分析,然后再取下一段數據進行分析。本文中選用的是漢明窗進行數據截取。它主要部分的形狀類似于sin(x)函數在0~π區間的形狀,而其他部分都是0。這樣的函數乘上其他任何一個函數f,f只有一部分有非零值。因為會對漢明窗中的數據進行FFT處理,假設一個窗內的信號代表一個周期的信號,這樣窗的左端和右端應該大致能連在一起。而通常一小段音頻數據沒有明顯的周期性,加上漢明窗后,數據形狀就有周期感。但是加上漢明窗后,只有中間的數據體現出來,而造成兩邊的數據信息丟失,所以移窗的時候,只會移窗口部分數據,這樣被前一幀或兩幀丟失的數據又重新得到體現。

本文中語音信號和腦電信號取0.2 s的數據作為一個小樣本,滑動窗口為0.01 s。這樣一段語音信號中就包含了多個小樣本。同樣的一段腦電信號中也包含了多個小的腦電信號樣本。由于腦電信號和語音信號采樣率相差過大,每段語音信號及對應腦電信號在滑動窗口后劃分的小樣本數有時會相差1(由于采樣率乘以窗口時長不是一個完整的樣本,因此舍去),最終語音信號和腦電信號的樣本數不相等。在每段語音信號和對應的腦電信號劃分的小樣本過程中,都取樣本數中的最小值處理。比如某段語音信號有33個小樣本,而腦電信號只有32個小樣本,就取語音信號的前32個樣本和腦電信號的前32個樣本。經過上述處理后,整個數據集樣本數為6 601。對于語音信號和腦電信號樣本都進行短時傅里葉變換預處理。數據預處理后語音數據集維度為6 601×4 411,腦電信號數據集維度為6 601×252。將數據集進行28分后,使用前饋深度神經網絡進行建模。輸入為語音特征數據,腦電特征數據作為輸出。神經網絡的隱藏層結構為800、500、300,學習率為0.001,迭代次數為300。

3 實驗結果

回歸預測結果評估方法[10]有SSE(誤差平方和)、MSE(均方差)、RMSE(均方根誤差)、R-square(確定系數)。SSE計算的是預測數據和原始數據對應點的誤差平方和;MSE計算的是預測數據和原始數據對應點誤差平方和的均值,即MSE=SSE/n;RMSE即回歸系統的擬合標準差,是MSE的平方根;SSR為預測數據與原始數據均值之差的平方和;SST為原始數據與原始數據均值之差的平方和。它們之間的關系為:SST=SSE+SSR,R-square=SSR/SST。

R-square可以直接表示擬合的模型是否描述數據。而SSE、MSE、RMSE則必須和數據本身進行對比之后才有價值。因為如果數據值本來就很小,SSE、MSE、RMSE的值也會很小,這樣就失去了原本用來評估回歸模型的意義。而R-square是通過數據的變化來表征一個擬合的好壞,不會受數據值大小影響。由上面的表達式可以知道R-square的取值越接近1,表明方程的變量對因變量的解釋能力越強,訓練模型對數據擬合得也較好。所以在本文中使用R-square評估訓練模型,前饋深度神經網絡訓練模型的R-square值為0.750 732 868 52。圖2、圖3分別展示了腦電信號特征的預測值和實際值。

圖2和圖3為分別對腦電信號特征的預測值和實際值做處理后的結果。由于所做的回歸預測是高維數據的回歸預測,如果直接畫圖的話,數據都堆在一起無法展示出效果,因此把1 320×252維的預測腦電信號特征數據整理成332 640×1維的數據,即把所有列的數據展開。從圖中可以明顯看出腦電信號特征預測值和實際值的相似性。

圖2 實際腦電信號特征

圖3 預測腦電信號特征

4 結論

本文的語音到腦電信號特征的轉換回歸預測實驗得出了比較好的結果。盡管不能直接看到回歸預測得到的語音信號,但是結果表明腦電和語音之間確實有著一定的關聯,這對于失語病人或直接語音交流不方便但思想正常的病人來說,以后重新通過語音交流不再是夢想。接下來的工作是通過更好地處理實驗數據以及進一步地將腦電特征直接轉換為語音信號,實現直接的腦電信號轉換為語音信號輸出。

[1] JOHNER C, JANKE M, WAND M, et al. Inferring prosody from facial cues for EMG-based synthesis of silent speech[C]. Proceedings of 4th International Conference on Applied Human Factors and Ergonomics, 2012:5317-5326.

[2] JANKE M, SCHULTZ T. Direct conversion from facial myoelectric signals to speech using deep neural networks[C]. International Joint Conference on Neural Networks, 2014:1-7.

[3] BEBIS G, GEORGIOPOULOS M. Feed-forward neural networks: why network size is so important[J]. IEEE Potentials, 1994(4):27-31.

[4] KUBICHEK R F. Mel-cepstral distance measure for objective speech quality assessment[C]. IEEE Pacific Rim Conference on Communication Computers and Signal Processing, 1993:125-128.

[5] KRAFT S, ZLZER U. BeaqleJS: HTML5 and JavaScript based framework for the subjective evaluation of audio quality[C]. Linux Audio Conference, 2014.

[6] BOCQUELET F, HUEBER T, BADIN P, et al. Robust articulatory speech synthesis using deep neural networks for BCI applications[C]. Interspeech 2014, 15th Annual Conference of the International Speech Communication Association, Singapour, 2014.

[7] LAROCHELLE H, BENGIO Y, LOURADOUR J, et al. Exploring strategies for training deep neural networks[J]. Journal of Machine Learning Research, 2009:10(10):1-40.

[8] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006,313(5786):504-507.

[9] GLOROT X, BORDES A, BENGIO Y. Deep sparse rectifier neural networks[C]. 14th International Conference on Artificial Intelligence and Statistics, 2011:315-323.

[10] HYNDMAN R J, KOEHLER A B. Another look at measures of forecast accuracy[J]. International Journal of Forecasting,2006,22(4):679-688.

Study of the conversion from speech to EEG signals

Xiao Jingfen, Xia Bin

(College of Information Engineering, Shanghai Maritime University, Shanghai 201306,China)

More and more attentions are paid to the people who are not able to utter speech due to a physical disability. The researchers have made a variety of attempts to study it to let this part of the population reuse voice communication. This paper presents our first results using Deep Neural Networks (DNN) for electroencephalograph (EEG) speech conversion.The proposed approach enables a mapping from the acoustic speech signal to EEG signals. Features are processed from acoustic speech and are fed into a feed forward neural networks to achieve a mapping to the target EEG features output. In this paper, we achieve the R-square by 0.75 of the conversion from acoustic speech feature to EEG feature.

speech signals; EEG signals; regression predict; DNN

TP391.9

ADOI: 10.19358/j.issn.1674- 7720.2016.18.015

2016-04-18)

肖景芬(1991-),通信作者,男,碩士研究生,主要研究方向:信號與信息處理。E-mail:775083334@qq.com。

夏斌(1975-),男,博士,副教授,碩士生導師,主要研究方向:腦-機接口、云計算及人工智能。

猜你喜歡
特征信號模型
一半模型
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
重要模型『一線三等角』
完形填空二則
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
抓住特征巧觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: 成人国产免费| 十八禁美女裸体网站| 成人在线综合| 巨熟乳波霸若妻中文观看免费| 欧美a级在线| 精品色综合| 99免费在线观看视频| 欧美伦理一区| 国产午夜福利亚洲第一| 97色婷婷成人综合在线观看| 亚洲黄色视频在线观看一区| 国产一区成人| 麻豆国产原创视频在线播放| 国产麻豆aⅴ精品无码| 一级爆乳无码av| 波多野结衣一区二区三区AV| 欧洲欧美人成免费全部视频| 在线观看av永久| 日本亚洲成高清一区二区三区| 久久夜夜视频| 久久精品国产国语对白| 亚洲日韩精品欧美中文字幕| 天天干伊人| 91麻豆久久久| 亚洲一级毛片免费看| 99青青青精品视频在线| 国产精品视频999| 毛片基地美国正在播放亚洲 | 欧美在线一二区| 欧美日韩中文字幕二区三区| 中文字幕 欧美日韩| 亚洲黄色成人| 国产福利在线观看精品| 欧美日韩激情在线| 亚洲一区二区三区香蕉| 日本91视频| 亚洲自拍另类| 亚洲综合九九| 国产黄网站在线观看| 国产视频一区二区在线观看 | 国外欧美一区另类中文字幕| 中美日韩在线网免费毛片视频| 亚洲国产午夜精华无码福利| 一级香蕉视频在线观看| 国产性爱网站| 欧美劲爆第一页| 五月综合色婷婷| AV片亚洲国产男人的天堂| 农村乱人伦一区二区| 中日韩一区二区三区中文免费视频 | 国产69囗曝护士吞精在线视频| 亚洲欧洲日韩久久狠狠爱| 国产成人精品免费视频大全五级| 网久久综合| 香蕉久久国产超碰青草| 呦系列视频一区二区三区| 99re免费视频| 日韩亚洲高清一区二区| 91精品国产一区| 国产精品女在线观看| 久久久久亚洲精品成人网| 精品视频91| 欧美va亚洲va香蕉在线| 欧美不卡视频在线观看| 成年免费在线观看| 天堂成人av| 久久精品丝袜高跟鞋| 亚洲精品手机在线| 精品一區二區久久久久久久網站| 亚洲精品成人片在线观看| 日韩高清在线观看不卡一区二区 | 国产不卡在线看| 色综合中文综合网| 国产91视频观看| 色窝窝免费一区二区三区 | 99999久久久久久亚洲| 九色最新网址| 欧美19综合中文字幕| 国产精品冒白浆免费视频| 无码国产伊人| 欧美日韩国产成人高清视频| 91色国产在线|