999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于跨模態信息遷移的發音想象腦電信號分類方法

2023-10-08 12:21:11黃偉坤謝偉
自動化與信息工程 2023年3期

黃偉坤 謝偉

摘要:針對基于發音想象的腦機接口樣本數據數量小、數據噪聲大,導致模型泛化能力差的問題,提出一種基于跨模態信息遷移的發音想象腦電信號分類方法。該方法通過知識蒸餾,將音頻模態信息遷移到腦電模態,從而提高模型的泛化能力;通過多尺度學習來提高模型性能。在數據集Kara One中,兩個二分類任務的AUC分別為68.28%和69.53%。實驗結果表明,該方法有效地提高了模型的性能。

關鍵詞:發音想象;腦機接口;跨模態;知識蒸餾;信息遷移

中圖分類號:TP391文獻標志碼:A文章編號:1674-2605(2023)03-0004-06

DOI:10.3969/j.issn.1674-2605.2023.03.004

Classification Method of EEG Signals of Pronunciation in Imagined Based on CrossModal Information Transfer

HUANGWeikun XIE Wei

(Guangdong University of Technology, Guangzhou 510006, China)

Abstract:Aiming at the problem that the datasets of brain-computer interface based on pronunciation in imagined is small and the data noise is loud, which leads to the poor generalization ability of the model, a classification method of EEG signals of pronunciation in imagined based on crossmodal information transfer is proposed.In this method, the audio modal information is transferred to the EEG modality by knowledge distillation, so as to improve the generalization ability of the model.The method also improves the performance of the model through multi-scale learning. In the dataset Kara One, the AUC of two binary classification tasks is 68.28% and 69.53%, respectively.Experimental results demonstrate that this method effectively enhances the performance of the model.

Keywords:pronunciationin imagined; brain-computer interface; crossmodal; knowledge distillation; information transfer

0 引言

基于發音想象的腦機接口能夠幫助語言障礙患者與外界方便地溝通,受到人們廣泛關注,具有廣闊的應用前景[1-2]。目前,可用于腦機接口的腦信號主要有腦電圖(electroencephalogram, EEG)、近紅外光譜、腦磁圖、磁共振成像等。相比于其他腦信號,EEG具有采集安全方便、時間分辨率高且成本低等特點,但其中含有多種偽跡和噪聲,且目前基于發音想象的腦機接口數據樣本較少。在噪聲干擾大且訓練樣本少的

情況下,現有的機器學習模型無法取得較好的泛化性能,容易出現過擬合現象。

為此,本文提出一種基于跨模態信息遷移的發音想象腦電信號分類方法,通過多模態協同學習的方式,將一種模態數據(音頻信號)中學習到的知識遷移到另一種模態數據(腦電信號)中,即通過知識蒸餾的方法將音頻模態數據與腦電模態數據的關聯信息從教師網絡(雙流架構,包括音頻數據、腦電數據)遷移到學生網絡(單流架構,只有腦電數據)。

1跨模態信息遷移方法

2015年加拿大多倫多大學的ZHAO等[3]提出基于深度置信網絡(deepbelief network, DBN)的發音想象腦電信號分類方法,先提取EEG的經驗特征,再將這些經驗特征作為DBN的輸入對網絡進行訓練;雖然采用了多模態數據融合的方法,但沒有采用跨模態信息遷移的方法,導致模型在預測時需使用多個模態數據,無法僅使用EEG單模態數據進行預測。2019年加拿大不列顛哥倫比亞大學的SAHA等[4]提出一種新的分層深度神經網絡,該網絡由空間和時間卷積神經網絡(convolutionalneuralnetwork, CNN)分層組合后再與深度自編碼器級聯而成,利用6個語音類別(如鼻音、雙唇音)的預測發音信息作為音素和單詞分類的中間步驟,找到負責自然語音合成的辨別信號;但僅使用了腦電信號這一單模態信息進行實驗。2020年馬什哈德醫科大學的BAKHSHALI等[5]提出基于相關熵譜密度黎曼距離的發音想象腦電信號分類方法,對來自不同通道腦電信號的相關熵譜密度(correntropy spectral density, CSD)矩陣進行估計,并將這些矩陣之間的距離作為語音識別的度量,但僅使用腦電信號這一單模態信息進行實驗。

綜上所述,現有的發音想象腦電信號分類方法,

沒有利用其他模態(如音頻信號)與腦電模態的關聯信息幫助單一模態(腦電信號)模型進行訓練,在小樣本的情況下容易出現過擬合。為此,本文提出一種基于跨模態信息遷移的發音想象腦電信號分類方法。該方法自適應地提高更具判別力的特征在局部近鄰關系計算中的權重,并集成不同batch size的知識蒸餾模型,能夠更加充分地從多模態教師網絡遷移潛在的特征分布信息來監督單模態學生網絡的訓練,進一步緩解小樣本問題的影響,提高分類模型的泛化能力。

本文改進了CHEN等[6]提出的局部性保留損失(locality preserving loss, LP)的知識蒸餾方法。CHEN等通過保持學生、教師網絡特征空間樣本的拓撲關系一致性,增強學生網絡學習。但該方法在計算教師網絡特征空間樣本的近鄰關系時,沒有考慮信噪比的高低特征對近鄰關系計算的重要程度差異。另外,由于網絡訓練采用小批量梯度下降法,樣本近鄰關系并不是在所有的訓練樣本中計算,而是在隨機批次中計算,因此在不同大小的batch size中,樣本近鄰關系的尺度不一樣。如,基于t-SNE的教師網絡隱含層樣本近鄰分布可視化圖如圖1所示,圖中三角形和圓圈散點分別對應不同發音想象任務的腦電樣本。

由圖1可以看出,在不同batch size訓練的教師網絡特征空間中,樣本間的近鄰拓撲關系不一樣。當batch size較大時,更多地考慮樣本間短程的拓撲關系;當batch size較小時,更多地考慮樣本間長程的拓撲關系。

鑒于以上分析,本文方法首先計算教師網絡特征與標簽之間的相關系數,并利用相關系數對樣本間的近鄰關系進行加權求和,增加具有高信噪比(或判別力)的特征在樣本間近鄰關系計算中的重要程度;然后,集成不同batch size的近鄰關系知識蒸餾模型,更加全面地利用教師網絡特征空間中不同尺度的近鄰關系對應的樣本分布信息。

集成學習通過構建多個學習器并將其結合(模型融合),能更好地完成預測任務,提高模型性能。常用的集成學習方法有Bagging[7-9]、Boosting[10-12]、Stacking[13-15]等。由于神經網絡訓練是通過小批量樣本計算近鄰關系,通過設置不同的batch size來訓練

模型學習不同的知識,如不同尺度的樣本近鄰關系。本文通過集成不同batch size(64,128,256)訓練得到的3個模型來提高學生網絡的預測能力,從而實現多尺度學習。

2 師生架構模型

本文的網絡模型訓練分為2個階段:第一階段是1個雙流架構的教師網絡;第二階段是1個單流架構的學生網絡,如圖2所示。

第一階段網絡訓練的過程:首先,使用EEGNet[16]和SincNet[17]特征提取網絡分別提取腦電信號特征和音頻信號特征;然后,將腦電信號特征和音頻信號特征拼接;最后,經全連接層FC和分類層classification得到正樣本的概率值。

教師網絡的損失函數為

式中: 為教師網絡的損失函數, 為優化ROC曲線下的面積(area under curve, AUC)指標的損失函數,教師網絡的損失函數可以采用文獻[18]的設計:

式中: 為m個正樣本的分類輸出; 為n個負樣本的分類輸出; 為正負樣本對分類輸出差的閾值, ;p為調節因子, 。

第一階段的教師網絡訓練結束后,將教師網絡的分類輸出作為軟標簽約束學生網絡的輸出,達到信息遷移的目的。這種知識蒸餾方法是由HINTON等[19]提出的。

學生網絡的損失函數為

式中: 為樣本的總數, 為樣本序號, 為溫度超參數, 為第一階段教師網絡分類輸出的logits值, 為第二階段學生網絡分類輸出的logits值。

由于教師網絡和學生網絡的輸入和結構差異較大,因此,僅約束最終輸出層是不夠的。考慮到網絡隱含層中的特征也包含有用信息,本文利用變權的局部保留損失來保證學生、教師網絡特征空間拓撲關系的一致性。

假設 個帶標簽的訓練集表達式為? , 和 分別表示樣本 經過教師網絡和學生網絡提取后的特征,變權的局部保留損失函數表達式為

式中: 為教師網絡隱含層特征空間樣本間的局部關系, 為特征 的 近鄰, 為教師網絡隱含層特征向量的維度序號, 為變權的尺度因子, 為指數因子, 為教師網絡隱含層特征與標簽之間的相關系數, 為變權的權重因子。

式中: 為損失函數的折中系數。

由于教師網絡隱含層特征空間的樣本近鄰關系是在隨機批次中計算的,不同batchsize的訓練模型,遷移教師網絡隱含層樣本近鄰分布信息的尺度也不同。因此,本文采用線性回歸法集成3個batchsize(64、128、256)訓練的學生網絡,對腦電信號類別進行預測輸出。

3 實驗

本文實驗使用Kara One公開數據集[3],用于腦機接口發音想象的研究。該數據集包含了音節和單詞形式的想象語音,包括對應7個音位/音節(/iy/, /piy/, /tiy/, /diy/, /uw/,/m/, /n/)和4個單詞(pat, pot, knew, gnaw)的多模態數據(腦電信號、音頻信號、面部跟蹤信號),共14個參與者的數據。本文采用腦電信號和音頻信號2種模態數據。將數據集中的10個參與者的數據作為訓練集(含樣本1353例,其中正樣本492例,負樣本861例);4個參與者的數據作為測試集(含樣本460例,其中正樣本203例,負樣本257例)。

實驗環境:計算機的處理器為3.4 GHz Intel Core i7-6800K,內存為NVIDIA GeForce RTX 207024 GB,深度學習框架為Keras。

本文考慮2種二分類任務,即是否存在高前元音(presence of high-front vowel, ±/iy/)和是否存在高后元音(presence of high-back vowel, ±/uw/)。AUC是衡量二分類模型優劣的一種評價指標,本質是從樣本集中隨機選擇一個正樣本和負樣本,模型預估正樣本得分大于負樣本得分的概率,計算公式為

式中: 為正樣本, 為第 條樣本的序號(將所有的樣本的預測輸出進行排序,排在第 個位置), 為正樣本的數量, 為負樣本的數量。

本文比較了單模態方法EEGNet(方法1)、決策層知識蒸餾(方法2)、局部近鄰關系保留知識蒸餾(方法3)、變權局部近鄰關系保留知識蒸餾(方法4)、及多尺度變權局部近鄰關系保留知識蒸餾等方法(本文方法)的性能優劣,評價指標為AUC,實驗結果如表1、表2所示。

由表1可知:方法1中僅使用腦電信號模態訓練模型,AUC最低,僅為52.38%;方法2在方法1的基礎上增加了音頻信號幫助模型進行訓練,并使用決策層知識蒸餾方法將教師網絡中的知識遷移到學生網絡,AUC提高了約2.42%,驗證了跨模態信息遷移方法的有效性;方法3在方法2的基礎上增加了局部近鄰關系保留知識蒸餾方法,AUC提高了約7%,表明教師網絡和學生網絡的輸入和結構差異較大時,利用局部近鄰關系保留知識蒸餾方法可以保證學生、教師網絡特征空間拓撲關系的一致性,提升學生網絡性能;方法4在局部近鄰關系保留知識蒸餾方法中增加了變權因子,AUC提高了約2.59%,表明變權因子可以增加具有高信噪比(或判別力)的特征在樣本間近鄰關系計算中的重要程度,提高模型的性能;本文方法在方法4的基礎上集成3個batch size(64、128、256)的近鄰關系知識蒸餾模型,更加全面地利用教師網絡特征空間中不同尺度的近鄰關系對應的樣本分布信息,性能表現最好。

由表1、表2可知,方法5相比于方法1性能有較大提升,AUC提高了約16%,可見本文方法能夠提升腦電信號分類的性能。

4 結論

針對在噪聲干擾大且訓練樣本少的情況下,現有的機器學習模型無法取得較好的泛化性能,容易出現過擬合現象,本文提出一種基于跨模態信息遷移的發音想象腦電信號的分類方法,并在公開數據集Kara One上獲得較高的AUC得分(±/iy/:68.28%,±/uw/:69.53%)。該方法通過變權局部近鄰關系保留知識蒸餾自適應地提高了更具有判別力的特征在局部近鄰關系計算中的權重,并利用多尺度學習集成了不同batch size(64、128、256)的知識蒸餾模型,能夠更加充分地從多模態教師網絡遷移潛在的特征分布信息監督單模態學生網絡的訓練,從而進一步緩解小樣本問題的影響,提高分類模型的泛化能力。

參考文獻

[1] 陳霏,潘昌杰.基于發音想象的腦機接口的研究綜述[J].信號處理, 2020,36(6):86-830.

[2] 韓震坤,陶慶關,向恒.腦機接口技術的仿人控制綜述[J].機電工程技術,2021,50(4):7-13;34.

[3] ZHAO S, RUDZICZ F. Classifying phonological categories in imagined and articulated speech[C]. 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2015: 992-996.

[4] SAHA P, ABDUL-MAGEED M, FELS S. Speak your mind! Towards imagined speech recognition with hierarchical deep learning[J]. CoRR, arXiv preprint arXiv:1904.05746, 2019.

[5] BAKHSHALI MA, KHADEMI M, EBRAHIMIMOGH-ADAM A, et al. EEG signal classifi-cation of imagined speech based on riemannian distance of correntropy spectral density[J]. Biomedical Signal Processing and Control, 2020,59(C):101899.

[6] CHEN H, WANG Y, XU C, et al. Learning student networks via feature embedding[J]. IEEE Transactions on Neural Networks and Learning Systems, 2021,32(1):25-35.

[7] LEE Tae-Hwy, ULLAH Aman, WANG Ran. Bootstrap aggregating and random forest[J]. Macroeconomic Forecasting in the Era of Big Data. Springer Cham, 2020:389-429.

[8] WANG RU, PENG J. Learning directed acyclic graphs via bootstrap aggregating[J]. arXiv preprint arXiv: 1406.2098, 2014.

[9] HASSANAhnafRashik,BHUIYAN Mohammed Imamul Hassan. Computer-aided sleep staging using complete ensemble empirical mode decomposition with adaptive noise and bootstrap aggregating[J]. Biomedical Signal Processing and Control,2016,24:1-10.

[10] SCHAPIRE, ROBERT E. The boosting approach to machine learning: an overview[J]. Nonlinear Estimation and Classifica-tion, Springer, 2003:149-171.

[11] LIU Shixia, XIAO Jiannan, LIU Junlin, et al. Visual diagnosis of tree boosting methods[J]. IEEE Transactions on Visualiza-tion and Computer Graphics, 2018,24(1):163-173.

[12] JIANG J,WANG R, WANG M, et al. Boosting tree-assisted multitask deep learning for small scientific datasets[J]. Journal of Chemical Information and Modeling, 2020,60(3):1235-1244.

[13] DIVINA Federico, GILSON Aude, GOM?Z Vela Francisco, et al. Stacking ensemble learning for short-term electricity consumption forecasting[J]. Energies, 2018,11(4):949.

[14] RIYAZ Sikora. A modified stacking ensemble machine lear-ning algorithm using genetic algorithms[J]. Handbook of Research on Organizational Transformations Through Big Data Analytics. IGi Global, 2015:43-53.

[15] CUI Shaoze, YIN Yunqiang, WANG Dujuan, et al. A stacking-based ensemble learning method for earthquake casualty prediction[J]. Applied Soft Computing, 2021,101: 107038.

[16] LAWHERN VJ, SOLON AJ, WAYTOWICH NR, et al. EEGNet: a compact convolutional network for EEG-based brain-computer interfaces[J]. Journal of Neural Engineering, 2016,15(5):056013.1-056013.17.

[17] RAVANELLI M, BENGIO Y. Interpretable convolutional filters with SincNet[J]. arXiv preprint arXiv:1811. 09725, 2018.

[18] YAN L, DODIER RH, MOZER M, et al.Optimizing classifier performance via an approximation to the Wilcoxon-Mann-Whitney statistic[C].Proceedings of the Twentieth Internatio-nal Conference on Machine Learning (ICML-2003), Washing-ton DC, 2003:848-855.

[19]HINTON G, VINYALS O, DEAN J.Distilling the knowledge in a neural network[J]. Computer Science, 2015,14(7):38-39.

作者簡介:

黃偉坤,男,1996年生,碩士研究生,主要研究方向:深度學習。E-mail:532190822@qq.com

謝偉,男,1995年生,碩士研究生,主要研究方向:深度學習。E-mail:1341601296@qq.com

主站蜘蛛池模板: 国产精品免费露脸视频| 天天躁狠狠躁| 国产精品夜夜嗨视频免费视频| jizz在线观看| 国产免费久久精品99re不卡| 欧美视频在线不卡| 日韩欧美国产中文| 毛片免费在线视频| 精品无码日韩国产不卡av| 香蕉国产精品视频| 在线观看国产网址你懂的| 色天堂无毒不卡| 色综合综合网| 国产精品v欧美| 青青草原国产av福利网站| 天天综合天天综合| 国产白浆在线观看| 欧美激情首页| 亚洲AV成人一区二区三区AV| 国产毛片不卡| 成人在线亚洲| 成人国内精品久久久久影院| 国产性生交xxxxx免费| 亚洲日韩日本中文在线| 婷婷午夜影院| 国产综合色在线视频播放线视| 免费一级毛片在线观看| 国产手机在线观看| 国产精品男人的天堂| 亚洲swag精品自拍一区| a级毛片在线免费观看| 亚洲无码91视频| 婷婷亚洲最大| 国产乱人免费视频| 国产日韩精品欧美一区喷| 亚洲开心婷婷中文字幕| 国产第八页| 国产成人精品男人的天堂下载| 亚洲成a人在线观看| 国产真实二区一区在线亚洲| 999国产精品永久免费视频精品久久| 亚洲av无码牛牛影视在线二区| 国产成人久视频免费| 日本91视频| 色综合久久综合网| 午夜啪啪福利| 日本欧美午夜| a欧美在线| 99国产精品免费观看视频| 91精品国产麻豆国产自产在线| 国产精品久久久精品三级| 成人午夜视频网站| 好久久免费视频高清| 亚洲国产精品日韩av专区| 亚洲最新在线| 色网站在线免费观看| 国产成人精品一区二区秒拍1o| 香蕉久久国产超碰青草| 亚洲伊人电影| 日韩在线永久免费播放| 91人人妻人人做人人爽男同| 精品久久国产综合精麻豆 | 亚洲VA中文字幕| 亚洲日韩精品综合在线一区二区| 国产一区二区三区免费观看| 日本一本在线视频| 国产人人乐人人爱| 91 九色视频丝袜| 日韩高清成人| 亚洲人人视频| 欧美日韩另类国产| 国产大片喷水在线在线视频| 国产在线视频福利资源站| 国产精品99在线观看| 亚洲国产成人综合精品2020| 国产亚洲精品无码专| 亚洲三级色| 精品成人一区二区三区电影| 国产香蕉在线| 亚洲精品自拍区在线观看| 美美女高清毛片视频免费观看| 欧美色99|