劉 璐
(天津財(cái)經(jīng)大學(xué) 天津 300000)
收集并分析含有多種類(lèi)型的聲音記錄的語(yǔ)言數(shù)據(jù)集
劉 璐
(天津財(cái)經(jīng)大學(xué) 天津 300000)
人們對(duì)于構(gòu)建應(yīng)用于分析帕金森癥患者的語(yǔ)言方式的遠(yuǎn)程診斷以及遠(yuǎn)程監(jiān)控的預(yù)測(cè)模型越來(lái)越有興趣。為了這個(gè)目的,我們收集了各種各樣的聲音樣本,其中包含連續(xù)的元音、單詞和句子,這些樣本都是從一套帕金森癥患者的口語(yǔ)練習(xí)中得來(lái)的。語(yǔ)言數(shù)據(jù)集是由每個(gè)人的多種話(huà)語(yǔ)記錄構(gòu)成的,在這篇論文里,我們使用了著名的機(jī)器學(xué)習(xí)工具來(lái)研究帕金森數(shù)據(jù)集并建立有效的預(yù)測(cè)模型。
集中趨勢(shì)和離散度度量;交叉驗(yàn)證;多樣本類(lèi)型;語(yǔ)言障礙;帕金森癥的遠(yuǎn)程診斷
聲音疾病可以簡(jiǎn)單地使用聲音工具中的非周期振動(dòng)來(lái)測(cè)量,聲音中的復(fù)雜的非線(xiàn)性的不定性以及混亂、空氣聲學(xué)、非高斯的隨機(jī)性可以用來(lái)增加聲音疾病診斷系統(tǒng)的臨床有用性。這篇研究的目的是設(shè)計(jì)一個(gè)計(jì)算機(jī)輔助的數(shù)據(jù)收集、儲(chǔ)存和分析系統(tǒng)來(lái)簡(jiǎn)化帕金森癥的診斷和治療過(guò)程,這是在這個(gè)地方的神經(jīng)病學(xué)部進(jìn)行的。首先,每個(gè)病人的語(yǔ)言記錄、人口統(tǒng)計(jì)信息、健康背景和帕金森癥狀的處理情況都被收集和儲(chǔ)存。然后,解析收集到的語(yǔ)言記錄并從聲音樣本中挑選出一系列特征值。在帕金森癥診斷領(lǐng)域以及這篇研究中用到的語(yǔ)言數(shù)據(jù)集一般是由每個(gè)人的多種語(yǔ)言記錄組成的。這篇研究中收集到的數(shù)據(jù)集包含每個(gè)人的多種聲音樣本,其中有連續(xù)的元音、數(shù)字、單詞和短句等。在這篇文章中,我們也比較了其他能夠用于分析這種數(shù)據(jù)集的交叉驗(yàn)證方法的成功性,這些交叉驗(yàn)證方法是用于構(gòu)建診斷帕金森癥的算法中的。我們使用了k-最近鄰和支持向量機(jī)的分類(lèi)算法,并根據(jù)模型的精度、特異性、靈敏度和馬修斯相關(guān)系數(shù)得分來(lái)估計(jì)模型在從帕金森癥患者中區(qū)分健康人時(shí)的成功性。
這項(xiàng)研究中收集到的數(shù)據(jù)來(lái)源于20個(gè)帕金森癥患者(6個(gè)女性,14個(gè)男性)和20個(gè)身體健康的人(10個(gè)女性,10個(gè)男性)。實(shí)驗(yàn)組由經(jīng)歷0-6年帕金森癥的患者組成。實(shí)驗(yàn)組每個(gè)人的年齡在43到77之間(均值是64.86,標(biāo)準(zhǔn)差是8.97),對(duì)照組的年齡分布則是在45到83之間(均值是62.55,標(biāo)準(zhǔn)差是10.79)。從所有人中得到的26個(gè)聲音樣本被記錄下來(lái),這些樣本包括連續(xù)元音、數(shù)字、單詞和短句等。這些樣本由一群神經(jīng)學(xué)家從一組旨在得到更有效的帕金森癥患者聲音的語(yǔ)言練習(xí)中挑選出來(lái)。這些聲音是由一個(gè)頻段在50到13000赫茲的MC-1500麥克風(fēng)記錄的,麥克風(fēng)被設(shè)定在96000赫茲,30分貝,并被放置在距離測(cè)試者10厘米的地方,然后測(cè)試者按要求讀或重復(fù)指定的文本內(nèi)容。
在收集到上述的多種類(lèi)型聲音記錄的數(shù)據(jù)集并進(jìn)行我們的實(shí)驗(yàn)后,我們繼續(xù)通過(guò)在相同條件下同一種醫(yī)生檢查過(guò)程來(lái)收集一個(gè)獨(dú)立的帕金森癥患者測(cè)試集。在收集這個(gè)數(shù)據(jù)集的過(guò)程中,28個(gè)帕金森癥患者僅被要求各說(shuō)3次連續(xù)的元音字母“a”和“o”,這就得到了168個(gè)聲音記錄。實(shí)驗(yàn)組中的病人經(jīng)歷帕金森癥的時(shí)間是0到13年,年齡分布在39到79之間(均值是62.67,標(biāo)準(zhǔn)差是10.96)。我們使用這個(gè)數(shù)據(jù)集作為一個(gè)獨(dú)立的測(cè)試集來(lái)證實(shí)我們從多種聲音記錄數(shù)據(jù)集中已經(jīng)得到的結(jié)果。
(一)使用留一法分類(lèi)。和我們的研究一樣,之前的研究中收集到的為構(gòu)建無(wú)創(chuàng)性帕金森診斷系統(tǒng)的語(yǔ)言數(shù)據(jù)集也包含每個(gè)受試者的多種語(yǔ)言記錄。使用傳統(tǒng)的逐步回歸法或留一驗(yàn)證法,會(huì)因?yàn)橥ㄟ^(guò)抽出一些個(gè)體的訓(xùn)練集樣本和測(cè)試集樣本而在訓(xùn)練集和測(cè)試集上造成一個(gè)人為的重疊,從而得到一個(gè)有偏的預(yù)測(cè)模型。然而,在現(xiàn)存研究中提出的分類(lèi)模型一般使用的都是留一交叉驗(yàn)證法(LOSO),它將一個(gè)人的全部聲音樣本舍去做驗(yàn)證,好想他是看不到的,剩下的樣本全部用來(lái)訓(xùn)練。根據(jù)留一交叉驗(yàn)證法,如果一個(gè)測(cè)試個(gè)體的聲音樣本中的大多數(shù)被歸類(lèi)為帕金森癥患者,那么這個(gè)個(gè)體被歸類(lèi)為陽(yáng)性帕金森病,否則被歸為陰性。
(二)用概括性留一法分類(lèi)。根據(jù)概括性留一法,每個(gè)受試者的26個(gè)聲音樣本的特征值通過(guò)集中趨勢(shì)和離散度度量得到總結(jié),這些度量包括了均值、中位數(shù)、剔除平均值(去掉10%和25%)、標(biāo)準(zhǔn)差、四分位距、平均絕對(duì)偏差(平均絕對(duì)誤差是所有單個(gè)觀測(cè)值與算術(shù)平均值的偏差的絕對(duì)值的平均),同時(shí)產(chǎn)生了一種由N個(gè)樣本組成的新的數(shù)據(jù)集,其中N是受試者的數(shù)量。由于一個(gè)個(gè)體的多個(gè)樣本降為一個(gè)樣本,我們使用留一法將這個(gè)數(shù)據(jù)集的樣本輸入到2個(gè)或6個(gè)度量一組的分類(lèi)器中。6個(gè)度量為一組的包含之前提到的所有度量,會(huì)根據(jù)規(guī)則有些許的不同,而兩個(gè)度量一組的則是集中趨勢(shì)和離散度度量的二元結(jié)合。通過(guò)這種方法,數(shù)據(jù)在樣本維度上會(huì)縮減而在特征維度上會(huì)增加。
在經(jīng)過(guò)歸一化處理使得每一個(gè)特征值的均值為0、標(biāo)準(zhǔn)差為1后,將特征值輸入支持向量機(jī)和k近鄰分類(lèi)器中來(lái)進(jìn)行帕金森癥診斷。對(duì)于k近鄰分類(lèi)器,使用歐氏距離度量,對(duì)于支持向量機(jī),使用LIBSVM包和線(xiàn)性、徑向基核函數(shù),其中耗散值參數(shù)c是10,核寬度g是0.005。我們比較了通過(guò)對(duì)原始數(shù)據(jù)集使用不同值的k近鄰法和支持向量機(jī)法而得來(lái)的各種子集所得到的實(shí)驗(yàn)結(jié)果,從結(jié)果來(lái)看,對(duì)參數(shù)k取任意值,使用傳統(tǒng)的留一交叉驗(yàn)證法,幾乎可以得到一個(gè)隨機(jī)的預(yù)測(cè)結(jié)果(看馬修斯相關(guān)系數(shù))。而通過(guò)以均值作為集中趨勢(shì)、標(biāo)準(zhǔn)差作為離散度度量(k=1)的總結(jié)數(shù)據(jù)的概括留一法得到的最高M(jìn)CC系數(shù)是0.3062,整體精度是65.00%。由于早期發(fā)現(xiàn)疾病可以增加治愈的機(jī)會(huì)并幫助阻止癥狀?lèi)夯`敏度在生物醫(yī)學(xué)領(lǐng)域是另一個(gè)重要的評(píng)估指標(biāo)。總結(jié)數(shù)據(jù)可以發(fā)現(xiàn),使用剔除均值(去掉25%)和四分位距且k=5時(shí),靈敏度最高,為70%。
觀察數(shù)據(jù)可見(jiàn),在使用以均值作為集中趨勢(shì)、標(biāo)準(zhǔn)差作為離散度度量相結(jié)合的概括留一法時(shí)可以得到最高的精度(77.50%),這與k近鄰分類(lèi)的結(jié)果一樣。這個(gè)模型的馬修斯相關(guān)系數(shù)、靈敏度和特型性也是最高的。使用線(xiàn)性核函數(shù)、留一法的支持向量機(jī)分類(lèi)器也幾乎產(chǎn)生了一個(gè)隨機(jī)的預(yù)測(cè)結(jié)果(MCC=0.0006),而徑向基核函數(shù)則產(chǎn)生了一個(gè)較好的預(yù)測(cè)模型(MCC=0.1005)。我們可以看到,所有的概括留一法模型要比留一法模型在從健康人群中識(shí)別帕金森病人的能力上更成功。結(jié)果同樣顯示了支持向量機(jī)相較于k近鄰分類(lèi)器得到的結(jié)果更穩(wěn)定。使用均值-標(biāo)準(zhǔn)差的概括留一法與傳統(tǒng)留一法的線(xiàn)性支持向量機(jī)之間精度差異的顯著性結(jié)果由McNemai檢驗(yàn)得到(表五)。McNemai檢驗(yàn)結(jié)果顯示出在顯著性水平0.05下,均值-標(biāo)準(zhǔn)差的概括留一法比傳統(tǒng)留一法的精度要高。
由于人們近期對(duì)于構(gòu)建應(yīng)用于分析帕金森癥患者的語(yǔ)言方式的遠(yuǎn)程診斷以及遠(yuǎn)程監(jiān)控的預(yù)測(cè)模型越來(lái)越有興趣。我們收集了各種各樣的聲音樣本和各種聲音類(lèi)型,其中包括連續(xù)性元音、單詞和一組用于帕金森癥患者對(duì)話(huà)練習(xí)的語(yǔ)句。基于對(duì)數(shù)據(jù)庫(kù)的分析,結(jié)果顯示,連續(xù)性元音與獨(dú)立詞匯和短句相比,具有更多辨別帕金森癥的特征信息。為了評(píng)估一個(gè)受試者的中心趨勢(shì)和離散度量(包括平均值,中值,截尾均值,標(biāo)準(zhǔn)差,四分間距和平均絕對(duì)離差)中哪些指標(biāo)可以作為他所有記錄中的優(yōu)質(zhì)代表并表現(xiàn)如何,我們嘗試了這些指標(biāo)的不同組合,發(fā)現(xiàn)具有代表性的經(jīng)典的均值和標(biāo)準(zhǔn)差的主體樣本改善了預(yù)測(cè)模型的廣泛性。這種代表類(lèi)型作為一個(gè)獨(dú)立的數(shù)據(jù)樣本,表現(xiàn)出比使用每個(gè)受試者的每個(gè)聲音記錄更有效。使用聲音特征值的均值和標(biāo)準(zhǔn)差作為每個(gè)受試者的多種聲音記錄的一個(gè)總結(jié)性的代表,對(duì)于建立這種預(yù)測(cè)模型來(lái)說(shuō)是一種有效的策略。
[1]鄭書(shū)琴.大數(shù)據(jù)時(shí)代的品牌精準(zhǔn)營(yíng)銷(xiāo)范式[J].視聽(tīng),2017,(03):175-176.
[2]徐謝云.基于子空間分析法的腦中風(fēng)微波檢測(cè)研究[D].東華大學(xué),2017.
[3]趙宇飛.數(shù)據(jù)挖掘技術(shù)在信息化管理中的應(yīng)用探討[J].中國(guó)管理信息化,2017,(04):157.
劉璐(1991-),女,漢族,甘肅蘭州人,研究生在讀,天津財(cái)經(jīng)大學(xué),研究方向:財(cái)政。