999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進(jìn)的FSVM算法用于非平衡情感數(shù)據(jù)分類

2018-11-17 01:48:10張雪英陳桂軍
關(guān)鍵詞:分類情感

張雪英,張 波,陳桂軍

(太原理工大學(xué) 信息工程學(xué)院,山西 晉中 030600)

0 引 言

計(jì)算機(jī)語音情感識(shí)別[1]能力應(yīng)用多樣,在多媒體分段與檢索、測(cè)謊儀、疾病診斷等方面有著廣泛的用途。SVM在解決小樣本以及維數(shù)災(zāi)難問題中有著良好的分類效果。但是它也有缺陷,在分類的過程中有些區(qū)域不可分,影響分類結(jié)果。當(dāng)數(shù)據(jù)集中的正負(fù)樣本不平衡性較大時(shí),SVM對(duì)少數(shù)類的識(shí)別效果很差。同時(shí),支持向量機(jī)對(duì)噪聲和孤立點(diǎn)也比較敏感,影響最終的分類結(jié)果。

針對(duì)以上缺陷,文獻(xiàn)[2]用FSVM對(duì)不同的不平衡率樣本集進(jìn)行分類,但忽略了樣本點(diǎn)附近的樣本分布情況造成了誤分。文獻(xiàn)[3]在模糊支持向量機(jī)的基礎(chǔ)上引入了不平衡調(diào)節(jié)因子,對(duì)少數(shù)類樣本賦予較大的權(quán)值,多數(shù)類樣本賦予較小的權(quán)值,有效解決了樣本分布不均勻的問題。文獻(xiàn)[4]設(shè)置了參數(shù)值調(diào)整選取訓(xùn)練樣本的范圍,有效地避免了孤立點(diǎn)對(duì)最優(yōu)的分類超平面所造成的影響。文獻(xiàn)[5]提出了DEC算法分別給兩類樣本賦權(quán)重,但這種方法沒有考慮到樣本點(diǎn)周圍的疏密性對(duì)分類超平面的影響。文獻(xiàn)[6]提出了一種近似支持向量機(jī)(Proximal SVM),將模型轉(zhuǎn)化為簡(jiǎn)單的二次規(guī)劃問題,提高了學(xué)習(xí)速度。文獻(xiàn)[7]通過對(duì)支持向量上采樣提出了一種不平衡數(shù)據(jù)分類方法。文獻(xiàn)[8]提出了一種核函數(shù)選取和欠采樣相結(jié)合的算法來提高少類樣本的準(zhǔn)確率。本文提出一種FSVM算法,考慮到每個(gè)樣本臨近區(qū)域的樣本分布狀況以及樣本集的不平衡程度,設(shè)定控制值靈活的控制樣本集的范圍,減弱野值點(diǎn)的影響并有效突出支持向量的作用,提高了識(shí)別準(zhǔn)確率。

1 模糊支持向量機(jī)

1.1 改進(jìn)FSVM算法

(1)

式中:C+,C-為常數(shù),分別代表正負(fù)類樣本的懲罰因子,為求解式(1),通過拉格朗日函數(shù),出其對(duì)偶規(guī)劃為

(2)

約束條件為

(3)

其中,k(xi·xj)=φ(xi)φ(xi)T為核函數(shù)。模糊因子si的確定是模糊支持向量機(jī)工作性能好壞的關(guān)鍵,本文重心在于如何精確的對(duì)模糊因子si賦值。

1.2 DEC算法

SVM對(duì)不平衡的大數(shù)據(jù)樣本集做分類,超平面會(huì)偏移,優(yōu)化性能很差,具體表現(xiàn)在多數(shù)樣本分類遠(yuǎn)遠(yuǎn)優(yōu)于少數(shù), DEC算法通過對(duì)不同類別樣本分別給予重要程度,優(yōu)化分類超平面,使偏移性降低,增強(qiáng)分類結(jié)果,文獻(xiàn)[5]表明當(dāng)C-/C+的比率等于n+/n-(n+,n-分別表示正樣本和負(fù)樣本的數(shù)量)時(shí),算法最優(yōu),能實(shí)現(xiàn)最好的分類。基本大多樣本類別數(shù)目相差懸殊的時(shí)候都用此算法,一定范圍上可以提高準(zhǔn)確性,但并未考慮樣本分布情況的影響,若是空間復(fù)雜性樣本分布或者不規(guī)則分布時(shí),算法便不能優(yōu)化分類超平面了。本文將模糊隸屬度與懲罰因子結(jié)合起來,根據(jù)對(duì)分類超平面的貢獻(xiàn)值為每個(gè)樣本分配不同的權(quán)重,使分類器分類偏移幅度盡可能的小。

2 面向非平衡數(shù)據(jù)集的FSVM隸屬度設(shè)計(jì)

2.1 傳統(tǒng)隸屬度函數(shù)設(shè)計(jì)

為了減少異常值和噪聲點(diǎn)對(duì)最優(yōu)分類超平面的影響,傳統(tǒng)的隸屬函數(shù)主要是根據(jù)從樣本到類中心的距離來設(shè)計(jì)的。如圖1所示,H1與H2上各有3個(gè)支持向量,每個(gè)支持向量到屬于本類的類中心間距不一,這6個(gè)支持向量對(duì)于確定H這個(gè)分類超平面起著決定性作用,如果根據(jù)間距賦重要性程度,那么每個(gè)支持向量被給予的權(quán)值都不同,但實(shí)際情況,它們重要性是一樣的,傳統(tǒng)方法賦值存在很大漏洞,不能單靠與類中心間隔比較來確定重要與否。只有將這些不足之處填補(bǔ),才能優(yōu)化分類器的性能,減小數(shù)據(jù)偏移,大數(shù)據(jù)氛圍下,有大量數(shù)據(jù)樣本點(diǎn)需要做處理、做賦值,必須優(yōu)化算法才能解決這一問題。

圖1 根據(jù)樣本到類中心的距離進(jìn)行隸屬度函數(shù)設(shè)計(jì)

2.2 根據(jù)樣本分布情況進(jìn)行設(shè)計(jì)

(4)

(5)

圖2 帶有一個(gè)噪聲點(diǎn)的橢圓分布數(shù)據(jù)

wx++b1=1;wx-+b2=-1

(6)

(7)

兩類樣本到各自類中心的距離

(8)

正樣本到過負(fù)樣本中心超平面的距離

(9)

負(fù)樣本到過正樣本中心超平面的距離

(10)

計(jì)算兩類類中心的距離

(11)

D+=max{di+},D-=max{di-}

(12)

隸屬度函數(shù)計(jì)算公式為

(13)

(14)

圖3 新型不平衡隸屬度函數(shù)設(shè)計(jì)

將樣本點(diǎn)到過負(fù)類中心超平面的距離d1i+和T值進(jìn)行比較,可以彰顯H1和H2線上支持向量點(diǎn)效果,突出其對(duì)分類超平面的貢獻(xiàn),DEC算法能大幅度降低分類超平面偏移幅度,另外結(jié)合緊密度能夠確定噪聲點(diǎn)將其剔除。

3 實(shí)驗(yàn)與結(jié)果分析

實(shí)驗(yàn)選取兩種情感庫,CASIA漢語語料庫包括5類情感,空間分布規(guī)則,不重疊,情感色彩鮮明。太原理工大學(xué)TYUT2.0庫包括4種情感,由多名學(xué)生錄制判別,選取大多趨向定義情感類,具有可靠性,兩種庫比較適合用來做情感識(shí)別實(shí)驗(yàn)。

實(shí)驗(yàn)選取MFCC特征,音質(zhì)特征還有韻律特征,歸一化,分別用CASIA庫,情感類為生氣的樣本,以及TYUT2.0,感受為高興的樣本,默認(rèn)為正類樣本,其余看作一類,不平衡比體現(xiàn),數(shù)據(jù)集的介紹見表1。

表1 情感語音數(shù)據(jù)集

3.1 參數(shù)對(duì)算法準(zhǔn)確率Gm的影響

對(duì)于非平衡情感數(shù)據(jù)集,本文采用不平衡數(shù)據(jù)學(xué)習(xí)中的Se,Sp,和Gm來評(píng)價(jià)[10],其定義為

(15)

TP、FN、TN、FP分別代表分類正確的正樣本、分類錯(cuò)誤的負(fù)類樣本、分類正確的負(fù)類樣本、以及分類錯(cuò)誤的正類樣本的個(gè)數(shù),用Gm對(duì)分類器性能進(jìn)行評(píng)價(jià),Gm越大分類效果越好。

本節(jié)用不同C值做實(shí)驗(yàn),比較文獻(xiàn)[4]中的HFSVM、文獻(xiàn)[11]中LFSVM方法,取 0,0.1,1,10,20,…,100,圖4、圖5分別給出了兩種情感庫數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果。

圖4 C值的改變對(duì)CASIA漢語情感語料庫Gm的影響

圖5 C值的改變對(duì)TYUT2.0情感語料庫Gm的影響

3.2 算法準(zhǔn)確率Gm對(duì)比分析

將文獻(xiàn)[4]中的HFSVM方法、文獻(xiàn)[11]中LFSVM設(shè)方法與本文方法對(duì)比,選取最高C值。表2為對(duì)CASIA漢語庫,TYUT2.0情感庫做識(shí)別的最終結(jié)果。

表2 3種算法的比較結(jié)果

圖6 3種算法對(duì)CASIA漢語情感語料庫的Gm值比較

圖7 3種算法對(duì)TYUT2.0情感語音庫的Gm值比較

比較圖6,圖7可以看出,ZFSVM在對(duì)不平衡率為14.28的CASIA漢語庫做識(shí)別時(shí),Gm值為91.70%,對(duì)不平衡率為4.89的柏林庫做識(shí)別時(shí)的Gm值為83.65%,算法性能的好壞受樣本的不平衡程度影響。不平衡程度越厲害,算法對(duì)樣本做處理的精確度越高,說明本文所提算法的有效性,造成最優(yōu)超平面偏移程度很小。此外相比其它兩種方法,本文方法的準(zhǔn)確性也有增長(zhǎng),因?yàn)閷?duì)每個(gè)樣本所配權(quán)值更加精準(zhǔn)了,隨著樣本數(shù)增多前面兩種方法會(huì)將部分對(duì)超平面貢獻(xiàn)相同的樣本賦予不同的權(quán)值,甚至?xí)o部分對(duì)超平面貢獻(xiàn)較大而距離類中心較遠(yuǎn)的樣本賦予小的隸屬度值,一定程度上減弱了支持向量的作用,影響分類結(jié)果。

4 結(jié)束語

為了解決SVM分類的缺陷,通過DEC算法,及樣本點(diǎn)附近樣本分布,對(duì)每個(gè)樣本點(diǎn)到類中心超平面的距離設(shè)計(jì)權(quán)值賦予方式,確定噪聲點(diǎn)。按照樣本點(diǎn)重要與否、程度大小各自賦值,大大減小了非支持向量點(diǎn)影響,去除了噪聲點(diǎn)干擾,某種意義上提高了支持向量機(jī)的抗噪性。實(shí)驗(yàn)結(jié)果表明,本文所提算法對(duì)不平衡語音情感數(shù)據(jù)庫的識(shí)別性能有顯著提高。但是,此方法需要設(shè)置參數(shù)重復(fù)實(shí)驗(yàn)以選擇優(yōu)值。下一步是更詳細(xì)地研究參數(shù)和隸屬函數(shù)之間的關(guān)系,并找到更方便的參數(shù)設(shè)置方法。

猜你喜歡
分類情感
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
如何在情感中自我成長(zhǎng),保持獨(dú)立
被情感操縱的人有多可悲
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
分類討論求坐標(biāo)
如何在情感中自我成長(zhǎng),保持獨(dú)立
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
主站蜘蛛池模板: 波多野结衣一区二区三视频 | 国产成人无码播放| 91亚洲视频下载| 亚洲中文无码av永久伊人| www.亚洲色图.com| 色综合天天视频在线观看| 不卡无码h在线观看| 自慰网址在线观看| 国产日本欧美在线观看| 成人午夜网址| 久久精品女人天堂aaa| 熟妇无码人妻| 无码国内精品人妻少妇蜜桃视频| 国产成人91精品| 中文字幕在线视频免费| 一本二本三本不卡无码| 毛片免费高清免费| 亚洲欧美精品日韩欧美| 欧美另类精品一区二区三区| 视频一本大道香蕉久在线播放| 亚洲精品在线91| 国产成人区在线观看视频| 久久国产精品电影| 日韩在线第三页| 狠狠色成人综合首页| 久久久91人妻无码精品蜜桃HD| 人妖无码第一页| AV无码无在线观看免费| 国产亚洲高清在线精品99| 老司机午夜精品网站在线观看| 日韩免费视频播播| 丰满人妻被猛烈进入无码| 欧美有码在线| 国产精品香蕉在线| 国产高清在线观看| 青青草国产在线视频| 东京热高清无码精品| 日韩精品无码不卡无码| 92午夜福利影院一区二区三区| 久久男人资源站| 亚洲欧美国产高清va在线播放| 亚洲第一在线播放| 国产第一页第二页| 国产黄网永久免费| 亚洲欧美天堂网| 亚洲区第一页| 成人在线观看一区| 在线观看精品自拍视频| 人妻91无码色偷偷色噜噜噜| 伊人精品视频免费在线| a亚洲天堂| 久久9966精品国产免费| 夜夜操天天摸| av免费在线观看美女叉开腿| 国产理论最新国产精品视频| 日韩在线永久免费播放| 中文字幕在线播放不卡| 亚洲AV无码乱码在线观看代蜜桃| 日韩AV无码免费一二三区| 国产精品成人啪精品视频| 91福利免费| 天天操精品| 精品综合久久久久久97| 国产成人一区二区| 999精品视频在线| 日韩成人免费网站| 久久亚洲日本不卡一区二区| 免费午夜无码18禁无码影院| 国产SUV精品一区二区6| 国产成人毛片| 青青草原国产免费av观看| 毛片视频网址| 久久国产精品麻豆系列| 欧美日韩一区二区在线免费观看| 国产亚洲精品无码专| 国产靠逼视频| 国产成人艳妇AA视频在线| 国产在线麻豆波多野结衣| 国产日韩欧美视频| 日韩AV无码一区| 天天综合网在线| 久久综合婷婷|