999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進Tri-training算法投票機制的中文問句分類

2024-01-15 08:47:22孫中全
長春師范大學(xué)學(xué)報 2023年12期
關(guān)鍵詞:分類機制

王 雷,孫中全

(滁州職業(yè)技術(shù)學(xué)院,安徽 滁州 239000)

0 引言

問答系統(tǒng)由問句分類、信息檢索、答案抽取三大部分組成,問句分類作為問答系統(tǒng)的初始環(huán)節(jié),其能否正確地對問句進行分類會直接影響到后續(xù)的答案抽取環(huán)節(jié)[1],從而直接影響問答系統(tǒng)的性能。目前,問句分類的方法主要有兩大類[2-3]:(1)基于人工規(guī)則的方法;(2)基于機器學(xué)習的方法。其中,基于機器學(xué)習的方法是目前問句分類的主流。機器學(xué)習方法[4]包括監(jiān)督學(xué)習、無監(jiān)督學(xué)習和半監(jiān)督學(xué)習。在問句分類方面,監(jiān)督學(xué)習的方法主要利用已標記樣本,忽略未標記樣本對于問句分類的意義,分類正確率難以提升,且分類靈活性較低。半監(jiān)督學(xué)習是一種綜合利用已標記樣本和未標記樣本進行學(xué)習的方法,能獲得較好的學(xué)習泛化能力和學(xué)習效果。目前該類方法開始應(yīng)用于問句分類中,在英文問句分類方面,AFRA等[5]采用基于機器學(xué)習的方法,使得孟加拉問題分類取得了很好的效果;SAEEDEH[6]將無監(jiān)督潛在狄利克雷分配方法用于問題分類;FAIZ等[7]利用問題分類和答案抽取方式,搭建了烹飪問答系統(tǒng);SEYHUMS等[8]基于Word2vec特征的深度學(xué)習方法用于問題分類研究。在中文問句分類方面,YU等[9]利用半監(jiān)督學(xué)習中的Co-training算法將中文問句進行分類,張志滿[10]利用深度學(xué)習算法將健康領(lǐng)域的中文問句進行分類。在半監(jiān)督學(xué)習的諸多分類算法中Tri-training算法[11]不僅在其他知識領(lǐng)域得到了很好的應(yīng)用,而且在自然語言處理領(lǐng)域有良好的分類效果。其中,任正雄等[12]提出了一種基于Tri-training的制冷系統(tǒng)半監(jiān)督故障診斷方法,改善了制冷系統(tǒng)故障診斷性能;董昊旻等[13]利用半監(jiān)督學(xué)習下的Tri-training算法,有效地提高了駕駛風格分類的準確率;高嘉偉等[14]提出一種基于Tri-training的半監(jiān)督多標記學(xué)習文檔分類算法,在文檔分類中取得了良好的效果;李帥克等[15]基于Tri-training算法來保證自動標注數(shù)據(jù)的質(zhì)量,進而提升跨領(lǐng)域依存句法分析性能。因此本文將Tri-training算法應(yīng)用于中文問句分類。

原始Tri-training算法在三個分類器均給出了不相同的分類結(jié)果時,會默認第一個分類器給出的結(jié)果為分類器模型的最終結(jié)果,則會出現(xiàn)以點代全的問題。針對此問題,本文通過對Tri-training算法[16]的理論分析,受于重重等[17]提出的DSCC(semi-supervised collaboration classification algorithm with enhanced difference)算法的啟發(fā),提出一種基于平時優(yōu)秀的投票機制的Tri-training算法。

1 Tri-training分類算法投票機制的改進

1.1 算法描述

在三個分類器均給出了不同的結(jié)果時,原始的Tri-training算法默認第一個分類器給出的結(jié)果為分類器模型最終結(jié)果,本文基于統(tǒng)計學(xué)思想,提出一種改進的投票機制算法,通過找出平時優(yōu)秀的分類器給出的結(jié)果,作為分類器模型的最終分類結(jié)果。基本流程如圖1所示。

圖1 改進的Tri-training算法流程

該算法的核心思想是對于完成迭代訓(xùn)練得到的最新訓(xùn)練集樣本,在給出分類結(jié)果以后,對每個分類器進行一個正確分類數(shù)的統(tǒng)計,記為Ci。所謂的正確分類數(shù),即分類模型在迭代訓(xùn)練和測試分類的過程中,每個分類器分類正確的中文問句數(shù)。哪個分類器分類正確的中文問句數(shù)越多,就稱這個分類器最好或者最優(yōu)秀,即為平時優(yōu)秀的投票機制。改進Tri-training算法的投票機制詳細步驟如下:

輸入:有標記樣本集L,未標記樣本集U,測試集T,分類器H

輸出:測試集T通過分類模型分類之后的分類精度

1)根據(jù)L訓(xùn)練分類器

2)利用分類采樣方法將L分為3份,形成3個有標記樣本集Li(i=1,2,3)

3)用Li(i=1,2,3)分別去訓(xùn)練3個分類器Hi(i=1,2,3)

即Hi(i=1,2,3)←Learn(Li)

4)設(shè)定分類器初始分類錯誤率ei←0.5

5)對未標記樣本集進行預(yù)測分類。對于一個分類器而言,如果另外兩個分類器對未標記樣本預(yù)測分類結(jié)果一致,即將此樣本加入到該分類器的有標記樣本集中,并且對該分類器進行迭代訓(xùn)練

6)重復(fù)3) ~ 5) 步驟,直至分類錯誤率ei不再發(fā)生變化,即分類器迭代訓(xùn)練結(jié)束

7)設(shè)定分類器正確分類數(shù)Ci(i=1,2,3),將正確數(shù)最大的分類器記為最優(yōu)秀分類器

8)用迭代訓(xùn)練好的分類器將測試集中樣本分類,測算分類器的分類正確率

9)算法結(jié)束

1.2 算法分析

1.2.1 改進投票機制的Tri-training算法原理

該投票機制的核心思想是對于完成迭代訓(xùn)練得到的最新訓(xùn)練集樣本,在給出分類結(jié)果以后,對每個分類器進行一個正確分類數(shù)的統(tǒng)計,記為Ci。所謂的正確分類數(shù),即為分類模型在迭代訓(xùn)練和測試分類的過程中,每個分類器分類正確的中文問句數(shù)。哪個分類器分類正確的中文問句數(shù)越多,就稱這個分類器最好或者最優(yōu)秀。那么在分類模型中,三個分類器給出不同的分類結(jié)果時,就可以根據(jù)這個正確分類數(shù),選出最優(yōu)秀的分類器給出的結(jié)果作為分類結(jié)果,而不是默認第一個分類器的結(jié)果作為分類結(jié)果。

關(guān)于Tri-training算法投票機制的改進方面,于重重等[17]研究了改進的投票機制方法,提出了一種基于分類準確率的投票法。這種投票機制是在分類結(jié)果各不相同時,用分類器模型中每一個分類器分別對最初始的樣本訓(xùn)練集進行分類測試,將每個分類器分類結(jié)果的錯誤率記為ei,最后將錯誤率最低的那個分類器的結(jié)果作為分類器模型的預(yù)測結(jié)果。本文將對原始投票機制、基于分類準確率的投票機制和基于平時優(yōu)秀思想的投票機制這三類方法進行實驗驗證,在分類結(jié)果數(shù)據(jù)對比下驗證方法有效性。

1.2.2 改進投票機制的Tri-training算法有效性分析

針對改進投票機制的Tri-training算法,本文針對以下兩方面的進行有效性分析。

1.2.2.1 不會出現(xiàn)“以點代全”的情況

由前文可知,原始Tri-training算法的分類器模型中的投票機制已描述得很清楚。在三個分類器給出的結(jié)果中,有相同的分類結(jié)果出現(xiàn)時,毫無疑問,這個相同的分類結(jié)果就是原始Tri-training算法分類器模型的給出的最終分類結(jié)果。若在三個分類器均給出了不相同的結(jié)果,原始的Tri-training算法會默認第一個分類器給出的結(jié)果為分類器模型的最終結(jié)果。那么,這種情況屬于以點代全的情況。在正常情況下,第一個分類器給出的結(jié)果不可能每次都是正確的,而且其分類精度也不一定比另外兩個分類器的分類精度高。這就很可能在一定程度上降低分類器模型的分類精度。這一點也是本文改進原始Tri-training算法中投票機制的最終出發(fā)點。基于統(tǒng)計學(xué)的原理,在分類器模型進行迭代訓(xùn)練和測試分類的過程中,對每個分類器進行一個分類正確數(shù)的統(tǒng)計,記為Ci。即在程序中添加一個計數(shù)器,此計數(shù)器用來在三個分類器給出不相同的結(jié)果時,選出最優(yōu)秀的分類器,用其給出的結(jié)果作為分類器模型的分類結(jié)果,這就避免了上面所述的以點代全的現(xiàn)象。

1.2.2.2 對分類結(jié)果的選擇和程序時間復(fù)雜度的控制

于重重等[17]提出的基于分類準確率的投票機制是在三個分類器給出不相同的結(jié)果時,用分類器模型中每一個分類器分別對初始樣本訓(xùn)練集進行分類測試,將每個分類器分類結(jié)果的錯誤率記為ei,最后將錯誤率最低的那個分類器的結(jié)果作為分類器模型的分類結(jié)果。這種投票機制雖然避免了以點代全的情況,但并不是最可取的方法,而且這種投票機制因需讓每個分類器分別對初始的樣本訓(xùn)練集進行分類測試,這同時就會增加算法的復(fù)雜度和時間開銷。本文提出的改進的投票機制方法,只需在程序中增加一個計數(shù)器,用來記錄每個分類器分類出的正確問句數(shù),根據(jù)分類正確數(shù)可以選出平時最優(yōu)秀的分類器。因此,相對于基于分類準確率的投票方法,其算法的復(fù)雜度和時間的開銷都會相對小一點。

本文的投票機制可以處理原始投票機制和基于分類準確率投票機制存在的一些不足之處,比原始投票機制和基于分類準確率投票機制具有更合理的選擇性,同時比基于分類準確率投票機制有更佳的判斷、更高的效率及更低的時間開銷。

2 基于改進Tri-training算法的中文問句分類

基于改進Tri-training算法建立半監(jiān)督分類模型。模型主要包括原始數(shù)據(jù)導(dǎo)入、數(shù)據(jù)預(yù)處理、協(xié)同訓(xùn)練和分類結(jié)果輸出四個部分,其流程如圖2所示。

2.1 數(shù)據(jù)預(yù)處理

一般來說,中文問句集不是分類算法中所用分類器需要的數(shù)據(jù)格式。對于中文來說,中文問句包含詞袋、詞性、命名實體和依存關(guān)系等基本特征。數(shù)據(jù)預(yù)處理部分主要是將中文問句中的基本特征提取出來,并選擇合適的基本特征將中文問句中所包含的屬性進行量化,形成分類器所需的數(shù)據(jù)格式。本文利用程序?qū)崿F(xiàn)數(shù)據(jù)預(yù)處理,在建立的中文問句分類模型中,選用中文問句的詞袋這一基本特征,旨在驗證改進Tri-training算法對于中文問句分類的有效性。對于中文問句中不同的基本特征組合,不再一一驗證。

2.2 協(xié)同訓(xùn)練

協(xié)同訓(xùn)練部分利用數(shù)據(jù)預(yù)處理得到的中文問句集,對分類器進行訓(xùn)練、測試。本文在基于類別分類采樣的Tri-training算法基礎(chǔ)上,運用三個分類器協(xié)同訓(xùn)練。基于類別分類采樣方法將有標記樣本集中的每一類中文問句提取出來,然后分別對提取出來的每類問句進行隨機采樣,形成三個有標記的樣本集。用形成的三個有標記樣本集分別去訓(xùn)練三個分類器,再利用訓(xùn)練得到的三個分類器協(xié)同對未標記樣本集中的樣本進行標記。對于一個分類器而言,如果另外兩個分類器對這些沒有標記的樣本標記了相同的分類結(jié)果,這些樣本則被當作已標記樣本,加入到該分類器有標記樣本集中參加對該分類器進行迭代訓(xùn)練。對每個分類器而言,均如此進行迭代訓(xùn)練,直至分類器不再更新,則迭代訓(xùn)練結(jié)束。

3 實驗結(jié)果及分析

3.1 實驗數(shù)據(jù)

本文實驗數(shù)據(jù)主體來自哈爾濱工業(yè)大學(xué)的中文問句集[18]。該問句集分為六大類,共包含6 266個已標記好問句類別的問句。在該問句集的基礎(chǔ)上,又利用網(wǎng)絡(luò)資源通過人工方式將每類問句數(shù)量進行擴展,擴展的總問句數(shù)為4 000個。將擴展的中文問句加入到哈爾濱工業(yè)大學(xué)的中文問句集中,形成新的中文問句集。

3.2 實驗設(shè)置

3.2.1 樣本集分配

針對哈爾濱工業(yè)大學(xué)的中文問句集,選用其中25%的數(shù)據(jù)作為測試樣本集,剩余75%的數(shù)據(jù)作為訓(xùn)練集,其中,訓(xùn)練樣本集中未標記樣本的比率r依次選用20%、40%、60%、80%。將本文擴展的問句集加入到哈爾濱工業(yè)大學(xué)的中文問句集,形成一個新的問句集,再將此問句集按照哈工大中文問句集的樣本分配比例進行實驗數(shù)據(jù)分配。

3.2.2 分類器選擇

本實驗選用了三個SVM分類器,旨在驗證基于問句類別的分類采樣方法對問句分類的影響。對于其他不同分類器的組合用法對分類實驗的效果影響,李心磊等[19]已經(jīng)通過實驗驗證。

3.2.3 評價指標

本實驗共有如下兩個評價指標。

(1)對分類結(jié)果進行測試時,采用分類正確率A作為評價標準,其定義如下:

其中,N為測試集中正確分類的問句數(shù),M為測試集中總的問句數(shù)。

(2)對幾個分類算法運行時間進行比較時,該實驗的評價標準為算法的運行時間T(單位為s)。

3.3 問句分類實驗及結(jié)果分析

3.3.1 在中文問句集中不同分類算法的比較

采用圖2所示的分類模型,利用中文問句集進行實驗。分別得出在四種不同的未標記比率下,原始投票機制的Tri-training算法、基于分類準確率投票機制的Tri-training算法以及基于平時優(yōu)秀投票機制的Tri-training算法在此問句集上的分類精度(表1)。其中T1代表原始投票機制的Tri-training算法,T2代表基于分類準確率投票機制的Tri-training算法,T3代表平時優(yōu)秀投票機制的Tri-training算法。

表1 三種算法在四種不同未標記比率下的分類精度

3.3.2 在中文問句集中不同分類算法所需時間開銷的比較

在前文建立分類模型的基礎(chǔ)上,本文在算法的程序代碼中添加一個程序運行計時器,用來記錄三種算法分類完成所需的時間開銷。在三種算法分類完成時,分別記錄三種算法在分類時所需的時間開銷。實驗結(jié)果如表2所示。

表2 三種算法在四種不同未標記比率下分類時所需時間開銷

根據(jù)表1試驗結(jié)果可以看出,基于分類準確率的投票機制算法和基于平時優(yōu)秀的投票機制算法的分類精度,均高于原始的投票機制算法的分類精度,當r=80%時,分別高出0.13%和0.15%。雖然改進的投票機制算法比原始的投票機制算法的分類精度沒有明顯提高,但其也可以避免以點代全的情況。從實驗數(shù)據(jù)也可以看出,基于分類準確率投票機制的Tri-training算法和平時優(yōu)秀投票機制的Tri-training算法的分類精度相差不大。出現(xiàn)以上這兩種情況,也是不難理解的。本文分析可能有兩種原因:一是最優(yōu)秀的分類器恰好就是第一個分類器;二是中文問句集的規(guī)模還不夠大。

根據(jù)表2實驗結(jié)果可以看出,原始的投票機制算法的運行時間開銷最小。基于平時優(yōu)秀投票機制的Tri-training算法相對于基于分類準確率投票機制的Tri-training算法的運行時間開銷明顯要少一點,其平均少了7 s。雖然基于平時優(yōu)秀投票機制的Tri-training算法花了一點運行開銷時間,但是也避免了以點代全的情況。總而言之,該算法的提出還是有價值的。

因此,改進原始的投票機制算法對于中文問句分類而言,其分類精度能夠得到一定程度的提高。基于平時優(yōu)秀投票機制的Tri-training算法與基于分類準確率投票機制的Tri-training算法相比較而言,雖然兩種算法的分類精度相差不大,但前者相比后者的時間開銷少一點。所以基于平時優(yōu)秀投票機制的Tri-training算法還是具有一定優(yōu)勢的。

4 結(jié)語

本文提出了基于平時優(yōu)秀投票機制的Tri-training算法,建立了半監(jiān)督協(xié)同分類模型,利用人工擴展的問句集進行分類實驗。實驗結(jié)果表明,基于平時優(yōu)秀投票機制的Tri-training算法和基于分類準確率投票機制的Tri-training算法,較原始Tri-training算法的分類精度,當r=80%時,分別提高了0.15%和0.13%;且基于平時優(yōu)秀投票機制的Tri-training算法,相對于基于分類準確率投票機制的Tri-training算法的運行時間開銷平均少了7 s。本文算法的分類實驗主要是在哈爾濱工業(yè)大學(xué)的中文問句集基礎(chǔ)上展開的,對于更大規(guī)模的中文問句集而言,算法是否有效,還有待驗證。希望本文算法能夠為其他分類領(lǐng)域研究提供參考。

猜你喜歡
分類機制
構(gòu)建“不敢腐、不能腐、不想腐”機制的思考
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
分類討論求坐標
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
定向培養(yǎng) 還需完善安置機制
破除舊機制要分步推進
給塑料分分類吧
主站蜘蛛池模板: 欧美一区二区啪啪| 国产免费精彩视频| 91探花在线观看国产最新| 99这里精品| 国产欧美日韩精品综合在线| 在线观看亚洲成人| 欧洲欧美人成免费全部视频 | 黄色网页在线观看| 日韩A∨精品日韩精品无码| 亚洲娇小与黑人巨大交| 97超碰精品成人国产| 在线观看免费国产| 亚洲另类国产欧美一区二区| 欧美激情第一欧美在线| 国产尹人香蕉综合在线电影 | 福利姬国产精品一区在线| 国产福利免费在线观看| 亚洲AV人人澡人人双人| 六月婷婷综合| 欧美、日韩、国产综合一区| 欧美啪啪网| 亚洲国产天堂在线观看| 中文字幕 91| 国产精品视频公开费视频| 精品国产免费人成在线观看| h网站在线播放| 97se亚洲综合在线韩国专区福利| 亚洲国产中文欧美在线人成大黄瓜| 国产在线小视频| 精品久久久久无码| 手机看片1024久久精品你懂的| 欧美性精品不卡在线观看| 欧美亚洲网| 网友自拍视频精品区| 亚洲婷婷丁香| 国产精品福利尤物youwu | 欧美 亚洲 日韩 国产| 国产一二三区在线| 久久国产高清视频| 亚洲天堂.com| 在线日本国产成人免费的| 天天综合网在线| 谁有在线观看日韩亚洲最新视频 | 国产成人精品综合| 91免费在线看| 在线观看91香蕉国产免费| 青青操视频在线| 欧美视频免费一区二区三区| 好紧太爽了视频免费无码| 丁香亚洲综合五月天婷婷| 狠狠亚洲婷婷综合色香| 中文毛片无遮挡播放免费| 免费看美女自慰的网站| 久久亚洲日本不卡一区二区| 国产v精品成人免费视频71pao | 亚洲黄色网站视频| 精品人妻AV区| 国产浮力第一页永久地址| 在线免费不卡视频| 毛片久久网站小视频| 精品日韩亚洲欧美高清a| 中文字幕在线观| 青青青草国产| 青草视频网站在线观看| 视频二区中文无码| 中文字幕不卡免费高清视频| 亚洲国产精品美女| 国产午夜一级毛片| 久久国产亚洲偷自| 最新精品久久精品| 亚洲无码37.| 亚洲欧美一级一级a| 亚洲欧美自拍中文| 亚洲成人黄色在线| 四虎精品黑人视频| 综1合AV在线播放| 亚洲第一网站男人都懂| 无码免费视频| 人妻无码一区二区视频| 久久香蕉欧美精品| 亚洲大学生视频在线播放| 中文字幕永久视频|