999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機(jī)器學(xué)習(xí)分類算法在社區(qū)問答系統(tǒng)中的應(yīng)用

2021-05-24 08:29:55孫熙然
電腦知識與技術(shù) 2021年12期
關(guān)鍵詞:機(jī)器學(xué)習(xí)

孫熙然

摘要:機(jī)器學(xué)習(xí)被廣泛應(yīng)用到自然語言處理中,社區(qū)問答提供了新的有趣的研究方向。在傳統(tǒng)問答領(lǐng)域,通過分類算法研究用戶交互行為并分析其交互方式,能夠促進(jìn)用戶交互與相關(guān)崗位結(jié)構(gòu)的開發(fā)。在此背景下,針對SemEval語義測評大賽提供的語料庫進(jìn)行了研究,基于KNN算法、隨機(jī)森林等分類方法對問題的答案進(jìn)行分類,并對分類結(jié)果進(jìn)行分析和研究。實(shí)驗(yàn)結(jié)果表明,GBRT和隨機(jī)森林這兩種算法的分類效果最好。

關(guān)鍵詞: 答案分類; 自然語言處理; 機(jī)器學(xué)習(xí); 隨機(jī)森林;最鄰近節(jié)點(diǎn)算法

中圖分類號:TP39? ? ? 文獻(xiàn)標(biāo)識碼:A

文章編號:1009-3044(2021)12-0195-03

Abstract:Machine learning is widely used in natural language processing, and community question answering provides a new and interesting research direction. In the field of traditional Question Answering(QA),it can promote the development of user interaction and related post structure by studying user interaction behavior and analyzing its interaction mode through classification algorithm. In this context, this paper studies the corpus provided by SemEval semantic evaluation contest, classifies the answers based on KNN algorithm, random forest and other classification methods, and analyzes and studies the classification results. Experimental results show that GBRT and random forest algorithm are the best.

Key words:answer classification; natural language processing; machine learning; nearest neighbor node algorithm; nearest neighbor node algorithm

1引言

現(xiàn)如今許多社會活動(dòng)都是通過互聯(lián)網(wǎng)進(jìn)行,國內(nèi)以知乎、BBS論壇、豆瓣社區(qū)等為主,人們通過發(fā)帖、回帖,以問答的形式交流。無論國內(nèi)還是國外,人們通過社區(qū)問答(CQA)的形式在論壇和社交網(wǎng)絡(luò)上進(jìn)行互動(dòng),在此上下文中的用戶交互是相當(dāng)開放的,因此有很少的限制,每個(gè)用戶都可以發(fā)布帖子提問,同時(shí)也可以回答一個(gè)或多個(gè)問題。從好的方面來說,這意味著一個(gè)人可以自由地提問問題并且期待能得到一些好的、有用的答案。但在消極的方面上,提問者需要瀏覽所有相關(guān)的答案,并且需要進(jìn)一步判斷這些答案的意義,即答案是否對解決問題有益。通常情況下,許多答案只是松散地與實(shí)際問題有關(guān),有的時(shí)候甚至改變了話題的方向。一般來說,一個(gè)常見的問題可能有上百個(gè)答案,其中絕大多數(shù)的答案并不能滿足用戶的信息需求。因此,在一長串答案中找到所需的信息是非常耗時(shí)的。分類問題及其算法是機(jī)器學(xué)習(xí)的一個(gè)重要分支,Cover和Hart在1967年提出了基于距離度量的KNN分類算法[1],在此之后,Breiman 等率先完成對于初期決策樹(DT)分類算法的闡釋,此即CART 算法,其特點(diǎn)在于借助樹結(jié)構(gòu)算法這一形式,完成對于數(shù)據(jù)的拆分形成離散類[2],進(jìn)入21世紀(jì)后在前人的研究上Breiman提出了隨機(jī)森林(RF)分類算法[3],本論文針對社區(qū)問答系統(tǒng)的研究主要基于隨機(jī)森林分類算法展開。

本次研究基于SemEval給出的語料庫,針對社區(qū)問答系統(tǒng)中給定的帶有短標(biāo)題和擴(kuò)展描述的問題,對其每一個(gè)答案按如下分類:好(good),代表肯定有關(guān);可能(potential),表示可能有用;另外其他情況分類為壞(bad),例如答案與問題無關(guān),問題與答案為一組對話,語言為非英語等。

2機(jī)器學(xué)習(xí)分類算法及隨機(jī)森林算法

機(jī)器學(xué)習(xí)能夠借助計(jì)算機(jī)這一媒介,基于網(wǎng)絡(luò)存在的海量數(shù)據(jù)中研究以及學(xué)習(xí)數(shù)據(jù)出現(xiàn)規(guī)律以及存在方式,進(jìn)而提前判定以及推測潛在信息,最終實(shí)現(xiàn)分類、回歸以及聚類等相關(guān)問題的有效解決。當(dāng)前最常見的機(jī)器學(xué)習(xí)方式分為監(jiān)督、半監(jiān)督以及無監(jiān)督三類[4]。監(jiān)督學(xué)習(xí)問題,數(shù)據(jù)輸入對象往往提前配置分配標(biāo)簽,借助大量數(shù)據(jù)進(jìn)行訓(xùn)練得出模型,隨后借助模型完成后續(xù)推測。若輸出變量具備連續(xù)性時(shí),即回歸問題,若其呈現(xiàn)離散狀態(tài),即分類問題。無監(jiān)督學(xué)習(xí)問題特點(diǎn)在于不會配置標(biāo)簽,其重點(diǎn)在于研究數(shù)據(jù)可能存在的隱藏結(jié)構(gòu),以此為基礎(chǔ)判定有無可區(qū)分組以及集群。半監(jiān)督學(xué)習(xí)基于二者間,借助適量標(biāo)記數(shù)據(jù)以及海量未標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練和分類,雖然與標(biāo)記數(shù)據(jù)相比未標(biāo)記數(shù)據(jù)更容易獲得,但是少數(shù)標(biāo)記樣本訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)會導(dǎo)致過度擬合[5],如圖1所示,為一種有監(jiān)督學(xué)習(xí)的分類流程圖。

隨機(jī)森林(RF)算法關(guān)鍵點(diǎn)在于將經(jīng)由CART算法[6]構(gòu)設(shè)的尚未剪枝分類決策樹,視為基分類器,將Bagging[7]以及隨機(jī)特征選擇[8]進(jìn)行有機(jī)融合,確保決策樹模型具備豐富性與多元性。其原理具體表現(xiàn)為:基于原始樣本大量借助Bootstrap法對于訓(xùn)練集進(jìn)行抽取處理,隨后各訓(xùn)練集均訓(xùn)練各自的決策樹模型,完成以上步驟之后,全部基分類器投票最高類別或其一,此即最終類別。具體步驟如下所示:

(1) 通過Bootstrap 法自原始訓(xùn)練集中抽選數(shù)量為 k的樣本,確保各樣本容量均與原始訓(xùn)練集保持一致;

(2) 基于k個(gè)樣本依次構(gòu)設(shè)與之對應(yīng)的k個(gè)決策樹模型,進(jìn)一步獲取k種分類結(jié)果;

(3) 對于各k種分類結(jié)果進(jìn)行記錄,從中決定最優(yōu)分類結(jié)果。

最終分類結(jié)果選取的分類決策公式[9]如下:

[x=argmaxYi=1kIhix=Y]

其中 , H(x)表示組合分類模型 , hi是單個(gè)決策樹分類模型,Y 表示輸出變量(或稱目標(biāo)變量), I(·)為示性函數(shù)。

與傳統(tǒng)的分類算法相比,隨機(jī)森林分類算法具有高準(zhǔn)確性等優(yōu)點(diǎn),所以近年來無論理論還是方法在許多領(lǐng)域都有了比較迅速的發(fā)展。有研究者提出了一種基于隨機(jī)森林分類器的耕地提取方法[10],通過分類實(shí)驗(yàn)結(jié)果表明該方法可以在不降低分類性能代價(jià)的前提下減少特征冗余;文獻(xiàn)[11]研究了基于隨機(jī)森林特征選擇和Ceemd的短期光伏發(fā)電預(yù)測;唐洵等學(xué)者提出基于特征選擇與隨機(jī)森林的混合模型[12],用以檢測網(wǎng)絡(luò)社區(qū)中的惡意評論,通過實(shí)驗(yàn)得到了良好的判斷準(zhǔn)確率。

3 實(shí)驗(yàn)數(shù)據(jù)

3.1 英語數(shù)據(jù)集

使用了SemEval語義測評大賽提供的三個(gè)數(shù)據(jù)集:訓(xùn)練,擴(kuò)展和測試。所有的數(shù)據(jù)以xml格式存儲,文本編碼為UTF-8編碼。

數(shù)據(jù)集包含的屬性如下:

QID: 問題的內(nèi)部標(biāo)識;

QCATEGORY: 問題的類別;

QDATE: 問題發(fā)布的時(shí)間;

QUSERID: 發(fā)布問題的用戶的內(nèi)部標(biāo)識符;

CID: 注釋的內(nèi)部標(biāo)識符;

CUSERID: 用戶發(fā)布評論的內(nèi)部標(biāo)識符

CGOLD: 人類對評論即答案的評價(jià)標(biāo)簽,為Good, Bad, Potential, Dialogue, on-English, 或 Other。

3.2 特征提取

從樣本中共提取了八個(gè)特征,問題和答案對的特征(特征有可能是答案單獨(dú)的特征,有可能是問題和答案結(jié)合產(chǎn)生的特征)。其中包括答案中有多少詞,網(wǎng)址連接的個(gè)數(shù),圖片數(shù);答案的標(biāo)題和問題標(biāo)題的基于tfidf的余弦相似度;答案的內(nèi)容和問題的內(nèi)容的余弦相似度;答案內(nèi)容和問題標(biāo)題的余弦相似度;答案的用戶id和問題的用戶id是否相同(若相同,很大概率是對話)

4實(shí)驗(yàn)結(jié)果及分析

針對實(shí)驗(yàn)所用數(shù)據(jù)集使用的如下分類算法與隨機(jī)森林算法為參照:有邏輯回歸(Logistic Regression)分類器,梯度提升回歸樹(gradient boosting regression tree),K近鄰分類器(KNN)。

分類結(jié)果如表1所示:

根據(jù)精確率,召回率,f1分?jǐn)?shù),可以看出隨機(jī)森林和gbrt這兩種分類算法的效果最好。但是gbrt對于類別potential的分類不是很好。KNN對于potential的分類效果較其他算法好一些,但是耗時(shí)較其他算法有些長,可能是由于測試集的數(shù)據(jù)不夠多,造成了這一結(jié)果。后續(xù)研究中可以改進(jìn)的內(nèi)容包括在特征提取方面,可以從語義的角度考慮,以及在分類時(shí)使用神經(jīng)網(wǎng)絡(luò),可以更加有效地處理數(shù)據(jù),分類的結(jié)果也會更準(zhǔn)確。

參考文獻(xiàn):

[1] Cover T,Hart P.Nearest neighbor pattern classification[J].IEEE Transactions on Information Theory,1967,13(1):21-27.

[2] Breiman L,F(xiàn)riedman J H,Olshen R A,et al.Consistency[M]//Classification And Regression Trees. Belmont:Routledge,2017:318-341.

[3] Breiman L.Random Forests[J].Machine Learning,2001,45(3):261-277.

[4] (土)Ethem Alpaydin.機(jī)器學(xué)習(xí)導(dǎo)論[M].范明,昝紅英,牛常勇,譯.北京:機(jī)械工業(yè)出版社,2009.

[5] Mayer C,Paul M,Timofte R.Adversarial feature distribution alignment for semi-supervised learning[J].Computer Vision and Image Understanding,2021,202:103109.

[6]Denison David G. T.,Mallick Bani k.,Smith Adrian f. M.. A bayesian cart algorithm[J]. Denison david g. T.;mallick bani k.;smith adrian f. M.,1998,85(2).

[7] Bauer E,Kohavi R.An empirical comparison of voting classification algorithms:bagging,boosting,and variants[J].Machine Learning,1999,36(1/2):105-139.

[8] Stoppiglia H,Dreyfus G,Dubois R,et al.Ranking a random feature for variable and feature selection[J].Journal of Machine Learning Research,2003,3:1399-1414.

[9] 方匡南,吳見彬,朱建平,等.隨機(jī)森林方法研究綜述[J].統(tǒng)計(jì)與信息論壇,2011,26(3):32-38.

[10] Su T F,Zhang S W,Tian Y N.Extracting croplands in western Inner Mongolia by using random forest and temporal feature selection[J].Journal of Spatial Science,2020,65(3):519-537.

[11] Niu D X,Wang K K,Sun L J,et al.Short-term photovoltaic power generation forecasting based on random forest feature selection and CEEMD:a case study[J].Applied Soft Computing,2020,93:106389.

[12] 唐洵,湯娟,周安民.基于特征選擇與隨機(jī)森林混合模型的社區(qū)惡意評論檢測研究[J].現(xiàn)代計(jì)算機(jī),2020(19):22-26.

【通聯(lián)編輯:唐一東】

猜你喜歡
機(jī)器學(xué)習(xí)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
前綴字母為特征在維吾爾語文本情感分類中的研究
下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
基于Spark的大數(shù)據(jù)計(jì)算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
基于圖的半監(jiān)督學(xué)習(xí)方法綜述
機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
主站蜘蛛池模板: 免费不卡视频| 久久国产精品嫖妓| 久久99国产综合精品女同| 中国一级特黄视频| 精品国产中文一级毛片在线看| 青青青视频免费一区二区| 乱码国产乱码精品精在线播放| a欧美在线| 尤物精品国产福利网站| 久久免费看片| 极品国产一区二区三区| 亚洲精品国产精品乱码不卞| 国产成人精品一区二区不卡| 欧美一级夜夜爽| 亚洲aⅴ天堂| 亚洲视频在线青青| 亚洲美女一级毛片| 伊人成人在线视频| 扒开粉嫩的小缝隙喷白浆视频| 国产噜噜噜视频在线观看 | 国产中文一区a级毛片视频| 亚洲AV电影不卡在线观看| 国产精选小视频在线观看| 久久黄色一级片| 另类重口100页在线播放| 精品国产欧美精品v| 日韩一级二级三级| 亚洲综合亚洲国产尤物| 日韩精品亚洲精品第一页| 国产杨幂丝袜av在线播放| 亚洲黄色激情网站| 啪啪免费视频一区二区| 国产成人1024精品| 18禁色诱爆乳网站| 色婷婷久久| 国内a级毛片| www.91在线播放| 亚洲婷婷丁香| 又猛又黄又爽无遮挡的视频网站| 99中文字幕亚洲一区二区| 国产精品视频导航| 国产区在线看| 国产区网址| 欧美日韩一区二区三| 久久精品人妻中文系列| 中文字幕av无码不卡免费| 国产97视频在线观看| 欧美特黄一免在线观看| 欧美性精品| 欧美激情网址| 精品亚洲麻豆1区2区3区| 99久久国产精品无码| 伊人五月丁香综合AⅤ| 国产精品浪潮Av| 久久a级片| 免费人成视网站在线不卡| 香蕉精品在线| 日本一区高清| 白丝美女办公室高潮喷水视频| 18禁黄无遮挡免费动漫网站| 久久人与动人物A级毛片| 波多野结衣一区二区三区88| 精品福利国产| 美女内射视频WWW网站午夜| 欧美激情,国产精品| 亚洲人成亚洲精品| 亚洲日本中文字幕天堂网| 一本色道久久88| 亚洲自偷自拍另类小说| 青青久久91| 国产在线高清一级毛片| 国产主播一区二区三区| 蜜芽一区二区国产精品| 91口爆吞精国产对白第三集| 国产欧美精品专区一区二区| 欧美区在线播放| 精品少妇人妻一区二区| 国产成人无码播放| 中文国产成人精品久久| 国产91高跟丝袜| 成人在线观看不卡| 中文字幕有乳无码|