999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機器學習分類算法在社區問答系統中的應用

2021-05-24 08:29:55孫熙然
電腦知識與技術 2021年12期
關鍵詞:機器學習

孫熙然

摘要:機器學習被廣泛應用到自然語言處理中,社區問答提供了新的有趣的研究方向。在傳統問答領域,通過分類算法研究用戶交互行為并分析其交互方式,能夠促進用戶交互與相關崗位結構的開發。在此背景下,針對SemEval語義測評大賽提供的語料庫進行了研究,基于KNN算法、隨機森林等分類方法對問題的答案進行分類,并對分類結果進行分析和研究。實驗結果表明,GBRT和隨機森林這兩種算法的分類效果最好。

關鍵詞: 答案分類; 自然語言處理; 機器學習; 隨機森林;最鄰近節點算法

中圖分類號:TP39? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)12-0195-03

Abstract:Machine learning is widely used in natural language processing, and community question answering provides a new and interesting research direction. In the field of traditional Question Answering(QA),it can promote the development of user interaction and related post structure by studying user interaction behavior and analyzing its interaction mode through classification algorithm. In this context, this paper studies the corpus provided by SemEval semantic evaluation contest, classifies the answers based on KNN algorithm, random forest and other classification methods, and analyzes and studies the classification results. Experimental results show that GBRT and random forest algorithm are the best.

Key words:answer classification; natural language processing; machine learning; nearest neighbor node algorithm; nearest neighbor node algorithm

1引言

現如今許多社會活動都是通過互聯網進行,國內以知乎、BBS論壇、豆瓣社區等為主,人們通過發帖、回帖,以問答的形式交流。無論國內還是國外,人們通過社區問答(CQA)的形式在論壇和社交網絡上進行互動,在此上下文中的用戶交互是相當開放的,因此有很少的限制,每個用戶都可以發布帖子提問,同時也可以回答一個或多個問題。從好的方面來說,這意味著一個人可以自由地提問問題并且期待能得到一些好的、有用的答案。但在消極的方面上,提問者需要瀏覽所有相關的答案,并且需要進一步判斷這些答案的意義,即答案是否對解決問題有益。通常情況下,許多答案只是松散地與實際問題有關,有的時候甚至改變了話題的方向。一般來說,一個常見的問題可能有上百個答案,其中絕大多數的答案并不能滿足用戶的信息需求。因此,在一長串答案中找到所需的信息是非常耗時的。分類問題及其算法是機器學習的一個重要分支,Cover和Hart在1967年提出了基于距離度量的KNN分類算法[1],在此之后,Breiman 等率先完成對于初期決策樹(DT)分類算法的闡釋,此即CART 算法,其特點在于借助樹結構算法這一形式,完成對于數據的拆分形成離散類[2],進入21世紀后在前人的研究上Breiman提出了隨機森林(RF)分類算法[3],本論文針對社區問答系統的研究主要基于隨機森林分類算法展開。

本次研究基于SemEval給出的語料庫,針對社區問答系統中給定的帶有短標題和擴展描述的問題,對其每一個答案按如下分類:好(good),代表肯定有關;可能(potential),表示可能有用;另外其他情況分類為壞(bad),例如答案與問題無關,問題與答案為一組對話,語言為非英語等。

2機器學習分類算法及隨機森林算法

機器學習能夠借助計算機這一媒介,基于網絡存在的海量數據中研究以及學習數據出現規律以及存在方式,進而提前判定以及推測潛在信息,最終實現分類、回歸以及聚類等相關問題的有效解決。當前最常見的機器學習方式分為監督、半監督以及無監督三類[4]。監督學習問題,數據輸入對象往往提前配置分配標簽,借助大量數據進行訓練得出模型,隨后借助模型完成后續推測。若輸出變量具備連續性時,即回歸問題,若其呈現離散狀態,即分類問題。無監督學習問題特點在于不會配置標簽,其重點在于研究數據可能存在的隱藏結構,以此為基礎判定有無可區分組以及集群。半監督學習基于二者間,借助適量標記數據以及海量未標記數據進行訓練和分類,雖然與標記數據相比未標記數據更容易獲得,但是少數標記樣本訓練深層神經網絡會導致過度擬合[5],如圖1所示,為一種有監督學習的分類流程圖。

隨機森林(RF)算法關鍵點在于將經由CART算法[6]構設的尚未剪枝分類決策樹,視為基分類器,將Bagging[7]以及隨機特征選擇[8]進行有機融合,確保決策樹模型具備豐富性與多元性。其原理具體表現為:基于原始樣本大量借助Bootstrap法對于訓練集進行抽取處理,隨后各訓練集均訓練各自的決策樹模型,完成以上步驟之后,全部基分類器投票最高類別或其一,此即最終類別。具體步驟如下所示:

(1) 通過Bootstrap 法自原始訓練集中抽選數量為 k的樣本,確保各樣本容量均與原始訓練集保持一致;

(2) 基于k個樣本依次構設與之對應的k個決策樹模型,進一步獲取k種分類結果;

(3) 對于各k種分類結果進行記錄,從中決定最優分類結果。

最終分類結果選取的分類決策公式[9]如下:

[x=argmaxYi=1kIhix=Y]

其中 , H(x)表示組合分類模型 , hi是單個決策樹分類模型,Y 表示輸出變量(或稱目標變量), I(·)為示性函數。

與傳統的分類算法相比,隨機森林分類算法具有高準確性等優點,所以近年來無論理論還是方法在許多領域都有了比較迅速的發展。有研究者提出了一種基于隨機森林分類器的耕地提取方法[10],通過分類實驗結果表明該方法可以在不降低分類性能代價的前提下減少特征冗余;文獻[11]研究了基于隨機森林特征選擇和Ceemd的短期光伏發電預測;唐洵等學者提出基于特征選擇與隨機森林的混合模型[12],用以檢測網絡社區中的惡意評論,通過實驗得到了良好的判斷準確率。

3 實驗數據

3.1 英語數據集

使用了SemEval語義測評大賽提供的三個數據集:訓練,擴展和測試。所有的數據以xml格式存儲,文本編碼為UTF-8編碼。

數據集包含的屬性如下:

QID: 問題的內部標識;

QCATEGORY: 問題的類別;

QDATE: 問題發布的時間;

QUSERID: 發布問題的用戶的內部標識符;

CID: 注釋的內部標識符;

CUSERID: 用戶發布評論的內部標識符

CGOLD: 人類對評論即答案的評價標簽,為Good, Bad, Potential, Dialogue, on-English, 或 Other。

3.2 特征提取

從樣本中共提取了八個特征,問題和答案對的特征(特征有可能是答案單獨的特征,有可能是問題和答案結合產生的特征)。其中包括答案中有多少詞,網址連接的個數,圖片數;答案的標題和問題標題的基于tfidf的余弦相似度;答案的內容和問題的內容的余弦相似度;答案內容和問題標題的余弦相似度;答案的用戶id和問題的用戶id是否相同(若相同,很大概率是對話)

4實驗結果及分析

針對實驗所用數據集使用的如下分類算法與隨機森林算法為參照:有邏輯回歸(Logistic Regression)分類器,梯度提升回歸樹(gradient boosting regression tree),K近鄰分類器(KNN)。

分類結果如表1所示:

根據精確率,召回率,f1分數,可以看出隨機森林和gbrt這兩種分類算法的效果最好。但是gbrt對于類別potential的分類不是很好。KNN對于potential的分類效果較其他算法好一些,但是耗時較其他算法有些長,可能是由于測試集的數據不夠多,造成了這一結果。后續研究中可以改進的內容包括在特征提取方面,可以從語義的角度考慮,以及在分類時使用神經網絡,可以更加有效地處理數據,分類的結果也會更準確。

參考文獻:

[1] Cover T,Hart P.Nearest neighbor pattern classification[J].IEEE Transactions on Information Theory,1967,13(1):21-27.

[2] Breiman L,Friedman J H,Olshen R A,et al.Consistency[M]//Classification And Regression Trees. Belmont:Routledge,2017:318-341.

[3] Breiman L.Random Forests[J].Machine Learning,2001,45(3):261-277.

[4] (土)Ethem Alpaydin.機器學習導論[M].范明,昝紅英,牛常勇,譯.北京:機械工業出版社,2009.

[5] Mayer C,Paul M,Timofte R.Adversarial feature distribution alignment for semi-supervised learning[J].Computer Vision and Image Understanding,2021,202:103109.

[6]Denison David G. T.,Mallick Bani k.,Smith Adrian f. M.. A bayesian cart algorithm[J]. Denison david g. T.;mallick bani k.;smith adrian f. M.,1998,85(2).

[7] Bauer E,Kohavi R.An empirical comparison of voting classification algorithms:bagging,boosting,and variants[J].Machine Learning,1999,36(1/2):105-139.

[8] Stoppiglia H,Dreyfus G,Dubois R,et al.Ranking a random feature for variable and feature selection[J].Journal of Machine Learning Research,2003,3:1399-1414.

[9] 方匡南,吳見彬,朱建平,等.隨機森林方法研究綜述[J].統計與信息論壇,2011,26(3):32-38.

[10] Su T F,Zhang S W,Tian Y N.Extracting croplands in western Inner Mongolia by using random forest and temporal feature selection[J].Journal of Spatial Science,2020,65(3):519-537.

[11] Niu D X,Wang K K,Sun L J,et al.Short-term photovoltaic power generation forecasting based on random forest feature selection and CEEMD:a case study[J].Applied Soft Computing,2020,93:106389.

[12] 唐洵,湯娟,周安民.基于特征選擇與隨機森林混合模型的社區惡意評論檢測研究[J].現代計算機,2020(19):22-26.

【通聯編輯:唐一東】

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 国产精品自拍露脸视频| 中国美女**毛片录像在线| 欧美一级一级做性视频| 国产精品永久免费嫩草研究院| 久久亚洲中文字幕精品一区| 欧美一级大片在线观看| 99九九成人免费视频精品| 四虎精品国产AV二区| 亚洲精品无码在线播放网站| 亚洲国语自产一区第二页| v天堂中文在线| 亚洲日韩精品欧美中文字幕| 911亚洲精品| 伊在人亚洲香蕉精品播放 | 成人欧美日韩| 黄色一及毛片| 日韩亚洲高清一区二区| 美女免费黄网站| 精品在线免费播放| 久久精品欧美一区二区| 国产美女精品在线| 久久精品国产999大香线焦| 亚洲动漫h| 91青青在线视频| 色AV色 综合网站| 国产原创演绎剧情有字幕的| 99久久性生片| 日韩AV手机在线观看蜜芽| 国产黑丝一区| 奇米精品一区二区三区在线观看| 亚洲午夜福利精品无码| 99re热精品视频中文字幕不卡| 欧美黄色网站在线看| 新SSS无码手机在线观看| 99精品免费欧美成人小视频| 亚洲色图另类| 国产乱子伦手机在线| 国产网站一区二区三区| 亚洲v日韩v欧美在线观看| 中文字幕色在线| 亚洲日韩精品欧美中文字幕| 丰满人妻一区二区三区视频| 97色伦色在线综合视频| 99re免费视频| 亚洲免费黄色网| 亚洲国产精品美女| 日本尹人综合香蕉在线观看| 国产精品成人观看视频国产| 国产日韩av在线播放| 亚洲国产成人久久精品软件| 国产亚洲视频中文字幕视频| 久久久91人妻无码精品蜜桃HD| 日韩精品无码免费一区二区三区| 欧洲日本亚洲中文字幕| 久久亚洲日本不卡一区二区| 亚洲国产综合精品一区| 久久人妻系列无码一区| 日本久久久久久免费网络| AV天堂资源福利在线观看| 四虎永久免费地址| 欧美色香蕉| 国产国拍精品视频免费看| 日本黄色a视频| 毛片久久网站小视频| 久久综合一个色综合网| 中国精品久久| 美臀人妻中出中文字幕在线| 亚洲人成网站在线观看播放不卡| 婷婷亚洲视频| 久久久亚洲色| 国产精品手机视频一区二区| 国产成人免费高清AⅤ| 57pao国产成视频免费播放| 一本色道久久88综合日韩精品| 极品国产在线| 人妻精品全国免费视频| 亚洲成人www| 国产精品所毛片视频| 无码视频国产精品一区二区| 色欲综合久久中文字幕网| 久久久久久久久久国产精品| 日本一区二区不卡视频|