999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學(xué)習(xí)的中文論文自動分類

2018-01-30 13:42:34賈瑞強
大經(jīng)貿(mào) 2017年12期
關(guān)鍵詞:分類模型

賈瑞強

一.引言

1.選題背景和意義

隨著現(xiàn)代科技的發(fā)展,信息量在成幾何級數(shù)膨脹,每天都有大量新的論文產(chǎn)生,紙張這些傳統(tǒng)的存儲介質(zhì)已經(jīng)不能滿足現(xiàn)有的需求,構(gòu)建數(shù)字圖書館勢在必行。中國知網(wǎng)是我國目前比較成功的論文數(shù)字圖書館,構(gòu)建數(shù)字圖書館就是將期刊論文進行電子化,電子化就必然會面臨兩個主要工作:期刊論文的格式必須有統(tǒng)一標(biāo)準(zhǔn)和期刊論文的分類管理。經(jīng)過多年的努力,期刊論文現(xiàn)在已經(jīng)形成了一套統(tǒng)一的著錄標(biāo)準(zhǔn),期刊論文的分類管理還基本是以人工分類為主。人工分類目前面臨兩個問題:一個是隨著期刊論文數(shù)量的快速增長,人工分類顯得心有余而力不足,人工分類每天能分類的數(shù)量是固定的,即使增加人力成本,想要趕上期刊論文增長的速度還是很困難的,這無疑給分類工作增加了很大的壓力;第二個問題是人工分類存在一定的主觀性,分類工作人員一般會通過期刊論文的標(biāo)題和來源來確定論文的類別,比較少的閱讀論文全文來對論文進行分類,因此分類的正確率受人的主觀意識影響很大。鑒于這種情況的基礎(chǔ)上,研究期刊論文的自動分類能夠有效的解決以上兩個問題,不僅可以減輕人工分類的壓力,提高分類的效率,還能提高分類結(jié)果的正確率,減少主觀因素的影響。。

二.模型的實現(xiàn)

1.1數(shù)據(jù)準(zhǔn)備

首先將所有的論文通過python里的jieba模塊進行分詞,將出現(xiàn)的名詞、形容詞、動名詞作為總詞包,將在數(shù)理統(tǒng)計的論文里出現(xiàn)的詞歸結(jié)為數(shù)理統(tǒng)計詞包,將在經(jīng)濟統(tǒng)計的論文里出現(xiàn)的詞歸結(jié)為經(jīng)濟統(tǒng)計詞包,從數(shù)理統(tǒng)計包和經(jīng)濟統(tǒng)計詞包各取10個高頻詞作為高詞頻包

詞包結(jié)果圖如下:

1.2 詞包初探:從做成的詞包,統(tǒng)計成詞頻數(shù)據(jù),并做成詞云圖。

由詞云圖可以看出,數(shù)理統(tǒng)計的論文中,都是理論性的詞語詞頻較高,如:數(shù)據(jù)、研究、應(yīng)用、模型等詞。而經(jīng)濟統(tǒng)計學(xué)論文中更偏經(jīng)濟學(xué),如:經(jīng)濟、發(fā)展、分析等詞出現(xiàn)頻率較高。由此可以初步判定,通過詞頻的差別作為論文類別區(qū)分的特征是合理的。

1.3 建立模型

1.3.1 論文類別的預(yù)測

在模型識別和機器學(xué)習(xí)中的相關(guān)研究中,經(jīng)常會將整個數(shù)據(jù)集合分成兩個部分,分別是訓(xùn)練集合合測試集,假設(shè)X是集合全體,A是全集X的非空真子集,那么非空集合X、A則是集合A在全集X中的補集。于是可以在A上面做訓(xùn)練和分析,而幾個X、A則用來做測試和驗證。一開始的集合A被稱作訓(xùn)練集,而他的補集A被稱作是驗證集或者測試集。這是一個重要的觀點就是:只有訓(xùn)練集才可以使用在模型的訓(xùn)練之中,而測試集必須在模型訓(xùn)練完成后才用來評估模型的誤差。

從驗證結(jié)果中可以看出,正確率在大于90%,通過樸素貝葉斯模型預(yù)測論文類別,是可以行的。

【參考文獻】

[1] 白如江基于粗糙集和神經(jīng)網(wǎng)絡(luò)的文本自動分類方法現(xiàn)代圖書情報技術(shù),:白小明,邱桃榮.

[2] 基于和算法的科技文獻自動分類研究微計算機信息,:包劍,冀常鵬,李義杰.

[3] 基于矢量空間模型的文本自動分類系統(tǒng)研究計算機系統(tǒng)應(yīng)用,:陳玉.

[4] 多類別科技文獻動分類系統(tǒng)碩士學(xué)位論文湖北:華中科技大學(xué),楚存坤,李韜.

[5] 模糊聚類技術(shù)在文獻自動分類系統(tǒng)中的應(yīng)用現(xiàn)代情報:刁倩,張惠惠,玉永成,何驥.endprint

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 亚洲天堂在线免费| 日韩av电影一区二区三区四区| 四虎影视库国产精品一区| 亚洲国产精品一区二区第一页免| 国产三区二区| 日韩大片免费观看视频播放| 国产成人av大片在线播放| 亚洲最新网址| 国产在线97| 高清国产va日韩亚洲免费午夜电影| 91麻豆国产视频| 亚洲天堂久久新| 亚洲中文字幕国产av| 国产免费怡红院视频| 在线毛片免费| 特级欧美视频aaaaaa| 午夜一区二区三区| AV天堂资源福利在线观看| 亚洲成a人片| 久久综合九色综合97婷婷| a亚洲视频| 精品亚洲麻豆1区2区3区| 97视频免费在线观看| 欧美日韩综合网| 国产成人你懂的在线观看| 欧美性精品| 午夜人性色福利无码视频在线观看 | 亚洲中文字幕在线精品一区| 免费aa毛片| 欧美日韩国产精品综合| 日韩国产一区二区三区无码| 亚洲黄色成人| 2021亚洲精品不卡a| 国内精自视频品线一二区| 国产91精品久久| 国产主播一区二区三区| 日本午夜网站| 亚洲av中文无码乱人伦在线r| 欧美一道本| 秘书高跟黑色丝袜国产91在线 | 999精品免费视频| 四虎永久免费地址| 精品成人一区二区三区电影| 动漫精品中文字幕无码| 成人午夜视频在线| 午夜不卡福利| 青青草一区二区免费精品| 日韩中文字幕亚洲无线码| 98超碰在线观看| 一级爱做片免费观看久久| a毛片在线播放| 67194亚洲无码| 99在线观看精品视频| 精品一区二区无码av| 波多野结衣视频网站| 亚洲第一精品福利| 国产精品粉嫩| 国产免费人成视频网| 国产理论最新国产精品视频| 在线观看网站国产| 国产在线观看精品| 国产精品视频猛进猛出| 国产性生大片免费观看性欧美| 欧美综合成人| 亚洲美女一区二区三区| 欧美日韩国产高清一区二区三区| 久久黄色一级片| 国产肉感大码AV无码| 免费毛片全部不收费的| 99久久精品久久久久久婷婷| 激情六月丁香婷婷四房播| 国产人成网线在线播放va| 国产熟女一级毛片| 天天综合网色中文字幕| 亚洲欧美一区二区三区麻豆| 色AV色 综合网站| 久久久精品久久久久三级| 爆乳熟妇一区二区三区| 色AV色 综合网站| 国产成人在线无码免费视频| 日本三级精品| 三区在线视频|