999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于半監(jiān)督支持向量機(jī)的期刊收稿系統(tǒng)自動分類方法

2018-12-14 09:05:06耿曉軍
現(xiàn)代電子技術(shù) 2018年24期
關(guān)鍵詞:工作效率

耿曉軍

關(guān)鍵詞: 期刊收稿系統(tǒng); 自動分類; 專家審稿; 半監(jiān)督支持向量機(jī); 工作效率; 特征向量

中圖分類號: TN957.52+3?34; TP393 ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼: A ? ? ? ? ? ? ? ?文章編號: 1004?373X(2018)24?0174?04

An automatic classification method based on semi?supervised support vector

machine for periodical manuscript acceptance system

GENG Xiaojun

(Editorial Department of Modern Electronics Technique, Shaanxi Electronics Magazine Publishing Company, Xian 710032, China)

Abstract: In the current periodical manuscript acceptance system, the manual mode is mainly adopted to distribute the submitted e?mail manuscripts to the review experts in relevant professional fields, so as to complete manuscript review. However, the manual distribution mode is less efficient when facing with a large quantity of manuscripts. In order to solve the above problems and realize automatic distribution of submitted manuscripts, an automatic classification method based on the semi?supervised support vector machine is proposed. A vector space model based on TF/IDF feature weights is put forward to realize eigenvector representation of manuscripts. The semi?supervised support vector machine is used to classify datasets of manuscripts. The validity of the method was verified by analyzing manuscript acceptance instances of a certain journal. The experimental results show that the average F1 of the proposed automatic classification method based on the semi?supervised support vector machine for the periodical manuscript acceptance system is about 68%, which can improve the work efficiency of the periodical manuscript acceptance system while satisfying a certain accuracy condition.

Keywords: periodical manuscript acceptance system; automatic classification; expert review; semi?supervised support vector machine; work efficiency; feature vector

0 ?引 ?言

在信息技術(shù)時代,人們的生活和工作已經(jīng)越來越依賴互聯(lián)網(wǎng),論文投稿系統(tǒng)網(wǎng)絡(luò)化已經(jīng)成為了現(xiàn)在的主流趨勢[1?2]。但是,隨著期刊對論文質(zhì)量的要求越來越高,所需評審專家的專業(yè)領(lǐng)域細(xì)化和深化程度也隨之提高。期刊編輯需要將作者的投稿分配給最合適的論文評審專家,以便逐漸提升期刊的稿件質(zhì)量和專業(yè)層次。但是當(dāng)面對大量的稿件時,人工分配方式的效率較低。因此,需要為投稿論文所屬學(xué)科領(lǐng)域進(jìn)行計算機(jī)自動分類,以便分配到相關(guān)專業(yè)領(lǐng)域的評審專家手中[3]。

傳統(tǒng)的有監(jiān)督學(xué)習(xí)方法通過大量的信息標(biāo)注來提高自然語言處理的性能,取得了較好的效果[4]。但是訓(xùn)練數(shù)據(jù)的標(biāo)注需要花費大量的時間和人工成本,在應(yīng)對大數(shù)據(jù)任務(wù)處理時呈現(xiàn)出了不少問題。例如,沒有充足標(biāo)注語料或者標(biāo)記資源質(zhì)量較差的情況。因此,基于半監(jiān)督學(xué)習(xí)的自然語言處理技術(shù)逐漸成為了研究的熱點。半監(jiān)督學(xué)習(xí)已經(jīng)成為近期機(jī)器學(xué)習(xí)領(lǐng)域新興的重要方向。與有監(jiān)督學(xué)習(xí)方法的不同之處在于[5]:半監(jiān)督學(xué)習(xí)同時使用標(biāo)記數(shù)據(jù)和無標(biāo)記數(shù)據(jù)。此外,相比僅利用標(biāo)記數(shù)據(jù)的有監(jiān)督學(xué)習(xí)方法,半監(jiān)督學(xué)習(xí)具有更好的性能。

因此,為了實現(xiàn)投稿論文的自動分配,建立一種基于半監(jiān)督支持向量機(jī)的論文自動分類方法。首先提出了基于TF/IDF特征項權(quán)重的向量空間模型來實現(xiàn)論文的特征向量表示,然后采用半監(jiān)督支持向量機(jī)對論文數(shù)據(jù)集進(jìn)行分類。通過對某期刊收稿實例的分析,驗證了該方法的有效性。提出的方法與傳統(tǒng)人工方法相比大幅度提高了期刊收稿系統(tǒng)的工作效率。

1 ?提出的論文自動分類方法

1.1 ?論文向量空間表示模型

根據(jù)文獻(xiàn)[6]中語義檢索方法,采用基于TF/IDF特征項權(quán)重的向量空間模型來實現(xiàn)論文的特征向量表示。期刊收稿系統(tǒng)中文本詞頻[sfij]采用式(1)進(jìn)行初始頻率統(tǒng)計,如下:

[sfij=fijmaxf1j,f2j,…,fvj] ? ? ? ?(1)

式中:[fij]為文本[dj]中詞義[si]的原始頻率統(tǒng)計;[sfij]為文本[dj]中詞義[si]的標(biāo)準(zhǔn)頻率;[v]為文本[dj]中詞義[si]的總數(shù)。逆向文本頻率[idfi]由文本數(shù)量決定:

[idfi=logNdfi] ? ? ? ? ? ? ? ? ? (2)

式中:[dfi]為詞義[si]至少出現(xiàn)一次的文本數(shù)量;[N]為期刊收稿系統(tǒng)中文本總數(shù)量;[idfi]為詞義[si]倒排文本頻率。文本詞義權(quán)重如下:

[wij=sfij×idfi] ? ? ? ? ? ?(3)

式中,[wij]為文本[di]中詞義[si]權(quán)重。

查詢詞義權(quán)重為:

[wiq=0.5+0.5sfiqmaxsf1q,sf2q,…,sfvq×logNdfi] (4)

式中:[wiq]為查詢[q]中詞義[si]權(quán)重;[sfiq]為查詢[q]詞義[si]初始頻率統(tǒng)計。

1.2 ?半監(jiān)督支持向量機(jī)設(shè)計

目前,研究人員已經(jīng)將半監(jiān)督的支持向量機(jī)應(yīng)用到了多個領(lǐng)域的分類任務(wù),其能夠有效處理各種機(jī)器學(xué)習(xí)任務(wù)。文獻(xiàn)[7]提出了一種基于采樣的半監(jiān)督支持向量機(jī),能夠有效預(yù)測軟件中存在的缺陷。文獻(xiàn)[8]提出了一種新的分支定向半監(jiān)督支持向量機(jī)方法,能夠?qū)ψ匀徽Z言數(shù)據(jù)集進(jìn)行文本和情感分類??梢钥闯?,半監(jiān)督支持向量機(jī)在本文分類方面表現(xiàn)出一定的優(yōu)勢。

支持向量機(jī)的基本原理模型如圖1所示[8]。設(shè)定支持向量機(jī)的訓(xùn)練樣本集為:

[{(xi,yi)|xi∈Rd,yi={-1,1},i=1,2,…,N}]

式中:[yi]是樣本的類別標(biāo)簽;d為樣本維數(shù);N是訓(xùn)練樣本個數(shù)。

作為一種典型的半監(jiān)督機(jī)器學(xué)習(xí)算法,在半監(jiān)督學(xué)習(xí)中訓(xùn)練集可以被看作是有標(biāo)記數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集的混合。如果數(shù)據(jù)樣本集是線性可分的,那么可以找到一個滿足廣義分類最優(yōu)的超平面,公式如下:

[w?x+b=0] ? ? ? ?(5)

式中:[w]是一個n維的向量;b是偏移量。分類任務(wù)的最優(yōu)化問題可以用式(6)表示:

[min 12w2s.t.yi(wTxi+b)≥1, i=1,2,…,n] (6)

可以看出,分類間隔最大化([2w]最大),就是將[2w2]最小化。一般情況下,現(xiàn)實生活中的具體數(shù)據(jù)不可能是完全線性可分。因此在公式(6)中引入了懲罰系數(shù),得到了拉格朗日變換后的優(yōu)化問題,如下:

[maxαi=1nαi-12i,j=1nαiαjyiyjxTixjs.t. ? ? ? ? ? ? 0≤αi≤C] (7)

[ ? ? ? ? ? ? ? i=1nαiyi=0,i=1,2,…,n] (8)

式中,C為引入的誤差懲罰因子。通過式(7)求解[αi],再通過[w=i=1nαiyixi]求出[w]。

對于類別屬性不確定的向量,一般采用以下判決函數(shù)進(jìn)行判別:

[f(x)=sgn(w?x+b)=sgni=1nαiyi(xi?x)+b] (9)

對于非線性支持向量機(jī)來說,其判決函數(shù)為:

[f(x)=sgni=1nαiyiK(xi,x)+b] (10)

式中:K(·,·)表示核函數(shù);[sgn(·)]表示符號函數(shù);n為訓(xùn)練樣本的數(shù)量。

1.3 ?分類算法流程

稿件分類算法的輸入為待分類的稿件文本,輸出為最優(yōu)的分配類別?;诎氡O(jiān)督支持向量機(jī)的論文自動分類算法流程如圖2所示。

2 ?實驗結(jié)果與分析

2.1 ?實驗設(shè)置

仿真實驗環(huán)境配置為:Windows 7操作系統(tǒng),CPU為I5處理器,4 GB內(nèi)存,Matlab 2012仿真平臺。測試稿件來自某自然科學(xué)類雜志社的期刊收稿系統(tǒng),共隨機(jī)選取了2 000篇投稿,涉及13個專業(yè)方向,其中被標(biāo)注論文數(shù)量為500。[Precision](查準(zhǔn)率)和[Recall](查全率)是目前文本分類系統(tǒng)中通常采用的性能評估指標(biāo) [9?10],可以對分類方法的性能進(jìn)行驗證分析。兩者的計算公式分別為:

[Precision=aa+c] ? ? ? ? ? ?(11)

[Recall=aa+b] ? ? ? ? ? (12)

式中:[a]表示判斷為屬于該類的論文數(shù)目中實際屬于該類的論文數(shù)目;[b]表示判斷為屬于該類的論文數(shù)目中實際不屬于該類的論文數(shù)目;[c]表示判斷為不屬于該類的文檔數(shù)目中實際屬于該類的文檔數(shù)目。

此外,為了更直觀地顯示分類系統(tǒng)的性能,采用單一的[F1]測試值來評估分類器的性能,如下:

[F1=2?Precision?RecallPrecision+Recall×100%] ? ? ?(13)

2.2 ?結(jié)果分析

應(yīng)用本文自動分類方法的分類實驗結(jié)果如圖3所示,其中橫坐標(biāo)為訓(xùn)練的未標(biāo)注論文數(shù)量,縱坐標(biāo)為[F1]值。

從圖3可以看出,隨著未標(biāo)注數(shù)據(jù)的增加,基于半監(jiān)督支持向量機(jī)的[F1]數(shù)值也不斷提高。此外在13個類別的專業(yè)方向上,評估分類結(jié)果的平均[F1]值約為68%,也就是說本文提出的基于半監(jiān)督支持向量機(jī)的論文自動分類方法在[Precision]方面和[Recall]方面能夠滿足實際應(yīng)用需求??傮w而言,通過對某期刊收稿實例的分析,驗證了該方法的有效性。

3 ?結(jié) ?語

本文構(gòu)建一種基于半監(jiān)督支持向量機(jī)的論文自動分類方法,提出基于TF/IDF特征項權(quán)重的向量空間模型來實現(xiàn)論文的特征向量表示,并采用半監(jiān)督支持向量機(jī)對論文數(shù)據(jù)集進(jìn)行分類。通過對某期刊收稿實例的分析,驗證了該方法的有效性,得出如下結(jié)論:

1) 驗證了提出方法的可行性;

2) 提出分類方法的平均F1值結(jié)果約為68%;

3) 提出方法在滿足一定準(zhǔn)確度的條件下可以有效提升期刊收稿系統(tǒng)的工作效率;

4) 當(dāng)論文數(shù)量過大時,半監(jiān)督支持向量機(jī)的準(zhǔn)確率存在一定下降問題,后續(xù)將對未標(biāo)志干擾噪聲開展分析。

參考文獻(xiàn)

[1] 程維紅,任勝利,沈錫賓,等.中國科協(xié)科技期刊數(shù)字出版及傳播力建設(shè)[J].中國科技期刊研究,2014,25(3):340?345.

CHENG Weihong, REN Shengli, SHEN Xibin, et al. Digital publishing and communication construction for science and technology periodicals of China Association for Science and Technology [J]. Chinese journal of scientific and technical periodicals, 2014, 25(3): 340?345.

[2] 丁潔,耿倩.基于SOA和云技術(shù)的論文網(wǎng)絡(luò)投稿系統(tǒng)初探[J].電子測試,2013(8):212?213.

DING Jie, GENG Qian. SOA and cloud?based system of papers submission system [J]. Electronic test, 2013(8): 212?213.

[3] 張付志,李勇.基于標(biāo)簽內(nèi)特征詞的OA期刊站點自動分類方法[J].小型微型計算機(jī)系統(tǒng),2014,35(1):60?63.

ZHANG Fuzhi, LI Yong. An automatic classification approach for open access journal websites based on terms in tags [J]. Journal of Chinese computer systems, 2014, 35(1): 60?63.

[4] CHENG L, LIN H, ZHOU F, et al. Enhancing the accuracy of knowledge discovery: a supervised learning method [J]. BMC bioinformatics, 2014, 15(S12): 1?9.

[5] SUN S, HUSSAIN Z, SHAWE?TAYLOR J. Manifold?preserving graph reduction for sparse semi?supervised learning [J]. Neurocomputing, 2014, 124: 13?21.

[6] 高雪霞,炎士濤.基于WordNet詞義消歧的語義檢索研究[J].湘潭大學(xué)自然科學(xué)學(xué)報,2017,39(2):118?121.

GAO Xuexia, YAN Shitao. Research on semantic retrieval of word sense disambiguation based on WordNet [J]. Natural science journal of Xiangtan University, 2017, 39(2): 118?121.

[7] 廖勝平,徐玲,鄢萌.基于采樣的半監(jiān)督支持向量機(jī)軟件缺陷預(yù)測方法[J].計算機(jī)工程與應(yīng)用,2017,53(14):161?166.

LIAO Shengping, XU Ling, YAN Meng. software defect prediction using semi?supervised support vector machine with sampling [J]. Computer engineering and applications, 2017, 53(14): 161?166.

[8] TIAN Y, LUO J. A new branch?and?bound approach to semi?supervised support vector machine [J]. Soft computing, 2017, 21(1): 245?254.

[9] YIN C, FENG L, MA L. An improved Hoeffding?ID data?stream classification algorithm [J]. Journal of supercomputing, 2016, 72(7): 2670?2681.

[10] CAO J, HUANG W, ZHAO T, et al. An enhance excavation equipments classification algorithm based on acoustic spectrum dynamic feature [J]. Multidimensional systems & signal processing, 2017, 28(3): 921?943.

[11] SHEN H, YAN Y, XU S, et al. Evaluation of semi?supervised learning method on action recognition [J]. Multimedia tools & applications, 2015, 74(2): 523?542.

[12] 如先姑力·阿布都熱西提,賀一峰,亞森·艾則孜.基于文本分類的維吾爾文數(shù)字取證研[J].現(xiàn)代電子技術(shù),2016,39(10):9?13.

Ruxianguli Abudurexiti, HE Yifeng, Yasen Aizezi. Research on Uyghur forensics based on text categorization [J]. Modern electronics technique, 2016, 39(10): 9?13.

猜你喜歡
工作效率
效率提高了,還是降低了?
流程優(yōu)化在提高神經(jīng)外科手術(shù)室工作效率中的應(yīng)用
影響蛋白分離器工作效率的因素研究分析
提高森林資源監(jiān)測工作效率和實用性的探索
提高用電檢查工作效率的途徑與方法
試談提高企業(yè)行政管理工作效率的方法及建議
簡論提高統(tǒng)計工作效率方法
提高工作效率必須改掉的7種習(xí)慣
提高企業(yè)財務(wù)管理工作效率途徑研究
10種方法助你提高工作效率
主站蜘蛛池模板: 婷婷激情亚洲| 久久久久国产一级毛片高清板| 国产真实自在自线免费精品| 成人免费一级片| 久久a毛片| 成人a免费α片在线视频网站| 无码在线激情片| 亚洲综合第一页| 成·人免费午夜无码视频在线观看| 538国产在线| 热久久综合这里只有精品电影| 欧美日韩在线第一页| 呦系列视频一区二区三区| 欧美成a人片在线观看| 亚洲中文字幕国产av| 2020极品精品国产| 亚洲国产成人自拍| 国产成人高清精品免费5388| 在线中文字幕日韩| 日日摸夜夜爽无码| 精品久久777| 美女啪啪无遮挡| 亚洲国产日韩一区| 亚洲精品无码人妻无码| 无码粉嫩虎白一线天在线观看| 国产成人亚洲无吗淙合青草| 久久国产精品麻豆系列| 国产精品久线在线观看| 3D动漫精品啪啪一区二区下载| 性视频一区| 国产女人在线观看| 久久女人网| 亚洲精品无码AⅤ片青青在线观看| 一本大道AV人久久综合| 99无码中文字幕视频| 一级毛片免费高清视频| 日本黄色a视频| 性色一区| 日韩在线1| 99激情网| 伊人色在线视频| 一级毛片在线播放| 亚洲AV无码久久精品色欲| 中国美女**毛片录像在线| 成年A级毛片| 亚洲欧美精品一中文字幕| 日韩a级片视频| a毛片在线播放| 午夜精品一区二区蜜桃| 嫩草国产在线| 97se亚洲综合在线| 99这里只有精品免费视频| 久久久久无码国产精品不卡| 国产精品短篇二区| 91综合色区亚洲熟妇p| 国产精品成人免费视频99| 国产精品免费福利久久播放| 亚洲精品视频网| 欧美日韩国产精品va| 国产在线八区| 日本www在线视频| 国产h视频免费观看| 国产欧美自拍视频| 中文国产成人精品久久一| 国模粉嫩小泬视频在线观看| 成人精品在线观看| 2020国产免费久久精品99| 久久黄色影院| 婷婷色一二三区波多野衣| 亚洲第一色视频| 欧美国产成人在线| 成人噜噜噜视频在线观看| 亚洲综合精品第一页| av一区二区人妻无码| 国产精品无码制服丝袜| 久久亚洲国产最新网站| 成人在线观看一区| 亚洲男人的天堂在线观看| 午夜国产精品视频| 91亚瑟视频| 91成人在线观看| 国产无码精品在线|