999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于半監督支持向量機的期刊收稿系統自動分類方法

2018-12-14 09:05:06耿曉軍
現代電子技術 2018年24期
關鍵詞:工作效率

耿曉軍

關鍵詞: 期刊收稿系統; 自動分類; 專家審稿; 半監督支持向量機; 工作效率; 特征向量

中圖分類號: TN957.52+3?34; TP393 ? ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ?文章編號: 1004?373X(2018)24?0174?04

An automatic classification method based on semi?supervised support vector

machine for periodical manuscript acceptance system

GENG Xiaojun

(Editorial Department of Modern Electronics Technique, Shaanxi Electronics Magazine Publishing Company, Xian 710032, China)

Abstract: In the current periodical manuscript acceptance system, the manual mode is mainly adopted to distribute the submitted e?mail manuscripts to the review experts in relevant professional fields, so as to complete manuscript review. However, the manual distribution mode is less efficient when facing with a large quantity of manuscripts. In order to solve the above problems and realize automatic distribution of submitted manuscripts, an automatic classification method based on the semi?supervised support vector machine is proposed. A vector space model based on TF/IDF feature weights is put forward to realize eigenvector representation of manuscripts. The semi?supervised support vector machine is used to classify datasets of manuscripts. The validity of the method was verified by analyzing manuscript acceptance instances of a certain journal. The experimental results show that the average F1 of the proposed automatic classification method based on the semi?supervised support vector machine for the periodical manuscript acceptance system is about 68%, which can improve the work efficiency of the periodical manuscript acceptance system while satisfying a certain accuracy condition.

Keywords: periodical manuscript acceptance system; automatic classification; expert review; semi?supervised support vector machine; work efficiency; feature vector

0 ?引 ?言

在信息技術時代,人們的生活和工作已經越來越依賴互聯網,論文投稿系統網絡化已經成為了現在的主流趨勢[1?2]。但是,隨著期刊對論文質量的要求越來越高,所需評審專家的專業領域細化和深化程度也隨之提高。期刊編輯需要將作者的投稿分配給最合適的論文評審專家,以便逐漸提升期刊的稿件質量和專業層次。但是當面對大量的稿件時,人工分配方式的效率較低。因此,需要為投稿論文所屬學科領域進行計算機自動分類,以便分配到相關專業領域的評審專家手中[3]。

傳統的有監督學習方法通過大量的信息標注來提高自然語言處理的性能,取得了較好的效果[4]。但是訓練數據的標注需要花費大量的時間和人工成本,在應對大數據任務處理時呈現出了不少問題。例如,沒有充足標注語料或者標記資源質量較差的情況。因此,基于半監督學習的自然語言處理技術逐漸成為了研究的熱點。半監督學習已經成為近期機器學習領域新興的重要方向。與有監督學習方法的不同之處在于[5]:半監督學習同時使用標記數據和無標記數據。此外,相比僅利用標記數據的有監督學習方法,半監督學習具有更好的性能。

因此,為了實現投稿論文的自動分配,建立一種基于半監督支持向量機的論文自動分類方法。首先提出了基于TF/IDF特征項權重的向量空間模型來實現論文的特征向量表示,然后采用半監督支持向量機對論文數據集進行分類。通過對某期刊收稿實例的分析,驗證了該方法的有效性。提出的方法與傳統人工方法相比大幅度提高了期刊收稿系統的工作效率。

1 ?提出的論文自動分類方法

1.1 ?論文向量空間表示模型

根據文獻[6]中語義檢索方法,采用基于TF/IDF特征項權重的向量空間模型來實現論文的特征向量表示。期刊收稿系統中文本詞頻[sfij]采用式(1)進行初始頻率統計,如下:

[sfij=fijmaxf1j,f2j,…,fvj] ? ? ? ?(1)

式中:[fij]為文本[dj]中詞義[si]的原始頻率統計;[sfij]為文本[dj]中詞義[si]的標準頻率;[v]為文本[dj]中詞義[si]的總數。逆向文本頻率[idfi]由文本數量決定:

[idfi=logNdfi] ? ? ? ? ? ? ? ? ? (2)

式中:[dfi]為詞義[si]至少出現一次的文本數量;[N]為期刊收稿系統中文本總數量;[idfi]為詞義[si]倒排文本頻率。文本詞義權重如下:

[wij=sfij×idfi] ? ? ? ? ? ?(3)

式中,[wij]為文本[di]中詞義[si]權重。

查詢詞義權重為:

[wiq=0.5+0.5sfiqmaxsf1q,sf2q,…,sfvq×logNdfi] (4)

式中:[wiq]為查詢[q]中詞義[si]權重;[sfiq]為查詢[q]詞義[si]初始頻率統計。

1.2 ?半監督支持向量機設計

目前,研究人員已經將半監督的支持向量機應用到了多個領域的分類任務,其能夠有效處理各種機器學習任務。文獻[7]提出了一種基于采樣的半監督支持向量機,能夠有效預測軟件中存在的缺陷。文獻[8]提出了一種新的分支定向半監督支持向量機方法,能夠對自然語言數據集進行文本和情感分類。可以看出,半監督支持向量機在本文分類方面表現出一定的優勢。

支持向量機的基本原理模型如圖1所示[8]。設定支持向量機的訓練樣本集為:

[{(xi,yi)|xi∈Rd,yi={-1,1},i=1,2,…,N}]

式中:[yi]是樣本的類別標簽;d為樣本維數;N是訓練樣本個數。

作為一種典型的半監督機器學習算法,在半監督學習中訓練集可以被看作是有標記數據集和未標注數據集的混合。如果數據樣本集是線性可分的,那么可以找到一個滿足廣義分類最優的超平面,公式如下:

[w?x+b=0] ? ? ? ?(5)

式中:[w]是一個n維的向量;b是偏移量。分類任務的最優化問題可以用式(6)表示:

[min 12w2s.t.yi(wTxi+b)≥1, i=1,2,…,n] (6)

可以看出,分類間隔最大化([2w]最大),就是將[2w2]最小化。一般情況下,現實生活中的具體數據不可能是完全線性可分。因此在公式(6)中引入了懲罰系數,得到了拉格朗日變換后的優化問題,如下:

[maxαi=1nαi-12i,j=1nαiαjyiyjxTixjs.t. ? ? ? ? ? ? 0≤αi≤C] (7)

[ ? ? ? ? ? ? ? i=1nαiyi=0,i=1,2,…,n] (8)

式中,C為引入的誤差懲罰因子。通過式(7)求解[αi],再通過[w=i=1nαiyixi]求出[w]。

對于類別屬性不確定的向量,一般采用以下判決函數進行判別:

[f(x)=sgn(w?x+b)=sgni=1nαiyi(xi?x)+b] (9)

對于非線性支持向量機來說,其判決函數為:

[f(x)=sgni=1nαiyiK(xi,x)+b] (10)

式中:K(·,·)表示核函數;[sgn(·)]表示符號函數;n為訓練樣本的數量。

1.3 ?分類算法流程

稿件分類算法的輸入為待分類的稿件文本,輸出為最優的分配類別。基于半監督支持向量機的論文自動分類算法流程如圖2所示。

2 ?實驗結果與分析

2.1 ?實驗設置

仿真實驗環境配置為:Windows 7操作系統,CPU為I5處理器,4 GB內存,Matlab 2012仿真平臺。測試稿件來自某自然科學類雜志社的期刊收稿系統,共隨機選取了2 000篇投稿,涉及13個專業方向,其中被標注論文數量為500。[Precision](查準率)和[Recall](查全率)是目前文本分類系統中通常采用的性能評估指標 [9?10],可以對分類方法的性能進行驗證分析。兩者的計算公式分別為:

[Precision=aa+c] ? ? ? ? ? ?(11)

[Recall=aa+b] ? ? ? ? ? (12)

式中:[a]表示判斷為屬于該類的論文數目中實際屬于該類的論文數目;[b]表示判斷為屬于該類的論文數目中實際不屬于該類的論文數目;[c]表示判斷為不屬于該類的文檔數目中實際屬于該類的文檔數目。

此外,為了更直觀地顯示分類系統的性能,采用單一的[F1]測試值來評估分類器的性能,如下:

[F1=2?Precision?RecallPrecision+Recall×100%] ? ? ?(13)

2.2 ?結果分析

應用本文自動分類方法的分類實驗結果如圖3所示,其中橫坐標為訓練的未標注論文數量,縱坐標為[F1]值。

從圖3可以看出,隨著未標注數據的增加,基于半監督支持向量機的[F1]數值也不斷提高。此外在13個類別的專業方向上,評估分類結果的平均[F1]值約為68%,也就是說本文提出的基于半監督支持向量機的論文自動分類方法在[Precision]方面和[Recall]方面能夠滿足實際應用需求。總體而言,通過對某期刊收稿實例的分析,驗證了該方法的有效性。

3 ?結 ?語

本文構建一種基于半監督支持向量機的論文自動分類方法,提出基于TF/IDF特征項權重的向量空間模型來實現論文的特征向量表示,并采用半監督支持向量機對論文數據集進行分類。通過對某期刊收稿實例的分析,驗證了該方法的有效性,得出如下結論:

1) 驗證了提出方法的可行性;

2) 提出分類方法的平均F1值結果約為68%;

3) 提出方法在滿足一定準確度的條件下可以有效提升期刊收稿系統的工作效率;

4) 當論文數量過大時,半監督支持向量機的準確率存在一定下降問題,后續將對未標志干擾噪聲開展分析。

參考文獻

[1] 程維紅,任勝利,沈錫賓,等.中國科協科技期刊數字出版及傳播力建設[J].中國科技期刊研究,2014,25(3):340?345.

CHENG Weihong, REN Shengli, SHEN Xibin, et al. Digital publishing and communication construction for science and technology periodicals of China Association for Science and Technology [J]. Chinese journal of scientific and technical periodicals, 2014, 25(3): 340?345.

[2] 丁潔,耿倩.基于SOA和云技術的論文網絡投稿系統初探[J].電子測試,2013(8):212?213.

DING Jie, GENG Qian. SOA and cloud?based system of papers submission system [J]. Electronic test, 2013(8): 212?213.

[3] 張付志,李勇.基于標簽內特征詞的OA期刊站點自動分類方法[J].小型微型計算機系統,2014,35(1):60?63.

ZHANG Fuzhi, LI Yong. An automatic classification approach for open access journal websites based on terms in tags [J]. Journal of Chinese computer systems, 2014, 35(1): 60?63.

[4] CHENG L, LIN H, ZHOU F, et al. Enhancing the accuracy of knowledge discovery: a supervised learning method [J]. BMC bioinformatics, 2014, 15(S12): 1?9.

[5] SUN S, HUSSAIN Z, SHAWE?TAYLOR J. Manifold?preserving graph reduction for sparse semi?supervised learning [J]. Neurocomputing, 2014, 124: 13?21.

[6] 高雪霞,炎士濤.基于WordNet詞義消歧的語義檢索研究[J].湘潭大學自然科學學報,2017,39(2):118?121.

GAO Xuexia, YAN Shitao. Research on semantic retrieval of word sense disambiguation based on WordNet [J]. Natural science journal of Xiangtan University, 2017, 39(2): 118?121.

[7] 廖勝平,徐玲,鄢萌.基于采樣的半監督支持向量機軟件缺陷預測方法[J].計算機工程與應用,2017,53(14):161?166.

LIAO Shengping, XU Ling, YAN Meng. software defect prediction using semi?supervised support vector machine with sampling [J]. Computer engineering and applications, 2017, 53(14): 161?166.

[8] TIAN Y, LUO J. A new branch?and?bound approach to semi?supervised support vector machine [J]. Soft computing, 2017, 21(1): 245?254.

[9] YIN C, FENG L, MA L. An improved Hoeffding?ID data?stream classification algorithm [J]. Journal of supercomputing, 2016, 72(7): 2670?2681.

[10] CAO J, HUANG W, ZHAO T, et al. An enhance excavation equipments classification algorithm based on acoustic spectrum dynamic feature [J]. Multidimensional systems & signal processing, 2017, 28(3): 921?943.

[11] SHEN H, YAN Y, XU S, et al. Evaluation of semi?supervised learning method on action recognition [J]. Multimedia tools & applications, 2015, 74(2): 523?542.

[12] 如先姑力·阿布都熱西提,賀一峰,亞森·艾則孜.基于文本分類的維吾爾文數字取證研[J].現代電子技術,2016,39(10):9?13.

Ruxianguli Abudurexiti, HE Yifeng, Yasen Aizezi. Research on Uyghur forensics based on text categorization [J]. Modern electronics technique, 2016, 39(10): 9?13.

猜你喜歡
工作效率
效率提高了,還是降低了?
流程優化在提高神經外科手術室工作效率中的應用
影響蛋白分離器工作效率的因素研究分析
湖北農機化(2020年4期)2020-07-24 09:07:40
提高森林資源監測工作效率和實用性的探索
提高用電檢查工作效率的途徑與方法
試談提高企業行政管理工作效率的方法及建議
簡論提高統計工作效率方法
提高工作效率必須改掉的7種習慣
商業文化(2017年26期)2017-04-20 07:03:53
提高企業財務管理工作效率途徑研究
10種方法助你提高工作效率
主站蜘蛛池模板: 97国产精品视频自在拍| 亚洲男人的天堂久久精品| 香蕉视频在线观看www| 视频二区国产精品职场同事| 视频二区亚洲精品| 久久人妻xunleige无码| 欧美日韩福利| 亚洲综合婷婷激情| 91九色视频网| 成年av福利永久免费观看| 丝袜高跟美脚国产1区| 伊人精品成人久久综合| 强奷白丝美女在线观看| 欧美亚洲国产日韩电影在线| 欧美成人综合在线| 2021国产v亚洲v天堂无码| 欧美性爱精品一区二区三区| 最新日韩AV网址在线观看| 熟妇无码人妻| 国产黑丝视频在线观看| 伊人色综合久久天天| 亚洲日韩精品无码专区97| 国产菊爆视频在线观看| 国产成人亚洲精品蜜芽影院| 黄色三级网站免费| 在线国产欧美| 日韩资源站| 久久6免费视频| 亚洲视频黄| 成人免费视频一区| 一级全黄毛片| 国产第一页亚洲| 欧美日韩免费在线视频| 国产极品美女在线播放| 亚洲无线一二三四区男男| 欧美人人干| 在线日韩日本国产亚洲| 伊人欧美在线| 色天天综合| 欧美日韩免费观看| 996免费视频国产在线播放| 91视频区| 亚洲熟女中文字幕男人总站| 视频二区亚洲精品| 国外欧美一区另类中文字幕| 欧美精品成人一区二区视频一| 欧美午夜在线视频| 免费人成在线观看成人片| 亚洲无码免费黄色网址| 中字无码精油按摩中出视频| 久久男人资源站| 2024av在线无码中文最新| 91po国产在线精品免费观看| 91麻豆精品视频| 天天做天天爱夜夜爽毛片毛片| 自慰高潮喷白浆在线观看| 欧美人在线一区二区三区| 99视频精品在线观看| 国产精品女人呻吟在线观看| 色播五月婷婷| 久久综合亚洲鲁鲁九月天| 少妇精品网站| 成人年鲁鲁在线观看视频| 精品国产一区91在线| 亚洲视频免费在线看| 人妻夜夜爽天天爽| 国产在线欧美| 中文字幕亚洲无线码一区女同| 欧美成人精品在线| v天堂中文在线| 国产精品视频999| 日韩精品一区二区三区视频免费看| 青草精品视频| 国产日韩精品欧美一区喷| www.日韩三级| 成人免费视频一区二区三区| A级毛片高清免费视频就| 亚洲一区二区约美女探花| 色婷婷色丁香| 午夜小视频在线| 少妇精品在线| 亚洲一区毛片|