梁鳳鳴
泰山學院學報編輯部,山東泰安271021
基于SVM的稿件質量評價系統
梁鳳鳴
泰山學院學報編輯部,山東泰安271021
分析了科技期刊稿件審理的指標體系與SVM的基本原理,建立了基于SVM的稿件質量評價系統,并應用100個樣本對網絡進行了訓練。檢驗結果表明,檢驗樣本的期望輸出結果與網絡模型的計算結果符合較好,說明該模型可行。
SVM;稿件質量評價系統
科技期刊以發表系統性、專門性、創造性的學術論文為主體,以反映高水平、高質量的科研教學成果為重點的期刊。科技期刊責任編輯的一項重要任務就是對科技期刊的總體質量進行有效的控制,而最有效的途徑就是專家審稿,專家通過對文稿的審閱,為期刊篩選出高質量的文稿。專家審稿是保證和提高論文質量的中心環節,是發現和培養學術新秀的重要途徑。因此,為了提高審稿質量,使專家評價指標與綜合評價指標的評價結果分離,避免審稿結果受其他因素的影響,同時提高審稿的效率與方便性,實現遠程審稿與網絡資源的共享[1],本文在文獻[1]的基礎上建立了基于SVM的稿件質量評價系統。
本文采用專家評價法對稿件質量評價系統進行評價,專家評價法是出現較早且應用較廣的一種評價方法。專家評價法就是根據評價對象的具體情況選定評價指標,對每個指標均定出評價等級,然后對每個等級的標準用分值來表示;專家對評價對象進行分析和評價,確定各個指標的分值。
該評價體系分為專家評價指標和綜合評價指標,并把每個評價指標分別賦予對應的定性模糊評價量值進行量化。
本文選取政治性、思想性、創新性、學術性、科學性和實用性6項組成專家評價指標體系。文中的綜合評價指標采用文獻[1]的方法,是責任編輯根據編輯部的實際情況,參照審稿專家對論文從不同的側面對上述評價指標進行評審后所得到的結果,確定與其對應的綜合的評價結果,每一個評價指標的各評價元素組成的向量只能與確定的一個評價結果因素相對應[1]。
根據實際情況,我們把每個評價指標分為好、較好、一般、差等4個評價等級,并對每個評價等級賦予對應的評價量值,用于審稿專家根據自己對稿件進行判斷和選擇,最后得到一個7維的模糊向量[2-4]。
A={好,較好,一般,差};B={100,80,60,0};C=(a1,a2,a3,a4,a5,a6,b)
支持向量機(Support Vector machine,SVM)[4-9]作為凸二次規劃問題的一種典型代表已經廣泛應用于文本識別、手寫字體識別、人臉圖像識別、回歸分析、函數估計等領域。支持向量機分類問題的描述如下:給定樣本訓練集,T={(x,y),...,(x,y)},其中x∈Rm是輸入指標向量,11nn i yi∈Y={1,-1}是輸出指標,確定Rm上的一個實值函數g( x),使得對任意輸入x∈Rm,都可由決策函數f(x)=sign( g( x))推斷出其對應的輸出y(1或-1),其中sign為符號函數。
SVM理論是要求一個最優分離超平面ωTφ(x)+b=0,其中φ(.)為Rm到另外一個空間的映射。基于“間隔”極大化的思想,求最優分劃超平面的問題即轉化為求如下關于變量ω和b的最優化問題[10]:

其中ξ=(ξ1,...,ξn)T為松弛變量,ω和b分別是分離超平面的法方向和截距,C>0為間隔最大化和錯分最小化的權衡系數。模型(1)的對偶問題為下列二次規劃問題:

M( M>2)分類問題可描述如下:給定m個分類訓練樣本(x1, y1),(x2,y2),...,(xn,yn),其中x∈Rm,i=1,...,n且y∈{1,2,...,M},基于上述樣本構造一個分類函數f(x):X=Rn→y。多分
i i
類和二分類問題之間有一定的對應關系:若M分類問題完全可分,則M類中任意兩類一定可分;反之,若其任意兩類之間可分,則通過一定的組合或投票法則,可由兩兩可分來最終實現M類可分。
基于二叉樹的SVM多分類算法[11-12]的基本思想是將所有類別分成兩個子類,再將子類劃分成兩個次級子類,重復執行直到所有的結點只包含一個單獨的類別為止。該方法將原有的多類問題同樣分解成了一系列的兩類分類問題,其中兩個子類間的分類函數采用SVM。本文中的稿件質量三分類問題(60,80,100),首先按類別把訓練數據集分為兩個子集SetA(80,100)和SetB(60),對SetA的數據賦予標號+1,SetB的數據賦予標號-1,用此兩類數據構造分類函數SVM1,進一步對SetA中的訓練數據集執行相同的步驟,得到另外一個分類函數SVM2,如圖1所示。

圖1 基于二叉樹的四分類算法Fig.1 Four classification algorithm based on binary tree
對于一個新的樣本,用SVM1進行分類:如果結果為1,則表明該樣本可能屬于100,80類中的一種;如果結果為-1,則結果為60。如果SVM1分類結果為1,則用SVM2進行分類,如果結果為1,則表明該樣本類別為100,否則為80。
為了說明基于SVM的二叉樹多分類算法針對稿件質量分類問題的有效性,本實驗選取了100個稿件質量數據樣本進行數值實驗,程序用matlab7.10語言編寫,實驗平臺Pentium(R),2G RAM,操作系統為Windows XP。
本文根據《泰山學院學報》對評審稿件的要求,對稿件的思想性和政治性達到較高水平,而學術性、創新性、科學性、實用性要達到一般等級,參照上述7個指標和量化原則,所有符合要求的樣本共計100個,因數據較多,在此不再列出。
訓練樣本是從100個數據樣本中隨機選取的,并把剩余的樣本作為訓練樣本,二分類器為Libsvm工具箱,SVM二分類采用高斯核函數),表1列出了數據集的信息以及參數選擇信息。

表1 實驗數據的信息Table 1 Experimental data

表2 數值結果Table 2 Numerical results
表2給出了10組隨機測試的數據結果,由表2可以看出10組數據的分類準確率集中在90%左右,最低也不低于87.5%,最高可達97.5%。因此可以說,基于SVM的二叉樹多分類算法對于稿件質量評價問題,二叉樹多分類算法是比較有效的。
本文在審稿質量評價指標體系的基礎上提出了基于SVM的二叉樹多分類算法的稿件質量評價模型,通過對100個樣本的訓練,達到了期望的輸出效果。這樣在今后的審稿過程中,審稿專家只要根據編輯提供的審稿指標體系以及相應的評價因素選取相應的值,此模型就可以根據審稿專家的輸入值給出期望審稿結果,這樣大大的減少審稿過程中人為因素的干擾,嚴格以稿件質量作為稿件取舍的標準,同時,也提高了審稿專家在審稿認真程度,并盡可能縮短審稿周期,為提高學報質量把關取得了令人滿意的效果。
[1]趙志宏,孫守增.基于BP神經網絡的稿件質量評價系統[J].中國科技期刊研,2006,17(5):742-745
[2]邱浪波,劉作良,劉明.一種神經網絡技術的威脅股計算法[J].空軍工程大學學報(自然科學版),2002,3(6):25-27
[3]張新紅.基于神經網絡的管理信息系統綜合評價方法[J].系統工程學報,2002,17(5):445-450
[4]Tseng P,Yun S W.A coordinate gradient descent method for nonsmooth separable minimization[J].Mathematical Programming,2009,(117):387–423
[5]Thomas S,Zanni L.On the working set selection in gradient projection-based decomposition techniques for support vector machines[J].Optimization Methods and Software,2005,(20):583–596
[6]Lin C J,Lucidi S,Palagil L,et al.Decomposition algorithm model for singlylinearly constrained problems subject to lower and upper bounds[J].Journal of Optimization Theory andApplication,2009,(141):107-126
[7]Lucidi S,Palagi L,RISI A,et al.A convergent decomposition algorithm for support vector machines[J].Computational Optimization andApplications,2007,38(2):217-234
[8]Tseng P,Yun S W.Acoordinate gradient descent method for linearly constrained smooth optimization and support vector machines training[J].Computational Optimization andApplications,2010,47(2):179-206
[9]李明強.幾類特殊凸二次規劃問題的求解算法研究[D].青島:山東科技大學信息科學與工程學院,2013
[10]李明強,韓叢英,賀國平.基于分解技術的并行支持向量機算法[J].中國科技論文在線-精品論文,2013,6(13):1249-1254
[11]鄧乃揚,田英杰.支持向量機:理論、算法與拓展[M].北京:科學出版社,2009
[12]王永麗,韓叢英,李田,等.求解不等式約束優化問題無嚴格互補松弛條件的QP-free新算法[J].應用數學學報,2013,36(1):3-15
The Manuscript Quality Evaluation System Based on SVM
LIANG Feng-ming
Editorial Department of Journal Taishan University,Taian 271021,China
This paper analyzed the manuscripts hearing index system of scientific journals and the principle of SVM, established the manuscript quality evaluation system based on SVM,and applied 100 samples to train the network.The test results showed that the calculated results of the network model were in agreement with the expected output of test samples, which indicated that the model was feasible.
SVM;manuscript quality evaluation system
G353
A
1000-2324(2014)03-0473-03
2012-12-03
2013-03-16
山東省自然科學基金項目(ZR2012AL03)
梁鳳鳴(1979-),女,編輯,主要從事期刊編輯研究工作.E-mail:liang-fengming@163.com