基于改進BP網絡的中文期刊論文分類方法

2014-09-17 10:18:46張瑾

河南圖書館學刊 2014年5期

關鍵詞：特征提取

關鍵詞：BP網絡；論文分類；特征提取

摘要：文章將改進BP網絡應用到期刊論文的分類領域中。該方法根據中文期刊論文的特點選擇題名、摘要及關鍵詞作為特征項的來源，計算特征項的權值，設定閥值對特征項向量進行降維處理，最后利用BP神經網絡對不同的閥值分別進行分類實驗，比較其效果。

中圖分類號:TP391文獻標識碼：A文章編號：1003-1588（2014）05-0061-03

收稿日期：2014-03-11

作者簡介：張瑾（1970-），鄭州輕工業學院圖書館館員。1序言

1960年，Maron發表了第一篇自動分類文章，將貝葉斯定理運用于文本自動分類，標志著自動分類技術的正式產生［1］。1998年，JoachimsT將支持向量機算法應用于文本自動分類［2］，Yang Y.和Chute C.G兩位學者提出了 K鄰近的分類方法［3］。相對于國外，國內的文本自動分類研究起步相對較晚，基于機器學習技術的自動分類也是目前我國文本自動分類領域的主流。國內學者的研究對象主要是中文文本自動分類，國內學者學習并應用了各種分類算法，并根據中文的特點構建了我國的中文文本自動分類體系［4］。劉鋒將徑向基神經網絡模型應用到了XML文本的自動分類中［5］。胡清華提出了可變精度的粗糙集模型，引入精度的概念，提高了處理不一致信息的能力［6］。

筆者將文本分類技術應用到期刊論文的自動分類中，根據期刊論文的特點，在選擇數據上進行改進，同時對傳統的BP網絡算法進行改進，構建分類系統，從大規模期刊論文中提取分類的信息，并驗證其分類的可行性。

2期刊論文分類的問題描述

期刊論文分類的任務是：在給定的分類體系下，根據論文的主題自動確定論文的類別。從數學角度看，期刊論文分類是一個映射過程，它將未知分類的論文映射到已有的類別中。該映射可以是單映射，也可以是一對多映射。筆者為了簡化問題，采用一對一映射。

論文分類的映射規則是系統根據已經掌握的每個類別的很多樣本數據信息，總結出分類規律而產生的分類規則，完成分類器的構建。輸入未知類別的論文，根據分類規則確定其相應的類別。

3數據預處理

3.1空間模型

為了使計算機能夠自動分類，必須先將論文轉換為計算機可以識別的格式，筆者采用向量空間模型（即VSM）。其基本思想是以向量模式表示一篇論文：（W1，W2，W3，…，Wn），其中Wi為第i個特征項的權重。

論文在結構上由題名、作者、摘要、關鍵詞及正文等組成，筆者認為這些信息中能夠為論文分類提供依據的有題名、摘要和關鍵詞。筆者采用中國科學院計算技術研究所研制的漢語詞法分析系統ICTCLAS (Institute of computing Technology，Chinese Lexical Analysis system ) ，對題名和摘要進行分詞，然后進行停用詞剔除，將得到的詞語和關鍵詞一起組成特征項。

在文本自動分類研究中，計算特征項的權值時一般采用TF-IDF算法來計算，筆者采用另外一種方式計算特征項權值，即特征項出現在題名中時其權值為3，出現在關鍵詞中權值為5，出現在摘要中權值為2。在正常情況下特征項在題名中重復的概率很低，故不考慮出現的頻率。但在摘要中的特征項重復的概率較高，頻率為m，在計算特征權值時，其權值為2*m。因特征項可能即出現在題名中又出現在關鍵詞或摘要中，此時設定權值取最大值。

3.2特征提取

對期刊論文進行向量空間表示之后，特征空間的維數會很大，因此必須進行特征抽取。特征抽取可以降低空間維數，簡化計算，防止過度擬合。特征抽取常用的方法有：文檔頻率法、信息增益、相互信息法和x2統計法等。筆者采用一個新的方法即設定一個閥值，剔除小于閥值的特征項，保留大于閥值的特征項。

3.3期刊論文類別

目前中國知網的期刊論文的類別是依據《中國圖書館分類法》進行人工標引獲得的分類號。《中國圖書館分類法》共分5個基本部類、22個大類。采用漢語拼音字母與阿拉伯數字相結合的混合號碼，用一個字母代表一個大類，以字母順序反映大類的次序，在字母后用數字作標記。為適應工業技術發展及該類文獻的分類，對工業技術二級類目，采用雙字母。例如：分類號TP391代表信息處理（信息加工）。

4改進BP神經網絡分類器

傳統BP網絡具有思路清晰、結構嚴謹、工作狀態穩定、可操作性強等特點，并且由于隱層節點的引入，使得一個三層的非線性網絡可以以任意精度逼近任何連續函數，從而在模式識別、非線性映射、復雜系統仿真等許多領域得到廣泛應用。但存在幾個缺陷［7］：①傳統的BP網絡既然是一個非線性優化問題，這就不可避免地存在局部極小問題。②學習過程中，學習速度緩慢，易出現一個長時間的誤差平坦區，即出現平臺。其原因主要是其算法中網絡權值以及閾值的每次調節的幅度均以一個與網絡誤差函數或對其權值導數大小成正比的固定因子進行。

針對BP算法收斂速度慢的缺點，筆者引入帶動量的批處理梯度下降的思想，即每一個輸入樣本對網絡并不立即產生作用，而是等到全部輸入樣本到齊，將全部誤差求和累加，再集中修改權值，即根據總誤差E=∑kEk修正權值，以提高收斂速度。在調整權值時加入動量項，降低網絡對于誤差曲面局部細節的敏感性，有效地抑制網絡過沖現象，此時，

△Wji（t）=ηEWji+ηα△Wji（t-1）(1)

其中，α為動量系數，加入的動量項相當于阻尼項，以減小學習過程的振蕩趨勢，從而改善收斂性。其算法如下：

①初始化權值和閾值；

②給定輸入x和目標輸出y；

③計算實際輸出y：

張瑾：基于改進BP網絡的中文期刊論文分類方法張瑾：基于改進BP網絡的中文期刊論文分類方法yj= 瘙楋（∑iwjixi-θj）(2)

④修正權值，比起傳統的算法增加了動量項，權值調整公式為：

wji（t+1）=wji（t）+ηα△wji（t）(3)

△wji（t）=ηEWji+ηα△wji（t-1）=ηδixi+ηα△wji（t-1）(4)

E=∑kEk=∑k∑i12（yki-yki）2(5)

其中若j為輸出節點，則

δj=（y-yj）yj（1-yj）(6)

若j為隱層節點，則

δj=yj（1-yj）∑kδkwkj(7)

⑤若達到誤差精度或是循環次數，則輸出結果，否則回到②。

BP網絡訓練完成之后，得到的權系數和閾值系數就是一個預測模型。當輸入的樣本數據是若干組分類數據時，得到的就是一個預測分類模型。

5實驗

5.1測試標準

評價文本分類系統，一般采用準確率(Precision)、召回率(Recall)和F1值來衡量分類效果。

查準率(Precision):

P=AA+B查全率（Recall）：

R=AA+C其中，A一正確地分入該類的文檔數；

B一錯誤地分入該類的文檔數；

C一錯誤地劃出該類的文檔數；

準確率和召回率反映了分類質量的兩個不同方面，其中一個指標提高，會導致另一個指標下滑，采用兩者的調和平均值，計算公式如下：

F1=2PRP+R=2A2A+B+C

可以看出F1值越大，抽取性能就越好。

5.2數據準備

文中所有的數據均從中國知網上進行獲取，在中國知網上可以獲取到的信息有題名、作者、摘要、分類號、關鍵詞等。筆者使用工具在中國知網上抓取了2萬篇左右的期刊論文信息作為實驗樣本。保留題名、摘要、關鍵詞和分類號。其中18,000篇論文作為訓練用，2,000篇論文作為測試使用。對實驗樣本的題名和摘要進行分詞，剔除停用詞，計算其和關鍵詞的權值，形成文本空間模型。

5.3實驗結果

在上述工作基礎上，筆者對文中特征提取的方法設置閥值對空間模型進行降維，并測試了不同閥值選取對分類的性能的影響。筆者分別選擇閥值為1、2和3進行測試，得到效果如表1。

表1不同閾值下分類的效果

閥值123準確數1,5401,5741,605查準率94.94%96.15%96.75%查全率94.19%95.34%96.92%值94.57%95.74%96.83%由表1可知,在閾值為1時,由于加權,所有特征項的特征值都是大于1的,故實驗結果是未經過降維處理得到的結果；當閾值為2時,特征值為2的特征項將會被刪除,刪除只在摘要并且只出現過一次的特征項,實驗結果F1值提升了 1.18個百分點,說明有一定的效果；當閾值為3時, 特征值小于等于3的特征項將會被刪除,刪除只在題名或摘要中出現并且只出現過一次的特征項 ,實驗結果值達到了96.83%。

6結語

筆者將BP神經網絡應用到期刊論文的分類中。根據論文的特點合理選擇題名、摘要及關鍵詞作為特征項來源，并計算特征項的權值，設定閥值對特征向量進行降維處理，最后利用BP神經網絡分別對不同的閥值進行實驗。實驗表明在閥值設置為3時，分類效果最好。

參考文獻:

［l］孫建軍,成穎等編著.信息檢索技術［M］.北京:科學出版社,2004.

［2］Joachims T. Text categorization with support vector machines: learning with many relevant features［C］. In: Proceedings of 10 European Conference on Machine Learning (ECML-98), Chemnitz , DE, 1998, 137-142.

［3］Yang Y. Chute C.G. An example-based mapping method for text categorization and retrieval ［J］.ACM Transactions on Information Systems,1994,12(3): 252-277.

［4］陳玉芹.多類別科技文獻自動分類系統［D］.湖北:華中科技大學,2008.

［5］劉鋒,唐佳,仲紅.一種基于RBF祌經網絡XML文本分類方法［J］.計算機技術與發展,2009(8):34-36.

［6］胡淸華,謝定霞,于達仁.基于粗糙集加權的文本分類方法研究［J］.情報學報,2005(1): 59-63.

［7］周樸雄.基于神經網絡集成的WEB文檔分類研究［J］.圖書情報工作，2008（7）：110-112.

（編校：嚴真）

5.3實驗結果

表1不同閾值下分類的效果

6結語

參考文獻:

［l］孫建軍,成穎等編著.信息檢索技術［M］.北京:科學出版社,2004.

［3］Yang Y. Chute C.G. An example-based mapping method for text categorization and retrieval ［J］.ACM Transactions on Information Systems,1994,12(3): 252-277.

［4］陳玉芹.多類別科技文獻自動分類系統［D］.湖北:華中科技大學,2008.

［5］劉鋒,唐佳,仲紅.一種基于RBF祌經網絡XML文本分類方法［J］.計算機技術與發展,2009(8):34-36.

［6］胡淸華,謝定霞,于達仁.基于粗糙集加權的文本分類方法研究［J］.情報學報,2005(1): 59-63.

［7］周樸雄.基于神經網絡集成的WEB文檔分類研究［J］.圖書情報工作，2008（7）：110-112.

（編校：嚴真）

5.3實驗結果

表1不同閾值下分類的效果

6結語

參考文獻:

［l］孫建軍,成穎等編著.信息檢索技術［M］.北京:科學出版社,2004.

［3］Yang Y. Chute C.G. An example-based mapping method for text categorization and retrieval ［J］.ACM Transactions on Information Systems,1994,12(3): 252-277.

［4］陳玉芹.多類別科技文獻自動分類系統［D］.湖北:華中科技大學,2008.

［5］劉鋒,唐佳,仲紅.一種基于RBF祌經網絡XML文本分類方法［J］.計算機技術與發展,2009(8):34-36.

［6］胡淸華,謝定霞,于達仁.基于粗糙集加權的文本分類方法研究［J］.情報學報,2005(1): 59-63.

［7］周樸雄.基于神經網絡集成的WEB文檔分類研究［J］.圖書情報工作，2008（7）：110-112.

（編校：嚴真）