999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進BP網絡的中文期刊論文分類方法

2014-09-17 10:18:46張瑾
河南圖書館學刊 2014年5期
關鍵詞:特征提取

關鍵詞:BP網絡;論文分類;特征提取

摘要:文章將改進BP網絡應用到期刊論文的分類領域中。該方法根據中文期刊論文的特點選擇題名、摘要及關鍵詞作為特征項的來源,計算特征項的權值,設定閥值對特征項向量進行降維處理,最后利用BP神經網絡對不同的閥值分別進行分類實驗,比較其效果。

中圖分類號:TP391文獻標識碼:A文章編號:1003-1588(2014)05-0061-03

收稿日期:2014-03-11

作者簡介:張瑾(1970-),鄭州輕工業學院圖書館館員。1序言

1960年,Maron發表了第一篇自動分類文章,將貝葉斯定理運用于文本自動分類,標志著自動分類技術的正式產生[1]。1998年,JoachimsT將支持向量機算法應用于文本自動分類[2],Yang Y.和Chute C.G兩位學者提出了 K鄰近的分類方法[3]。相對于國外,國內的文本自動分類研究起步相對較晚,基于機器學習技術的自動分類也是目前我國文本自動分類領域的主流。國內學者的研究對象主要是中文文本自動分類,國內學者學習并應用了各種分類算法,并根據中文的特點構建了我國的中文文本自動分類體系[4]。劉鋒將徑向基神經網絡模型應用到了XML文本的自動分類中[5]。胡清華提出了可變精度的粗糙集模型,引入精度的概念,提高了處理不一致信息的能力[6]。

筆者將文本分類技術應用到期刊論文的自動分類中,根據期刊論文的特點,在選擇數據上進行改進,同時對傳統的BP網絡算法進行改進,構建分類系統,從大規模期刊論文中提取分類的信息,并驗證其分類的可行性。

2期刊論文分類的問題描述

期刊論文分類的任務是:在給定的分類體系下,根據論文的主題自動確定論文的類別。從數學角度看,期刊論文分類是一個映射過程,它將未知分類的論文映射到已有的類別中。該映射可以是單映射,也可以是一對多映射。筆者為了簡化問題,采用一對一映射。

論文分類的映射規則是系統根據已經掌握的每個類別的很多樣本數據信息,總結出分類規律而產生的分類規則,完成分類器的構建。輸入未知類別的論文,根據分類規則確定其相應的類別。

3數據預處理

3.1空間模型

為了使計算機能夠自動分類,必須先將論文轉換為計算機可以識別的格式,筆者采用向量空間模型(即VSM)。其基本思想是以向量模式表示一篇論文:(W1,W2,W3,…,Wn),其中Wi為第i個特征項的權重。

論文在結構上由題名、作者、摘要、關鍵詞及正文等組成,筆者認為這些信息中能夠為論文分類提供依據的有題名、摘要和關鍵詞。筆者采用中國科學院計算技術研究所研制的漢語詞法分析系統ICTCLAS (Institute of computing Technology,Chinese Lexical Analysis system ) ,對題名和摘要進行分詞,然后進行停用詞剔除,將得到的詞語和關鍵詞一起組成特征項。

在文本自動分類研究中,計算特征項的權值時一般采用TF-IDF算法來計算,筆者采用另外一種方式計算特征項權值,即特征項出現在題名中時其權值為3,出現在關鍵詞中權值為5,出現在摘要中權值為2。在正常情況下特征項在題名中重復的概率很低,故不考慮出現的頻率。但在摘要中的特征項重復的概率較高,頻率為m,在計算特征權值時,其權值為2*m。因特征項可能即出現在題名中又出現在關鍵詞或摘要中,此時設定權值取最大值。

3.2特征提取

對期刊論文進行向量空間表示之后,特征空間的維數會很大,因此必須進行特征抽取。特征抽取可以降低空間維數,簡化計算,防止過度擬合。特征抽取常用的方法有:文檔頻率法、信息增益、相互信息法和x2統計法等。筆者采用一個新的方法即設定一個閥值,剔除小于閥值的特征項,保留大于閥值的特征項。

3.3期刊論文類別

目前中國知網的期刊論文的類別是依據《中國圖書館分類法》進行人工標引獲得的分類號。《中國圖書館分類法》共分5個基本部類、22個大類。采用漢語拼音字母與阿拉伯數字相結合的混合號碼,用一個字母代表一個大類,以字母順序反映大類的次序,在字母后用數字作標記。為適應工業技術發展及該類文獻的分類,對工業技術二級類目,采用雙字母。例如:分類號TP391代表信息處理(信息加工)。

4改進BP神經網絡分類器

傳統BP網絡具有思路清晰、結構嚴謹、工作狀態穩定、可操作性強等特點,并且由于隱層節點的引入,使得一個三層的非線性網絡可以以任意精度逼近任何連續函數,從而在模式識別、非線性映射、復雜系統仿真等許多領域得到廣泛應用。但存在幾個缺陷[7]:①傳統的BP網絡既然是一個非線性優化問題,這就不可避免地存在局部極小問題。②學習過程中,學習速度緩慢,易出現一個長時間的誤差平坦區,即出現平臺。其原因主要是其算法中網絡權值以及閾值的每次調節的幅度均以一個與網絡誤差函數或對其權值導數大小成正比的固定因子進行。

針對BP算法收斂速度慢的缺點,筆者引入帶動量的批處理梯度下降的思想,即每一個輸入樣本對網絡并不立即產生作用,而是等到全部輸入樣本到齊,將全部誤差求和累加,再集中修改權值,即根據總誤差E=∑kEk修正權值,以提高收斂速度。在調整權值時加入動量項,降低網絡對于誤差曲面局部細節的敏感性,有效地抑制網絡過沖現象,此時,

△Wji(t)=ηEWji+ηα△Wji(t-1)(1)

其中,α為動量系數,加入的動量項相當于阻尼項,以減小學習過程的振蕩趨勢,從而改善收斂性。其算法如下:

①初始化權值和閾值;

②給定輸入x和目標輸出y;

③計算實際輸出y:

張瑾:基于改進BP網絡的中文期刊論文分類方法張瑾:基于改進BP網絡的中文期刊論文分類方法yj= 瘙 楋 (∑iwjixi-θj)(2)

④修正權值,比起傳統的算法增加了動量項,權值調整公式為:

wji(t+1)=wji(t)+ηα△wji(t)(3)

△wji(t)=ηEWji+ηα△wji(t-1)=ηδixi+ηα△wji(t-1)(4)

E=∑kEk=∑k∑i12(yki-yki)2(5)

其中若j為輸出節點,則

δj=(y-yj)yj(1-yj)(6)

若j為隱層節點,則

δj=yj(1-yj)∑kδkwkj(7)

⑤若達到誤差精度或是循環次數,則輸出結果,否則回到②。

BP網絡訓練完成之后,得到的權系數和閾值系數就是一個預測模型。當輸入的樣本數據是若干組分類數據時,得到的就是一個預測分類模型。

5實驗

5.1測試標準

評價文本分類系統,一般采用準確率(Precision)、召回率(Recall)和F1值來衡量分類效果。

查準率(Precision):

P=AA+B查全率(Recall):

R=AA+C其中,A一正確地分入該類的文檔數;

B一錯誤地分入該類的文檔數;

C一錯誤地劃出該類的文檔數;

準確率和召回率反映了分類質量的兩個不同方面,其中一個指標提高,會導致另一個指標下滑,采用兩者的調和平均值,計算公式如下:

F1=2PRP+R=2A2A+B+C

可以看出F1值越大,抽取性能就越好。

5.2數據準備

文中所有的數據均從中國知網上進行獲取,在中國知網上可以獲取到的信息有題名、作者、摘要、分類號、關鍵詞等。筆者使用工具在中國知網上抓取了2萬篇左右的期刊論文信息作為實驗樣本。保留題名、摘要、關鍵詞和分類號。其中18,000篇論文作為訓練用,2,000篇論文作為測試使用。對實驗樣本的題名和摘要進行分詞,剔除停用詞,計算其和關鍵詞的權值,形成文本空間模型。

5.3實驗結果

在上述工作基礎上,筆者對文中特征提取的方法設置閥值對空間模型進行降維,并測試了不同閥值選取對分類的性能的影響。筆者分別選擇閥值為1、2和3進行測試,得到效果如表1。

表1不同閾值下分類的效果

閥值123準確數1,5401,5741,605查準率94.94%96.15%96.75%查全率94.19%95.34%96.92%值94.57%95.74%96.83%由表1可知,在閾值為1時,由于加權,所有特征項的特征值都是大于1的,故實驗結果是未經過降維處理得到的結果;當閾值為2時,特征值為2的特征項將會被刪除,刪除只在摘要并且只出現過一次的特征項,實驗結果F1值提升了 1.18個百分點,說明有一定的效果;當閾值為3時, 特征值小于等于3的特征項將會被刪除,刪除只在題名或摘要中出現并且只出現過一次的特征項 ,實驗結果值達到了96.83%。

6結語

筆者將BP神經網絡應用到期刊論文的分類中。根據論文的特點合理選擇題名、摘要及關鍵詞作為特征項來源,并計算特征項的權值,設定閥值對特征向量進行降維處理,最后利用BP神經網絡分別對不同的閥值進行實驗。實驗表明在閥值設置為3時,分類效果最好。

參考文獻:

[l]孫建軍,成穎等編著.信息檢索技術[M].北京:科學出版社,2004.

[2]Joachims T. Text categorization with support vector machines: learning with many relevant features[C]. In: Proceedings of 10 European Conference on Machine Learning (ECML-98), Chemnitz , DE, 1998, 137-142.

[3]Yang Y. Chute C.G. An example-based mapping method for text categorization and retrieval [J].ACM Transactions on Information Systems,1994,12(3): 252-277.

[4]陳玉芹.多類別科技文獻自動分類系統[D].湖北:華中科技大學,2008.

[5]劉鋒,唐佳,仲紅.一種基于RBF祌經網絡XML文本分類方法[J].計算機技術與發展,2009(8):34-36.

[6]胡淸華,謝定霞,于達仁.基于粗糙集加權的文本分類方法研究[J].情報學報,2005(1): 59-63.

[7]周樸雄.基于神經網絡集成的WEB文檔分類研究[J].圖書情報工作,2008(7):110-112.

(編校:嚴真)

5.3實驗結果

在上述工作基礎上,筆者對文中特征提取的方法設置閥值對空間模型進行降維,并測試了不同閥值選取對分類的性能的影響。筆者分別選擇閥值為1、2和3進行測試,得到效果如表1。

表1不同閾值下分類的效果

閥值123準確數1,5401,5741,605查準率94.94%96.15%96.75%查全率94.19%95.34%96.92%值94.57%95.74%96.83%由表1可知,在閾值為1時,由于加權,所有特征項的特征值都是大于1的,故實驗結果是未經過降維處理得到的結果;當閾值為2時,特征值為2的特征項將會被刪除,刪除只在摘要并且只出現過一次的特征項,實驗結果F1值提升了 1.18個百分點,說明有一定的效果;當閾值為3時, 特征值小于等于3的特征項將會被刪除,刪除只在題名或摘要中出現并且只出現過一次的特征項 ,實驗結果值達到了96.83%。

6結語

筆者將BP神經網絡應用到期刊論文的分類中。根據論文的特點合理選擇題名、摘要及關鍵詞作為特征項來源,并計算特征項的權值,設定閥值對特征向量進行降維處理,最后利用BP神經網絡分別對不同的閥值進行實驗。實驗表明在閥值設置為3時,分類效果最好。

參考文獻:

[l]孫建軍,成穎等編著.信息檢索技術[M].北京:科學出版社,2004.

[2]Joachims T. Text categorization with support vector machines: learning with many relevant features[C]. In: Proceedings of 10 European Conference on Machine Learning (ECML-98), Chemnitz , DE, 1998, 137-142.

[3]Yang Y. Chute C.G. An example-based mapping method for text categorization and retrieval [J].ACM Transactions on Information Systems,1994,12(3): 252-277.

[4]陳玉芹.多類別科技文獻自動分類系統[D].湖北:華中科技大學,2008.

[5]劉鋒,唐佳,仲紅.一種基于RBF祌經網絡XML文本分類方法[J].計算機技術與發展,2009(8):34-36.

[6]胡淸華,謝定霞,于達仁.基于粗糙集加權的文本分類方法研究[J].情報學報,2005(1): 59-63.

[7]周樸雄.基于神經網絡集成的WEB文檔分類研究[J].圖書情報工作,2008(7):110-112.

(編校:嚴真)

5.3實驗結果

在上述工作基礎上,筆者對文中特征提取的方法設置閥值對空間模型進行降維,并測試了不同閥值選取對分類的性能的影響。筆者分別選擇閥值為1、2和3進行測試,得到效果如表1。

表1不同閾值下分類的效果

閥值123準確數1,5401,5741,605查準率94.94%96.15%96.75%查全率94.19%95.34%96.92%值94.57%95.74%96.83%由表1可知,在閾值為1時,由于加權,所有特征項的特征值都是大于1的,故實驗結果是未經過降維處理得到的結果;當閾值為2時,特征值為2的特征項將會被刪除,刪除只在摘要并且只出現過一次的特征項,實驗結果F1值提升了 1.18個百分點,說明有一定的效果;當閾值為3時, 特征值小于等于3的特征項將會被刪除,刪除只在題名或摘要中出現并且只出現過一次的特征項 ,實驗結果值達到了96.83%。

6結語

筆者將BP神經網絡應用到期刊論文的分類中。根據論文的特點合理選擇題名、摘要及關鍵詞作為特征項來源,并計算特征項的權值,設定閥值對特征向量進行降維處理,最后利用BP神經網絡分別對不同的閥值進行實驗。實驗表明在閥值設置為3時,分類效果最好。

參考文獻:

[l]孫建軍,成穎等編著.信息檢索技術[M].北京:科學出版社,2004.

[2]Joachims T. Text categorization with support vector machines: learning with many relevant features[C]. In: Proceedings of 10 European Conference on Machine Learning (ECML-98), Chemnitz , DE, 1998, 137-142.

[3]Yang Y. Chute C.G. An example-based mapping method for text categorization and retrieval [J].ACM Transactions on Information Systems,1994,12(3): 252-277.

[4]陳玉芹.多類別科技文獻自動分類系統[D].湖北:華中科技大學,2008.

[5]劉鋒,唐佳,仲紅.一種基于RBF祌經網絡XML文本分類方法[J].計算機技術與發展,2009(8):34-36.

[6]胡淸華,謝定霞,于達仁.基于粗糙集加權的文本分類方法研究[J].情報學報,2005(1): 59-63.

[7]周樸雄.基于神經網絡集成的WEB文檔分類研究[J].圖書情報工作,2008(7):110-112.

(編校:嚴真)

猜你喜歡
特征提取
特征提取和最小二乘支持向量機的水下目標識別
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于DNN的低資源語音識別特征提取技術
自動化學報(2017年7期)2017-04-18 13:41:09
Bagging RCSP腦電特征提取算法
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于DSP的直線特征提取算法
基于改進WLD的紋理特征提取方法
計算機工程(2015年4期)2015-07-05 08:28:02
淺析零件圖像的特征提取和識別方法
機電信息(2015年3期)2015-02-27 15:54:46
基于CATIA的橡皮囊成形零件的特征提取
主站蜘蛛池模板: 亚洲欧美h| 久久77777| 亚洲欧美另类日本| 久久国产热| 国产一二三区视频| 久久久久久久久亚洲精品| 114级毛片免费观看| 91久久精品日日躁夜夜躁欧美| 99久久精品国产综合婷婷| 欧美中文字幕一区二区三区| 国产精品欧美亚洲韩国日本不卡| 日本成人一区| 国产精品久久久久久影院| 成人免费黄色小视频| 国产成人久久777777| 91在线丝袜| 久久黄色视频影| 免费在线国产一区二区三区精品| 91探花国产综合在线精品| 国产黄色爱视频| 91精品国产自产在线观看| 美女扒开下面流白浆在线试听 | 国产成人h在线观看网站站| 特级aaaaaaaaa毛片免费视频| 久久频这里精品99香蕉久网址| 五月婷婷伊人网| 国产精品免费入口视频| 日韩欧美色综合| 久久青草精品一区二区三区| 国产精品自在拍首页视频8| 无码福利视频| 国产偷倩视频| 超清无码熟妇人妻AV在线绿巨人| 久久国产高清视频| 国产精品污视频| 国产日本欧美在线观看| 国产夜色视频| 国产成人精品免费视频大全五级| 美女裸体18禁网站| 午夜一级做a爰片久久毛片| 亚洲侵犯无码网址在线观看| 在线免费看片a| 中文字幕伦视频| 久久中文字幕av不卡一区二区| 日韩少妇激情一区二区| 国产青青草视频| 亚洲天堂首页| 色妞永久免费视频| 91精品国产综合久久香蕉922| 草草线在成年免费视频2| 999国产精品永久免费视频精品久久| 91麻豆精品国产91久久久久| 性欧美精品xxxx| 亚洲精品天堂自在久久77| 国产精品无码影视久久久久久久| 亚洲中文字幕av无码区| 98精品全国免费观看视频| 国产又粗又猛又爽| 高h视频在线| 国产女人在线视频| 999国产精品| 日韩毛片在线播放| 国产精品精品视频| 亚洲午夜天堂| 天天色综合4| 色综合国产| 天天爽免费视频| 日韩成人高清无码| 久久国产成人精品国产成人亚洲 | 粉嫩国产白浆在线观看| 呦系列视频一区二区三区| 本亚洲精品网站| 日韩亚洲高清一区二区| 国产在线高清一级毛片| 九九线精品视频在线观看| 日韩精品少妇无码受不了| 中日无码在线观看| 亚洲精品无码人妻无码| a毛片免费在线观看| 最新日本中文字幕| 香蕉蕉亚亚洲aav综合| 亚洲成A人V欧美综合天堂|