李雪駒,王智廣,魯 強
(中國石油大學(北京) 地球物理與信息工程學院,北京 102249)
一種規則與SVM結合的論文抽取方法
李雪駒,王智廣,魯 強
(中國石油大學(北京) 地球物理與信息工程學院,北京 102249)
傳統PDF論文抽取方法主要是單獨基于規則的方法或單獨基于機器學習的方法,其中基于規則的抽取方法在處理格式固定的數據方面具有明顯的優勢,通過制定簡單的抽取規則即可準確定位并抽取數據;而在處理格式靈活的數據時,則需要制定相當復雜的規則,且不具備對論文格式的適應性,因而明顯缺乏機器學習抽取方法的靈活性和準確性。為此,提出了一種基于規則與SVM相結合的PDF論文抽取方法。該方法充分利用規則方法與機器學習在信息抽取時的優點,在用簡單的規則抽取格式固定的信息的基礎上,選取樣本特征構建訓練集,并選擇最優的核函數生成SVM模型,從而完成基于SVM方法的信息抽取。以SVM的抽取結果為主體,通過合理利用基于規則抽取的結果并制定適當的規則的方式對該方法進行驗證。實驗結果表明,該方法在論文元數據和章節標題等信息抽取方面具有較好的效果。
PDF論文;規則;支持向量機;樣本特征;混合方法;信息抽取
隨著互聯網和信息技術的發展,大數據已成為各個領域最熱門的名詞。面對海量的信息和數據資源,迅速獲取其中潛在的、有用的知識是當今數據挖掘的重要方向。學術論文具有強烈的專業性和準確性,論文內的信息和數據在很多專業領域都能發揮極大的作用,能為許多應用技術提供底層的數據支持。……