999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種規則與SVM結合的論文抽取方法

2017-10-23 02:16:19李雪駒王智廣
計算機技術與發展 2017年10期
關鍵詞:規則分類信息

李雪駒,王智廣,魯 強

(中國石油大學(北京) 地球物理與信息工程學院,北京 102249)

一種規則與SVM結合的論文抽取方法

李雪駒,王智廣,魯 強

(中國石油大學(北京) 地球物理與信息工程學院,北京 102249)

傳統PDF論文抽取方法主要是單獨基于規則的方法或單獨基于機器學習的方法,其中基于規則的抽取方法在處理格式固定的數據方面具有明顯的優勢,通過制定簡單的抽取規則即可準確定位并抽取數據;而在處理格式靈活的數據時,則需要制定相當復雜的規則,且不具備對論文格式的適應性,因而明顯缺乏機器學習抽取方法的靈活性和準確性。為此,提出了一種基于規則與SVM相結合的PDF論文抽取方法。該方法充分利用規則方法與機器學習在信息抽取時的優點,在用簡單的規則抽取格式固定的信息的基礎上,選取樣本特征構建訓練集,并選擇最優的核函數生成SVM模型,從而完成基于SVM方法的信息抽取。以SVM的抽取結果為主體,通過合理利用基于規則抽取的結果并制定適當的規則的方式對該方法進行驗證。實驗結果表明,該方法在論文元數據和章節標題等信息抽取方面具有較好的效果。

PDF論文;規則;支持向量機;樣本特征;混合方法;信息抽取

0 引 言

隨著互聯網和信息技術的發展,大數據已成為各個領域最熱門的名詞。面對海量的信息和數據資源,迅速獲取其中潛在的、有用的知識是當今數據挖掘的重要方向。學術論文具有強烈的專業性和準確性,論文內的信息和數據在很多專業領域都能發揮極大的作用,能為許多應用技術提供底層的數據支持。因此抽取學術論文中的信息和數據是非常有意義的。

目前國內外的學術論文多以PDF格式進行存儲,PDF文檔內容抽取主要有兩種方式。一種是通過分析PDF文檔的格式,直接將其中內容抽取出來,進而獲取有用的信息和數據,以下簡稱直接方法[1];另一種是將原PDF文檔轉換成其他文檔格式,從而利用抽取中間文檔內容的方法抽取PDF文檔中的內容,再進一步獲取有用的信息和數據,以下簡稱間接方法[2]。近年來,由于PDFBox等開源工具的日益成熟,直接方法得到了廣泛應用。

直接方法主要分為基于規則和基于機器學習兩大類[3],傳統研究多是單獨基于規則或機器學習進行PDF文檔的抽取,以下簡稱單獨方法。盡管在元數據分類抽取等方面取得了較大的成績,但由于學術論文的格式過于復雜、繁多,上述單獨方法在某些情況下的效果并不理想。并且傳統研究大多只關注元數據的抽取,沒有很好地給出論文的內容結構以及內容中的信息和數據。

由前人的研究可以發現,單獨方法在抽取元數據過程中時而效果特別突出,時而效果卻很差。為此,提出了一種基于規則與SVM相結合的方法。該方法充分發揮了兩種方法各自的優點,取得了比單一方法更優的抽取效果,還獲得了論文內容、結構等方面的信息數據。

1 PDF文檔的抽取方法

PDF文檔的內容并不是簡單的字符串的拼接,它是多個數據對象的組合,因此不能像WORD一樣抽取文檔的內容。目前PDF文檔內容的抽取主要有直接抽取和間接抽取兩類方法。

1.1直接抽取方法

該方法主要是通過分析PDF文檔的物理結構和邏輯結構,運用PDFBox等開源工具解析PDF文檔,直接將其中的文本信息和圖片抽取出來[4],解析后的PDF文檔可以通過規則、機器學習以及規則與機器學習相結合等方法進一步抽取有用的信息和數據。

1.1.1 基于規則的抽取方法

基于規則的方法主要采用基于模式識別和模式匹配的模板挖掘技術來實現自由文本的分類抽取。如利用正則表達式從PDF文檔中抽取首頁元數據[5];采用基于層級知識描述框架的InfoMap方法抽取引文元數據等[6]。

基于規則的抽取方法易于理解和操作,只要規則制定合理,效果十分明顯。但是該方法需要專業人員預先制定一系列規則,而且如果抽取的目標發生變化,則會產生規則不適應的問題。

1.1.2 基于機器學習的抽取方法

機器學習的方法則采用另外一種思路,它通過訓練樣本并建立樣本的輸入與輸出之間的關系來預測新數據,最終達到合理的分類抽取。如采用條件隨機場模型抽取多種通用元數據[7];用概率評估模型抽取引文元數據[8];用SVM模型抽取論文的元數據[9]等。

機器學習的方法具有較強的適應性,可以處理多種類型的文檔,不需要專家提前制定規則,但是這種方法建立起來的模型,其有效性依賴于訓練樣本的數量和質量以及樣本特征的選取。

1.1.3 基于規則和機器學習相結合的抽取方法

規則和機器學習相結合的方法就是在抽取過程中既用到了規則又用到了機器學習。以抽取PDF學術論文中的元數據為例,研究發現,基于規則的抽取方法在處理某些元數據時的效果要優于機器學習方法,比如參考文獻、摘要及關鍵詞的抽取;然而在抽取文章標題、作者信息等元數據時的效果卻不如基于機器學習的方法。這主要是因為參考文獻等元數據通常會滿足一定的格式,并且基本不會改變,而文章標題等元數據則不具備這樣的規則性。與此同時,有些關鍵信息需要極其復雜的規則才能獲取,而用機器學習的方法則可以較輕松地得到。

基于前面的分析,分別用規則和機器學習抽取各自適合的信息和數據,再將它們統一起來,能夠顯著地提高抽取結果;并且對于機器學習不準確的地方,也可以通過適當的規則進行修正以提高抽取的準確率。這種方法具有較強的適應性,同時能夠減少規則設計的復雜性,只需要制定一些簡單規則,基本可以解決PDF文檔抽取過程中的各類問題。

1.2間接抽取方法

這種方法主要是將原PDF文檔轉換成其他文檔格式,從而利用抽取中間文檔內容的方法抽取PDF文檔中的信息。已有方法包括基于XML的PDF文檔信息抽取、基于XSLT的PDF論文元數據的抽取[10-11]。隨著OCR技術的提高,將PDF文檔的內容轉換成OCR掃描的圖片進行信息抽取也得到了越來越多的重視。

2 混合方法抽取PDF學術論文

PDF學術論文的元數據主要包括文章標題、作者信息、摘要、關鍵詞以及參考文獻等。不難發現,摘要、關鍵詞以及參考文獻的出現都會有一個明顯的標志,例如“摘要”、“Abstract”、“關鍵詞”等。因此采用基于規則的方法可以簡單、迅速地定位并抽取這些內容。對于文章標題及作者信息等元數據,由于它們的出現相對靈活,沒有明顯的標志,所以機器學習的方法能夠更準確地抽取這部分元數據。再來研究文章的內容信息,眾所周知除了上述論文的元數據,文章內容同樣包含了許多重要的信息和數據。例如論文各章節的標題及子標題,論文表格內的信息和數據等。提出的方法不但準確地抽取了PDF論文基本的元數據,而且還抽取了論文的章節標題等重要的內容信息。

對提出的混合方法的核心思想、方法流程進行介紹,如圖1所示。其中曲邊四邊形表示文檔、文件,矩形表示必須處理的過程,平行四邊形表示數據,橢圓形表示注釋。

圖1 混合方法的具體流程

具體過程如下:先利用生成的SVM訓練模型對PDF論文進行分類,初步得到一個分類結果,包括文章標題、作者信息、正文內容、章節標題、頁腳頁眉以及摘要、關鍵詞和參考文獻;接著利用基于規則抽取到的摘要、關鍵詞以及參考文獻去修正SVM得到的結果;然后再按照論文格式等限定條件去適當修正其他不合理的分類信息,最終得到相對準確的各類信息和數據。

2.1基于規則抽取方法的實現

基于規則的抽取方法主要用來抽取PDF論文內格式固定的信息和數據,一般指摘要、關鍵詞和參考文獻。PDFBox是一個很好的開源PDF文檔解析類庫,首先用PDFBox解析PDF論文,然后利用其接口將PDF的內容流按照論文顯示的行去存儲。每一行都包含了這一行的位置信息、字體信息等重要內容。接下來制定規則分別去抽取論文的摘要、關鍵詞以及參考文獻。

這三類元數據的抽取方法大致相同,都是基于字符串匹配的方式。具體方法如下,按行遍歷所有的論文內容,分別尋找行首帶有“摘要”(或ABSTRACT、Abstract等)、“關鍵詞”(或關鍵字、主題詞、Keywords等)、“參考文獻”(或REFERENCE、Reference等)的行,確定這些行的位置。值得一提的是,摘要和關鍵詞多出現在論文的首頁,參考文獻多出現在文章的結尾。如果能夠找到上述三行的位置,即說明此論文包含摘要、關鍵詞和參考文獻的內容。

此時摘要所在行與關鍵詞所在行之間的內容是論文的摘要部分,且摘要各行之間的字體大小應該是相同的(在誤差允許范圍內);關鍵詞所在行的內容是論文的關鍵詞部分,由于關鍵詞可能不止一行,所以還應該再向下判斷一至兩行(關鍵詞一般只有1~3行),判斷方法與摘要相同,用關鍵詞各行之間的字體大小來判斷該行是否為關鍵詞,最后得到正確的關鍵詞內容。參考文獻部分的抽取,從出現該字符串的下一行開始,逐行比較各行的字體大小,連續的字體大小相同的行就組成了論文的參考文獻部分。

如果無法全部找到前文所說的“摘要”、“關鍵詞”以及“參考文獻”的行,那么說明該文章缺少其中某些部分的內容,即是說缺少哪一行就不存在哪一種元數據。此時要充分利用同一種元數據相鄰行的字體大小相同、行間距無明顯變化等方法進行劃分,抽取對應種類的元數據。

2.2基于SVM抽取方法的實現

用規則抽取PDF論文的元數據主要是通過數據的位置和字體大小來判斷分類,然而很多時候無法輕易地對數據進行分類。例如有時解析后的PDF文檔,內容流中的字體大小都是0,這時就無法從這一特征量判斷字體的大小。因此還需要考慮字符的寬度、高度、橫縱坐標的比例等特征量,綜合起來判斷實際顯示在文檔中的字體大小。這里需要考慮的特征量越多,制定的規則就越復雜,并且可能存在的誤差也越大。這時應該采用機器學習的方法抽取數據。

PDF論文的信息抽取實際上也是一種分類問題,由于SVM在解決分類和回歸問題方面性能顯著,具有良好的理論證明,并且可以很好地支持小樣本,因此選用SVM作為機器學習的核心方法。

2.2.1 SVM的特征選取

用SVM抽取PDF學術論文本質上就是將PDF論文分類,這是一個多分類問題。大體上可以將PDF學術論文分為以下幾類,分別是文章標題、作者信息、摘要、關鍵詞、正文內容、各章節標題、參考文獻以及頁腳頁眉等。針對上面這些信息和數據在PDF文檔中的特性,合理地選取訓練樣本的特征。 分析論文結構不難發現,區分上面分類的主要因素就是位置和字體,因此要在內容流中尋找與位置和字體相關的樣本特征。

利用SVM模型,將論文中的每一行進行分類。由于PDF論文的每一行都包含了反映其位置和字體的特征,行可以很好地表現PDF論文的內容和結構,并且與區域(塊)相比,行更能細化這些特征,增強分類的準確性,區域(塊)也是由多個行組成的;與此同時,還能更好地與基于規則的方法相結合。因此,采用以行為基本單位,運用SVM模型進行分類的方法。

訓練SVM模型,最重要的是把論文行轉換成SVM的特征向量。經過解析后的PDF內容流按行存儲,每行都包含了位置和字體等信息,針對這些信息,合理選擇特征向量。

選擇行的位置特征。一般來說,同一行的每個字符的縱坐標是相同的,選擇每一行的第一個字符的橫坐標XDirAdj、縱坐標YDirAdj及最后一個字符的橫坐標XDirAdj作為特征向量。首尾兩個橫坐標表示這一行的長度,加上縱坐標基本上就能夠確定該行在PDF文檔中的位置。

選擇行的字體特征。多數情況下,同一行的字體特征是相同的,因此選擇第一個字符的字體大小FontSize來代表這一行的字體大小。然而實驗發現,有時FontSize在整篇文章中的值都是0,單靠FontSize一個特征向量并不能反映字體的大小,還要考慮字體高度HeightDir、字體寬度WidthDirAdj、字體橫坐標比例XScale、字體縱坐標比例YScale以及字體Pt尺寸FontSizeInPt。將上述參數作為表示這一行字體大小的特征向量可以很好地反映這一行的分類特征。

因為有些情況下還需要考慮行的字符個數以及該行所處的PDF文檔的頁碼,比如文章標題、作者、章節標題、正文內容等在每一行的字數都會有一定差別,并且文章標題、作者、摘要、關鍵詞等多出現在PDF論文的首頁,所以每一行的字符個數和所處的頁碼也可以作為樣本特征。

此外,論文行還包含了前后行間的距離、字體格式、字體方向、字體間距等特征。將上述特征分成幾組訓練SVM模型,測試結果見表1。

表1 不同特征向量的SVM模型的簡單對比

表1中類別A選擇了每一行第一個字符的橫坐標XDirAdj、縱坐標YDirAdj、字體大小FontSize、字體高度HeightDir、字體寬度WidthDirAdj、字體橫坐標比例XScale、字體縱坐標比例YScale、字體Pt尺寸FontSizeInPt、最后一個字符的橫坐標XDirAdj、該行的字符個數以及所處的PDF文檔的頁碼共11個特征向量;類別B選擇了每一行第一個字符的橫坐標XDirAdj、縱坐標YDirAdj、字體大小FontSize、最后一個字符的橫坐標XDirAdj、該行的字符個數以及所處的PDF文檔的頁碼共6個特征向量;類別C選擇了每一行第一個字符的橫坐標XDirAdj、縱坐標YDirAdj、字體大小FontSize、字體高度HeightDir、字體寬度WidthDirAdj、字體橫坐標比例XScale、字體縱坐標比例YScale、字體Pt尺寸FontSizeInPt、最后一個字符的橫坐標XDirAdj共9個特征向量;類別D選擇了每一行第一個字符的橫坐標XDirAdj、縱坐標YDirAdj、字體大小FontSize、字體高度HeightDir、字體寬度WidthDirAdj、字體橫坐標比例XScale、字體縱坐標比例YScale、字體Pt尺寸FontSizeInPt、最后一個字符的橫坐標XDirAdj、該行的字符個數以及所處的PDF文檔的頁碼、前后行間的距離、字體方向、字體間距共14個特征向量。

實驗隨機選用了相同的標注好的1 000個樣本行訓練模型,并隨機選用另外的350個樣本行進行測試,未經過參數調優,選用相同參數的RBF核后粗略地得到表1所示的結果。

由表1可知,類別A的準確率相對高些,因此最終選取了每一行第一個字符的橫坐標XDirAdj、縱坐標YDirAdj、字體大小FontSize、字體高度HeightDir、字體寬度WidthDirAdj、字體橫坐標比例XScale、字體縱坐標比例YScale、字體Pt尺寸FontSizeInPt、最后一個字符的橫坐標XDirAdj、該行的字符個數以及所處的PDF文檔的頁碼這11個特征向量作為SVM模型的樣本特征。

根據PDFBox解析后的內容流,對照PDF學術論文人工標注訓練集和測試集,訓練樣本的分類包括文章標題、作者信息、正文內容、章節標題、頁腳頁眉,以及摘要、關鍵詞和參考文獻。

2.2.2 SVM核函數的選取

完成訓練樣本后要選擇合適的核函數來訓練模型,選用LIBSVM生成訓練模型。LIBSVM是臺灣大學林智仁教授開發的一套開源的SVM軟件包,它提供了豐富的工具以及多種語言的源碼。

由于訓練集的樣本特征遠遠少于樣本數量,應該選擇非線性核函數[12]。常用的非線性核函數主要有多項式核、RBF核、SIGMOD核以及混合核[13]。利用LIBSVM軟件包內提供的工具和源代碼,用網格搜索、交叉驗證等方法分別找到滿足上述核函數的最優參數C、g、d和coef0以及混合核的權值。需要說明的是,有些核函數并不需要上面全部的參數,根據不同的核函數找到不同的最優參數。然后利用訓練集和測試集訓練SVM模型,對比分析不同核函數的性能,最終選取最優的核函數及其訓練模型。

2.3混合方法的具體實現

利用前面訓練好的SVM模型對每一篇PDF論文的內容進行分類抽取,得到初步抽取結果,如圖2、圖3所示。

這相當于將整篇文章轉換成對應的SVM模型的抽取特征,然后進行分類。此時的抽取結果包含了該篇論文的全部分類信息,例如文章標題、作者信息、摘要信息、關鍵詞信息、文章內容信息、參考文獻以及頁腳頁眉等。圖2每行都有12列,第1列表示這一行的分類結果。在這一列“0”表示文章標題,“1”表示作者信息,“2”表示文章摘要,“3”表示關鍵詞及分類號,“4”表示正文內容,“5”表示頁眉頁腳,“6”表示正文的章節標題,“9”表示文章的參考文獻等;第2~12列則表示SVM模型的11個樣本特征,這里對每一列的樣本特征,都按照規范進行了歸一化處理。圖3顯示了論文內容的按行抽取,每行都能對應圖2所示的特征向量。每行最后的三個數字分別代表這一行內容的類別(即分類結果),所處的PDF文檔的頁碼以及在該頁的行數。例如“曲江秀,高長海,查明 ===1 0 4”這一行,“1”表示這一行的內容是作者信息,“0”表示這一行位于PDF文檔的第一頁,“4”表示這行是這一頁的第五行,其余內容依此類推。

圖2 用SVM模型得到的抽取特征及分類結果

圖3 用SVM模型得到的論文內容的分類結果

圖2和圖3反映了PDF論文經過SVM模型分類后的初步抽取結果。通過觀察可以發現,這個抽取結果還存在一定的分類錯誤。例如圖3,行尾數字為12,行首為“關鍵詞”那一行,這一行SVM分類得到了錯誤的分類結果,將“關鍵詞”誤識別成了正文,因此這一行正確的分類結果應該為“3”而不是“4”。

由前文論述可知,基于規則的抽取方法在抽取論文的摘要、關鍵詞和參考文獻等數據時具有明顯的優勢,所以利用基于規則抽取的格式固定的數據去替換SVM模型的抽取結果。

用設計好的規則按行抽取論文的摘要、關鍵詞和參考文獻,分別記錄好它們所處的位置,主要是每一行所處的頁碼和在該頁的行數等。為了方便,后文用(頁碼,行數)表示論文每一行的內容;然后利用這些頁碼和行數,去修正SVM分類的結果,即在SVM的分類結果中,找到相應的頁碼和行數,然后將這一行的類別強制替換成基于規則抽取到的結果。例如在圖3中,SVM模型的分類結果將(0,12)行的內容識別成了“正文內容”,而基于規則的方法則將(0,12)行的內容識別為“關鍵詞”,將SVM分類結果中的(0,12)行的類別“正文內容4”修改為“關鍵詞3”。對于摘要,關鍵詞和參考文獻都按照上述方法進行處理,得到修正后的分類結果。如果利用規則無法得到“摘要”或“關鍵詞”或“參考文獻”的數據,則無需修改SVM模型的分類結果。

對于修正后的分類結果還要制定一些限定條件進行二次修正,以確保最終輸出的分類結果的準確性。具體的限定條件如下:(由于多數中文論文都包含中文和英文的標題、作者信息、摘要和關鍵詞,這里只抽取其中文的標題、作者信息、摘要和關鍵詞;若是英文論文則無此說明。)

(1)文章標題“0”只能位于PDF文檔的首頁,并且在首頁的上半部分,最多只能有兩組字符串(中文標題和英文標題),其他頁面均不能再出現“0”的分類結果;

(2)作者信息“1”位于PDF文檔的首頁,多在文章標題后面出現,其他頁面均不能再出現“1”的分類結果;作者信息內包含了各個作者的姓名,所屬單位以及部分簡介,需要制定簡單的規則分別獲取上述信息。一般來說,每個作者的中文姓名不會超過4個字,并且所屬單位都會用“()”擴起來,分別得到作者姓名和所屬單位后,一般剩下的內容為作者簡介;

(3)參考文獻“9”位于PDF文檔的最后部分,一般在文檔的最后一頁或最后兩頁,其他頁面均不能出現“9”的分類結果;

(4)章節標題“6”也要加入一些限定條件,章節標題要在關鍵詞后面出現,屬于正文部分,字數一般不超過15,并且在抽取到的字符串中不存在逗號、引號、句號等符號,有時在字符串首部可以出現“數字”或“數字+點號”或“數字+頓號”的組合,例如“1”、“一”、“1.”、“一、”等;

(5)將不滿足上述限定條件的分類結果的類別強制修改為正文內容“4”。

上述限定條件基本上是通用的,能夠滿足絕大部分的論文格式和內容,但不是絕對的。可以根據不同的情況、不同的需求適當修改。

完成上述多個步驟后,最終會得到相對準確的PDF論文分類抽取結果,至此便完成了混合方法的實現。

3 測試結果與分析

表2給出了選定C和g后不同的核函數的分類結果。

表2 SVM不同核函數的分類結果

由表2可以看出,使用線性核測試集的準確率只有79.32%,遠小于RBF核與多項式核的結果,進一步證明了文獻[10]總結的結論,理應選用非線性核函數。又因為SIGMOD核的測試效果很不理想,所以主要考慮RBF核與多項式核。

深入對比分析RBF核與多項式核,這兩種核函數都能取得良好的測試結果,但是隨著參數的優化,多項式核的訓練時間大大超過了RBF核的訓練時間,而測試集的結果相差不大,因此選擇參數調優后的RBF核作為該混合方法中SVM的核函數。

隨機測試了348篇PDF學術論文,得到的對比結果如表3所示。

表3 三種方法抽取信息的準確率

注:規則方法表示單獨基于規則的抽取方法,該方法按照文獻[14]介紹的算法思想設計實現;SVM方法表示單獨基于SVM的抽取方法;混合方法則表示基于規則和SVM相結合的抽取方法。

表中分別列出了文章標題、作者信息等六種重要數據信息的抽取結果,從結果上看基于規則的方法在抽取摘要、關鍵詞及參考文獻方面表現突出,而基于SVM的方法在抽取文章標題、作者信息和章節標題方面表現突出。混合方法同時涵蓋了兩種方法的優勢,基本上在各類數據的抽取結果都是最優的,然而抽取參考文獻的結果卻略遜于規則方法,這主要是由于部分論文格式混亂,在一篇文章中會穿插兩篇文章的信息,使得用規則去修正SVM分類極為困難,與此同時SVM分類也會產生一部分規則難以修正的結果,因此這部分的抽取結果稍差。

除了上述六種信息,混合方法還準確地抽取了論文的頁腳頁眉、正文內容等關鍵信息,準確率都在85%以上。從整體上看,混合方法取得了較好的抽取效果。

4 結束語

傳統方法在抽取論文信息時還存在一定不足,為了更好地抽取PDF論文內的關鍵信息,提出了一種基于規則和SVM相結合的PDF論文抽取方法。該方法以SVM為主體,合理利用規則去修正,最終得到了更準確的抽取結果。與傳統單獨基于規則或機器學習的方法相比,明顯提高了抽取效果,而且還準確地得到了章節標題、頁眉頁腳等關鍵信息。

由于SVM的訓練樣本無法包含全部格式的PDF論文,所以生成的模型會存在一定的局限性,針對某些特殊格式的PDF論文效果會很差;同時測試論文的數量偏少,也會影響實驗結果。在進一步優化訓練模型、增加測試論文數量后,要繼續深入研究正文內關鍵信息和數據的抽取,因此準確抽取圖片與表格內的數據將是接下來研究的重點。

[1] 李 珍,田學東.PDF文件信息的抽取與分析[J].計算機應用,2003,23(12):145-147.

[2] 宋艷娟,張文德.基于XML的PDF文檔信息抽取系統的研究[J].現代圖書情報技術,2005(9):10-13.

[3] 張秀秀,馬建霞.PDF科技論文語義元數據的自動抽取研究[J].現代圖書情報技術,2009(2):102-106.

[4] 王曉娟,譚艷龍,劉燕兵,等.基于自動機理論的PDF文本內容抽取[J].計算機應用,2012,32(9):2491-2495.

[5] 李朝光,張 銘,鄧志鴻,等.論文元數據信息的自動抽取[J].計算機工程與應用,2002,38(21):189-191.

[6] Day M Y,Tsai R T H,Sung C L,et al.Reference metadata extraction using a hierarchical knowledge representation framework[J].Decision Support Systems,2007,43(1):152-167.

[7] Yu J,Fan X.Metadata extraction from Chinese research papers based on conditional random fields[C]//Fourth international conference on fuzzy systems and knowledge discovery.[s.l.]:IEEE,2007:497-501.

[8] Giles C L,Bollacker K D,Lawrence S.CiteSeer:an automatic citation indexing system[C]//Proceedings of the third ACM conference on digital libraries.[s.l.]:ACM,1998:89-98.

[9] 歐陽輝,祿樂濱.基于SVM的論文元數據抽取方法研究[J].電子設計工程,2010,18(5):4-7.

[10] 宋艷娟,李金銘,陳振標.基于XSLT的PDF信息抽取技術的研究[J].計算機與數字工程,2008,36(5):156-159.

[11] 陳俊林,張文德.基于XSLT的PDF論文元數據的優化抽取[J].現代圖書情報技術,2007(2):18-23.

[12] Chang C C,Lin C J.LIVSBM:a library for support vector machines[EB/OL].2013.http://www.csie.ntu.edu.tw/~cjlin/papers/libsvm.pdf.

[13] 趙麗琴.混合核支持向量機在地鐵客流預測中的應用研究[D].蘭州:蘭州交通大學,2015.

[14] 牛永潔,薛蘇琴.基于PDFBox抽取學術論文信息的實現[J].計算機技術與發展,2014,24(12):61-63.

AnExtractionMethodforPapersviaIntegrationofRuleswithSVM

LI Xue-ju,WANG Zhi-guang,LU Qiang

(College of Earth Physics and Information Engineering,China University of Petroleum - Beijing,Beijing 102249,China)

Traditional extraction methods for PDF format papers are mainly based on either rules or machine learning.The extraction method based on rules has obvious advantages in processing fixed format data,which can accurately locate and extract data by making some simple rules of extraction.However it needs fairly complex rules to deal with flexible data and is lack of the adaptability of paper format,which cannot do better than the extraction method of machine learning in terms of flexibility and accuracy.For this,an extraction method for PDF papers via integration of rules with SVM is proposed which makes full use of the advantages of rules and machine learning when extracting information.On the basis of extracting fixed format information via simple rules,the sample characteristics is chosen to build the training set and the optimal kernel function is selected to generate the SVM model for implementation of information extraction based on SVM.By taken extraction results of the SVM as the main body,the verification experiments is conducted based on rules rationally and some appropriate rules made.The experiment results show that it can achieve better results for extracting metadata and chapter headings of PDF papers.

PDF papers;rules;support vector machine;sample characteristics;hybrid method;information extraction

TP301

A

1673-629X(2017)10-0024-06

2016-11-27

2017-03-14 < class="emphasis_bold">網絡出版時間

時間:2017-07-19

國家自然科學基金資助項目(60803159);國家科技重大專項(2011ZX05005-005-006)

李雪駒(1990-),男,碩士,CCF會員(200056264G),研究方向為數據挖掘、知識圖譜;王智廣,教授,博士,CCF高級會員,通訊作者,研究方向為計算智能、分布與并行計算;魯 強,副教授,博士,CCF會員,研究方向為分布式系統、知識工程。

http://kns.cnki.net/kcms/detail/61.1450.TP.20170719.1113.090.html

10.3969/j.issn.1673-629X.2017.10.006

猜你喜歡
規則分類信息
撐竿跳規則的制定
數獨的規則和演變
分類算一算
分類討論求坐標
數據分析中的分類討論
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
教你一招:數的分類
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
TPP反腐敗規則對我國的啟示
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 欧美19综合中文字幕| 91精品最新国内在线播放| 国产成人综合日韩精品无码首页 | 美女免费黄网站| 欧美.成人.综合在线| 91最新精品视频发布页| 亚洲伊人天堂| 欧美黄网在线| 欧美日本不卡| 亚洲国产亚综合在线区| 91免费国产在线观看尤物| 一区二区影院| 日韩毛片在线播放| 国产一级精品毛片基地| 在线观看av永久| 亚洲精品少妇熟女| 亚洲视频a| 久久久久青草大香线综合精品| 国产毛片片精品天天看视频| 澳门av无码| 玩两个丰满老熟女久久网| 欧美色图第一页| 青青久久91| 亚洲精品第一页不卡| 国产精品三级专区| 亚洲日本在线免费观看| 日韩av在线直播| 91无码人妻精品一区二区蜜桃| 亚洲精品视频免费| 亚洲中文字幕av无码区| 亚洲国产天堂久久综合| 曰韩免费无码AV一区二区| 青青草国产免费国产| 欧美人与动牲交a欧美精品| 国产成本人片免费a∨短片| 色偷偷av男人的天堂不卡| 91一级片| 99在线视频网站| 午夜国产理论| 国产乱码精品一区二区三区中文| 色综合久久无码网| 香蕉精品在线| 亚洲一区国色天香| 久草性视频| 男女猛烈无遮挡午夜视频| 一级毛片免费观看久| 国产va在线观看免费| 日韩精品专区免费无码aⅴ| 亚洲精品无码日韩国产不卡| 一级黄色网站在线免费看| 99久久精品国产自免费| 人妻一区二区三区无码精品一区| 91在线一9|永久视频在线| 欧美综合在线观看| 国产精品lululu在线观看| AV网站中文| 亚洲成人动漫在线观看| 国产福利拍拍拍| 亚洲 欧美 中文 AⅤ在线视频| 国产成人高清在线精品| 一区二区偷拍美女撒尿视频| 国产视频欧美| 精品福利一区二区免费视频| 999福利激情视频 | 久久综合五月婷婷| 全部免费特黄特色大片视频| 日韩无码视频播放| 国产成人福利在线视老湿机| 亚洲69视频| 国产成人福利在线视老湿机| 国产成人精品优优av| 女人一级毛片| 美女免费黄网站| 亚洲日本在线免费观看| 亚洲日韩高清无码| 91系列在线观看| 日韩在线影院| 国产无码精品在线播放| 天堂成人在线| 亚洲最新地址| 欧美色综合网站| 久久精品aⅴ无码中文字幕|