張昭楠
(陜西職業(yè)技術學院 陜西 西安 710000)
基于SVM的中文文本分類系統(tǒng)的設計與實現(xiàn)
張昭楠
(陜西職業(yè)技術學院 陜西 西安710000)
互聯(lián)網已經成為現(xiàn)代生活中不可或缺的一部分,網絡上的信息量也在以數(shù)倍的速度快速增長。無論是企事業(yè)單位,學校,或者科研院校等等機構中,都積累了非常多的資料,這些資料絕大多數(shù)都以文檔的形式存在。所以,如何將數(shù)以萬計且排序混亂的文本信息,按照一定的規(guī)則和形式進行統(tǒng)一的管理,以達到方便使用和管理的目的成為了一個不得不去解決的問題。本文就是在SVM,即支持向量機方法的基礎上,設計了一個中文文本分類系統(tǒng)。介紹了系統(tǒng)的需求分析,并對系統(tǒng)進行了詳細設計,從概念的初始化設計到之后的詳細設計,實現(xiàn)了基于SVM的中文文本分類系統(tǒng)的最終目的,達到了設計要求。
文本分類;支持向量機;文本表示;特征選擇
隨著信息化時代的全面降臨,信息資源也已經和能源,物質等常規(guī)資源占有同樣重要的地位。我國最近大力推行的信息化建設,也正是對這方面越來越重視的充分體現(xiàn)。當今,互聯(lián)網上出現(xiàn)了各種各樣的信息,信息量也以幾何倍數(shù)的快速增長。而這些信息大部分都是以文本的形式存在的。另外在各個大中型院校,政府機構或者企事業(yè)單位等等這些地方,都存放著大量紙質或數(shù)字化的文檔資料。通常,為了更好的存儲和保留,紙質文檔都會錄成數(shù)字文檔,存放起來[1-2]。日積月累,數(shù)字文檔的數(shù)量也急劇膨脹。面對海量的文本文檔,對它們合理的管理和利用,就顯得特別重要。而研究的這些方法就是所謂的文本處理技術。該技術的核心就是本文介紹的文本分類技術。文本分類,以前都是依靠人工操作來進行的,而且不同領域的分類標準和辦法是不相同的。但是這樣會有一個明顯的問題就是,這種方法需要的人力和物力都是驚人的,而且效率非常低,有些情況下只靠人力是無法完成的。正因為如此,設計開發(fā)一個方便快捷的文本分類系統(tǒng),就顯得非常重要了。本文,基于SVM的中文文本分類系統(tǒng)的設計與實現(xiàn),通過對系統(tǒng)的需求分析,以及對系統(tǒng)的詳細設計,很好的解決了這個問題,大幅度的提高了文本分類的效率和準確性[3-4]。
所謂SVM,全稱是支持向量機(Support Vector Machine)。是一種近年來推出的一種全新的分類和統(tǒng)計方法。該方法遵循的原則是結構化風險的最小化,與傳統(tǒng)常規(guī)的方法相比,其優(yōu)勢也比較明顯。比如理論基礎特別扎實。根據(jù)統(tǒng)計學理論權威專家通過實踐得出的結論來看,SVM方法不僅解決了以前文本分類周期長,準確度低,范圍較小等弱點。還可以在極小的樣本條件下,仍然可以滿足常規(guī)的使用方式,且效率不會受到影響。因此該方法逐漸受到人們的重視,并且以廣泛的使用到了文本分類,人臉識別,指紋識別等領域。SUV方法不是無限制自動調控的系統(tǒng),其自身也有著安全的監(jiān)控算法和分類算法。在進行文本分類處理時,一般需要經過兩個步驟,分別為訓練和分類[5]。訓練過程,與之字面意思不同,這里的訓練實際就是對詞語重新定義的一個過程。由于重新規(guī)劃所面臨的問題很多,計算量又是十分之大。隨著技術的優(yōu)化,如今引入了多維空間理論,不同緯度空間實現(xiàn)了交叉映射,從而避開了線性與非線性的問題,支持向量機也因此成為了一種常用的分類方法[6-7]。
通過對SVM的介紹,其屬于智能分類算法。所以在進行文本分類工作之前要進行小部分的人工分類,為分類器提供比對和校準,也就是所謂的訓練功能。訓練完成后系統(tǒng)的記憶功能將會自動生效,以后同種類型的文本就無需重復的操作。在操作完成后,系統(tǒng)會自動對結果進行統(tǒng)計和分析,以到達最好的效果[8-9]。下面介紹一下SVM的訓練分類過程,所謂訓練,就是將普通詞典的文本及文件輸入到計算機中去。在計算機分詞系統(tǒng)的存儲和處理后,以一種以比較特殊的此類表格的數(shù)據(jù)結構存儲在系統(tǒng)的數(shù)據(jù)庫內存中,為中文文本分類程序的使用做好準備。下面對SVM進行分類器的使用的過程進行說明,首先就是將需要處理分類的文檔打開,對其先進行預處理操作,在對其特征,權重等因素進行計算,最后使用構建成功的文本分類器系統(tǒng)進行自動分類。在分類完成后,系統(tǒng)會將分類前文本的各種參數(shù)以及分類后文本的各種參數(shù)一并展示在使用者面前,方便使用者查看。一般在設計系統(tǒng)時。都會對其系統(tǒng)的可行性作出分析和說明,這里的重點就是在系統(tǒng)無論進行哪一步操作之前,首先必須完成文本的預先處理工作。預處理是將文本中的中文分詞進行簡單的,系統(tǒng)可以識別的標識操作[10]。通過對文獻的分析以及對類似產品的比對,發(fā)現(xiàn)此方法已經廣泛運用到各個分類系統(tǒng)中,所以該方法無論從技術上還是使用經驗上都以十分完善和成熟,在使用時直接進行操作和調用即可。
前文已經提到,在系統(tǒng)進行文本分類操作之前,需要將文本中一小部分詞語提取出來進行分類器的模擬比對和訓練工作,即將文本的一小部分提出進行試驗,這一小部分文檔就作為分類成功的模板被記錄下來[11-12]。本系統(tǒng)的功能示意圖如圖1所示。系統(tǒng)概要設計中一個比較重要的部分就是文本的預處理過程,該過程是在系統(tǒng)的預處理模塊中進行的。該過程其實就分為標識處理和存儲處理,這是因為漢語不會像拉丁語一樣可以用空格符號來隔開,所以在系統(tǒng)分類前要對詞語進行標識處理,而此步驟是后續(xù)分類系統(tǒng)順利進行工作的前提。所以說本模塊在整個中文分詞系統(tǒng)中的地位是舉足輕重的。前文提到的中科院的ICTCLAS中文分詞系統(tǒng),正是因為其在預處理過程中性能穩(wěn)定,處理準確,且提供免費的使用,受到了很多科研機構以及需要此功能人員的青睞。并且該系統(tǒng)還自帶了記憶功能,對于經過操作的分詞文本再次輸入時無需進行重復的操作。中文文本分類系統(tǒng)的權重模塊也是設計的重點之一,本文在普通文本分類系統(tǒng)單一算法的基礎上,通過對多種算法的比較和實際運用,綜合了傳統(tǒng)的比對權重算法以及細化權重算法等常用算法,在選擇其優(yōu)勢的基礎上對出現(xiàn)的問題進行了改進,提出了本文基于BG*IG的全新算法。本系統(tǒng)的另一大優(yōu)勢就是文本表示模塊的使用,與傳統(tǒng)表示模塊不同,本系統(tǒng)采用的表示模型是數(shù)學上的向量空間的思想。文本經過訓練模塊和預處理模塊的處理后,分本由統(tǒng)一的格式分化成為具有各種不同屬性的分詞,但是SVM只支持向量格式的數(shù)據(jù),這時文本表示模塊就發(fā)揮了作用,其會自動將傳遞過來的文本信息轉化為三維空間向量的形式。所以本文采用該方法進行文本的表示[13]。

圖1 基于SVM的文本分類功能示意圖
中文文本分類系統(tǒng)設計的重點首先就是系統(tǒng)的總體界面,系統(tǒng)的總體界面如圖2所示。其對應的算法格式與之前提到的相同,且是由權重算法自動生成的。作用就是負責對顯示系統(tǒng)和響應系統(tǒng)的菜單進行操作和處理,并且所有菜單的操作和處理都是基于此類算法產生的。本系統(tǒng)所有的實現(xiàn)功能首先都是要經過界面上顯示的“操作 ”按鈕來實現(xiàn)的,換句話說,系統(tǒng)的所有功能在操作界面上都可以體現(xiàn)出來。在對文本進行分類操作時,首先單擊“訓練 SVM分類器”菜單選項,這時會跳出一個訓練設置界面,在設置完成后點擊確認按鈕,系統(tǒng)就會自動進行分類訓練。這時觀察SVM文本分類和查看分類結果菜單都是灰色的狀態(tài),這就說明分類工作還在進行,在完成這部分工作后系統(tǒng)才會進行下一步的操作,也就是進行文本的分類。在分類完成后分類結果會出現(xiàn)在顯示器上。本系統(tǒng)還有一個優(yōu)勢就是默認的參數(shù)往往就是可靠性以及效率最高的值,通常不需要更改,如若需要進行特殊格式的分類,也只需重新單擊參數(shù)值按鈕,重新根據(jù)需求設定即可。需要注意的是,若參數(shù)更改,則分詞器需要進行重新的訓練[15]。系統(tǒng)設計的另一個重點就是特征選擇方式的設計,本系統(tǒng)進行選擇處理的方式分兩種,分別是整體選擇和分類選擇。所謂整體的選擇方式,就是將文本中的詞按照其根本的詞性特點,將其放入統(tǒng)一的數(shù)據(jù)庫中,通過固定的算法,根據(jù)其特征詞進行篩選,最后按照一定的格式排列起來。而第二種分類選擇方式,就是將中文文本中段落細分為類來處理,通過分析,按照權重,詞性等因素劃分完成后對其分別經行評估。根據(jù)評估的的結果,分類放入到數(shù)據(jù)庫中,其最終也是以數(shù)據(jù)表的形式存在。最后根據(jù)實際需求進行調用和選取。

圖2 系統(tǒng)界面
文中在充分研究了傳統(tǒng)中文文本分類系統(tǒng)的基礎上,設計并開發(fā)了一個效率高,分類精確的中文文本分類系統(tǒng),即基于SVM的中文文本分類系統(tǒng)。通過對SVM方法的概述,系統(tǒng)的可行性分析介紹,系統(tǒng)的詳細設計,特別是對界面模塊以及特征選擇模塊進行了詳細的說明。很好的解決了傳統(tǒng)中文文本分類方式所面臨的問題,大幅度的提高了文本分類的效率和準確性,達到了設計要求。
[1]袁彥芹.基于支持向量機的大規(guī)模文本分類研究與設計[D].山東:山東師范大學,2007.
[2]都云琪,肖詩斌.基于支持向量機的中文文本文檔自動分類研究[J].計算機工程,2002(11):137-138.
[3]王永成.中文信息處理技術及基礎[M].上海:上海交大出版社,1999.
[4]成穎,史九林.自動分類研究現(xiàn)狀與展望 [J].情報學報,1999,18(2):20-26.
[5]王閏強,胡鐵軍.中文文本文檔自動分類研究進展[J].醫(yī)學情報工作,2002(6):342-347
[6]葉新明,徐進鴻.中文文獻自動分類研究 [J].情報科學,1992,13(5):31-34.
[7]朱蘭娟.中文文獻自動分類的理論與實踐 [J].情報科學,1987,6(6):433-437.
[8]肖明,沈英.自動分類研究進展.現(xiàn)代圖書情報技術[J]. 2000,5(3):25-28.
[9]田軍.圖書自動分類的數(shù)學建模型及實現(xiàn)[J].圖書情報工作,2001,9(2):44-47.
[10]李曉黎,劉繼敏,史忠植.概念推理網及其在文本分類中的應用[J].計算機研究與發(fā)展,2000:37.
[11]鄒濤,王繼成,黃源等.中文文檔自動分類系統(tǒng)的設計與實現(xiàn)[J].中文信息學報,1999,13(3):124-157.
[12]陶蘭,申軍霞.文本信息自動分類系統(tǒng)[J].中國農業(yè)大學學報,1999,4(4):341-357.
[13]馬忠寶.基于支持向量機的中文文本分類系統(tǒng)研究[D].武漢:武漢理工大學,2006.
[14]朱德熙.語法講義[M].上海:商務印書館,1982.
[15]周程遠.中文自動分詞系統(tǒng)的研究與實現(xiàn)[D].上海:華東師范大學,2008.
Design and implementation of Chinese text categorization system based on Support Vector Machine
ZHANG Zhao-nan
(Shaanxi Vocational and Technical College,Xi'an 710000,China)
The internet has become an indispensable part in modern life,the amount of information on the network also several times at the speed of fast growth.Both the enterprises and institutions,schools,or scientific research in colleges and universities,and so on organization,have accumulated a lot of information,the information is mostly in the form of document. So,in the face of these massive amounts of text document information,how to effectively manage and utilize them becomes a have to solve the problem.This article is in the SVM,namely,on the basis of support vector machine(SVM)method,a Chinese text classification system is designed.Introduces the system requirement analysis,and has carried on the detailed design of system,after the initialization of the concept of design to detailed design,realized the ultimate goal of Chinese text classification system based on SVM,and has reached the design requirements.
text classification;support vector machine;text presentation;feature selection
TN99
A
1674-6236(2016)16-0139-03
2016-03-22稿件編號:201603297
張昭楠(1986—),女,陜西渭南人,碩士研究生,助教。研究方向:中國古代文學,語言學及應用語言學。