999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向科研與教學的文本分類平臺構建

2015-12-15 01:57:35路永和彭燕虹劉文秋
現代情報 2015年9期

路永和+彭燕虹+劉文秋

〔摘 要〕為提高中文文本分類科研與教學人員的工作效率,本文針對國內現有中文文本分類系統的研發現狀,構建一個包括預處理、特征選擇、權值計算、自動分類和分類效果測評等文本分類全過程的管理平臺。開發過程中,本文使用系統集成思想和方法將自編軟件代碼與相關的開源軟件代碼進行集成。經測試,該系統實現了文本自動分類過程的全部功能。

〔關鍵詞〕文本分類;MVC;語料庫;訓練集;測試集

DOI:10.3969/j.issn.1008-0821.2015.09.011

〔中圖分類號〕TP391 〔文獻標識碼〕B 〔文章編號〕1008-0821(2015)09-0056-07

〔Abstract〕In order to improve the working efficiency of the people which are occupied in scientific research and teaching of Chinese text categorization and considering about the research and development status of the text categorization system in China,a management platform of text categorization for the whole process,including pre-processing,feature selection,weighting calculation,automatic classification and classification evaluation were built.In the process of the development,based on the principle and method of system integration,the coding of ourselves and the ones of the related open source software were integrated.After testing,the system implemented the whole functions of automatic text categorization.

〔Key words〕text classification;MVC;corpus;training set;testing set

文本分類是基于內容的自動文本信息管理,隨著網絡文本數量呈幾何級數增長,文本分類已成為處理和組織海量文本信息的關鍵技術[1]。文本分類就是將文本信息分到已定義好的一個或多個類中,從而幫助人們更好更快的檢索到有用信息,過濾掉無用信息。一般而言,文本分類分為以下5個環節,包括:文本預處理、特征選擇、權值計算、分類算法、分類效果測評。當前,文本分類技術被廣泛應用于日常數據管理的各個方面[2-4],如瀏覽器的資源分層、垃圾短信郵件的過濾、敏感信息的預警、網絡輿情監測[5]等。但由于文本分類流程的復雜性,需要撰寫大量的代碼,不僅耗時耗力、成本代價高昂,且造成了嚴重的代碼重復,浪費了研究者們的寶貴時間、延長了科研進度,使很多學者不能在第一時間完成自己的最新研究。對致力于學習文本分類技術的高校學生而言,由于文本分類過程的抽象復雜,他們很難學習到相應知識內核。基于上述原因,研發一個面向教學與科研的文本分類平臺,實現數據集導入、訓練集與測試集索引、特征選擇、權值計算、文本分類并提供可視化的界面,使得科研人員、高校學生甚至包括無技術背景的人員均能利用此文本分類系統進行文本分類領域的相關研究與應用。

1 系統需求分析

目前,國外已經開發出了一些成熟的文本分類平臺,如著名的IBM商用數據挖掘平臺IBM Intelligent Miner,是一款包含文本分類、預測、關聯規則產生等基礎研究成果在內的可伸縮性平臺。該平臺提供了豐富的數據分析技術和算法集,具有大量易于開發者使用的編程接口,是市場上最強大的數據分析平臺之一[6]。但是作為商用挖掘工具,該平臺價格較高且不宜用于學術研究。斯坦福大學自然語言處理組提供了開源的Natural Language Toolkit(NLTK)平臺用于進行分詞、詞性標注、文本分類等工作[7],但NLTK只適用于Python語句且主要支持英文及其他一些拉丁語系,無法處理中文語料。Waikato大學研究的開源平臺Waikato Environment for Knowledge Analysis(WEKA),它包含對數據進行預處理、關聯規則挖掘、分類、聚類等多種功能,并提供了易于交互的可視化界面[8]。Weka的源碼是公開的,因此使用者可以根據自身需要對Weka進行二次開發,拓展其功能或者整合到相應的系統中。相比國外,國內在文本分類平臺開發上發展較慢,主要是基于國外著名開源平臺進行的二次開發。自主研制的相關平臺主要有復旦自然語言處理(FudanNLP,FNLP)、中科院漢語分詞系統(Institute of Computing Technology,Chinese Lexical Analysis System,ICTCLAS)以及譚松波的DRAP文本分類系統。FNLP主要包括了以下功能:文本分類、實體名識別、新聞聚類、詞性標注、中文分詞、關鍵詞抽取、依存句法分析等。工具采用Java編寫,并提供了API的訪問調用方式[9]。但此平臺初始化時間有點長,并且加載模型時占用內存較大,在進行語法分析時分析的結果也不是十分準確。ICTCLAS主要包括以下功能:中文分詞、詞性標注、命名實體識別、新詞識別,同時支持用戶詞典。目前,ICTCLAS30分詞速度單機996KB/s,分詞精度9845%,API不超過200KB,各種詞典數據壓縮后不到3M,是當前世界上最好的漢語詞法分析器[10]。但是ICTCLAS并非完整的文本分類系統,只包含了文本分類過程中文檔預處理環節的切分詞操作。DRAP文本分類系統,支持中英文分類、中文最大匹配分詞、特征選擇、英文詞根還原、停用詞去除、雙語種分類和多線程分類,其中雙語種分類、多線程分類需要定制后才可使用[11]。但是該分類平臺并不能進行特征選擇方法以及分類器的選擇,各個分類環節采取系統默認設置,同時系統實用性不強、極易閃退。綜合而言,國內尚未有成型且使用效果良好的文本分類系統平臺,開發一個易于使用、功能簡捷、操作簡單的文本分類系統,將為自動文本分類技術的使用者提供極大的便利。endprint

基于此,本系統平臺搭建的主要目標是為從事文本分類教學、科研的人員提供一個易于使用、功能簡捷、對系統運行環境要求不高、具有可視化功能的文本分類系統。為了達到此目標,系統的功能性需求包括:(1)提供可視化的使用界面,用戶只需點擊相應按鈕,即可執行所需的文本分類各個環節的操作,不再需要人為進行代碼撰寫;(2)提供單篇文檔分類、多篇文檔分類兩個入口,以滿足不同需求;(3)提供各個環節的運行結果,使得用戶能夠及時了解文本分類各個環節的運行情況。同時,系統需要滿足以下2個非功能需求,才能更好地服務于使用者,包括:(1)易使用性:系統具有良好的交互界面,界面功能描述清晰,步驟明確,用戶只要執行選擇、確定操作,即可順利使用平臺;(2)健壯性:系統平臺應該可靠有效,即使出現系統故障或是用戶輸入、操作錯誤或者其它異常,也能夠迅速捕獲并進行處理。

2 系統構建

21 系統總體架構

本系統使用MVC三層架構設計,包括表示層、業務邏輯層以及數據訪問層,開發語言采用Java,如圖1所示。

用戶通過表示層進行界面操作。第一步:索引訓練集、索引測試集以進行文本預處理操作,通過用戶請求監聽模塊訪問業務邏輯層文本預處理模塊,調用文本預處理接口,運行文本預處理各個環節,包括ICTLAS分詞、去停用詞、Lucene特征詞索引以及統計詞頻,生成一個wordCount.txt文件(即詞頻統計文件)存儲于數據訪問層中。第二步:用戶通過界面操作特征選擇環節,包括選擇特征選擇方法以及輸入特征維數,通過用戶請求監聽模塊訪問業務邏輯層特征選擇模塊,調用特征選擇接口,讀取wordCount.txt文件,運行特征選擇業務,生成特征選擇方法維數txt文件,存儲于數據訪問層中。第三步:用戶通過界面選擇所需的權值計算方法以進行權值計算操作,通過用戶請求監聽模塊訪問業務邏輯層權值計算模塊,調用權值計算接口,分別讀取各個特征選擇方法維數txt文件,運行權值計算業務,生成相應TrainSet權值計算方法aff文件和TestSet權值計算方法aff文件,存儲于數據訪問層中。第四步:用戶通過界面選擇所需的分類算法以進行分類操作,通過用戶請求監聽模塊訪問業務邏輯層WEKA分類算法模塊,調用Weka分類算法接口,分別讀取成對的TrainSet權值計算方法aff文件和TestSet權值計算方法aff文件,運行分類業務。第五步:第四步運行分類業務后,直接訪問業務邏輯層分類效果測評模塊,運行分類效果測評業務,包括單篇測試文檔分類結果(分類結果、實際類別),測試集分類結果(準確率、宏平均值、微平均值),業務邏輯層運行結果直接返回表示層,在用戶界面顯示分類效果測評(準確率、宏平均值、微平均值)。

22 主要功能模塊

本系統主要功能大致可以分為四大模塊:表示模塊,用戶請求監聽模塊、業務邏輯模塊和數據存儲模塊。

221 表示模塊,即系統平臺界面

表示模塊即文本分類系統的UI,負責接受用戶的請求并返回請求內容,該模塊使用JFC技術,界面中使用了Java Swing和Java AWT等UI組件。在Java Swing中,每一個組件都包含一個MVC模型,Model模塊決定組件的行為,View模塊決定組件的UI。以JButton為例,按鈕表面提示文字,如“特征選擇”按鈕,這部分就是View。而當前按鈕是被鎖定的還是處于激活狀態,如“按鈕是否能被點擊”,這部分就是Model。

222 用戶請求監聽模塊

使用ActionListener接收表示層所發出的請求,對請求進行相應處理,并將處理后的結果返回給表示層。用戶請求監聽模塊主要負責監聽用戶的操作,并根據用戶的請求,更新文本分類子系統的配置信息。該模塊主要為表示層提供服務,同時充當表示層和業務邏輯層間溝通的橋梁,包括:監聽用戶操作和控制輸入規范。因此,該模塊主要解決以下兩個問題:①系統能夠精確地捕獲用戶的操作并可以為用戶提供即時反饋;同時,在響應用戶的請求過程中,需要保證不會錯過用戶的其它操作。②系統接受的數據需要控制在一定的范圍內,同時保證數據是有效的輸入。對于規范要求以外的輸入,系統能夠正確地判斷出來,并且以合理的方式處理。

223 業務邏輯模塊

本系統的業務邏輯模塊即文本分類的流程操作,包括:①文本預處理:ICTCLAS分詞、去停用詞、Luence建立索引和統計詞頻;②特征選擇:信息增益、卡方檢驗和互信息;③權值計算:TF-IDF;④分類算法:K最近鄰算法、樸素貝葉斯算法、支持向量機算法和J48決策樹算法;⑤分類效果測評:準確率、宏平均F值和微平均F值。

224 數據存儲模塊

即包括系統所涉及的所有數據文件的安全持久存放。數據主要保存為txt格式和arff格式。其中:①txt格式:wordCount.txt主要的作用是保存詞頻統計的結果,如某文本出現在類別Ci中的頻次,出現在類別Ci的文本數量等。后續特征選擇模塊和特征權值計算模塊在使用特征詞的詞頻等數據能夠直接從這個文件中調取。特征選擇方法維數txt主要的作用是保存某一維數下采用某一特征選擇方法得到的特征詞;②arff格式的文件是Weka默認的儲存數據集文件。每個ARFF文件對應一個二維表格。表格的各行是數據集的各實例,各列是數據集的各個屬性。因為本文設計的文本分類系統平臺在分類算法模塊中調用Weka開源工具,所以特征權值計算模塊的最終輸出為arff格式文件,方便分類算法模塊的調用。

3 系統設計與實現

31 用戶請求監聽子系統

用戶請求監聽子系統主要基于GUI類。首先,GUI類繼承了JFrame類,同時實現了ActionListener接口,故其本身是一個具有監聽事件行為的窗口。其次,GUI類作為用戶界面,是整個系統的入口。在GUI類的構造過程中,將按鈕和文本框布局到GUI類上,并分別為它們設置對應的監聽事件。整個用戶界面設置的事件有5種:endprint

(1)分類算法的單選按鈕事件RadioListener1。該事件用于更新文本分類算法。當用戶選擇了某種文本分類方法,那么用戶請求監聽子系統就會把文本分類子系統的分類算法設置為對應的值。

(2)特征選擇方法的單選按鈕事件RadioListener2。該事件用于更新特征選擇方法。當用戶選擇了某種特征選擇方法,那么用戶請求監聽子系統就會把文本分類子系統的特征選擇方法設置為對應的值。

(3)權值計算方法的單選按鈕事件RadioListener3。該事件用于更新權值計算方法。當用戶選擇了某種權值計算方法,那么用戶請求監聽子系統就會把文本分類子系統的權值計算方法設置為對應的值。

(4)特征維數文本框的內容更新事件KeyAdapter。該事件用于檢測特征維數的有效性。如果用戶填寫的特征維數不在有效范圍內,那么系統就會提示特征維數無效。

(5)文本分類子系統激活事件GUI(GUI實現了ActionListener接口)。該事件主要用于執行文本分類子系統的任務,包括索引訓練、特征選擇、權值計算和分類。

用戶請求監聽子系統的類圖,如圖2所示,這里略去函數和屬性。

32 文本分類子系統

文本分類子系統包括文本預處理、特征選擇、權值計算、文本分類、文本分類效果測評等,系統流程圖,如圖3所示。

321 文本預處理

文本預處理是文本分類環節中重要的一環[12]。文本預處理的主要目的是抽取代表文本特征的元數據(特征項),一般包括去除標記、去除停用詞以及在特定情況下進行分詞處理等工作[13]。本系統中,文本預處理主要用于實現中文文本分詞、特征詞索引和特征詞詞頻統計。本文的文本預處理操作,通過將中科院分詞器ICTCLAS整合進Lucene平臺完善了Lucene平臺對中文分詞的不足,在利用ICTCLAS進行分詞后,用Lucene實現后續的去停用詞、建立索引、統計詞頻等文本預處理操作。為文本預處理設計的類包括:

GUI類:主要負責前臺界面展示和人機交互控制。

MainText類:主要設計文本分類全部流程的接口,包含文本預處理、特征選擇、文本分類的接口。

TermStatistic類:包含文本分詞、特征詞索引、特征詞詞頻統計操作接口。

ICTCLASAnalyzer類:主要實現中文文本的分詞操作。

Indexer類:將分詞后的單詞按照字典順序進行索引操作,便于下一步詞頻統計。

WordFrequence類:利用分詞和索引的結果,統計特征詞詞頻,為下一步特征選擇和特征權值計算做數據準備,運行后生成wordCount.txt。

用戶選擇完訓練集路徑后,用戶監控系統把用戶的請求提交給業務邏輯層,MainTest類調用函數setTrainpath和getTestpath分別記錄訓練集和測試集路徑。當用戶點擊“索引訓練集”按鈕后,用戶監控系統把用戶的請求提交給業務邏輯層,MainTest類調用類TermStatistic對訓練文檔和測試文檔進行索引。索引完畢后,TermStatistic的對象調用WordFrequence類進行詞頻統計,統計后的結果保存到wordCount.txt文件上。

322 特征選擇

特征選擇用于從原有的特征中提取出少量的、具有代表性的特征,并替代原始特征集進行文本分類。在文本分類中,特征選擇是一項很重要的工作,抽取到的特征項質量的好壞直接影響到分類的效果[14]。本文的文本分類平臺中整合了經典的特征選擇方法,包括信息增益IG、開方檢驗CHI以及互信息MI。其中本文設計的平臺設置CHI作為特征選擇的默認方法。為特征選擇設計的類包括:

GUI類:主要負責前臺界面展示和人機交互控制。

MainText類:主要設計文本分類全部流程的接口,包含文本預處理、特征選擇、文本分類的接口。

FeatureSelection類:特征選擇基類,在基類上派生具體的特征選擇類,如CHI-FS類。

Parameter類:保存訓練文本集、測試文本集以及新生成特征詞及其詞頻文件的存放路徑。

Method類:主要包含詞頻以及CHI方法中所需參數。

用戶提交請求后,用戶監控系統把用戶的請求提交給業務邏輯層,MainTest類通過函數setFSType()來設置用戶特征選擇的方法,在執行特征選擇操作之前,先通過setFeatureNum函數獲取用戶設置的特征維數,然后調用FeatureSelection()函數來執行特征選擇操作。FeatureSelection()函數通過變量FSType確定調用哪個特征選擇方法類并生成一個實例。假設用戶使用默認特征選擇方法CHI,將特征維數getFeatureNum()作為參數傳入其中。通過Method類下的getDocNumInC()函數獲取訓練集中的文本數,通過調用termCountSum()函數獲取預處理后的每個類別下的特征項。

323 權值計算

特征權值就是用來表示某個特征項分類能力的強弱。現行的很多分類算法都利用向量空間模型(Vector Space Model,VSM)來進行文本表示,用特征項和特征權值來代表特征信息[15]。本文設計的平臺中設置TF-IDF作為權值計算的默認方法。為權值計算設計的類包括:

GUI類:主要負責前臺界面展示和人機交互控制。

MainText類:主要設計文本分類全部流程的接口,包含文本預處理、特征選擇、文本分類的接口。

TermWeightCalculation類:特征權值計算基類,在基類上派生具體的特征權值計算類,如TFIDF類。endprint

Parameter類:保存文件路徑,具體包括:訓練文本集、測試文本集、新生成特征詞、詞頻以及特征權值計算生成的文件。

用戶提交請求后,用戶監控系統把用戶的請求提交給業務邏輯層,MainTest類通過函數setWeightType()來設置用戶權值計算的方法,然后調用TrainWeightCalculate()函數以及TestWeightCalculate()函數來分別執行訓練集以及測試集權值計算操作。TrainWeightCalculate()函數以及TestWeightCalculate()函數通過變量WeightType確定調用哪個特征權值計算方法類并生成一個實例。

324 分類算法與效果測評

文本分類算法是文本分類中的核心問題,也稱為文本分類器或分類模型[13]。文本分類根據文本的特征和權值,將文本按照一定的分類規則自動標注文本類別的過程。作為一個文本分類系統平臺,應整合多種經典的算法,供平臺使用者進行實驗對比。由于Weka已經涵蓋了大部分的分類算法,本文介紹的平臺上的分類算法是調用Weka的分類算法,其中包括KNN算法、樸素貝葉斯算法、支持向量機(SVM)算法和J48決策樹算法。其中本文設計的平臺設置KNN為默認的分類算法。為分類算法設計的類包括:

GUI類:主要負責前臺界面展示和人機交互控制。

MainText類:主要設計文本分類全部流程的接口,包含文本預處理、特征選擇、文本分類的接口。

WekaClassifier類:整合了Weka開源平臺中大部分文本分類方法的類接口,調用Weka中的類IBk、LibSVM、J48、NaiveBayes,并根據Weka中的分類算法返回的結果生成分類器。

Classifier類:分類算法基類,在基類上派生具體的分類算法類,如KNN類、SVM類、J48類以及BAYS類。

ArffLoader類:讀取訓練文件和測試文件。

ArrayList類:輸出每一個測試語料的文本分類測評結果,包括分類結果和實際類別。

用戶提交請求后,用戶監控系統把用戶的請求提交給業務邏輯層,MainTest類通過函數setClassifierType()來設置用戶分類算法,然后在wekaClassifier類中調用Classify()函數來執行分類算法操作。Classify()函數通過變量type確定調用哪個分類算法并生成一個實例。通過ArffLoader類下的getDataSet()函數獲取訓練集及測試集文件,通過各個實例類的buildClassifier()函數進行分類訓練,通過調用classifyInstance()函數及classValue()函數獲取分類后的每個測試語料的分類結果,通過ArrayList類循環輸出分類結果。

4 系統功能測試

采用復旦中文分類語料庫作為系統測試的語料庫,選取其中的9個類別,包括Agriculture、Art、Computer、Economy、Environment、History、Politics、Space以及Sports。各個類別均有400個文本,按1∶1隨機分配,訓練集與測試集各為200個,數據集共有3 600個文本。本文設計的文本分類系統可在“中大極天智能信息處理實驗室”[16]上下載,安裝后可對平臺的各項功能進行測試。

41 文本預處理

索引訓練集和測試集過程中,系統會對訓練語料和測試語料進行分詞、去停用詞、索引和統計操作。具體操作包括:對每個文檔進行切分詞操作,并對每個特征項評估其詞性,從而便于在去停用詞階段排除某些詞性的特征項。在進行分詞處理后,對訓練文本集建立索引,便于后續進行詞頻統計等工作。索引結束后系統會輸出建立索引所花費的時間。針對復旦中文分類語料庫,1 800篇訓練文檔,共花費了127 910毫秒來建立索引;1 800篇測試文檔,共花費了237 385毫秒來建立索引。

42 特征選擇

任意選擇平臺上一種經典的特征選擇方法,輸入特征維數然后點擊“特征選擇”按鈕,后臺運行特征選擇操作,在系統平臺結果區會出現經過特征選擇后被選出的特征項列表。以特征維數600為例,分別利用CHI、IG、MI進行特征選擇操作,得到前20個特征詞如表1所示。

觀察各個特征選擇方法得到的前20個特征詞可知:CHI、IG得到的特征詞較為類似,而MI與CHI、IG的特征詞差別較大。

43 權值計算

選擇權值計算方法,進行“訓練集權值計算”和“測試集權值計算”,運行完成后生成相應的訓練集與測試集的arff格式文件,以供分類算法環節使用。以特征維數為600的CHI特征選擇方法為例,利用TF-IDF進行特征權值計算,得到TrainSetTFIDF.arff和TestSetTFIDF.arff,分別包含了各個訓練文本和測試文本的向量空間,如圖4所示。

44 分類算法與效果測評

任意選擇分類算法進行文本分類操作,在系統平臺結果區會輸出各個測試文檔的分類情況,包括分類結果以及實際類別;界面右側會輸出各個類別的分類效果,包括精度、召回率和F1測度;界面下端會輸出整體數據集分類效果,包括準確率、宏平均以及微平均。基于特征維數為600的CHI特征選擇方法以及TF-IDF特征權值計算方法,分別利用K鄰近算法(KNN)、支持向量機(SVM)、決策樹(J48)、貝葉斯算法(BAYS)進行分類操作,得到各個類別的分類效果(見表2)和數據集整體分類效果(見表3)。

由表2及表3可知,對于復旦中文分類語料庫的9個類別而言,J48決策樹分類算法的分類效果明顯優于KNN、SVM、BAYS 3種算法,各個類別分類精度分布于[086,098]之間,召回率分布于[086,097]之間,F1測度分布于[086,097]之間,均達到較好的分類效果;對于整體分類效果,其分類準確率高達930556%,宏平均值為09302,微平均值為09306。其它3種分類算法的分類效果相對較差。整體分類效果BAYS優于KNN、SVM,SVM最差。不同的語料庫,應用不同的分類算法得到的分類效果會有差別,對于復旦中文分類語料庫而言,其可能更適合利用決策樹分類算法進行文本分類。endprint

5 結 語

隨著文本分類領域的深入研究和應用,越來越多的應用者不得不進行文本分類技術相關代碼的撰寫,耗費了大量的人力物力。本文針對此種問題,開發了文本分類系統平臺。基于java開源組件,整合中科院分詞器ICTCLAS、Lucene平臺以及WEKA源碼,對文本分類系統進行設計和開發,不僅實現了文本分類各個流程的操作,還向用戶提供了一個可視化操作界面。該系統具有可拓展性,且操作簡單,用戶無需了解平臺代碼即可自行傳入數據集文件,點擊相應的文本分類環節即可完成相應操作。

除了已實現的功能外,系統平臺還存在一些有待完善和擴展的地方,主要包括以下方面:

(1)將文本分類流程進一步細化,為用戶帶來更多的靈活性。可將文本預處理操作細分為分詞、去停用詞和統計詞頻等方式。分詞可以提供多種分詞器,去停用詞可以使用去停用詞表和詞性篩選兩種方式,給予用戶更多的選擇。

(2)搭建Web端平臺界面,采用B/S模式提供服務,提供擴展接口,用戶可將自己設計的特征選擇方法、特征權重計算方法以及分類算法等嵌入平臺,進行對比實驗,有助于同行交流,了解最新的算法改進研究及進展。

(3)在現有系統UI的基礎上,進一步優化用戶界面,在保證平臺實用性的同時,使平臺更具美觀性、吸引更多用戶。

(4)支持多種語言,將平臺推向國際化。

參考文獻

[1]蘇新寧.信息檢索理論與技術[M].北京:科學技術文獻出版社,2004:273-307.

[2]Elsayed E,Eldahshan K,Tawfeek S.Automatic evaluation technique for certain types of open questions in semantic learning systems[J].Human-centric Computing and Information Sciences,2013,3(1):1-15.

[3]Sarkar K.Automatic single document text summarization using key concepts in documents[J].Journal of information processing systems,2013,9(4):602-620.

[4]Guo X,Sun H,Zhou T,et al.SAW Classification Algorithm for Chinese Text Classification[J].Sustainability,2015,7(3):2338-2352.

[5]馬海兵,畢久陽,郭新順.文本分類方法在網絡輿情分析系統中的應用研究[J].情報科學,2015,33(5):97-101.

[6]Cabena P,Choi H H,Kim I S,et al.Intelligent Miner for Data Applications Guide[J].IBM RedBook SG24-5252-00,1999.

[7]Bird S.NLTK:the natural language toolkit[C]∥Proceedings of the COLING/ACL on Interactive presentation sessions.Association for Computational Linguistics,2006:69-72.

[8]陳慧萍,林莉莉,王建東,等.WEKA數據挖掘平臺及其二次開發[J].計算機工程與應用,2009,44(19):76-79.

[9]Qiu X,Zhang Q,Huang X.FudanNLP:A Toolkit for Chinese Natural Language Processing[C]∥ACL(Conference System Demonstrations),2013:49-54.

[10]NLPIR漢語分詞系統[EB/OL].http:∥ictclas.nlpir.org,2015-05-24.

[11]DRAP文本分類系統簡介[EB/OL].http:∥www.searchforum.org.cn/tansongbo/software.htm,2015-05-24.

[12]Uysal AK,Gunal S.The impact of preprocessing on text classification[J].Information Processing & Management,2014,50(1):104-112.

[13]肖可,奉國和.1999-2008年國內文本分類研究文獻計量分析[J].情報學報,2010,29(4):679-687.

[14]鄭偉,呂建新,張建偉.文本分類中特征預抽取方法研究[J].情報科學,2011,29(1):86-88,92.

[15]Salton G,Buckley B.Term-weighting Approaches inAutomatic Text Retrieval[J].Information Processing & Management,1998,24(5):513-523.

[16]中大極天智能信息處理實驗室[EB/OL].http:∥iipl.sysu.edu.cn/,2015-05-24.

(本文責任編輯:郭沫含)endprint

主站蜘蛛池模板: 99热国产在线精品99| a毛片基地免费大全| 色亚洲成人| 特级精品毛片免费观看| 久久综合激情网| 91青青视频| 无套av在线| 91无码国产视频| 日韩精品专区免费无码aⅴ| 又爽又黄又无遮挡网站| 亚洲人成色77777在线观看| 久久精品国产亚洲麻豆| 伊人无码视屏| 91 九色视频丝袜| 91青青草视频| 久久熟女AV| 国产福利一区视频| 91免费国产高清观看| 国产成人免费视频精品一区二区| 成人福利一区二区视频在线| 亚洲男女在线| 波多野结衣视频一区二区| 国产女人18水真多毛片18精品| 欧美日本在线一区二区三区| 在线视频一区二区三区不卡| 国产女人在线视频| 国产无人区一区二区三区| 日韩第九页| 综合人妻久久一区二区精品 | 无码'专区第一页| 国产sm重味一区二区三区| 国产高清无码麻豆精品| 免费中文字幕一级毛片| 伊人激情综合| 久久精品国产免费观看频道| 一区二区欧美日韩高清免费| 91网在线| 色综合五月婷婷| 欧美色图第一页| 精品福利视频网| 国产精品夜夜嗨视频免费视频| 亚洲精品在线观看91| 久久www视频| 国产精品护士| 国产福利不卡视频| 国产福利小视频在线播放观看| 永久成人无码激情视频免费| 欧亚日韩Av| 亚洲精品无码专区在线观看| 国产真实二区一区在线亚洲 | 国产欧美日韩专区发布| 国产人碰人摸人爱免费视频| 欧美黄色网站在线看| 久久91精品牛牛| 欧美激情二区三区| 日韩成人在线网站| 91热爆在线| 国产高清又黄又嫩的免费视频网站| 成人在线亚洲| 97国产在线观看| 亚洲综合狠狠| 亚洲成年人片| 欧美日韩免费| 欧美色99| 久久综合亚洲鲁鲁九月天| 无码一区二区三区视频在线播放| 国产成人精品一区二区秒拍1o| 日韩在线永久免费播放| 久久婷婷综合色一区二区| 久久亚洲中文字幕精品一区 | 成人精品视频一区二区在线| 亚洲国产高清精品线久久| 欧美成人精品一级在线观看| av无码久久精品| 99久久精品久久久久久婷婷| 亚洲av日韩av制服丝袜| 亚洲无码高清一区| 精品国产91爱| 欧美α片免费观看| 欧美性天天| 久草网视频在线| 成人va亚洲va欧美天堂|