999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文檔結構的特征權重計算方法研究

2019-05-24 14:17:58羅衎馬佳佳
軟件導刊 2019年5期

羅衎 馬佳佳

摘 要:針對不同類別文檔可能被表示為相同向量的問題,在研究常用文檔特征權重計算方法的基礎上,分析文檔中特征項之間的相對位置關系,引入文檔結構矩陣DS。將DS與3種常用權重算法相結合,構造3種新模型,并利用6種模型在實際語料上進行分類實驗。結果表明,基于DS的權重算法與原始權重算法相比,能夠提高文本分類效果。

關鍵詞:文本分類;向量空間模型;文檔結構;特征權重;特征選擇

DOI:10. 11907/rjdk. 182038

中圖分類號:TP301 文獻標識碼:A 文章編號:1672-7800(2019)005-0065-04

Abstract: Documents in different categories can be represented as the same vector, relative position relationships among features in the document are considered in the paper on the basis of analyzing commonly-used document feature weighting methods aiming at the problem, and document structure matrix DS is introduced. DS is combined with three commonly-used weight algorithms for conforming three new models. The six models are utilized for classification experiment on actual corpus. Experimental results show that the weight algorithms based on DS can improve classification effect of documents compared with original weight algorithms.

Key Words: document classification; vector space model; document structure; feature weight; feature selection

0 引言

隨著網絡技術的快速發展,網絡信息量呈爆發式增長,如何對網絡信息進行有效檢索已成為一個研究熱點。因此,對文檔進行快速有效的分類已成為處理與組織文本數據的關鍵技術之一[1]。

向量空間模型VSM(Vector Space Model)常用于文本分類中,其思想是將文檔形式轉化為多維向量空間中的一個向量,并通過空間中的向量相似度表示文本之間相似度[2]。但其只提供了一個理論框架,并沒有確定特征項權重計算方法[3]。因此,要提高文本分類效果,可以從特征項權重相關算法入手,選擇最合適的權重計算方法。

目前常用權重計算方法是TF-IDF(Term Frequency-Inverse Document Frequeny),但該方法仍然存在一些缺陷。數據集在類間分布往往不均衡,即不同類別文檔數量可能有巨大差別,從而對TF-IDF的最后計算結果造成很大影響[4]。為了降低數據集偏斜對結果的影響,How等[5]提出一種Category Term Descriptor(CTD)方法,取得了很好的效果。

假設某個特征詞在一個類別中出現頻率高,同時在其它類別中出現頻率低,可認為該特征詞能夠很好地表達所在類文檔[6]。但是從IDF定義可得出,該詞有可能被賦予較低權重。針對該缺陷,很多學者從類間分布集中度與類內分布均勻度出發對TF-IDF加以改進,如Deng等[7]提出的CRF算法、沈志斌等[8]提出的BOR-TFI-DF權重函數,以及臺德藝等[9]的TF-IDF-DIC權重函數、張瑜等[10]的WA-DI-SI算法、路永和等[11]的TW-TF-IDF算法、郭紅鈺[12]的ETFIDF算法等。還有學者引入特征選擇函數以修正特征詞權重,如趙小華等[13]的TF-IDF-CHI算法和李原等[14]引入信息熵IG的TF-IDF算法等。

傳統特征權重算法在文檔本身的信息上,只考慮了文檔詞頻信息,而忽略了文檔結構信息。本文根據文檔特征結構對分類的影響,引入文檔結構矩陣DS(Document Structure)對特征權重進行修正。

1 特征權重計算方法

文本特征權重計算是文本向量化過程中最重要的一個環節,特征權重對分類結果有著直接影響。通過特征權重計算,文本中的重要特征將被賦予較高權重。

1.1 經典特征權重

由圖3可看出,當ws取值大于4以后,分類性能基本不再提高,反而會降低,從而得出結論:在一篇文檔中,特征T通常最多與距離為4的特征之間有一定關系,與距離大于4的特征之間關系很弱。因此,在以下實驗中,ws均取值為4。

3.3.2 DS算法有效性

為避免實驗結果的偶然性,本文將訓練數據集和測試數據集獨立重復進行10次實驗,使用宏平均F1值評估6種特征權重計算方法的分類性能,結果如表3所示。

從表3與圖4可以看出,DS算法相對于TF-IDF、TF-IDF-logCHI和ETFIDF幾種算法,分類效果均有一定提升。對10次實驗的F1值取平均后可以看出,DS算法將TF-IDF算法的F1值由88.03%提高到88.82%,將TF-IDF-logCHI算法的F1值由88.64%提高到89.31%,將ETFIDF算法的F1值由89.41%提高到89.99%,說明基于文檔特征結構的權重修正算法是有效的,同時也說明該修正算法具有一定的普適性,在多種權重算法上都得到了驗證。

4 結語

本文重點研究了在文本表示中對特征權重算法的改進,提出基于文檔特征結構DS的權重計算方法。通過在TF-IDF、TF-IDF-logCHI、ETFIDF方法上引入DS矩陣進行權重修正,得到了TF-IDF-DS、TF-IDF-logCHI-DS、ETFIDF-DS模型。經過對比發現,基于DS的權重算法使分類效果整體上得到了提升,但是本文仍然存在以下不足:

首先,在文檔特征結構表示上,本文提出的DS計算方式并不是最佳的,從圖4可以看出,在部分實驗中,基于DS的算法分類效果并未得到提升,說明該算法穩定性不足,對于文檔的結構表示還有待進一步研究。

其次,本文實驗的語料僅局限于情感分類,而未在與主題相關分類中進行實驗。因此,未來可擴大語料選取范圍,以驗證改進算法的普適性。

參考文獻:

[1] 徐燕,李錦濤,王斌,等. 基于區分類別能力的高性能特征選擇方法[J]. 軟件學報,2008, 19(1):82-89.

[2] 路永和,李焰鋒. 多因素影響的特征選擇方法[J]. 現代圖書情報技術,2013(5):34-39.

[3] 段江麗. 基于SVM的文本分類系統中特征選擇與權重計算算法的研究[D]. 太原:太原理工大學, 2011.

[4] 施聰鶯,徐朝軍,楊曉江. TFIDF算法研究綜述[J]. 計算機應用, 2009,29(B06):167-170.

[5] HOW B C,NARAYANAN K. An empirical study of feature selection for text categorization based on term weightage[C].Web Intelligence, 2004. WI 2004. Proceedings. IEEE/WIC/ACM International Conference on. 2004:599-602.

[6] 張帆,張俊麗.統計頻率算法在文本信息過濾系統中的應用[J].圖書情報工作,2009,53(13):116-119.

[7] DENG Z H, TANG S W, YANG D Q, et al. A linear text classification algorithm based on category relevance factors[J]. Lecture Notes in Computer Science, 2002, 2555:88-98.

[8] 沈志斌,白清源. 文本分類中特征權重算法的改進[J]. 南京師范大學學報:工程技術版,2008, 8(4):95-98.

[9] 臺德藝,王俊. 文本分類特征權重改進算法[J]. 計算機工程, 2010,36(9):197-199.

[10] 張瑜,張德賢. 一種改進的特征權重算法[J]. 計算機工程, 2011,37(5):210-212.

[11] 路永和,李焰鋒. 改進TF-IDF算法的文本特征項權值計算方法[J]. 圖書情報工作, 2013, 57(3):90-95.

[12] 郭紅鈺. 基于信息熵理論的特征權重算法研究[J]. 計算機工程與應用,2013(10):140-146.

[13] 趙小華,馬建芬. 文本分類算法中詞語權重計算方法的改進[J]. 電腦知識與技術,2009, 5(36):10626-10628.

[14] 李原. 中文文本分類中分詞和特征選擇方法研究[D]. 長春:吉林大學,2011.

[15] 蔣強榮,宋烈金. 基于圖核算法的文本分類[J]. 計算機與現代化,2017(11):13-16,61.

[16] 張愛華,靖紅芳,王斌,等. 文本分類中特征權重因子的作用研究[J]. 中文信息學報, 2010, 24(3):97-104.

[17] 上官彥輝. 基于投資者情緒的股票預測研究[D]. 北京:北京工業大學,2016.

[18] 譚松波. 有關中文情感挖掘的酒店評論語料[EB/OL]. http://www.datatang.com/data/11936.

[19] 魏善嶺,傅英亮,魯明羽. 一種用于互動型不良信息過濾的貝葉斯改進方案[J]. 廣西師范大學學報:自然科學版,2009,27(3):134-137.

[20] 于洪霞. 基于SVM的中文垃圾郵件過濾[D]. 哈爾濱:哈爾濱工程大學,2009.

(責任編輯:黃 健)

主站蜘蛛池模板: 国产在线麻豆波多野结衣 | 永久天堂网Av| 一级毛片在线免费视频| 91精品视频在线播放| 免费a级毛片视频| 日韩无码视频播放| 全色黄大色大片免费久久老太| 欧美视频二区| 国产a在视频线精品视频下载| 亚洲不卡av中文在线| 日韩亚洲高清一区二区| 久久久久久久久18禁秘| 欧美一级在线| 欧美a在线视频| 国产精彩视频在线观看| 久久综合丝袜长腿丝袜| 精品无码一区二区三区在线视频| 欧美国产综合色视频| 国产成人乱无码视频| 1级黄色毛片| 国产成人免费| 国产欧美日韩专区发布| 麻豆AV网站免费进入| 色综合天天综合中文网| 婷婷色狠狠干| 亚洲午夜18| 亚洲女同一区二区| 欧美日韩精品一区二区视频| 国产女人在线视频| 99热最新网址| 国内精自线i品一区202| 亚洲一区精品视频在线| 国产免费看久久久| 国产在线91在线电影| 国产精品浪潮Av| 2021无码专区人妻系列日韩| 国产黄色片在线看| a在线亚洲男人的天堂试看| 国产亚洲欧美在线专区| 日韩在线欧美在线| 国产一国产一有一级毛片视频| 国产本道久久一区二区三区| 国产在线观看91精品| 5555国产在线观看| 亚洲天堂首页| 日韩在线第三页| 性欧美精品xxxx| 欧美啪啪视频免码| 日韩精品无码免费一区二区三区 | 99久久99视频| 国产网友愉拍精品视频| 欧美一道本| 色吊丝av中文字幕| 国产成人精品亚洲77美色| 欧美日韩91| 国产精品开放后亚洲| 国产欧美日韩一区二区视频在线| 中国国产高清免费AV片| 国产成人精品男人的天堂| 国产特一级毛片| 免费A级毛片无码无遮挡| 操操操综合网| 国产探花在线视频| 福利片91| 免费中文字幕一级毛片| 色天天综合久久久久综合片| 色网站在线免费观看| lhav亚洲精品| 伦伦影院精品一区| 国产乱子伦视频三区| 国产激情无码一区二区三区免费| 色综合久久88色综合天天提莫| 亚洲婷婷六月| 一级毛片免费的| 波多野结衣爽到高潮漏水大喷| 成人免费视频一区二区三区| 无码高潮喷水在线观看| 日本不卡免费高清视频| 精品午夜国产福利观看| 国产乱子伦精品视频| 国产最爽的乱婬视频国语对白| 中文天堂在线视频|