999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種融合多種信息的Web文檔分類方法

2018-06-28 02:40:44段國侖郭蕾蕾王曉瑩
網絡安全與數據管理 2018年6期
關鍵詞:分類文本實驗

段國侖,謝 鈞,郭蕾蕾,王曉瑩

(1. 陸軍工程大學 指揮控制工程學院,江蘇 南京 210007;2. 陸軍工程大學 通信工程學院,江蘇 南京 210007)

0 引言

如今互聯網發展快速,在互聯網信息過載、大數據的復雜背景下,網頁數量呈現指數級別的增長,手動網頁分類變得不切實際,于是便產生了網頁文本自動分類技術[1]。網頁文本分類技術具有廣泛的商業前景和發展潛力。網絡搜索引擎需要根據主題尋找到相關的文檔,網絡中的信息過濾[2]、垃圾郵件分類[3]以及目前應用廣泛的數字圖書館建設等,都可以使用Web文檔分類技術實現,因此Web文檔分類具有很好的研究價值。

隨著網絡的快速發展,各種信息元素在網絡中不斷豐富,Web文檔中蘊含的不僅僅是正文文本信息,還包含著圖表信息、URL信息、多媒體信息以及網頁中的隱含信息等。這些信息都可用于Web文檔分類。但是當前許多Web文檔分類系統都是基于正文文本。本文提出一種融合Web文檔多種信息的文檔分類方法,結合智能優化算法,能有效實現Web文檔自動分類,并提升分類精度。

1 相關工作

1.1 向量空間模型

文本向量空間模型的主要思想是:將每一個文本表示為向量空間的一個向量,并以每一個不同的特征項(詞條)對應為向量空間中的一個維度,而每一個維度的值就是對應的特征項在文本中的特征值[4]。向量空間模型就是將文本表示成為一個特征向量:

V(d)=((t1,a1),(t2,a2),…,(tn,an))

其中,ti為文檔d中的特征項,ai為ti的特征值,一般取為詞頻的函數。有了這樣的表示以后,就可以用分類器對樣本分類。

1.2 支持向量機

支持向量機(Support Vector Machine,SVM)是一種在缺乏先驗知識的條件下,以最小化結構風險為目標,對有限樣本進行學習的機器學習方法。支持向量機的基本思想是尋找一個最優超平面或最優超曲面,使得不同類樣本之間的間距達到最大[5]。

支持向量機是目前文本分類中使用較多的分類器。支持向量機最大的特點是解決小樣本、高維度的分類問題,而文本分類就是一個高維度的分類問題,所以支持向量機相對較優。

2 融合多種信息的Web文檔分類方法

針對當前Web文檔分類大多采用的是正文文本作為分類的語料,本文提出一種融合多種信息構建語料庫,在不改進分類算法的前提下,可以有效提升Web文檔分類精度的方法。首先從網絡中爬取包含多種信息的Web文檔,構建自己的語料庫。然后使用TFIDF (Term Frequency-Inverse Document Frequency)計算各個特征的特征值,計算時為不同種信息設置不同的權重w。最后使用支持向量機對Web文檔進行分類,使用遺傳優化算法,根據分類精度,不斷調整各個信息的權重w,最終找到一個最優的信息融合方式。

2.1 網絡爬蟲構建語料庫

目前大多數語料庫只包含了Web文檔的正文文本,沒有包含相關的多種信息,如中科院自動化所的中英文新聞語料庫,搜狗的中文新聞語料庫,李榮陸老師的中文語料庫[6],譚松波老師的中文文本分類語料庫等。

本文通過網絡爬蟲爬取網頁中的多種信息,如正文、描述信息、關鍵字、圖片相關文本、標題以及文章中加粗等特殊字體的文本等,構建語料庫。圖1是鳳凰網中文化專題中的一篇Web文檔示例,顯示了6種信息。為獲取以上信息,使用Python語言編程從網絡中進行爬取,并將爬取的內容進行存儲,關鍵代碼如下:

{

title=soup.select (’# artical_topic’)[0].text

// title

des=soup. find (attrs= {”name”:”description”})

// description

kwords=soup. find (attrs={”name”:”keywords”})

// keywords

for p in soup. select (’#main_content p’)[:-1]:

if (p.select (’span’)):

picIntro. append (p.text.strip())

// picIntro

else:

article. append (p.text.strip())

// article

bold=soup. find_all (’strong’)

// boldwords

}

圖1 Web文檔中的多種信息

2.2 基于遺傳算法的權重優化

如上所述,語料庫中包含6種信息,每種信息對于分類的貢獻不同,因此需要對各部分的權重進行設置。在計算各個特征值的時候,一般采用TFIDF進行計算,計算公式如下:

TFIDF(t,d)=TF(t,d)*IDF(t)

(1)

(2)

其中,TF(t,d)表示特征項t在文檔d中的詞頻數,IDF(t)表示特征項t的逆文檔頻率,N表示總的文檔數量,nt表示包含特征項t的文檔數量。由于采用多種信息用于分類,特征出現在各種信息中貢獻不同,因此式(1)中的詞頻將采用加權詞頻數,計算公式如下:

(3)

其中,wi為第i種信息的權重系數;tfi(t,d)表示在文檔d中,特征項t在第i種信息的詞頻數;n表示信息種類數,本文中n=6。對于(w1,w2,w3,…)值的選擇,本文采用遺傳算法(Genetic Algorithm,GA)來進行尋優。

遺傳算法的實現過程實際上就像自然界的進化過程[7]。首先尋找一種對問題潛在解進行“數字化”編碼的方案。然后用隨機數初始化一個種群,種群里面的個體就是這些數字化的編碼。接下來,通過適當的解碼過程之后,用適應性函數對每一個基因個體作一次適應度評估。用選擇函數按照某種規定擇優選擇。讓個體基因交叉變異。然后產生子代,最終獲得問題的局部最優解。

本文中,將6種信息對應的6個權重值(w1,w2,w3,w4,w5,w6)進行編碼。每三位代表一個w,于是得到一個長度為18的二進制序列。使用選擇、交叉、變異的方式更新編碼值,個體的適應度使用的是該權重下的Web文檔分類精度值。遺傳算法關鍵代碼如下:

{

pop= geneEncoding(pop_size,chrom_length)

for i in range(pop_size):

obj_value=calobjValue(pop,chrom_length)

best_individual,best_fit=best(pop,obj_value)

results.append([best_fit,best_individual])

selection(pop,fit_value)

crossover(pop,pc)

mutation(pop,pm)

}

在分類過程中采用支持向量機作為分類器,通過使用遺傳算法最終找出分類精度最高的權重值。算法流程如圖2所示。

圖2 遺傳算法流程圖

3 實驗結果

為了驗證本文方法的有效性,分別用正文文本和融合多種信息進行Web文檔分類實驗。實驗的語料庫主要從鳳凰網和新浪網上爬取數據建立。語料庫包含9類:文化(487)、娛樂(1 182)、財經(934)、健康(1 097)、歷史(269)、軍事(797)、體育(943)、科技(905)、社會(897),共7 511個Web文檔。按照2:1的比例將語料庫分為訓練集和測試集。實驗過程中,在訓練集采用3次三折交叉驗證方法計算分類精度來尋找最優權重值,在測試集上比較了只使用正文文本和融合多種信息兩種方法的分類結果。本文實驗在Anaconda環境下調用sklearn、matplotlib、numpy、BeautifulSoup等函數庫實現,所有的實驗結果均是在一臺2.50 GHz Intel Core(TM) i7-4710MQ處理器、8 GB內存的筆記本電腦上測試獲得的。

將特征維數設置為700,通過使用遺傳算法,求得(w1,w2,w3,w4,w5,w6)的最優參數值為(1,7,5,5,4,5)。表 1給出了本文遺傳算法所使用的實驗模型參數及測試結果。

表1 GA參數設置及測試結果

實驗使用支持向量機作為分類器,本文選用的是Python工具包svm.SVC的線性分類器,損失函數選用squared hinge loss,使用L2正則化,二類向多類的推廣采用的是“一對多”的方式。

通過訓練集獲得了模型參數以及多種信息的權重,然后根據測試集分別對兩種方法進行測試。圖3顯示的是隨著特征維數增加,使用SVM對兩種情況進行分類得到的準確率曲線圖,召回率和F1度量值曲線圖與準確率曲線圖走勢基本一致。

圖3 不同特征維數下的準確率曲線圖

表2給出了特征維度為700時,兩種方法下各類的分類準確率、召回率、F1度量值對比結果。

表2 Web文檔正文與多信息分類實驗結果

為了便于觀察,將表2的數值用直方圖來顯示,可以更加直觀地發現使用多種信息帶來的分類性能提高。圖4~圖6分別顯示了分類精度、召回率、F1度量的對比實驗結果。

圖4 分類精度對比實驗

圖5 召回率對比實驗

圖6 F1度量對比實驗

實驗結果顯示,融合多種信息,并設置合適的權重,確實可以有效提高分類精度、召回率以及F1度量。從圖3可以看出,隨著分類特征的增加,使用多種信息的分類準確率始終高于僅使用正文文本。在相同維數下,時間復雜度并未增加,但是分類精度卻得到了提升。如表2所示,本文提出的方法可將分類精度平均提高3個百分點左右。

4 結論

本文提出了使用多種信息進行Web文檔分類,并對各個部分的信息進行加權處理,從而提高分類精度。首先從網絡中爬取包含多種信息的文檔建立語料庫,然后給各個信息設置一定的權重,最后使用SVM對Web文檔進行分類。在設置權重時,采用遺傳算法來尋找最優解。本文方法思路簡單,易于實現,且能有效提高分類精度。當然,本文方法主要針對那些Web信息比較豐富或者盡可能多地包含多種信息的網頁,對于一些只包含正文的網頁,相當于又退化為原有的方式。

[1] 靳小波. 文本分類綜述[J]. 自動化博覽, 2006, 23(S1):24-29.

[2] 牛洪波, 丁華福. 基于文本分類技術的信息過濾方法的研究[J]. 信息技術, 2007(12):100-102.

[3] 王金森. 文本分類算法在垃圾郵件過濾中的研究與應用[D].長春:吉林大學, 2006.

[4] 龐劍鋒, 卜東波, 白碩. 基于向量空間模型的文本自動分類系統的研究與實現[J]. 計算機應用研究, 2001, 18(9):23-26.

[5] CRISTIANINI N, SHAWE-TAYLOR J. 支持向量機導論[M].李國正,等,譯.北京:電子工業出版社, 2004.

[6] 李榮陸. 文本分類及其相關技術研究[D]. 上海:復旦大學, 2005.

[7] 周明, 孫樹棟. 遺傳算法原理及應用[M]. 北京:國防工業出版社, 1999.

猜你喜歡
分類文本實驗
記一次有趣的實驗
分類算一算
在808DA上文本顯示的改善
做個怪怪長實驗
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 国产成人av一区二区三区| 亚洲第一精品福利| 欧美一级片在线| 最新国产麻豆aⅴ精品无| 亚洲日本韩在线观看| 毛片网站观看| 高清无码不卡视频| 精品国产99久久| 又黄又爽视频好爽视频| 天堂亚洲网| 波多野结衣第一页| 真实国产精品vr专区| 国产在线一二三区| 久久精品欧美一区二区| 91亚洲国产视频| 高清视频一区| 婷婷色一二三区波多野衣| 日本免费高清一区| 青草午夜精品视频在线观看| 国产色婷婷| 亚洲成a人片| 波多野结衣一区二区三区四区| 亚洲性日韩精品一区二区| 国产日韩丝袜一二三区| 免费va国产在线观看| 91精品国产麻豆国产自产在线| 久久国产av麻豆| 欧洲一区二区三区无码| 啊嗯不日本网站| 国产成人91精品| 青青青亚洲精品国产| 国产欧美在线观看精品一区污| 亚洲性影院| 免费人成在线观看视频色| 国产大全韩国亚洲一区二区三区| 波多野结衣中文字幕久久| av在线5g无码天天| 欧美精品在线免费| 国产美女免费| 伊人久久福利中文字幕| 在线免费看片a| 亚洲无码视频喷水| 日韩午夜伦| 亚洲国产中文综合专区在| 67194在线午夜亚洲| 亚洲高清中文字幕| 日韩国产综合精选| 国产成人a在线观看视频| 亚洲制服丝袜第一页| 日韩中文精品亚洲第三区| 黄色国产在线| 免费在线a视频| 午夜福利网址| 亚洲精品国产成人7777| V一区无码内射国产| 国产成人调教在线视频| 午夜福利视频一区| 国产农村妇女精品一二区| 青青草国产一区二区三区| 大陆精大陆国产国语精品1024| 国产精品成人AⅤ在线一二三四 | 国内精品小视频在线| 男女性色大片免费网站| 高清无码一本到东京热| 亚洲成综合人影院在院播放| 国产无人区一区二区三区| 免费精品一区二区h| 精品亚洲欧美中文字幕在线看| 免费国产福利| 天天综合色天天综合网| 伊人福利视频| 亚洲国产日韩在线观看| 亚洲欧美另类日本| 538国产在线| 国产在线无码av完整版在线观看| 狠狠做深爱婷婷综合一区| 欧美19综合中文字幕| 中文字幕调教一区二区视频| 午夜激情婷婷| 欧美色视频在线| 欧美伊人色综合久久天天| 亚洲一级毛片免费看|