999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于boosting算法的新聞文本分類研究

2017-05-10 16:19:17熊魏
電子技術與軟件工程 2017年8期
關鍵詞:研究

熊魏

摘 要

人類歷史的發展已經進入到網絡時代。現在社會信息的發布量和使用量隨著網絡的發展突飛猛進,這么大的信息量,我們不可能全部的接受。此時,對有用信息快速、精確的掌握就顯得尤為重要。方法是隨著困難一起產生的,為了解決這個問題,文本自動分類系統就產生了,它的工作原理是對文本的內容在指定的分類體系下進行自動區分類別的過程。目前在所有分類算法中,有一種新興的機器學習算法,即Boosting算法,這種算法經過科學驗證后,其效果是非常理想的,且本身有著其它分類算法無可比擬的優點。

【關鍵詞】boosting算法 新聞 文本分類 研究

所謂文本分類(簡稱TC),是一種定性文本內容類別的過程,其具體做法是在確定好的文本類別的前提下,對指定的文本內容進行判別歸類。隨著網絡技術的發展,從上世紀90年代開始,傳統的文本分類法(知識工程分類法)慢慢的被以計算機學習為基礎的自動文本分類法所取代,成為21世紀初進行文本分類的主導技術。這種新的文本分類方法包括最近鄰分類、回歸模型、決策樹、推導規則、貝葉斯分類、神經網絡、支持向量機以及相關反饋等內容。另外,近幾年比較流行的一種分類方法是組合分類器方法。

1 新聞文本預處理

所謂boosting算法,就是是通過機器學習方法構建自動文本分類器,根據文本訓練集的類集C的特征進行學習,使用歸納過程進行分類的一種算法。以計算機學習為基礎的自動文本分類法在對文本進行分類時需要一定的形式,稱之為特征向量。由于文本內容都是以自然語言來進行表示的,計算機難以對其語義進行理解,為此需要對指定的新聞文本做一下預處理,其具體做法如下:

1.1 對指定新聞文本進行分詞

文本包括西文文本和中文文本兩種形式,對這兩種文本進行分詞的方法是不一樣的,西文文本分詞所采用的方法是用空格作為分隔符放在單詞之間;中文文本(包括新聞文本)的分詞方法按照依據的基礎不同有很多種,例如以字符串匹配為基礎的分詞方法,以理解為基礎的分詞方法和以統計詞頻為基礎的分詞方法等。其中適合本系統的中文文本分詞方法是以統計詞頻為基礎的分詞方法。分詞完畢后,將會得到一本文本表征詞典,此詞典是由文檔中的詞組成的表。

1.2 對指定新聞文本進行粗降維

為了提高文本分類器的訓練和分類效率,必須對指定文本在轉化特征向量之前進行粗降維。所謂的粗降維,就是刪除掉指定文本中的停用詞(對分類沒有意義且反復出現在文本中的詞)和低頻詞(使用頻率極低的詞)等,并合并數字和人名,從而使表征詞典的規模縮小,避免掉分類時給分類器帶來噪音。

1.3 文本表示

我們通常把用向量形式表示文本表征詞典的方法稱之為文本表示。在進行信息處理時,文本表示采用的方法是向量空間模型。

2 boosting算法下新聞文本的分類

在boosting算法下,新聞文本的分類設計主要由兩大系統架構組成。

2.1 自動分類系統的設計

該系統主要的主要任務是對新聞文本進行自動的分類,即通過對文本進行掃描,實現新聞文本的粗降維;同時,通過自動分類的預處理新聞文本,分類完畢后,進行相應的文本輸出。該系統雖屬于計算機的前臺系統,但此系統還可以根據計算機后臺系統傳遞出的分類器號形成新的分類器。

2.2 訓練學習子系統的設計

此系統的設計主要是為了通過訓練語料庫而形成新的分類器。即對語料庫進行更新時,該系統會使語料庫的訓練重新開始,已達到信號能傳遞至自動分類系統,從而更新分類器的效果。與自動分類系統相對,此系統隸屬于計算機的后臺運行系統。

3 基于boosting算法的新聞文本分類設計的構成模塊

基于boosting算法的新聞文本分類設計的構成模塊包括文本預處理、人工分類、文本分詞、文本降維和分類器訓練五部分。其每個模塊有著特定的作用:文本預處理的主要作用是指對文本進行中英文識別,以及轉換文本的格式;人工分類的主要作用是指由專家對文本標上類別標簽予以分類;文本分詞的主要作用是指通過對經過預處理的新聞文本進行高精度的分詞,以滿足后續算法的需要,并提高后續的分類速度;文本降維的主要作用是通過刪除停用詞和低頻詞等對文本分類貢獻小的詞匯,且避免過匹配問題,來提高程序的效率和運行速度;分類器的主要作用是指對指定的新聞文本的語料進行預處理、分詞和降維訓練后,得到分類器,并將成功的信號傳遞到前臺系統。

4 基于boosting算法的新聞文本分類試驗數據及比較結果

本文算法同常用的分類算法在準確率、查全率以及F測試上的表現如表1所示。

由表1可以看出,在基于boosting算法下新聞文本分類系統的設計是否合理,需要通過準確率、查全率以及F測試值這三個指標來來進行驗證。通過反復的測試與試驗,其大致實驗過程如下:首先,根據試驗所需,從相關計算機數據庫中抽取并下載600篇新聞文本,以人工分類的方式將這些文本主要分為3類。同時應注意,語料庫有大小之分,為此我們又將這些新聞文本通過交叉驗證的方式,對“熟”語料進行了平均分配,分為10份,并將其中的9份作為訓練集和封閉測試集,1份作為開放測試集。然后按照此方法,將每一份都作為康芳測試集,進行一次分類操作,共計10次。最后,對這10次得到的結果記性平均值的計算,與其他的新聞文本的分類方法所得結果進行相應數據的比較。結果顯示,即使在訓練語料庫規模較小的情況下,新聞文本的分類通過boosting算法依舊可以達到預期的效果進度。

綜上所述,時代在進步,科技在發展,人們每天接觸的新聞信息量是越來遠大。我們需要對這些新聞信息進行分門別類,去粗取精。為了實現快速、準確掌握必要新聞信息的目的,我們設計了一個基于boosting算法的新聞文本分類的實驗,經過實驗結果數據的對比,證明了基于boosting算法的新聞文本分類的方法是可取的,其效果是良好的,可以滿足人們的需求。

參考文獻

[1]肖江,張亞非.Boosting算法在文本自動分類中的應用[J].解放軍理工大學學報自然科學版,2003,4(02):25-28.

[2]董樂紅,耿國華,周明全.基于Boosting算法的文本自動分類器設計[J].計算機應用,2007,27(02):384-386.

[3]張文生,于廷照.Boosting算法理論與應用研究[J].中國科學技術大學學報,2016(03):222-230.

[4]趙春蘭.一種單一編碼多分類 boosting 優化算法[J].計算機與現代化,2015(08):121-126.

[5]李詒靖,郭海湘,李亞楠,等.一種基于Boosting的集成學習算法在不均衡數據中的分類[J].系統工程理論與實踐,2016(01):189-199.

[6]羅軍,況夯.基于Boosting算法集成遺傳模糊分類器的文本分類[J].計算機應用,2016,28(09):2386-2388.

[7]肖江,張亞非.Boosting算法在文本自動分類中的應用[J].解放軍理工大學學報自然科學版,2016,4(02):25-28.

[8]劉川,廖士中.矩優化Boosting算法[J].模式識別與人工智能,2015,28(12):1067-1073.

[9]DONG Lehong,GENG Guohua,ZHOU Mingquan,等.Design of auto text categorization classifier based on Boosting algorithm基于Boosting算法的文本自動分類器設計[J].計算機應用,2017,27(02):384-386.

猜你喜歡
研究
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
關于遼朝“一國兩制”研究的回顧與思考
EMA伺服控制系統研究
基于聲、光、磁、觸摸多功能控制的研究
電子制作(2018年11期)2018-08-04 03:26:04
新版C-NCAP側面碰撞假人損傷研究
關于反傾銷會計研究的思考
焊接膜層脫落的攻關研究
電子制作(2017年23期)2017-02-02 07:17:19
主站蜘蛛池模板: 亚洲三级a| 丝袜国产一区| 青青青草国产| 五月天天天色| 日本a∨在线观看| 国产精品免费福利久久播放| 国产色网站| 91精品国产丝袜| 亚洲三级视频在线观看| 99久久精品久久久久久婷婷| 波多野结衣AV无码久久一区| 2020精品极品国产色在线观看| 亚洲国产成人麻豆精品| 2021国产精品自拍| 亚洲小视频网站| 色国产视频| 欧美在线黄| 在线欧美日韩国产| 国产亚洲精品资源在线26u| 99视频在线免费| 91麻豆精品国产91久久久久| 精品1区2区3区| 伊人网址在线| 色吊丝av中文字幕| 日韩a在线观看免费观看| 成人免费网站久久久| 在线中文字幕网| 午夜天堂视频| 美女一区二区在线观看| 国语少妇高潮| 孕妇高潮太爽了在线观看免费| 51国产偷自视频区视频手机观看| 国产超薄肉色丝袜网站| 深夜福利视频一区二区| 国产精品永久免费嫩草研究院 | 色网站在线免费观看| 日本午夜影院| 在线高清亚洲精品二区| 97人妻精品专区久久久久| 国产精品久久久久久影院| 国产一区免费在线观看| 人妻熟妇日韩AV在线播放| 亚洲欧美综合在线观看| 乱系列中文字幕在线视频| 国产精品大尺度尺度视频| 亚洲精品亚洲人成在线| 亚洲欧美国产视频| 老汉色老汉首页a亚洲| 免费av一区二区三区在线| 日本www在线视频| 亚洲A∨无码精品午夜在线观看| 中文字幕一区二区人妻电影| 91九色最新地址| 日韩在线影院| 亚洲色图欧美激情| 免费看美女自慰的网站| 97国产精品视频自在拍| 亚洲精品无码AⅤ片青青在线观看| 亚洲欧美不卡视频| 欧美激情成人网| 中美日韩在线网免费毛片视频| 大陆精大陆国产国语精品1024| 9啪在线视频| 在线永久免费观看的毛片| 精品夜恋影院亚洲欧洲| 激情综合网激情综合| 久久青草精品一区二区三区| 国产青榴视频在线观看网站| 亚洲美女一区| 国产乱子伦一区二区=| 性色一区| 亚洲国产中文精品va在线播放| 欧美一区二区自偷自拍视频| 欧美日韩动态图| 18禁高潮出水呻吟娇喘蜜芽| 日韩麻豆小视频| 福利小视频在线播放| 99精品在线看| 国产精品久久自在自线观看| 免费人成网站在线观看欧美| 国产亚洲精品97在线观看| 欧美亚洲一区二区三区在线|