999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

垃圾博客自動識別及檢測技術研究

2022-04-11 06:57:02王赫楠
智庫時代 2022年15期
關鍵詞:特征文本檢測

王赫楠

(遼寧中醫藥大學)

一、研究的背景

進入數字時代以來,全球的數據量呈爆炸式增長,各個機構或企業的服務器都積累了海量用戶數據和行為數據。如此大規模的數據早已超過了專家人工分析的能力范疇,利用計算機自動挖掘、分析海量數據成為了學者們關注的課題。在此背景下,數據挖掘領域應運而生。數據挖掘是指通過計算機算法搜索隱藏在海量數據中的有價值信息。文本分類[1-4]是數據挖掘中的常用技術,根據輸入文本的內容自動將其劃分到預定義的類別中。博客分類是文本分類技術的典型應用。

博客繼電子郵件(E-Mail)、即時通信(IM)、網絡論壇(BBS)之后,以其方便、快捷、具有共享價值的特點收到公眾的廣泛使用。2002年至2009年期間,博客用戶數呈現大規模增長的趨勢,如圖1所示。博客具有的三大特點吸引了大量用戶:一是以“自由、開放、共享”為理念,提供新形式的人際交流平臺;二是個性化的信息管理模式;三是改變了傳統的文化初版模式,以獨立的媒體傳播形態凸顯用戶生活和工作的方方面面。

圖1 用戶規模

在博客蓬勃發展的同時,垃圾博客 (Spam Blog or Splog)[5-9]這種不良產物隨之而來,嚴重拉低了博客內容的檢索質量,破壞博客的網絡生態。Umbria[2006]進行了為期一周的博客內容調查,統計發現,2030萬篇博客中270萬篇為垃圾博客,占比超過13%。在用戶數較多的三種博客網站檢索發現,平均100篇博客中44篇為無價值的垃圾博客。垃圾博客帶來的主要問題有兩點,一是導致信息檢索質量的下降,二是嚴重浪費網絡和存儲資源。垃圾博客的檢測和識別對實時性和提前性要求很高,不能帶有任何主觀偏見,且需要保證誤判率低,是一項富有挑戰性的工作。

隨著博客對公眾的吸引力與日俱增,博客網絡世界也承受了巨大壓力:惡意評論、刷好評、營銷引流等垃圾博客激增,嚴重降低了博客有價值內容的檢索速度和效率,影響博客用戶有效使用博客中蘊含的大量資源。如果不對垃圾博客進行控制,那么未來網絡博客世界將成為毫無價值的垃圾場。因此,自動過濾垃圾博客迫在眉睫。不僅如此,垃圾博客的存在嚴重影響了市場調研領域調查結果的準確性。市場調研的前提是數據的真實有效,因此必須首先識別出垃圾博客并進行自動過濾,為進一步的統計分析奠定基礎。

二、垃圾博客自動識別及檢測技術

近年來,垃圾博客的數量和種類明顯增加,如表1所示的各種垃圾博客的占比量。垃圾博客檢測領域受到學者們的廣泛關注,但仍處于起步階段。垃圾博客檢測與垃圾郵件檢測任務類

表1 垃圾博客的占有比率

似,都是基于文本內容進行的識別,但郵件有固定的格式、主題等,更具規律性,而垃圾博客由于其個性化的特點,識別難度更大。Gy?ngyi and GarciaMolina(2005)首次提出垃圾郵件分類任務,為處理互聯網存在的其他垃圾提供思路,同時提出對網絡垃圾郵件的處理問題[10-11]。Gy?ngyietal(2006、2004)首 先構建了一個種子頁面,在此基礎上設計了信任分數,從而實現垃圾郵件的判斷。而內容分析是識別垃圾郵件的另一重要方法,可以自動檢測與垃圾郵件頁面鏈接相關的頁面或關鍵詞條。Fetterly和Ntoulas在2006年通過研究發現,傳統垃圾郵件通過手動添加鏈接或復制靜態頁面實現,但隨著科技發展,目前,一定數量的垃圾郵件由機器自動生成。Fetterly研究了通過拼接高搜索量關鍵詞自動生成的垃圾郵件網頁的特征。Urvoyetal從超文本標記語言的源代碼入手,基于相似度識別垃圾電子郵件。

垃圾博客是垃圾電子郵件的一種特例,可以參考垃圾郵件的識別方法。Kolarietal、Lin等把每篇博客看作為單一、靜態的頁面,使用基于內容特征的詞包和錨的方式,并結合鏈接特征進行垃圾博客識別。Salvetti和Nicolov通過研究發現垃圾博客中的一些短語是垃圾URL的組成部分,通過URL技術可以不讀取博客內容實現初步過濾。Hanetal(2006)提出一種協同過濾方法,但該技術需要手動識別部分垃圾博客,同時需要保證信息共享機制的可信性。

Manually通過創建垃圾博客URL和IP的黑名單,并更新ping服務器,實現垃圾博客的過濾。Jindal 等基于二分類學習器分類垃圾博客評論[12-13],并通過計算重復性進一步過濾手工標注代價高的垃圾博客評論。Archana等人從博客內容相似度、句子個數、重復詞語、錨文本數量、停用詞比例等方面進行博客垃圾評論的特征統計,但由于中英文的差異,該方法并不能直接應用于中文博客。垃圾評論、垃圾電子郵件的內容呈現出靜態化的特點,而垃圾博客是動態變化的,需要實時跟隨熱點話題,才能持續被搜索引擎排在前面,達到引流的目的。此外,垃圾博客可以利用自動框架生成。因此,只依靠博客文本的基本特征不能夠滿足檢測要求,加入博客的動態時序特征可大幅提高垃圾博客的識別率。

目前國內在垃圾博客識別領域的研究成果有待完善,大部分學者著眼于博客文本的統計學特征,或鏈接中帶有的垃圾標簽特征構造識別模型,無法檢測到隱秘性較強的垃圾博客,雖準確率很高,但召回率低,不能滿足現有需求。劉緯、廖祥文等(2008)分析博客內容的統計特征,根據文本結構、詞性差異、句子長短等角度選取特征,并綜合各項統計特征構建垃圾博客檢測算法[14]。何海江等人基于向量空間模型(VSM)計算博客相關度,從而判斷該篇博客是否為垃圾博客[15],但這種方法存在缺陷, 若某篇博客沒有使用正常博客中常出現的詞語, 而是用近義詞表達,這些詞會被認為是其他詞,從而被誤判為垃圾博客。Kolarietal(2006)通過支持向量機分類器構建垃圾博客自動檢測模型,但該方法嚴重依賴訓練語料,人工標注成本高,實際運用困難。楊宇航(2007)主要在中文領域進行研究,分析中文特征,不需要任何先驗知識和訓練過程整合的基于多特征的作弊評論識別方法,實時性強,可在線識別博客,但由于其特征維度過高,大幅降低了識別速度,因此,如何有效提取文本特征是檢測任務的關鍵。

三、總結

博客作為近年來較受歡迎的網絡交流媒介,為公眾提供了表達個人觀點、交流思想和感情的社交平臺。但是隨著博客的受眾面越來越廣,以博客為載體的網絡垃圾日益凸顯,對網絡生態造成負面影響。繼垃圾郵件、垃圾短信之后,垃圾博客成為了數字化時代的第三大污染。目前對于垃圾博客還沒有統一的定義,但本質上是指出于某種經濟利益,通過未經授權復制他人文章等方式,提升帶有某些關鍵字的博客在搜索引擎排名位置,插入垃圾鏈接或宣傳盈利廣告,導致用戶的時間和大量網絡資源的浪費。除此之外,博客中包含的海量信息對各個領域有重要意義,垃圾博客的泛濫降低了相關調查研究的準確性。因此,基于人工智能實現垃圾博客的自動識別和過濾具有重要意義。

對自動識別、檢測垃圾博客的任務,常用的做法是使用機器學習中的二分類算法。對垃圾博客的識別,主要依靠分類器的識別功能。常用算法有支持向量機(SVM)[14](Sculley,2007;Datta,2008)、貝葉斯 (Datta,2008)、 決 策 樹 (Decision Tree)(Ntoulas,2006; 劉,2008),集成學習之AdaBoost算法(Freund ,1995 )等單一的算法識別垃圾博客效果不夠理想。

猜你喜歡
特征文本檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
小波變換在PCB缺陷檢測中的應用
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 麻豆精品在线视频| 欧美激情视频在线观看一区| 亚洲天堂网视频| 久久99精品久久久久久不卡| 国产性生大片免费观看性欧美| 又大又硬又爽免费视频| 亚欧乱色视频网站大全| 71pao成人国产永久免费视频| 亚洲人成亚洲精品| 亚洲天堂伊人| 天天色天天综合网| 71pao成人国产永久免费视频| 久久免费精品琪琪| 亚洲欧洲日韩综合色天使| 亚洲国产成人久久精品软件 | 毛片一区二区在线看| 亚洲av中文无码乱人伦在线r| 亚洲精品大秀视频| 精品久久综合1区2区3区激情| 日韩乱码免费一区二区三区| 中文字幕无码电影| 91黄视频在线观看| 亚洲男人的天堂网| 狠狠色噜噜狠狠狠狠色综合久| 国产理论一区| 欧美日韩成人| 91精品视频网站| 亚洲成aⅴ人在线观看| 先锋资源久久| 亚洲午夜国产精品无卡| 精品久久人人爽人人玩人人妻| 91亚洲视频下载| 91极品美女高潮叫床在线观看| 亚洲欧美一区在线| 久久狠狠色噜噜狠狠狠狠97视色| 国产网站黄| 亚洲国产无码有码| 国产麻豆福利av在线播放| 国产免费黄| av无码久久精品| aaa国产一级毛片| 国产免费怡红院视频| 成年人久久黄色网站| 黄色污网站在线观看| 亚洲成人一区在线| 天天激情综合| jizz在线观看| 国产亚洲高清在线精品99| www中文字幕在线观看| 日韩欧美视频第一区在线观看| 国产福利小视频在线播放观看| 老司机精品久久| 麻豆国产精品| 毛片视频网| 毛片网站在线看| 久久大香伊蕉在人线观看热2| 久久精品66| 亚洲人成影院在线观看| 国产三级韩国三级理| 国产乱论视频| 伊人久久青草青青综合| 欧美日韩国产在线人| 国产丝袜无码一区二区视频| 992Tv视频国产精品| 亚洲成综合人影院在院播放| 一级成人a毛片免费播放| 亚洲国产精品日韩专区AV| 久久亚洲欧美综合| 成人午夜视频网站| 亚洲精品免费网站| 国产麻豆精品在线观看| 欧美成人二区| 一级毛片a女人刺激视频免费| 午夜国产理论| 四虎精品国产永久在线观看| 91九色国产porny| 亚洲第一黄片大全| 97在线观看视频免费| 中文字幕免费在线视频| 成年人免费国产视频| 亚洲伊人电影| 欧美综合区自拍亚洲综合绿色 |