999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

短信文本分類技術的研究

2016-02-24 05:06:18王文霞王春紅
計算機技術與發展 2016年5期
關鍵詞:分類文本

王文霞,王春紅

(運城學院 計算機科學與技術系,山西 運城 044000)

短信文本分類技術的研究

王文霞,王春紅

(運城學院 計算機科學與技術系,山西 運城 044000)

短信作為一種重要的交流手段,發揮著越來越重要的作用。但伴隨著短信的廣泛使用,垃圾短信則嚴重影響著人們的生活,因此文中基于短信文本特征詞對短信進行分類研究。其中,TF-IDF特征詞權重計算方法是對文本詞匯權重計算的一種經典算法,得到了廣泛應用。但此方法為了簡化計算,忽略了詞語之間的相互關系。針對此問題,依據同一短信文本中的詞匯之間存在的相互關系,文中對權重計算法進行了調整,提出了基于模糊K均值的短信文本分類算法。即先將短信文本集用TF-IDF算法處理,得到詞匯-文本集,再用模糊K均值算法對得到的詞匯-文本集進行處理。最后通過實驗,驗證了基于模糊K均值的短信文本分類算法,其分類結果的查全率和查準率都較高,有效辨別了垃圾短信。

短信文本分類;向量空間模型;模糊聚類;模糊K均值

0 引 言

短信業務作為目前的一種重要通信手段,具有短小、迅速、簡便、便宜等諸多優點。據中國新聞網統計,到2010年,中國的手機用戶數量達到近7.4億,2009年短信發送量日均達到了21億條,全年各類短信發送量達到7 840.4億條[1]。根據中國互聯網協會2008年年初發布的一項調查,中國手機用戶平均每周收到的垃圾短信竟然多達8.29條,每周收到40條以上的居然達到了6.25%。在飛速的發展過程中,短信業務在給廣大使用者帶來方便的同時,也出現了很多問題,比如泛濫的垃圾短信、詐騙短信、謠言短信等等。這些垃圾短信給手機用戶帶來了很大的危害,因此需對垃圾短信進行過濾。

文中將自然語言文本處理運用到手機短信的分類研究[2-5]中。通過對短信文本特點的分析,實現對短信文本的分類。利用文本分類算法對短信信息進行分類,常用的分類算法有:決策樹、支持向量機[6-9]、粗糙集和貝葉斯算法[10]。由于短信內容較少,依據同一短信文本中的詞匯之間存在的相互關系,文中通過對經典的TF-IDF權重計算法的調整,并采用了模糊聚類算法,實現對短信文本的分類,達到了提高短信文本分析準確性的效果。

1 垃圾短信概述

1.1 垃圾短信的概念、特點、分類

沒有經過接收者允許而收到的,內容具有違法性、欺騙性或廣告性,并且侵犯了人們的合法權益,這樣的短信被稱之為垃圾短信。垃圾短信具有以下特點:騷擾性,未經接收者同意發布且具有廣告性質,具有違法犯罪的內容等等。垃圾短信一般分為商業廣告信息、非法制作各種票或證的信息、詐騙信息、賭博信息等。詐騙短信已成為危害社會治安秩序的一大公害。

目前,我國出現的詐騙短信共有三類:

1)手機費詐騙。

(1)通過贈送話費來騙取手機費:利用人們貪圖小便宜的心理,使用戶上當;

(2)通過朋友點歌或接收彩信來騙取手機費:人們往往以為是自己的朋友為自己點歌,所以就會毫無防備地回消息,造成手機費被騙;

(3)以冒充老朋友的身份騙取電話費:這種短信的迷惑性相當大,人們很容易上當受騙;

(4)以聽取心里話的方式詐騙手機費:主要利用用戶的好奇心理,誘使用戶受騙。

2)銀行卡詐騙。

一般是團伙作案,犯罪分子先利用短信群發器發送消息,對于上當的人,他們假扮銀行工作人員、警察、銀行管理中心人員等,讓上當者成功地將錢存入其他賬戶;這種短信主要是利用用戶對自身財產安全關心的心理。

3)現金詐騙。

(1)以謊稱辦假證、走私軍火、售槍支彈藥、招嫖或者提供其他違法服務或物品的方式詐騙現金:主要利用用戶想走捷徑的心理,將錢騙走;

(2)以謊稱中獎騙取現金:這種短信利用用戶貪小便宜心理,當用戶聯系時他們會要求先交一部分個人所得稅等一系列費用,然后卷著錢財逃之夭夭[11]。

1.2 垃圾短信的危害

伴隨著智能移動設備的普及,短信業務迅猛發展,垃圾短信也日益猖獗,已嚴重擾亂了人們正常的工作和生活,非常不利于社會穩定與和諧,主要表現如下:

(1)影響人們的正常工作和生活。無論接收者是否愿意,垃圾短信都會不分時段地發到接收者的手機。接到一條短信后,用戶最少要花10 s來判斷是不是垃圾短信,一天收到十幾條,就需要花幾分鐘來查看,嚴重浪費了用戶的時間。不管你看不看短信,都會收到短信鈴聲的騷擾,讓用戶苦不堪言,嚴重影響用戶的工作和生活。

(2)擾亂社會秩序。垃圾短信為辦假學歷、假證件、出售黑車等非法行為提供了一種安全、廉價的業務促進方式,使社會秩序被嚴重擾亂。甚至有些垃圾短信包含著低級下流、污染社會風氣的內容,直接影響青少年的身心健康[12]。

(3)垃圾短信已成為犯罪分子實施詐騙的載體。一些不法分子利用手機散布謠言,散布邪教和封建迷信的思想,煽動民眾,造成民族關系緊張,影響社會穩定。不法分子通過抓住人們的心理,群發一些迷惑性短信,騙取信任,獲得資金。

(4)影響正常通信。垃圾短信一般都是群發,數量極大,傳輸時會占用大量的通訊資源,嚴重的甚至會導致堵塞,使通信中斷。

1.3 垃圾短信的處理

垃圾短信采用文本形式表示信息,首先需要把它轉變成計算機可識別的形式。文中采用的是空間向量模型即VSM。下面介紹一些關于VSM的基本概念:

(1)特征項:指文本中能夠代表該文本特點的基本語言單位。

(2)特征項權值:指特征項代表文本的能力的大小。特征項權值計算方法有很多,例如:布爾權重計算、平方根權重計算、TF-IDF權重計算等,其中TD-IDF權重計算最為常用。文中對于文本集的加權計算采用這種方法。

(3)文本向量:設文本集合中共有m個不同的特征項,分別計算出文本特征項的權值,由這些特征項權值所構成的向量稱為文本向量[13]。

接下來詳細介紹一下TF-IDF權重計算:

TF-IDF是一種基于統計分析的方法,用以獲取字詞在一個文件集或一個語料庫中某文本的重要程度。TF-IDF權重計算的出發點是字詞的重要性會隨著它在文本中出現的次數增加,但同時會隨著它在語料庫中出現的頻率下降[14]。其主要思想是:如果某個詞或短語在某個文本中出現的頻率高,而在其他文本中又很少出現,則認為此詞或者短語具有很好的類別區分能力,適合用來分類。

TF-IDF計算方法中有兩個重要參數:

(1)TF詞頻。

它是指特征項在文本中出現的頻率,計算公式為:

tfik=特征項tk在文檔di中出現的頻率

(1)

(2)IDF反文本頻率。

它是對特征詞在文本集中分布情況的量化,用于衡量該特征詞區分不同文本的能力,常用計算公式為:

idfk=log(N/nk+0.01)

(2)

其中:N代表文本集所有文本的個數;nk代表文本集中出現特征詞的文本數。

TF-IDF權重計算方法,是Salton和McGill基于香農信息理論提出的一種方法。該方法已成為目前文本聚類和分類中最常用的方法。它是將詞頻和反文檔頻率兩方面因素相結合來得到特征詞的權重值,計算公式為:

wik=tfik×idfk=tfik×log(N/nk+0.01)

(3)

2 模糊K均值

Bezdeck等提出了模糊K均值算法。模糊K均值算法將模糊原理與經典K均值算法相結合,是一種非監督聚類算法。其基本思想是按照一定的模糊隸屬度將每個數據對象分配到某個聚類中,使得不同類中的數據對象具有較低的相似性,同一個類中的數據對象具有較高的相似性。該算法將分好的簇看做是模糊集合,一個簇對應一個模糊集合,用隸屬度函數度量每個數據屬于某個簇的可能性,然后依據最大隸屬度原則將數據分配到隸屬度最大的簇中。

2.1 算法基本思想

模糊K均值算法是基于最小化以下目標函數[15]:

(4)

2.2 算法描述

總而言之,舞臺表演是聲樂演唱不可分割的一部分。演唱者在平時的練習中,學習好基礎知識,然后在表演實踐中提升自己的舞臺表演能力,在演唱中逐漸變得成熟,很好地向觀眾傳達作品的思想情感,有助于觀眾更好地了解作品。演員也要在面部表情、手勢動作、上下場的處理等方面多下功夫,使得“演”與“唱”協調統一,使歌唱達到聲情并茂的藝術境界,從而提升音樂的魅力,向觀眾展現出更多更加感人、更加優美的作品,也讓越來越多的觀眾因為演員真摯的表演而愛上音樂。

模糊K均值算法描述如下:

(2)初始化聚類中心vi,i=1,2,…,K,一般從N個數據點中任意選擇K個數據點作初始聚類中心。

(3)根據式(5)計算所有聚類數據點對于每一個聚類中心的隸屬度。

(5)

(6)

3 基于模糊K均值的短信文本分類算法

利用模糊K均值實現短信文本分類算法描述如下:

(1)輸入文本集合中的特征項,建立特征項庫。

(2)將文本內容輸入數據庫,建立文本信息庫以及文本段信息庫。

(3)對每個文本段信息利用TF-IDF權重計算公式算出每一個特征項的權值,構造文本向量信息庫。

(4)用模糊K均值算法對文本向量進行處理。需要明確要處理的樣本數、每一行的特征項個數、要分的類別數、迭代的次數、聚類的精度等等。

(5)輸出一個隸屬度矩陣,獲得文本分類結果。

基于模糊K均值的短信文本分類算法的基本思想是首先收集待處理的短信文本集,接著要對短信文本進行分詞;然后建立特征項集,利用TF-IDF對每個特征項進行加權計算,得到文本向量,構建“詞匯-文本”矩陣;最后用模糊K均值算法對“詞匯-文本”矩陣進行處理,輸出一個隸屬度矩陣。具體的算法設計如圖1所示。

圖1 算法流程圖

4 實驗結果及分析

根據文本檢索的度量標準,文中定義了兩個評估指標,即查準率(Precision)和查全率(Recall),對基于模糊K均值的短信文本分類算法進行了有效性驗證。

其中:查準率p是指實際相符的文本占屬于類別Ci的所有文本的比例;查全率r是指正確歸類的文本占專家判定的應屬于類別Ci的所有文本的比例。兩項指標分別定義如下:

(7)

(8)

基于從互聯網上收集的商業廣告型短信、詐騙短信、非法制作各種票或證的短信、賭博類短信四方面的大量文本,分別從中各隨機選取10個文本,共40個。這40個文本分別按商業廣告型短信、詐騙短信、非法制作各種票或證的短信、賭博類短信的次序排列,并對其進行預處理,進而基于模糊K均值聚類算法實現了文本分類。實驗結果如表1所示,列出了10個文本的隸屬度矩陣,商業廣告型短信和詐騙短信各2個,非法制作各種票或證的短信和賭博類短信各3個;表2給出了每個文本所屬的類。

表1 輸出的隸屬度矩陣

表2 40個樣本的分類結果

為了驗證該算法的有效性,將該算法聚類分析結果與人工分類的結果進行了對比,如表3所示;并采用了聚類分析的兩個評價標準—查準率和查全率對聚類結果進行量化分析,其結果如表4所示。從這兩個表可以看出,基于模糊K均值對文本分類,其查準率和查全率都較高。

表3 模糊K均值聚類分析最終結果

5 結束語

文中提出的基于模糊K均值的短信文本分類算法,很好地克服了經典TF-IDF權重計算中忽略了詞

表4 查準率和查全率

語之間的相互關系的弊端。實驗結果表明,該聚類算法大大地改善了短信文本聚類的效果,查全率和查準率都較高。

[1] 劉國香,張鈞鋒.垃圾短信分類方式的探討[J].滄州師范專科學校學報,2011,27(4):122-124.

[2]PatelD,BhatnagarM.MobileSMSclassification:anapplicationoftextclassification[J].InternationalJournalofSoftComputingandEngineering,2011,1(2):47-49.

[3]LiuWuying,WangTing.Index-basedonlinetextclassificationforSMSspamfiltering[J].JournalofComputers,2010,5(6):844-851.

[4]LiFeng,LiJigang.StudyingofclassificationChineseSMSmessagebasedonBayesianclassification[J].JournalofTheoreticalandAppliedInformationTechnology,2012,44(1):141-146.

[5] 楊 柳,殷 釗,滕建斌,等.改進貝葉斯分類的智能短信分類方法[J].計算機科學,2014,41(10):31-35.

[6] 李 慧,葉 鴻,潘雪瑞,等.基于SVM的垃圾短信過濾系統[J].計算機安全,2012(6):34-38.

[7] 馮歐鵬.垃圾短信過濾中字特征與詞特征對過濾效果的比較研究[D].北京:北京郵電大學,2011.

[8] 徐 易.基于短文本的分類算法研究[D].上海:上海交通大學,2010.

[9]LanMan,TanCL,SuJian,etal.Supervisedandtraditionaltermweightingmethodsforautomatictextcategorization[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2009,31(4):721-735.

[10] 張 兢,候旭東,呂和勝.基于樸素貝葉斯和支持向量機的短信智能分析系統設計[J].重慶理工大學學報:自然科學,2010,24(1):77-81.

[11] 趙曉芳.短信詐騙的類型、法律定性及應對策略[J].消費導刊,2008(2):125-125.

[12] 董月琴.基于Android的垃圾短信處理系統的研究與設計[D].淮南:安徽理工大學,2011.

[13] 付克志,林鴻飛.基于N-LevelVSM在Web信息檢索中的研究[J].計算機工程與應用,2006,42(19):158-160.

[14] 包金龍.基于向量空間模型的信息檢索系統的設計[J].情報雜志,2005,24(7):44-45.

[15] 葉吉祥,譚冠政,路秋靜.基于核的非凸數據模糊K-均值聚類研究[J].計算機工程與設計,2005,26(7):1784-1785.

Research on Text Classification Technology for Message

WANG Wen-xia,WANG Chun-hong

(Department of Computer Science and Technology,Yuncheng University,Yuncheng 044000,China)

As an important means of communication,SMS plays an increasingly important role.But along with the extensive use of SMS,SMS spam seriously influences people’s lives.Therefore,the classification of SMS is researched based on the keywords in this paper.TF-IDF weight calculation method is a classical algorithm to calculate the text word weight,which is widely used.But in order to calculate simply,this method ignores the mutual relations between words.Aiming at this problem,based on the same relationship between words in the text messages,in this paper,the weighting method is used for adjusting,it puts forward the text classification based on fuzzyK-meansalgorithm.ThetextsetisprocessedbyTF-IDFalgorithm,gettingavocabulary-textset.ThenfuzzyK-meansalgorithmisusedtogetavocabulary-textset.Finally,throughtheexperimenttoverifythetextclassificationbasedonfuzzyK-meansalgorithm,theclassificationresultsofrecallandprecisionishigh.

text categorization;vector space model;fuzzy clustering;fuzzyK-means

2015-07-22

2015-11-05

時間:2016-03-22

國家自然科學基金資助項目(11241005);山西省高等學校教學改革研究項目(J2012098);運城學院教學改革研究項目(JG201418)

王文霞(1979-),女,講師,碩士,研究方向為數據挖掘及算法分析;王春紅,教授,研究方向為信息檢索及算法分析。

http://www.cnki.net/kcms/detail/61.1450.TP.20160322.1522.092.html

TP

A

1673-629X(2016)05-0145-04

10.3969/j.issn.1673-629X.2016.05.031

猜你喜歡
分類文本
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 熟女成人国产精品视频| 69视频国产| 日韩国产亚洲一区二区在线观看| 亚洲欧美日韩动漫| 小蝌蚪亚洲精品国产| 国产手机在线观看| 中文字幕欧美成人免费| 久久久久免费精品国产| 沈阳少妇高潮在线| 亚洲高清中文字幕在线看不卡| 综合网久久| 国产精品免费露脸视频| 亚洲中文字幕97久久精品少妇| 久久人人97超碰人人澡爱香蕉| 日本人妻一区二区三区不卡影院 | 久久久噜噜噜| 中文字幕在线看视频一区二区三区| 性欧美在线| 亚洲乱码在线播放| 国产精品白浆在线播放| 亚洲色图欧美激情| 精品撒尿视频一区二区三区| 国产又爽又黄无遮挡免费观看| 999国产精品永久免费视频精品久久| 国产精品爽爽va在线无码观看 | 国产特级毛片| 四虎在线观看视频高清无码 | 99资源在线| 久久成人国产精品免费软件| 久久夜色撩人精品国产| 九九热在线视频| 亚洲欧美在线综合一区二区三区 | 国产日韩AV高潮在线| 99这里精品| 日本色综合网| 亚洲不卡无码av中文字幕| 九九九久久国产精品| 欧美a在线| 国产亚洲欧美在线视频| 欧美在线网| 美女被操91视频| 亚洲成人免费看| 五月天天天色| a毛片基地免费大全| 亚洲系列无码专区偷窥无码| 亚洲swag精品自拍一区| 国产成人精品视频一区二区电影| 欧美日韩午夜视频在线观看| 国产精品护士| 欧美va亚洲va香蕉在线| 色噜噜久久| 亚洲欧美成人影院| 国模粉嫩小泬视频在线观看| 国产成人h在线观看网站站| 制服丝袜一区| 国产欧美高清| 国产产在线精品亚洲aavv| 色噜噜在线观看| 在线看片中文字幕| 精品1区2区3区| www.精品国产| 成年人国产视频| 成人亚洲国产| 欧美日韩午夜| 99久久精品视香蕉蕉| 国产成人免费视频精品一区二区 | 亚洲人成日本在线观看| 直接黄91麻豆网站| 日本在线免费网站| 国产打屁股免费区网站| 国产专区综合另类日韩一区| 亚洲第七页| 国产视频自拍一区| 国产sm重味一区二区三区| 婷婷亚洲视频| 亚洲国产精品一区二区高清无码久久| 亚洲国产一成久久精品国产成人综合| www.91中文字幕| 日韩一区二区在线电影| 久久精品国产电影| 欧洲熟妇精品视频| 亚洲国产精品成人久久综合影院|