999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于貝葉斯分類的手機短信過濾技術研究

2012-04-02 13:32:32房玲玲
電大理工 2012年4期
關鍵詞:分類分析信息

房玲玲

沈陽航空職業技術學院(沈陽 110034)

近年來,人們希望通過各種方式杜絕垃圾短信,垃圾短信過濾研究也就越來越迫切和深入。目前,垃圾短信過濾主要有以下幾種過濾技術:黑名單和白名單技術,關鍵詞語的匹配法和貝葉斯推理過濾法。

本文借鑒了在垃圾郵件過濾技術中經常采用的文本過濾技術,并結合分詞和貝葉斯分類,實現手機垃圾短信的識別,進而為垃圾短信的過濾服務。

1 研究內容

1.1 手機短信中詞的匹配

目前的過濾技術大都是用詞庫對樣本中的詞進行匹配,根據匹配程度或進行加權求和,并利用這個和值進行過濾,或含有個別敏感詞就過濾該短信,針對不同的反過濾策略,出現了關鍵詞替換表,如拼音替換表,向形字替換表,同音字替換表,如果一種匹配策略失效后,就可以根據這些表進行其它方式的匹配,可能產生對多個表的掃描,雖然使詞的匹配具有一定的靈活性,但卻是用時間換取了精度,為了減少匹配時間,本文提出了基于Hash技術的匹配算法。

1.2 手機短信詞庫的智能更新

目前過濾技術大都是以現有的關鍵詞庫為依據進行過濾,關鍵詞庫的創建或更新主要是靠人工操作實現的,手動添加新詞或是用新詞替換舊詞,所以對不同的反過濾策略的適應能力差,現在常用的過濾方法是Byase,它計算速度快、精確性高,因此可以將單個詞本身就看成一個樣本,將 Byase的歸類思想用于對詞庫的自動更新,用分析產生的結果作為詞的附加屬性,這個屬性一方面用于以后的詞庫的更新,一方面用于以后信息樣本的分析依據。

1.3 樣本的分析

以往的樣本分析都是選擇能夠提供大量信息利于分類的詞作為屬性,這樣作可以降低文本向量的維數,加快分析速度,但是提供信息少的詞可能更具有類區別能力,因此用信息量大的詞進行歸類可能產生局部解,并使分析結果的可信度降低。要提高分析結果的可信度,可以把降維時產生的中間結果作為詞的權值,將它與詞歸類的風險值、詞本身的匹配程度一起作為詞的屬性,這樣可以從多角度同時分析樣本,提高分析的可信度。

2 關鍵問題

2.1 確定詞的風險系數

對詞集進行降維,用提供最多信息的詞分析樣本的時候,忽略了提供信息少的詞可能更具有類區分能力,因此在詞庫的智能更新時,考慮如何利用Byase過濾思想避免這種風險,使分析更具全面性。

2.2 詞的匹配

針對不同反過濾策略維護了若干關鍵詞替換表,處理速度可能下降,因此考慮如何將現有的關鍵詞替換匹配算法與Hash表的查找速度快結合起來,添加詞的匹配信息以減化匹配過程。

3 研究方法

3.1 用Hash表進行詞匯匹配

哈希表是一種高效的數據結構。它的最大優點就是把數據存儲和查找所消耗的時間大大降低,幾乎可以看成是常數時間;而代價僅僅是消耗比較多的內存。然而在當前可利用內存越來越多、程序運行時間控制的越來越短的情況下,用空間換時間的做法還是值得的。另外,哈希表編碼實現起來比較容易也是它的優點之一。用Hash表存儲詞庫,詞的Hash值作為它在表格中的位置信息。詞匹配時先計算它的Hash值,如果不與表中該位置的詞完全匹配,則進行關鍵詞替換后的模糊匹配,該詞用作找到的每個詞的模糊匹配信息,以后通過查看模糊匹配信息來加快匹配速度。

3.2 用貝葉斯思想更新手機短信詞庫

(1)貝葉斯分類并不把一個對象絕對地指派給某一類,而是通過計算得出屬于某一類的概率,具有最大概率的類便是該對象所屬的類。

(2)一般情況下在貝葉斯分類中所有的屬性都潛在的起作用,即并不是一個或幾個屬性決定分類,而是所有的屬性都參與分類。

(3)貝葉斯分類對象的屬性可以是離散的,也可以連續的。

用Byase分類中的概率計算方法,計算每個詞歸到不同類的概率,文獻[4]中為解決過濾中誤判代價不對等問題提出如下解決方法:只有P(判斷為垃圾短信)/P(判斷為正常短信)≥閥值C時,才判斷短信為垃圾短信。樣本訓練時可以這樣理解這個商值,每個詞是等可能地出現在每個類中,樣本中人工分類錯誤率很小可視為零,這樣可以認為其出現概率即為歸類概率,而將它歸屬到其它類就會存在一定的風險,故歸屬其它類的概率 P=樣本在該類出現的概率×誤判風險,風險值越小則樣本出現在其它類的可能性越小。更新詞庫時,可以將詞看成上述描述中的樣本,取最小風險值作為詞歸入到某類的風險,用它作歸類時的權重屬性。

4 結 論

現在普通使用貝葉斯算法和關鍵詞詞庫作為過濾依據,詞庫的創建與更新主要是手動進行,不法分子一旦掌握詞庫便可以采取不同的反過濾手段,所以過濾系統的適應性差。大多數據過濾系統都用降維方法減少數據量,選取能夠提供最多信息的詞作為文本向量的分量,但是提供信息少的詞更具有類區別能力,為使分析準確率提高,因此不將詞集降維,而將降維分析的結果用作詞的權值。本研究將貝葉斯分類思想與降維方法相合,提取詞的特征屬性,以保證分析結果的可信度。

[1]張偉,王子軒.GSM 垃圾短信過濾方案.電信快報:網絡與通信,2009.(3):26-28

[2]胡日勒,蔡潔,鐘義信.短信過濾系統設計分析.計算機應用研究,2009.25(3):2557-2560.

[3]鐘延輝,傅彥,陳安龍,關娜.基于抽樣的垃圾短信過濾方法.計算機應用研究.2009.26(3):933-935

[4]李輝,張琦,盧湖川.基于內容的垃圾短信過濾.計算機工程,2008.34(6):154-156

猜你喜歡
分類分析信息
分類算一算
隱蔽失效適航要求符合性驗證分析
分類討論求坐標
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
數據分析中的分類討論
教你一招:數的分類
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
電力系統及其自動化發展趨勢分析
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 亚洲精品福利网站| 女人av社区男人的天堂| 欧美另类第一页| 真人高潮娇喘嗯啊在线观看| 国产白浆视频| 广东一级毛片| 激情视频综合网| 久久性视频| 亚洲精品无码av中文字幕| 亚洲国产清纯| 精品无码一区二区三区电影| 全部免费毛片免费播放| 亚洲区第一页| 亚洲最猛黑人xxxx黑人猛交| 超碰精品无码一区二区| 国产亚洲成AⅤ人片在线观看| 中文字幕首页系列人妻| 亚洲床戏一区| 亚洲第一黄片大全| 久996视频精品免费观看| 少妇露出福利视频| 久久激情影院| 特级精品毛片免费观看| 在线色国产| 色婷婷成人| 国产精品手机在线播放| 久久亚洲国产视频| 人妖无码第一页| 91精品人妻一区二区| 国产精品免费电影| 国产精品极品美女自在线网站| 精品国产女同疯狂摩擦2| 99久久精品视香蕉蕉| 毛片网站在线看| 亚洲性日韩精品一区二区| 四虎永久免费地址在线网站| 在线播放真实国产乱子伦| 女人天堂av免费| 国产小视频a在线观看| 亚洲福利一区二区三区| 国产自在线播放| 国产精品3p视频| 国产白浆一区二区三区视频在线| 久久不卡精品| 亚洲国产欧美国产综合久久| 2021最新国产精品网站| 婷婷99视频精品全部在线观看| 亚洲av无码久久无遮挡| 亚洲综合色区在线播放2019| 日韩一二三区视频精品| 日本尹人综合香蕉在线观看| 精品99在线观看| 色呦呦手机在线精品| 大陆国产精品视频| 凹凸国产熟女精品视频| 中文字幕亚洲综久久2021| 精品乱码久久久久久久| 欧美精品高清| 国产真实乱人视频| 免费A级毛片无码免费视频| 久99久热只有精品国产15| 鲁鲁鲁爽爽爽在线视频观看| 亚洲欧洲综合| 国产成人精品在线1区| 午夜影院a级片| 亚洲最大在线观看| 亚洲天堂在线视频| 先锋资源久久| 免费看美女毛片| 日本影院一区| 日本欧美中文字幕精品亚洲| 国产午夜福利片在线观看| 国产91丝袜| www欧美在线观看| 久青草免费在线视频| 亚洲欧洲日产国产无码AV| 精品自窥自偷在线看| 99在线视频精品| 国产在线视频欧美亚综合| 久久这里只精品国产99热8| 成人一级黄色毛片| 亚洲人成网站在线播放2019|