999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網絡詐騙案件熱度分析與時空預警模型研究

2018-09-10 05:07:43趙四方周學廣張志剛
計算機與網絡 2018年20期
關鍵詞:可視化

趙四方 周學廣 張志剛

摘要:以門戶網站獲取的公開新聞文本為數據源,利用詞頻統計和正則表達式方法,計算了時間熱度的月環比增長率,構建了熱度時間和空間模型。利用雙索引字典方法和均值聚類算法得到了時空分布模塊與預警模塊,并且構建了上述工作的可視化模型。結果顯示,網絡詐騙案件呈低速增長、由外內遷的趨勢,研究成果豐富了相關領域的分析方法,可為相關部門決策提供一定的科學依據。

關鍵詞:網絡詐騙;文本分析;均值聚類;可視化

中圖分類號:TP393文獻標志碼:A文章編號:1008-1739(2018)20-58-4

Analysis and Study on Hot Degree and Spatio-temporal Early-warning Models of Internet Fraud

ZHAO Sifang1, ZHOU Xueguang2, ZHANG Zhigang2(1. Unit 92785, PLA,,Suizhong Liaoning 125200, China;2. Navy University of Engineering, Wuhan Hubei 430033, China)

0引言

根據CNNIC發布的《第40次中國互聯網絡發展狀況統計報告》中數據顯示,截止2017年6月,中國網民規模達7.51億,其中使用手機網上支付結算進行線下購物的網民比例達到61.6%[1]。在網絡線下支付等行為越來越普遍時,隨之而來的網絡詐騙案件也頻繁發生。盡管各地公安機關一直持續不斷打擊,但網絡詐騙社會危害性的復制性、聚焦性和擴散性[2]的特點使得網絡詐騙案件容易“死而復生”。隨著文本內容分析、大數據、機器學習和深度學習技術的成熟,社會上出現了一些有深度的技術層面的監管措施,包括從用戶行為特征、掃描統計方法和涉案人群智能分析[3]等。

本文以中文網頁中關于網絡詐騙的新聞文本為數據源,構建網絡詐騙熱度分析的時間和空間模型,運用可視化技術直觀展示近年來我國網絡詐騙案件熱度分析和時空分析的變化趨勢。

1內容分析方法在網絡文本中的應用

傳播學家伯納德·雷爾森定義內容分析為:“一種對具有明確特征的傳播內容進行的客觀、系統和定量的描述的研究技術”。[2]研究目標主要為趨勢分析、現狀分析、比較分析和意向分析,其與數學和計算機學科結合,形成了對文本信息使用統計、分類和挖掘等方法,以獲得更深層次的技術。

本文研究過程中主要使用文本內容分析正則表達式和詞頻統計技術。

①正則表達式可以用于從文中抽取特定的目標信息內容和數據。原理是用一串具有特定意義的字符作為正則運算符來表示某種匹配規則,其主要應用方向是Web信息內容抽取,最基本的3種功能是匹配、替換和提取。本文中正則表達式主要使用了單模式匹配方法和雙模式匹配的貪心算法,單模式匹配方法是從文本中抽取對應模式內容,貪心算法是利用正則表達式組成邏輯結構實現對全部內容的匹配,方法是用.*?”表示匹配前文全部內容0或1次。

Pattern1+.*?+Pattern2,

式中,Pattern1表示正則表達式起始端;Pattern2表示正則表達式結束端;+表示連接正則表達式內容。

②詞頻統計是文本分析中的基本步驟,通過對關鍵詞語的統計實現對文本主題內容的抽取、分類和信息過濾等。目前詞頻統計規律的提出、驗證及應用等方面已有大量參考資料,本文使用基本的詞頻統計方法統計關鍵詞[4]的出現次數,通過分析后得出相應結論。

2數據挖掘方法在分析和聚類中的應用

3.1.2模型算法

模型算法包括了熱度分析時間統計表算法和月環比增長率統計表算法,分別稱之為算法1與算法2。算法1前聲明時間序列列表date,列表中各個元素為匹配模式Pattern;聲明字典變量為dict_time。

算法1:輸入:文本數據wenebn.txt;輸出:熱度分析時間統計表hot_time.csv。步驟:①for i in range(0,len(date),1);②key = re.findall(匹配模式=date[i],匹配內容=wenben.txt,換行處理re.S);③dict_time [i] = len (key);④文本指針歸0;⑤df = pandas.DataFrame(dict_time);⑥df.to_csv(hot_time.csv保存路徑)。

算法2:輸入:算法1變量df;輸出:月環比增長率統計表rate.csv。步驟:①df[增長率]=0;②for i in range(1,len(df.index),1);③df.ix[i,增長率] = float(df.ix[i,對應時間統計的詞頻數值number])/float(df.ix[i-1,對應時間統計的詞頻數值number])-1;④df.to_csv(rate.csv保存路徑)。

3.2熱度分析空間模型

構建熱度分析空間模型與熱度分析時間模型算法需要將相同省份名稱和詞頻頻率匯總為熱度分析空間統計表,保存為Excel格式,并進行可視化工作及分析。

3.2.1正則表達式構建和詞頻匹配

針對熱度分析的空間統計,可以以我國省份名稱作為正則表達式的匹配模式Pattern,正則表達式匹配前聲明字典變量,字典的索引值Key為省份名稱,字典對應值Value為詞頻頻率。

3.2.2模型算法

熱度分析空間統計算法成為算法3。算法3前聲明省份名稱列表province,列表中各個元素為匹配模式Pattern;聲明字典變量dict_province。

算法3:輸入:文本數據wenebn.txt;輸出:熱度分析時間統計表hot_space.csv。步驟:①for i in range(0,len(province),1);②key = re.findall(匹配模式=province[i],匹配內容=wenben. txt,換行處理);③dict_province[i] = len(key);④文本指針歸0;⑤df = pandas.DataFrame(dict_province);⑥df.to_csv(hot_space. csv保存路徑)。

3.3時空統計預警模型

3.3.1時空統計模塊

時空統計模型使用了雙索引字典技術,分別為外層字典與內層字典。具體方法與熱度分析時間和空間模型相同,正則表達式由“時間參量+.*?+空間參量”的匹配模式構成,最終得到時空統計表,其包含了時間、省份和詞頻,并通過軟件進行數據可視化展示。

3.3.2預警模塊

預警模塊以時空統計表為基礎,使用均值聚類法對月環比增長率進行聚類。具體方法是首先判斷月環比增長率取值,對大于0的月環比增長率進行均值聚類,定義值為4,得到4類聚類結果,而月環比增長率小于0的情況單獨歸為一類,總計得到5層分類結果。

3.3.3時空統計模塊算法

時空統計模塊算法稱為算法4。算法4使用算法1聲明的時間序列列表date和算法3前聲明的省份名稱列表provicne。聲明字典變量dict1。

算法4:輸入:文本數據wenben.txt;輸出:時空統計表time_space.csv。

步驟:①for i in range(0,len(date),1);②定義字典dict2;③for k in range(0,len(province),1);④key = re.findall(匹配模式=date[i]+.*?+province[k],匹配內容=wenben.txt,換行處理);⑤dict2[province[k]] = len(key);⑥文本指針歸0;⑦dict1[date[i]] = dict2;⑧df = pandas.DataFrame(dict1);⑨df[rate]=0;⑩for i in range(1,len(df.index),1);

4實驗與分析

4.1實驗環境與數據準備

(1)實驗環境

實驗是在JetBrains Pycharm Community Edition 2017.2上用Python2.7語言實現。數據可視化軟件為Excel2016,數據源為各個模型的統計結果表。

(2)數據準備

本文數據來自人民網社會模塊,在此以網絡詐騙為關鍵字檢索相關新聞,獲得了由2012年7月07日~2017年5月26日的全部文本新聞報道共計995篇。

4.2熱度分析時間結果

熱度分析的時間模型對2012年7月~2017年5月的時間進行了匹配和統計,經過算法處理后得到熱度分析的時間統計表,實驗結果如表1所示。

根據得到熱度分析的時間統計表得到月環比增長率表,表明網絡詐騙存在“死灰復燃”的特征,結果如表2所示。

4.3熱度分析空間結果

熱度分析空間統計模型對2012年6月~2017年5月間的我國31個省級行政區和港澳臺地區的名稱進行了匹配和統計,經過算法處理后得到了熱度分析的空間統計表。網絡詐騙熱點省份由高至低的前10名省份統計結果由表1所示。

4.4時空統計預警模塊實驗及結果

由于熱度分析的時間和空間模型剝離了時空相關性,其熱度分析時間統計表和熱度分析空間統計表不能作為時空統計的數據源,所以時空統計預警模塊對文本重新進行了正則表達式匹配和詞頻統計。4.4.1時空統計模塊

時空統計模塊通過雙索引技術,利用時空相關性特點,通過算法處理后得到了時空統計表,從圖1可發現我國在2012年末~2014年1月和2015年3月~2016年1月是我國網絡詐騙的一個高發期,其中北京、上海和廣東一直是關注網絡詐騙案件的熱點地區,結果如圖2所示。

4.4.2預警模塊

預警模塊以時空統計圖為基礎,經多次實驗,均值聚類方法迭代次數分析在21~24次之間。通過動態圖發現我國網絡詐騙主要在沿海區域和經濟發達區域,東南沿海區域長時間處于預警狀態。

5結束語

網絡詐騙是國內的熱點與重點事件,空間模型在數據深度的提取上僅達到省、直轄市與自治區級別,仍具有地理深度上鉆取數據的價值和廣闊的發展前景。除此之外,未參考地域特征、人口文化素質和經濟收入等相關因素,因而本文的模型在構建的方法上可以更加多樣化,其反應的結果也將更加豐富。

參考文獻

[1]中國互聯網信息中心.中國互聯網絡發展狀況統計報告[R].北京:中國互聯網信息中心,2017.

[2]朱少強,邱均平.文獻計量與內容分析—文獻群中隱含信息的挖掘[J].圖書情報工作,2005,49(6):19-23.

[3]王占宏.基于掃描統計方法的上海犯罪時空熱點分析[D].上海:華東師范大學,2013.

[4] Steven B,Ewan K,Edward L. Natural Language Processing with Python [M]. Sebastopol:OReilly Media,2009.

[5]程潔.數據挖掘技術在情報學領域的應用研究現狀分析[J].現代情報,2005(10):14-15.

[6]孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學報,2008(1): 48-61.

[7]曾接賢,王軍婷,符祥.K均值聚類分割的多特征圖像檢索方法[J].計算機工程與應用,2013,49(2):226-230.

[8]周志華.機器學習[M].北京:清華大學出版社,2016.

猜你喜歡
可視化
無錫市“三項舉措”探索執法可視化新路徑
基于CiteSpace的足三里穴研究可視化分析
自然資源可視化決策系統
北京測繪(2022年6期)2022-08-01 09:19:06
三維可視化信息管理系統在選煤生產中的應用
選煤技術(2022年2期)2022-06-06 09:13:12
思維可視化
師道·教研(2022年1期)2022-03-12 05:46:47
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
自然資源可視化決策系統
北京測繪(2021年7期)2021-07-28 07:01:18
基于CGAL和OpenGL的海底地形三維可視化
可視化閱讀:新媒體語境下信息可視化新趨勢
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
主站蜘蛛池模板: 欧美日韩中文国产va另类| 欧美一级视频免费| 亚洲成人77777| 久久超级碰| 精品免费在线视频| 亚洲AV人人澡人人双人| 国产黄网永久免费| 国产一级二级三级毛片| 国产av无码日韩av无码网站| 国产白浆一区二区三区视频在线| 高清大学生毛片一级| 亚洲综合精品香蕉久久网| 欧美午夜视频| 在线免费亚洲无码视频| 国产呦精品一区二区三区下载 | 国产又大又粗又猛又爽的视频| 狠狠综合久久| 国产在线八区| 97视频在线观看免费视频| 99视频只有精品| 成人无码区免费视频网站蜜臀| 国产91在线免费视频| 国产福利在线观看精品| 91久久青青草原精品国产| 午夜国产小视频| 国产丝袜精品| 天天综合网色中文字幕| 日韩a在线观看免费观看| 毛片久久久| 国产毛片高清一级国语| 成人毛片免费在线观看| 日韩欧美国产三级| 免费在线色| 国产女人在线| 91原创视频在线| 久久亚洲高清国产| 毛片a级毛片免费观看免下载| 国产精品成人一区二区不卡 | 国产精品冒白浆免费视频| 日韩无码视频播放| 国产XXXX做受性欧美88| 日韩在线永久免费播放| av在线无码浏览| 欧美亚洲一区二区三区在线| 在线毛片免费| 91福利免费| 亚洲天堂高清| 露脸真实国语乱在线观看| 日韩无码一二三区| 国产精品一线天| jizz在线观看| 国产福利小视频在线播放观看| 亚洲色无码专线精品观看| 99热这里只有精品免费| 91在线高清视频| 亚洲开心婷婷中文字幕| 国产高清不卡视频| 国产精品13页| 亚洲IV视频免费在线光看| 99免费在线观看视频| 免费国产好深啊好涨好硬视频| 大陆精大陆国产国语精品1024 | 丁香综合在线| 日韩123欧美字幕| 亚洲永久色| 国产成人高清亚洲一区久久| 亚洲精品欧美日韩在线| 亚卅精品无码久久毛片乌克兰| 国产精品对白刺激| 免费国产小视频在线观看| 国产一区二区三区免费| 国产丝袜第一页| 伊人色综合久久天天| 国产成人免费观看在线视频| 正在播放久久| 99久久精彩视频| 久久精品人人做人人爽电影蜜月| 亚洲性视频网站| 91精品国产无线乱码在线| 亚洲国产精品无码久久一线| 日韩黄色大片免费看| 亚洲国产成人久久精品软件|