趙四方 周學廣 張志剛
摘要:以門戶網站獲取的公開新聞文本為數據源,利用詞頻統計和正則表達式方法,計算了時間熱度的月環比增長率,構建了熱度時間和空間模型。利用雙索引字典方法和均值聚類算法得到了時空分布模塊與預警模塊,并且構建了上述工作的可視化模型。結果顯示,網絡詐騙案件呈低速增長、由外內遷的趨勢,研究成果豐富了相關領域的分析方法,可為相關部門決策提供一定的科學依據。
關鍵詞:網絡詐騙;文本分析;均值聚類;可視化
中圖分類號:TP393文獻標志碼:A文章編號:1008-1739(2018)20-58-4
Analysis and Study on Hot Degree and Spatio-temporal Early-warning Models of Internet Fraud
ZHAO Sifang1, ZHOU Xueguang2, ZHANG Zhigang2(1. Unit 92785, PLA,,Suizhong Liaoning 125200, China;2. Navy University of Engineering, Wuhan Hubei 430033, China)
0引言
根據CNNIC發布的《第40次中國互聯網絡發展狀況統計報告》中數據顯示,截止2017年6月,中國網民規模達7.51億,其中使用手機網上支付結算進行線下購物的網民比例達到61.6%[1]。在網絡線下支付等行為越來越普遍時,隨之而來的網絡詐騙案件也頻繁發生。盡管各地公安機關一直持續不斷打擊,但網絡詐騙社會危害性的復制性、聚焦性和擴散性[2]的特點使得網絡詐騙案件容易“死而復生”。隨著文本內容分析、大數據、機器學習和深度學習技術的成熟,社會上出現了一些有深度的技術層面的監管措施,包括從用戶行為特征、掃描統計方法和涉案人群智能分析[3]等。
本文以中文網頁中關于網絡詐騙的新聞文本為數據源,構建網絡詐騙熱度分析的時間和空間模型,運用可視化技術直觀展示近年來我國網絡詐騙案件熱度分析和時空分析的變化趨勢。
1內容分析方法在網絡文本中的應用
傳播學家伯納德·雷爾森定義內容分析為:“一種對具有明確特征的傳播內容進行的客觀、系統和定量的描述的研究技術”。[2]研究目標主要為趨勢分析、現狀分析、比較分析和意向分析,其與數學和計算機學科結合,形成了對文本信息使用統計、分類和挖掘等方法,以獲得更深層次的技術。
本文研究過程中主要使用文本內容分析正則表達式和詞頻統計技術。
①正則表達式可以用于從文中抽取特定的目標信息內容和數據。原理是用一串具有特定意義的字符作為正則運算符來表示某種匹配規則,其主要應用方向是Web信息內容抽取,最基本的3種功能是匹配、替換和提取。本文中正則表達式主要使用了單模式匹配方法和雙模式匹配的貪心算法,單模式匹配方法是從文本中抽取對應模式內容,貪心算法是利用正則表達式組成邏輯結構實現對全部內容的匹配,方法是用.*?”表示匹配前文全部內容0或1次。
Pattern1+.*?+Pattern2,
式中,Pattern1表示正則表達式起始端;Pattern2表示正則表達式結束端;+表示連接正則表達式內容。
②詞頻統計是文本分析中的基本步驟,通過對關鍵詞語的統計實現對文本主題內容的抽取、分類和信息過濾等。目前詞頻統計規律的提出、驗證及應用等方面已有大量參考資料,本文使用基本的詞頻統計方法統計關鍵詞[4]的出現次數,通過分析后得出相應結論。
2數據挖掘方法在分析和聚類中的應用

3.1.2模型算法
模型算法包括了熱度分析時間統計表算法和月環比增長率統計表算法,分別稱之為算法1與算法2。算法1前聲明時間序列列表date,列表中各個元素為匹配模式Pattern;聲明字典變量為dict_time。
算法1:輸入:文本數據wenebn.txt;輸出:熱度分析時間統計表hot_time.csv。步驟:①for i in range(0,len(date),1);②key = re.findall(匹配模式=date[i],匹配內容=wenben.txt,換行處理re.S);③dict_time [i] = len (key);④文本指針歸0;⑤df = pandas.DataFrame(dict_time);⑥df.to_csv(hot_time.csv保存路徑)。
算法2:輸入:算法1變量df;輸出:月環比增長率統計表rate.csv。步驟:①df[增長率]=0;②for i in range(1,len(df.index),1);③df.ix[i,增長率] = float(df.ix[i,對應時間統計的詞頻數值number])/float(df.ix[i-1,對應時間統計的詞頻數值number])-1;④df.to_csv(rate.csv保存路徑)。
3.2熱度分析空間模型
構建熱度分析空間模型與熱度分析時間模型算法需要將相同省份名稱和詞頻頻率匯總為熱度分析空間統計表,保存為Excel格式,并進行可視化工作及分析。
3.2.1正則表達式構建和詞頻匹配
針對熱度分析的空間統計,可以以我國省份名稱作為正則表達式的匹配模式Pattern,正則表達式匹配前聲明字典變量,字典的索引值Key為省份名稱,字典對應值Value為詞頻頻率。
3.2.2模型算法
熱度分析空間統計算法成為算法3。算法3前聲明省份名稱列表province,列表中各個元素為匹配模式Pattern;聲明字典變量dict_province。
算法3:輸入:文本數據wenebn.txt;輸出:熱度分析時間統計表hot_space.csv。步驟:①for i in range(0,len(province),1);②key = re.findall(匹配模式=province[i],匹配內容=wenben. txt,換行處理);③dict_province[i] = len(key);④文本指針歸0;⑤df = pandas.DataFrame(dict_province);⑥df.to_csv(hot_space. csv保存路徑)。
3.3時空統計預警模型
3.3.1時空統計模塊
時空統計模型使用了雙索引字典技術,分別為外層字典與內層字典。具體方法與熱度分析時間和空間模型相同,正則表達式由“時間參量+.*?+空間參量”的匹配模式構成,最終得到時空統計表,其包含了時間、省份和詞頻,并通過軟件進行數據可視化展示。
3.3.2預警模塊
預警模塊以時空統計表為基礎,使用均值聚類法對月環比增長率進行聚類。具體方法是首先判斷月環比增長率取值,對大于0的月環比增長率進行均值聚類,定義值為4,得到4類聚類結果,而月環比增長率小于0的情況單獨歸為一類,總計得到5層分類結果。
3.3.3時空統計模塊算法
時空統計模塊算法稱為算法4。算法4使用算法1聲明的時間序列列表date和算法3前聲明的省份名稱列表provicne。聲明字典變量dict1。
算法4:輸入:文本數據wenben.txt;輸出:時空統計表time_space.csv。
步驟:①for i in range(0,len(date),1);②定義字典dict2;③for k in range(0,len(province),1);④key = re.findall(匹配模式=date[i]+.*?+province[k],匹配內容=wenben.txt,換行處理);⑤dict2[province[k]] = len(key);⑥文本指針歸0;⑦dict1[date[i]] = dict2;⑧df = pandas.DataFrame(dict1);⑨df[rate]=0;⑩for i in range(1,len(df.index),1);
4實驗與分析
4.1實驗環境與數據準備
(1)實驗環境
實驗是在JetBrains Pycharm Community Edition 2017.2上用Python2.7語言實現。數據可視化軟件為Excel2016,數據源為各個模型的統計結果表。
(2)數據準備
本文數據來自人民網社會模塊,在此以網絡詐騙為關鍵字檢索相關新聞,獲得了由2012年7月07日~2017年5月26日的全部文本新聞報道共計995篇。
4.2熱度分析時間結果
熱度分析的時間模型對2012年7月~2017年5月的時間進行了匹配和統計,經過算法處理后得到熱度分析的時間統計表,實驗結果如表1所示。
根據得到熱度分析的時間統計表得到月環比增長率表,表明網絡詐騙存在“死灰復燃”的特征,結果如表2所示。
4.3熱度分析空間結果
熱度分析空間統計模型對2012年6月~2017年5月間的我國31個省級行政區和港澳臺地區的名稱進行了匹配和統計,經過算法處理后得到了熱度分析的空間統計表。網絡詐騙熱點省份由高至低的前10名省份統計結果由表1所示。
4.4時空統計預警模塊實驗及結果
由于熱度分析的時間和空間模型剝離了時空相關性,其熱度分析時間統計表和熱度分析空間統計表不能作為時空統計的數據源,所以時空統計預警模塊對文本重新進行了正則表達式匹配和詞頻統計。4.4.1時空統計模塊
時空統計模塊通過雙索引技術,利用時空相關性特點,通過算法處理后得到了時空統計表,從圖1可發現我國在2012年末~2014年1月和2015年3月~2016年1月是我國網絡詐騙的一個高發期,其中北京、上海和廣東一直是關注網絡詐騙案件的熱點地區,結果如圖2所示。
4.4.2預警模塊
預警模塊以時空統計圖為基礎,經多次實驗,均值聚類方法迭代次數分析在21~24次之間。通過動態圖發現我國網絡詐騙主要在沿海區域和經濟發達區域,東南沿海區域長時間處于預警狀態。
5結束語
網絡詐騙是國內的熱點與重點事件,空間模型在數據深度的提取上僅達到省、直轄市與自治區級別,仍具有地理深度上鉆取數據的價值和廣闊的發展前景。除此之外,未參考地域特征、人口文化素質和經濟收入等相關因素,因而本文的模型在構建的方法上可以更加多樣化,其反應的結果也將更加豐富。
參考文獻
[1]中國互聯網信息中心.中國互聯網絡發展狀況統計報告[R].北京:中國互聯網信息中心,2017.
[2]朱少強,邱均平.文獻計量與內容分析—文獻群中隱含信息的挖掘[J].圖書情報工作,2005,49(6):19-23.
[3]王占宏.基于掃描統計方法的上海犯罪時空熱點分析[D].上海:華東師范大學,2013.
[4] Steven B,Ewan K,Edward L. Natural Language Processing with Python [M]. Sebastopol:OReilly Media,2009.
[5]程潔.數據挖掘技術在情報學領域的應用研究現狀分析[J].現代情報,2005(10):14-15.
[6]孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學報,2008(1): 48-61.
[7]曾接賢,王軍婷,符祥.K均值聚類分割的多特征圖像檢索方法[J].計算機工程與應用,2013,49(2):226-230.
[8]周志華.機器學習[M].北京:清華大學出版社,2016.