999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于拼音分析的網民密碼行為研究

2014-06-06 10:46:47王云凱洪瑞隆
計算機工程 2014年9期
關鍵詞:分析

楊 城,王云凱,洪瑞隆

(1.西南財經大學經濟信息工程學院,成都611130;

2.博伊斯州立大學計算機學院,美國博伊斯83725)

基于拼音分析的網民密碼行為研究

楊 城1,王云凱1,洪瑞隆2

(1.西南財經大學經濟信息工程學院,成都611130;

2.博伊斯州立大學計算機學院,美國博伊斯83725)

從網民密碼字符中26個字母與漢語拼音的關系入手,研究中國網民密碼的文化特征。基于網絡漢字頻率及多音字處理方法進行拼音字母的頻率統計,在簡單闡述網民密碼的一般性統計特征后,重點分析中西方網民密碼與拼音文本、英語文本中字母頻率之間的相似性,揭示中國網民的密碼設計與漢語拼音密切相關,并且習慣于采用拼音式的助記符密碼。

信息安全;密碼;拼音;文化特色;相關性分析;助記符密碼

1 概述

2011年12月下旬,中國互聯網爆發了一場最大規模的用戶資料泄密事件。從最初程序員網站CSDN(CSDN.net)的640萬用戶數據被泄露,到天涯(Tianya.cn)被曝出3 000萬用戶密碼遭泄露,而后人人網(renren.com)、多玩網(duowan.com)、7K7K網(7K7K.com)、百合網(baihe.com)、貓撲(maopu.com)等知名網站相繼傳出用戶信息被盜用的消息。截至12月29日,CNCERT通過公開渠道獲得疑似泄露的數據庫有26個,涉及賬號、密碼2.78億條。其中,具有與網站、論壇相關聯信息的數據庫有12個,涉及數據1.36億條[1]。

由于這次泄密事件的涉及面相當廣,不僅數量驚人,而且很多泄露賬戶采用明文密碼,沒有加密存儲,由此引發了一場席卷中國互聯網的安全恐慌。但對于學術界而言,它卻為密碼安全和網絡行為學的研究提供了寶貴數據和絕好機遇。這是因為基于用戶密碼的特殊性,以往的研究要么是針對少量泄密數據的統計分析,要么采用問卷調查或小范圍測試的間接方式,還從未有過針對如此巨量密碼數據的直接研究[2-4]。更為重要的是,現有文獻的研究對象多為英語母語國家的密碼數據,很少有專門針對非英語國家密碼特征的研究,而這些密碼數據中往往蘊含著許多網民所在國特有的、新奇的、反映其文化特征的東西。

鑒于此,本文擬從網民密碼字符中26個字母與漢語拼音的關系入手,研究中國網民密碼的文化特征。重新計算網絡文獻中拼音字母的統計頻率,介紹本次研究所選密碼數據的概況,在簡單闡述網民密碼的一般性統計特征之后,詳細對比分析中西方網民密碼與拼音文本、英語文本中字母頻率之間的相似關系,并給出相關建議。

2 拼音字母的統計特性

自上世紀50年代中后期中國文字改革委員會研究制定漢語拼音方案以來,國內對拼音字母的頻率統計主要分為2個時期。第1階段是在漢字剛剛推行拉丁化拼音標注后,相關學者和專家對紙質文獻進行的手工統計,其代表人物有吳越、柳棉等[5-6]。第2階段是在進入90年代以后,隨著計算機性能的不斷提升和應用的廣泛普及,研究人員借助計算機進行了更大規模的統計。其中,比較有代表性的是張春生、關薇薇的《漢語全拼碼中26個英文字母出現概率研究》,他們利用Visual Foxpro和漢字逆碼表,對文學、科技、政治三類文獻,總計超過500萬漢字所作的統計分析[7]。但是,上述研究成果若直接應用于網民密碼的特征分析,在針對性和準確性上還有所欠缺,這主要表現在以下3個方面:

(1)在語料選擇上,前期研究多為紙質文獻(包括掃描)或電子書籍和報刊,真正的網絡文獻并不多見,這與網絡時代漢字“遠離紙筆、親近鍵盤”的現實相違背,因而無法體現網民用詞用字的習慣。

(2)語料數量有限,即使是文獻[7]中的500萬漢字也遠未達到真正意義的大規模統計,只能滿足常用漢字的拼音統計分析。

(3)在多音字問題上,文獻[7]中漢字逆碼表將漢字與拼音簡單地一一對應,缺乏對多音字的有效處理。雖然多音字常以某個單一讀音為主讀音(甚至部分讀音僅用于古文,現實中用得極少),并且很多僅僅是音調變化,但由于它們在3 500個常用漢字中的比例高達15.94%[8],因此對拼音字母的統計仍然具有不可忽視的影響。

因此,為了取得更精準的統計數據,本文對網絡文獻中拼音字母的出現頻率重新進行了統計。出于時間和人力的考慮,本次研究沒有直接進行大規模的統計分析,而是借鑒前人對網絡漢字的統計結果,結合多音字分析的方法進行計算。

首先利用郭曙綸、方有林在《網絡漢字的大規模統計與分析》和《網絡漢字使用頻率統計數據及其說明》兩篇文章中的研究成果,得到每個漢字的頻率數據[9-10]。他們的研究是基于對14.06億網絡語料的統計,其來源包括門戶網站、文學網站和報紙網站等,總共涉及 6 932個漢字,幾乎覆蓋一級字庫(3 755)和二級字庫(3 008)的全部漢字。然后利用類似成分的語料結合多音字處理軟件,對前1 001個高頻常用漢字(累計頻率為90%[9])中的非音調變化型的多音字進行辨音統計,得出每個多音字的每個讀音對應的比例(例如“的”字,“de”音占99.4%,而“di”音僅占0.6%),如表1所示。

表1 包含多音字處理的漢字拼音統計結果

最后,利用式(1)計算出每個拼音字母的頻率數值。

其中,hz表示每個漢字;Rate1(hz)表示該漢字的字頻;Rate2(hz)表示該漢字對應讀音的比例;Letter(hz,α)表示該漢字的全拼是否包含字母α(包含為1,否則為0)。

圖1是本文的統計結果與文獻[7]的對比分析(字母順序按本文的統計值由高到低排列)。可以看出,雖然2次統計在整體趨勢上差異不大(除字母u和e外,相同字母頻率的絕對差值都在0.01以下),但在字母頻率的大小排序上仍有較大變化(有14個字母的排序位發生改變)。更為重要的是,新的統計數據更加準確地反映了網絡時代中國人(尤其中國網民)的拼音輸入習慣,為網民密碼分析提供了更加可靠的數據支持。

圖1 字母頻率統計結果

3 密碼數據概況

雖然本次密碼泄露事件涉及多家不同類型、不同主題的網站,但本文僅選取了最具代表性的天涯社區(Tianya)的泄露數據作為主要的分析對象,而將其他數據用作對比分析和輔助驗證。這是因為Tianya作為一個以論壇、博客、微博為基礎交流方式,并以人文情感為特色的綜合性虛擬社區和大型網絡社交平臺,是目前最具影響力的全球華人網上家園,其用戶群體分布廣泛,包含不同年齡、不同階層、不同職業的網民。同時,Tianya也是此次數據泄露事件中被盜數據量最多、數據項最完備的一家網站。因此,它能夠基本反映中國網民的賬戶特征,將其選為分析對象是十分合適的。

此次Tianya的泄露數據為2009年的備份數據,共計29 865 731條賬戶記錄,每條記錄包含賬號ID、密碼PWD和Email信息。由于原始數據不夠規范并且包含一些錯誤的數據記錄,因此在數據分析前需要先進行數據清洗,刪除那些密碼為空和E-mail存在明顯錯誤的記錄(例如沒有@符號,@符號前后部分為空等),以及一些公共的和內部專用的賬戶對應的記錄,例如馬甲A軍團***@163.com(注:“馬甲”用于論壇隱身發帖)、user@hainan.net、idreg@tianya.cn、idreg@ hainan.cn等,以保證賬戶數據的普遍性。經過清洗,最終用于分析的有效數據共計28 988 172條。

4 網民密碼分析

4.1 一般性密碼特征

通過一些簡單的SQL語句,可以很快得出中國網民密碼的一些基本結構特征。

例如,2/3以上的密碼長度集中在6位~8位,平均長度為7.94位,其中數字與字母的比例約為3:1,即一個8位的平均密碼中大約包含6位數字和2位字母。可見,中國網民更加偏好于數字型密碼。就字符結構而言,63.8%的賬戶為純數字型密碼,10.3%的為純字母型密碼,僅24%的為數字字母混合型,而選用特殊字符的密碼更是低至1.9%(后兩個數字在MySpace的網民中分別為81.0%和8.3%[11])。這表明中國網民的密碼安全意識普遍偏低。

在對常用密碼的分析上,筆者發現許多有別于西方的、獨具中國文化特色的密碼現象:除了傳統的123456,111111,000000,還有被國人視為吉祥數字的666666,888888,更有中文數字的諧音密碼,如5201314(我愛你一生一世)、7758520(親親我吧我愛你),以及拼音密碼woaini(我愛你)、woshishui(我是誰)、woaiwojia(我愛我家)等。

此外,通過分析最常見的密碼子串,筆者發現除123,000,111,520/521,1314這類數字子串的出現頻率極高外(都在1%以上,123更是超過10%),一些常用漢字的拼音子串的頻率也非常高,如jia(家)、hao(好)、wan(玩)、xiao(小)等都在0.5%左右。而經常出現在西方密碼中的password,baby,ball,boy等子串的頻率卻都在萬分之五以下,僅abc和love的頻率接近0.5%。

最后,針對常用數字字符的分析顯示,除了最常用的1/2/0,數字8排在第4位(通“發”的音),而數字4則排在最后(通“死”的音)。但 Burnett和Kleiman的研究卻發現,在西方的密碼字符中,數字8的頻率最低[12]。

4.2 密碼字母頻率分析

由于文化習慣和思維模式上的差異,中西方網民在選擇26個字母(不區分大小寫)作為密碼字符時存在較大差異。表2詳細展示了這些字母在不同應用環境中的出現頻率,4組數據依次對應英語文本(Type_A)[13]、西方網民密碼(Type_B)[12]、漢字拼音文本(Type_C)和中國網民密碼(Type_D)的具體頻率值,其中,灰色數值表示每一組數據中出現頻率最高的3位,下劃線數值表示出現頻率最低的一位。

表2 基于不同應用環境的字母頻率分布 %

從表2可以看出,中國網民密碼中最常見的字母依次為A/I/N,出現頻率最低的字母為V;而西方網民密碼中最高和最低的字母依次為E/A/R和Q。同時,雖然具體數值有差異,但Type_D同Type_C最為相似。深入比較還可以發現,在頻率最高的前10個字母中,Type_D與Type_C有9個相同項,而與Type_A僅有6個相同項。

以上比較表明中國人的密碼字母頻率更加接近于拼音字母的頻率,說明國人在設置密碼時較多地參考了漢語字詞和短語,而非英文單詞或短語。為了進一步驗證這一特征,本文對4組數據兩兩一組進行相關性分析,利用空間向量的余弦公式來計算它們之間的相關性:

其中,D1,D2分別表示一個26維的空間向量;W1i和W2i分別表示對應維度的權重(即字母的頻率值), Sim(D1,D2)表示2個向量的空間夾角的余弦值,該值越接近于1相似性越高。計算結果如表3所示。

表3 4組字母頻率數據的相關性分析結果

可以看出,西方網民密碼與英語文本高度相關,而國內網民密碼與拼音文本的相關性也非常高,印證了前面的分析。同時注意到,后者的相關性(0.928)相對于前者(0.961)略微偏低,原因可能是西方網民設置密碼的模式較為單一,只能參照英語文本;而國內網民雖然主要基于漢語拼音設置密碼(尤其體現在年齡層次偏高、文化程度偏低的網民中),但也有少部分人參照英語單詞和短語。這一點從下面的數據能夠得到一定的印證:用類似的方法分析CSDN(中國軟件開發聯盟)的密碼特征,可以看到CSDN的網民密碼同英語文本的相關性為0.862,略高于此處Tianya網民的0.841。這是由于CSDN作為中國最大的程序開發者技術社區,其網民年齡普遍偏低,文化程度整體高于Tianya,并且他們在工作中大量接觸英語,因此其密碼結構中的英語成分也體現得相對較多。

表2中Type_C與Type_D相比,網民密碼中輔音字母的頻率值普遍偏高(僅D/G/H/N例外)。這反映出國人喜歡采用拼音式助記符密碼,即基于某個漢語短語(稱為助記符短語)中每個漢字的拼音首字母來設置密碼。例如,參照成語“塞翁失馬,焉知非福”,其密碼可以設置為“swsmyzff”。對于4個密碼頻率較拼音文本偏低的輔音字母,H是因為翹舌音zh/ch/sh在縮寫時屏蔽了第2個字母,N/G是因為全拼中的前鼻韻母(an/en/in/un/vn)和后鼻韻母(ang/eng/ing/ong)在縮寫時都被刪除,而D是因為漢字中的第一高頻字“的”(de)一般很少出現在助記符短語中。由此可見,這些所謂的“例外”,恰好印證了本文對拼音式助記符密碼的分析。

此外,本文用同樣的方法分析拼音文本同中國網民的賬戶ID、Email賬號(@符號前面的部分)的相關性,2個數值分別為0.943和0.958,都高于同密碼的相似度(0.928)。這說明網民在命名賬戶ID和Email賬號時,比設置密碼更加習慣于參照漢字拼音。

5 結束語

綜上所述,中國網民的密碼設計與漢語拼音密切相關,習慣于采用基于拼音短語式的助記符密碼。

需要注意的是,這些結論一方面為網絡安全、密碼分析以及行為學分析方面的專家學者提供了重要的研究素材和參考依據,但另一方面它也暴露了網民密碼的結構特點,為居心叵測者提供了便利。例如,過去有很多文獻都認為助記符密碼是一種不錯的密碼設計模式,既方便記憶,又難于破解。但最近的研究表明[14],助記符密碼也并非萬能,它并不比“普通”密碼更安全。只要熟悉密碼人群的設計模式和短語來源,通過構造一個足夠廣泛的“助記符短語詞典”,結合常用的字符/短語變換模式(如o/0,1/L,我愛你/521,二月/Feb等相互替換),那么助記符密碼將變得同樣脆弱。

因此,本文建議中國網民在設計助記符密碼時,助記符元素的選擇應該更加廣泛,避免采用單純的拼音字母,而應盡量選擇拼音與英語混合的助記符模式,并通過諧音或象形等方式添加數字和特殊字符,從而在保持易記性的同時進一步增強密碼強度。例如,一個被網友戲稱為“CSDN杯我最喜歡的密碼評選”最具詩意的密碼:“ppnn13%dkstFeb.1st”,其助記符短語為“娉娉裊裊十三余,豆蔻梢頭二月初”(杜牧《贈別·其一》),它的密碼主體依舊是拼音式的助記符,但同時巧妙地結合了數字、單詞縮寫和特殊符號。

[1] 國家互聯網應急中心.關于相關網站用戶信息泄露事件的通報[EB/OL].(2011-12-30).http://www.cert. org.cn/articles/bulletin/common/2011123025709.shtml.

[2] Riley S.Password Security:What Users Know and What They Actually Do[J/OL].[2013-08-11].http://www. surl.org/usabilitynews/81/Passwords.asp.

[3] Florencio D,Herley C.A Large-scale Study of Web Password Habits[C]//Proc.of WWW'07.Banff, Canada:[s.n.],2007:657-666.

[4] Gilbert N,Clark T.Passwords and Perceptions[C]//Proc. of AISC'09.Wellington,New Zealand:[s.n.],2009.

[5] 吳 越.聲母和韻母出現率的統計[J].拼音,1956,8: 46-48.

[6] 柳 棉.關于字母和數字的相關統計[J].語文建設, 1962,3:9.

[7] 張春生,關薇薇.漢語全拼碼中26個英文字母出現概率研究[J].計算機工程與應用,2006,42(7):146-147.

[8] 許艷平,張金城.現代漢語多音字定量考察[J].長江學術,2010,(2):168-172.

[9] 郭曙綸,方有林.網絡漢字的大規模統計與分析[M].漢字研究(第1輯).北京:學苑出版社,2005.12-18.

[10] 郭曙綸,方有林.網絡漢字使用頻率統計數據及其說明[EB/OL].http://wenku.baidu.com/view/7ebd9b1 db7360b4c2e3f644f.html.

[11] Schneier B.Real-world Passwords[EB/OL].[2013-08-11].http://www.schneier.com/blog/archives/2006/12/ realworld_passw.html.

[12] Burnett M,Kleiman D.Perfect Password:Selection, Protection,Authentication[M].[S.l.]:Syngress,2006.

[13] 維基百科.字母頻率[EB/OL].[2013-08-11].http:// zh.wikipedia.org/wiki/%E5%AD%97%E6%AF% 8D%E9%A2%91%E7%8E%87.

[14] Cynthia K,Sasha R,Lorrie F C.Human Selection of Mnemonic Phrase-based[J/OL].[2013-08-11].http:// repository.cmu.edu/isr/36/.

編輯 金胡考

Behavior Research of Internet User Passwords Based on Pinyin Analysis

YANG Cheng1,WANG Yun-kai1,HONG Rui-long2
(1.School of Economic Information Engineering,Southwestern University of Finance and Economics,Chengdu 611130,China;
2.School of Computer Science and Engineering,Boise State University,Boise 83725,USA)

This paper studies the cultural features of Chinese Internet users password by studying the relationship of 26 letters from Internet users password characters with Pinyin.It does the frequency statistics based on the network of Chinese phonetic alphabet frequency and polyphone treatment method.After briefly general statistical characteristic of password,it is focus on analysis of the similarity between Internet users'password and the frequency of letters in the Pinyin text and English text in western countries and in China.It reveals that the password of Chinese Internet users design is closely related to Pinyin,and accustomed to using phrases mnemonic phrase-based passwords like Pinyin.

information security;password;Pinyin;culturalfeature;correlation analysis;mnemonic phrasebased password

1000-3428(2014)09-0174-04

A

TN918.1

10.3969/j.issn.1000-3428.2014.09.035

中央高校基本科研業務費專項基金資助項目(JBK130503);國家社會科學基金資助項目(11AZD077)。

楊 城(1977-),男,副教授、博士,主研方向:復雜系統仿真,經濟博弈論,數據挖掘;王云凱(通訊作者),碩士研究生;洪瑞隆,副教授、博士。

2013-07-11

2013-10-28E-mail:tairur@yeah.net

猜你喜歡
分析
禽大腸桿菌病的分析、診斷和防治
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
經濟危機下的均衡與非均衡分析
對計劃生育必要性以及其貫徹實施的分析
現代農業(2016年5期)2016-02-28 18:42:46
GB/T 7714-2015 與GB/T 7714-2005對比分析
出版與印刷(2016年3期)2016-02-02 01:20:11
中西醫結合治療抑郁癥100例分析
偽造有價證券罪立法比較分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 最新国产麻豆aⅴ精品无| 国产精品香蕉| 99re视频在线| 大陆国产精品视频| 国产在线观看91精品| 成人在线视频一区| 日韩欧美视频第一区在线观看| 幺女国产一级毛片| 亚洲二三区| 国产毛片高清一级国语| 国产三级韩国三级理| 亚洲欧美人成人让影院| 国产欧美视频一区二区三区| 国产人人干| 国产浮力第一页永久地址| 孕妇高潮太爽了在线观看免费| a亚洲视频| 97久久精品人人做人人爽| 免费在线播放毛片| yjizz国产在线视频网| 91啦中文字幕| 欧美日本激情| 久久精品视频一| 中文字幕在线免费看| 久久窝窝国产精品午夜看片| 小说 亚洲 无码 精品| 国产第一页免费浮力影院| 色视频国产| 久久中文电影| www.youjizz.com久久| 国产在线观看第二页| 欧美中文字幕一区| 久久九九热视频| 日韩一级二级三级| 久久这里只有精品23| 91青青草视频| 国产乱子伦精品视频| 中文字幕永久视频| 亚洲黄色视频在线观看一区| 啦啦啦网站在线观看a毛片| 国产99免费视频| 国产成人亚洲无码淙合青草| 亚洲欧洲自拍拍偷午夜色| 国产swag在线观看| 热久久这里是精品6免费观看| 亚洲无码熟妇人妻AV在线| 亚洲精品777| 伊人激情综合网| 九九热精品视频在线| 日韩亚洲高清一区二区| 久久综合伊人 六十路| 亚洲日本中文字幕天堂网| 国产电话自拍伊人| 久久婷婷色综合老司机| 一区二区无码在线视频| 久久一本日韩精品中文字幕屁孩| 欧美精品亚洲精品日韩专区va| 国产日韩欧美一区二区三区在线 | 欧美国产在线精品17p| 亚洲一区第一页| 国产精品一区二区不卡的视频| 韩日无码在线不卡| 日韩成人在线网站| 国产高清在线观看91精品| 久久精品电影| 2020国产精品视频| 高清无码一本到东京热| 色哟哟精品无码网站在线播放视频| 国产XXXX做受性欧美88| 91久久偷偷做嫩草影院精品| 亚洲第一成年人网站| 色网站免费在线观看| 91在线免费公开视频| 99re免费视频| 国产在线一区二区视频| 久久香蕉国产线看观看式| 免费无码网站| 国产精品所毛片视频| 免费看一级毛片波多结衣| h网址在线观看| 国产真实乱人视频| 免费人成视频在线观看网站|