孫夫雄 呂 錦 曹 甜
(中南財經政法大學信息與安全工程學院 湖北 武漢 430074)
近年來,我國互聯網技術飛速發展,網絡需求不斷擴大,網絡用戶也越來越年輕化。根據中國互聯網信息中心(CNNIC)的報告,截至2016年6月,我國互聯網普及率達51.7%,與2015年底相比提高1.3個百分點,超過全球平均水平3.1個百分點,超過亞洲平均水平8.1個百分點[1]。隨之而來的是日益突出的網絡安全威脅和風險,因此網絡安全是事關國家安全和國家發展、事關廣大人民群眾工作生活的重大戰略問題。建設信息安全保障體系是應對網絡安全威脅的有效措施,保障體系中人是最重要的安全因素之一,相關統計顯示90%網絡安全問題是由于缺少安全意識引起的[2],即信息安全有關人員安全意識淡薄[3]、網絡用戶對計算機的了解程度低、網民整體素質良莠不齊[4]等因素給網絡安全帶來嚴重的威脅。
人作為體系中最薄弱的一環,僅僅依靠技術手段無法顯著地提高信息系統的安全水平,必須加強人員的安全管理,而準確且客觀地評估和鑒定人員的信息安全意識水平是重要的管理步驟。本文研究了信息安全意識ISA(Information Security Awareness)水平的評估方法。
針對日益嚴重的網絡安全威脅,在信息安全人才與信息安全意識培養領域,國內外學者進行了大量卓有成效的研究。文獻[5]研究了個人的信息安全意識和個人差異變量,即年齡、性別、人格和冒險傾向之間的關系,研究發現知識水平對信息安全意識的影響最大。文獻[6]提出了基于知識、態度、行為的HAIS-Q模型,用于評估公司員工的ISA水平。Waly等[7]在其博士論文中系統地研究了信息安全意識培訓的目標、實施方案對組織信息安全的影響。文獻[8]指出即使目前有許多硬件和軟件機制應用于加強信息系統安全,但由于操作人員的不良行為,信息系統仍然處于易受攻擊狀態,強調了人的因素對信息安全的重要影響。Marks A[9]定量實證調查了435個高等教育機構,發現僅僅只有三分之一的被調查的教育機構為學生和工作人員安排了安全意識培訓,研究了提高安全意識水平的模式。
國內學者張煥國教授[10]論述了當前互聯網+新時代下信息安全人才培養體系的現狀與挑戰。翁健等[11]結合我國網絡空間安全人才培養的特點,給出了我國網絡空間安全人才培養的建議。文獻[12]通過深入分析高校的專業教學實踐中存在的諸多問題,提出了信息安全人才培養的新思路。文獻[13]提出了一個國民信息安全素養評價指標體系。
人是信息安全保障體制中最重要的安全因素之一,因個體的信息安全意識數據收集、處理和評估對信息安全保障體系十分重要,而當前對這一方面的研究不是很全面。本文提出基于信度分析和聚類算法的信息安全意識評價模型(ISAAM),通過問卷收集用戶信息安全意識數據,并對問卷進行信度分析,保證獲取的數據可靠性高;利用聚類分析算法分析數據的正確性和可靠性,對個體信息安全意識進行分類評價,以提高個體信息安全意識的評估水平。
本文借鑒已有的研究工作,設計調查問卷獲取個體的信息安全意識數據,引入信度分析技術和聚類算法的設計ISAAM模型,模型框架如圖1所示。

圖1 ISAAM模型框圖
圖1中α是克朗巴哈系數系數,θ是信度閾值;rtt是折半信度系數,ξ是其閾值。問卷題項類別分為三類:專業背景類C1、信息安全認知類C2和上網習慣類C3。將回收的有效答卷利用數據庫工具進行預處理后,統計每份問卷的得分情況。設:Ri為第i問卷的總得分,SAi為C2類得分,SHi為C3類得分,定義如下:
(1)
(2)
Ri=SAi+SHi
(3)
式中:ρ是C1類相關的加權系數;aij為第i問卷中第j題的得分;k2、k3分別表示C2和C3的數量。n份問卷構造數據集Mnx2(SA,SH),利用信度分析方法(α系數、rtt系數)計算問卷結果的信度系數,判定問卷設計是否恰當,并作出相應的調整。將調整之后的問卷發放并回收有效答卷,對調整后的答卷作同樣預處理。對于調整前和調整后的問卷結果,用k-means聚類方法對其進行分類和對比分析,并對個體ISA做出評價。
問卷調查是調查者運用統一設計的問卷向被選取的調查對象了解情況或征尋意見的調查方法。設計問卷時遵循系統性原則、方便性原則、科學性原則、嚴謹性原則和趣味性原則[14]。
信度分析方法常常用于評判問卷設計的合理性和問卷的正確性。信度簡單的可以分為內在信度與外在信度[15]。內在信度分析重在考察一組評價項目是否測量的是同一個特征,這些項目之間是否具有較高的內在一致性;外在信度主要分析不同時間對同批被評價對象實施重復測量,評價結果是否具有一致性。
2.2.1Cronbachα系數
測量內在信度常用的工具為Cronbachα系數。其計算公式為[15]:
(4)
式中:k為評價項目數,Sj2為第j題得分的題內方差,ST2為全部題項總得分的方差。Cronbachα系數在0~1之間,當θ=0.9,則問卷的信度很高;當0.8>θ>0.7之間屬于可以接受;當θ<0.7,則問卷在設計上存在問題,應當進行重新設計[15]。Cronbachα系數比較適用于態度、意見式問卷(量表)的信度分析。
2.2.2折半信度
折半信度系數也是檢驗內部一致性的工具。其基本思路是將調查項目分為兩半,計算兩半得分的相關系數,進而估計整個問卷的信度。進行折半信度分析時,如果問卷中含有反意題項,應先將反意題項的得分作逆向處理,以保證各題項得分方向的一致性。然后將全部題項按奇偶或前后分為盡可能相等的兩半,兩部分總得分分別記為X、Y,利用式(5)計算兩部分總得分之間的相關系數r。
(5)
式中:Cov(X,Y)是協方差,σX、σY為標準差。最后用斯皮爾曼-布朗(Spearman-Brown)公式求出整個量表的信度系數(rtt),定義如下[15]:
(6)
當ξ=0.5時,則問卷的內部一致性較好。折半系數使用起來漸變、省時、省力,但不適用于事實式的問卷,常用于態度、意見式問卷的信度分析[16]。
另外用于測量問卷外在信度的有重測信度和復本信度,但在實際調查者使用難度較高。本次調查主要收集用戶的上網習慣和信息安全認知兩方面的數據,采用意見式問卷的形式進行調查,因此采用Cronbachα系數和rtt系數對問卷進行信度分析。如果問卷具有高度的內部一致性和較高的信度,則收集的ISA數據可靠且正確。
k-means算法是J.B.Macqueen在1967年提出的,也叫快速聚類,屬于覆蓋型數值分隔聚類算法,其主要思想是把觀測數據劃分為v個群組,找到每個群組的中心(均值),然后將各個數據點聚集到其最近中心的群組中[17]。聚類算法可以有效地對數據進行分類,有助于發現數據特性和數據之間的關系,便于對用戶ISA進行客觀評價。利用聚類算法對數據集Mnx2(SA,SH)進行分類分析,計算數據集中每一個數據點xi=(SAi,SHi)∈M(i=1,2,…,n)到簇質心mj(j=1,2,…,v)的歐式距離dij定義如下:
(7)

(8)
調研對象為某財經類院校學生,采集信息涵蓋專業背景、對計算機的了解、上網習慣、網絡安全認知幾個方面,以封閉性問題為主包括28個題目:k1=5;k2=13;k3=10。調查回收有效問卷788份,對調研對象的學歷、專業大類和計算機知識的了解程度進行交叉分析結果如圖2所示。

圖2 調研對象專業背景
圖2中調研對象的專業背景包括:理工類-本科ρ1,理工類-研究生ρ2,經法管類-本科ρ3,經法管類-研究生ρ4,文史哲教類-本科ρ5,文史哲教類-研究生ρ6。取85%的樣本作為訓練數據進行聚類,剩下的15%作為測試數據,根據信度分析結果和聚類結果對此次調研進行評價,并對用戶的ISA進行評價。
定義計分規則為:一個好的用戶習慣或網絡安全認知高的選項得1分,不好的得-1分,處于中間模糊層次的得0分。文獻[19]研究指出不同專業背景的人對信息安全的整體認知和態度差異顯著,因此根據各個專業背景對系數ρ進行定義如表1所示。

表1 ρ值
依據計分規則,統計出每份問卷的每道題得分αij(i=1,2,…,788,j=1,2,…,28),由式(1)、式(2)、式(3)計算SH、SA和R如表2所示。

表2 問卷得分情況
評價項目數k=28,計算各題題內方差Sj2,如表3所示。

表3 Sj 2值
則∑Sj2= 11.576 9;方差ST2= 38.962 1,由式(4)得α=0.728 9∈(0.7,0.8)區間內,此時認為問信度可以接受;將全部題項按奇偶序號分兩半,由式(5)得r=0.344 8,由式(6)得rtt=0.512 79,問卷的內部一致性較好。
問卷調查容易產生誤差有以下原因:來自研究者的因素包括測量內容不當、情景以及研究者本身的疏忽;來自受訪者的因素則可能是由于其年齡、性格、教育程度、社會階層等,從而影響其答題的正確性。而在本次調查的主要影響因素來自研究者本身的疏忽、受訪者的教育程度和專業背景。根據以上原因對問卷做出以下調整:
1)C1類:從圖2來看,文史哲教類、經法管類和理工類專業中大多數學生對計算機相關知識為“掌握了基本常識”的情況,本科生與研究生情況也類似,并未表現出明顯的關聯。由此,通過進一步了解調研對象的專業背景及計算機對各專業的影響程度,對C1類題項進行調整,使專業背景劃分得更加細化,并調整系數ρ1=1.0,ρ2=1.2。
2)C2類:問卷中部分題目形式為“使用計算機上網時是否開啟防火墻”,“是否安裝殺毒軟件”,“是否隨意連接過公共WiFi”等較直接的題,容易引導調研對象下意識選擇比較好的答案,導致C2類得分高而C3類得分卻很低。通過與調研對象進行深入訪談,了解其平時使用計算機的習慣,并依據訪談結果對上網習慣類題項及相應選項進行調整,盡量降低題目對調研對象作答的引導性。如“是否隨意連接過公共WiFi”可改為“是否使用過公共免密WiFi”。
3)C3類:問卷中這部分題比較直接,如“您認為您是否具有較高的網絡安全意識”,“您是否有過個人信息泄漏情況”等,容易對調研對象的作答產生引導。因此,結合專業背景和訪談結果,對信息安全認知類題項及相應選項進行調整,如詢問調研對象對安全問題防范措施的認知如個人防火墻的設置、信息加密、郵件安全等,以降低題目對調研對象作答的引導性。
將調整后的問卷發放并回收有效答卷,計算調整后問卷的信度系數,則α′=0.934 1,r′=0.513 3,rtt′= 0.678 3,問卷內部一致性較調整前有了較大的提高,則此問卷的設計是合理的。
對調整前和調整后的問卷結果進行聚類并作對比分析,步驟如下:
1) 根據調整前后問卷的計分結果形成二維數據集M1和M2。
2) 選擇數據集M1中85%的數據作為訓練數據M11,剩余的15%作為測試數據M12;對M2做同樣處理形成M21和M22。



表4 聚類分析
依據式(8)計算誤差e1=0.423,e2=0.267。可以看出,相較于調整前的問卷,調整后的問卷不但可信度較高,聚類結果的誤差也較小,聚類效果更好,如圖3所示。

(a) (b)圖3 聚類結果
圖3(a)是調整前的聚類結果,“+”表示每一簇的質心:[[8.84,-2.89], [8.92,2.24], [9.08,6.46]];圖3(b)是調整后的聚類結果,“+”表示每一簇的質心:[[4.56,-2.76],[7.92,2.16], [11.33,5.67]]。圖3中:
“▲”類主要特征:信息安全認知較低,且上網習慣差,對計算機使用知識了解不夠,即低層次的ISA:L(ISA);
“●”類主要特征:信息安全知識有一定認知,上網習慣一般,對計算機相關知識有一定的了解且能夠基本防范網絡安全問題,即中層次的ISA:M(ISA) ;
“■”類主要特征:信息安全認知較好,上網習慣很好,能夠自主地防范網絡安全問題,即高層次的ISA:H(ISA)。
C2和C3類得分分布情況如圖4所示。


圖4 SA和SH分布直方圖
圖4(a)、(b)分別表示調整前SA和SH頻率分布直方圖;圖4(c)、(d)分別表示調整后的頻率分布直方圖。圖4(a)、(b)中當C2和C3類呈現以下的關聯時:[認知中,習慣差],[認知中,習慣一般],[認知中,習慣好],則被聚類為L(ISA)如圖3(a)所示。而圖4(c)、(d)中C2和C3類呈現以下的關聯:[認知低,習慣差],[認知中,習慣一般],[認知高,習慣好],其中[認知中,習慣一般]的群體占較大多數,符合實際情況。圖3(b)聚類結果顯示C2和C3類具有正相關性。因此顯然調整后的問卷結果更合理。結合圖3(b)和圖4(c)、(d)定義評估規則如表5所示。

表5 評估規則
在表5中,有SA[0,15],SH[-10, 10]andR[-10,25]。依據圖3(b)聚類結果,ISAAM定義L(ISA) ={Ri|Ri[-10,6)},M(ISA)={Ri|Ri[6,15]} andH(ISA)= {Ri|Ri(15,25]}。
ISAAM評估模型的調查對象是財經文科類高校的學生,對比理工類高校,其C1類加權系數ρ偏小,使信度計算結果偏小,同時也會使聚類中心向左移。復雜的網絡環境也會影響人們使用計算機的方式,許多威脅網絡系統安全的問題在復雜網絡環境的掩飾下可能會對用戶的判斷產生混淆,使用戶難以分辨其危害性,使問卷結果C3類問題得分偏高,從而對模型的準確性產生影響。
HAIS-Q模型(Human Aspects of Information Security Questionnaire)是目前比較典型的信息安全意識問卷調查模型[6]。利用問卷調查的方式收集個體關于互聯網使用、電子郵件、社交媒體、密碼管理、事故報告、信息處理、移動計算等7個領域的知識(Knowledge)、態度(Attitude)和自我報告行為(Self-reported Behaviour)的信息即KAB模式,ISA的評估以百分計:H(ISA)=80-100;M(ISA)=60-79;L(ISA)≤59,其中知識占30%,態度占20%,行為占50%。KAB模式的Cronbachα系數分別為:0.875、0.878和0.906,顯示調查問卷的內部一致性達到了較好的可信程度。知識、態度和行為之間的相關分析結果:若對政策和程序更好的認知,則就有更好的態度;若對政策和程序更好的態度及認知,則更能激發自我報告的行為、規避風險。
由于本文研究對象是在校大學生,問卷設計符合特定人群的特征和背景,內容并不局限于上述7個主題,但認知和習慣的正相關性符合HAIS-Q模型結論。依據表5的ISA評估規則,調查發現在理工類專業的學生中有76.7%屬于H(ISA);經法管類專業學生中有67.9%屬于M(ISA);文史哲教類專業學生中有71.2%屬于L(ISA)。依據HAIS-Q模型的評分標準,對比實驗中將知識、態度歸屬為認知類,將行為歸為習慣類,計分比各占為50%,對實驗數據的分析結果顯示不同專業背景的學生ISA評估比例與ISAAM模型實驗結果一致。
針對不同人群的ISA評價,信息采集的內容和評分標準會有所不同,由于ISAAM模型采用個體的認知和習慣加權評分以及聚類分析,ISA的評估規則會隨之改變,因此ISAAM模型更具靈活性和適用性。
信息安全意識是組織成員對信息安全重要性、信息安全對組織影響程度,以及對信息安全的個人責任感和行為等方面的認知程度,而評估認知程度往往帶有較強的主觀性。鑒于此,本文提出的基于信度分析和聚類算法的信息安全意識評價模型,能客觀定義上網習慣與信息安全認知之間的關系,并對個體信息安全意識作出比較客觀地評價,有助于正確評估人的安全因素,增強信息安全保障體系的安全性。
在后續的工作中,將深入分析網絡環境的復雜性和不同群體對象對模型的影響,并研究不同的可信度計算方法和聚類算法提高信息安全意識調查結果,引入模糊理論優化模型的性能。
[1] 中國互聯網絡信息中心. 第32次中國互聯網絡發展狀況統計報告[J]. 互聯網天地, 2013(10):74-91.
[2] Steele S, Wargo C. An Introduction to Insider Threat Management[J]. Information Systems Security, 2007, 16(1):23-33.
[3] 汪紅梅.我國信息安全保障體系存在的問題及對策芻議[J].信息網絡安全,2008(2):66-67.
[4] 魏惠斌.人肉搜索與個人信息安全問題芻議[J].福建警察學院學報,2009, 23(6):29-32.
[5] Mccormac A, Zwaans T, Parsons K, et al. Individual differences and Information Security Awareness[J]. Computers in Human Behavior, 2016,69(4):151-156.
[6] Parsons K, Mccormac A, Butavicius M, et al. Determining employee awareness using the Human Aspects of Information Security Questionnaire (HAIS-Q)[J]. Computers & Security, 2014, 42(4):165-176.
[7] Waly N, Tassabehji R, Kamala M. Improving Organisational Information Security Management: The Impact of Training and Awareness[C]// IEEE, International Conference on High PERFORMANCE Computing and Communication & 2012 IEEE, International Conference on Embedded Software and Systems. IEEE, 2012:1270-1275.
[9] Marks A. Exploring universities’ information systems security awareness in a changing higher education environment: a comparative case study research[D]. University of Salford,2007.
[10] 張煥國.信息安全人才培養體系現狀與挑戰[J].信息網絡安全, 2013(3):6.
[11] 翁健, 馬昌社, 古亮. 網絡空間安全人才培養探討[J]. 網絡與信息安全學報, 2016, 2(2):1-7.
[12] 喻鈞,杜志強.網絡空間安全新形勢下的信息安全人才培養[J].價值工程, 2015(30):247-249.
[13] 羅力.國民信息安全素養評價指標體系構建研究[J].重慶大學學報(社會科學版), 2012,18(3):81-86.
[14] 袁夢緋.中式快餐連鎖企業顧客滿意度調查問卷的設計與評價方法研究[D].合肥工業大學,2012.
[15] 張虎,田茂峰.信度分析在調查問卷設計中的應用[J].統計與決策,2007(21): 85-90.
[16] 屈芳,馬旭玲,羅林明.調查問卷的信度分析及其影響因素[J].繼續教育,2015,29(1):32-34.
[17] 宋建林.k-means聚類算法的改進研究[D].安徽大學,2016.
[18] 姜晗,賈泂.基于聚類的孤立點檢測算法[J].計算機與現代化,2007(11):37-39.
[19] 趙鳳梅.高等師范院校碩士研究生計算機態度及相關因素的研究[D].首都師范大學,2007.