楚丹琪,李睿智,高洪皓,張 康
(1.上海大學 實驗設備處,上海 200444; 2.上海大學 計算機學院,上海 200444; 3.上海大學 計算中心,上海 200444)
實驗室是科技的搖籃,安全、健康、環保、節能是實驗室的基本要素[1-3]。實驗室安全教育是安全管理的重要內容之一,充實的安全教育可以提高人們的認識和安全素質,也是保障實驗人員安全的第一道也是最重要的屏障。為了防患于未然,全方位保護實驗人員和實驗設備的安全十分必要。智慧實驗室是以“互聯網+”為基礎,采用先進的信息化技術手段和軟硬件設備,實現對實驗教學、科研和管理等實驗室信息的收集、處理、監管、存儲、傳輸和調用[4-5],使實驗室資源得以充分優化利用。
高校實驗室的信息化存在以下亟待解決的問題:
(1)設備管理非自動化。教學儀器和設備分布離散、管理難度大、無專人管理和保養等;信息獲取被動,存在空間障礙,對設備數量和種類繁多的實驗室,管理人員難以準確快速定位、跟蹤設備使用和維護。
(2)安全管理非智能化。實驗室安全管理難以形成穩固的體系,對各類潛在危險的警告系統尚不完善[6],只能依賴于管理人員的責任心。隨著大量開放式實驗教學的開展,對人員的智能監控要求越來越高。
(3)環境管理非低碳化。機房的溫濕度、粉塵、噪聲等指標未實現統一監控和管理;實驗室照明、設備供電、機器用電難以實現自動化調節,造成資源浪費。
(4)資源管理非共享化。不同院系實驗室之間資源利用和分配不協調,資源共享難以實現,存在“信息孤島”現象。
目前,國內高校實驗室安全工作多數由多個部門共同負責,相關處室工作側重點不同。在這種不同職能處室分塊管理的管理體制下,容易出現部分管理職責交叉重復的現象,導致管理效率不高[7-8]。同時,每個實驗室面對的用戶群體不同,使用的儀器設備不同,如果全都進行相同的實驗室安全教育,會浪費大量的人力、物力和財力,并達不到相應的教育和預防效果。
在信息化不斷發展的時代,良好、真實的數據統計與挖掘可以為政策的制定提供有力的支持[9-10]。上海大學思安網是上海大學針對實驗室安全和保護展開的全方位平臺。上海大學思安網不僅整合了上海大學用戶信息、在線學習、在線考試、上課考勤,而且記錄分析用戶的操作習慣和事故記錄。借助以上真實的數據,文中提出安全信用的模型,通過這個模型可以將用戶的安全知識和安全技能的掌握情況進行量化,從而為每個實驗室具有針對性的安全事故預測奠定了基礎。
安全信用,是上海大學思安網運用大數據分析技術客觀呈現個人的安全信用狀況。安全信用的評測通過對海量信息數據的綜合處理和評估,主要包含了用戶特質、行為偏好、學習能力、考試成績、課程考勤和事故歷史六個維度。最后,通過歸一化處理綜合計算得出用戶的安全信用分數。
安全信用主要包含用戶特質、行為偏好、學習能力、考試成績、課程考勤、事故記錄六個維度,分別從用戶的各個方面反映其安全意識和安全行為。單維度評價方式中每一維度的最高分為100分,最低分0分。
用戶特質主要從用戶身份、用戶背景綜合分析。用戶身份主要分為本科生、碩士生和博士生;相較于本科生而言,碩士生和博士生在安全信用方面具有知識積累的優勢;用戶背景主要考察用戶的學院和專業背景,尤其對于文科專業會有一定的背景優勢;同時,不同的專業年級對安全知識積累沉淀也會有所不同[11]。
定義1:用戶特質S1。
S1=α×(Pe+Pg)+β×(Pm+Pr)
(1)
其中,α表示學歷層次和專業年級在評價中所占權重,β表示專業性質在評價中所占權重,并且滿足條件α+β=1;Pe,Pg,Pm,Pr表示學歷、年級、專業和高危專業的權重。
行為偏好主要從用戶的操作行為進行分析,用戶的操作習慣往往可以反映用戶現實生活中的習慣,比如:用戶是否具有良好的登錄和注銷的習慣,用戶學習和考試是否存在作弊現象。
定義2:行為偏好S2。
S2=∑α×Nc-∑β×Ne
(2)
其中,α和β分別表示某類良好習慣和不良習慣發生的權重;Nc和Ne表示某類良好習慣和不良習慣發生的次數。
學習能力主要從用戶在線學習進行分析,人的注意力集中的時間跟年齡、學習時間和學習難度有聯系。用戶的年齡直接影響用戶學習的注意力,為了方便計算,針對年齡采用線性變換。
定義3:年齡S3。
S3=100-Ua
(3)
其中,Ua表示用戶的年齡。
用戶每天平均學習時間的長短、學習時間段均是影響用戶學習程度的因素,下面給出學習時間的定義。
定義4:學習時間S4。
(4)
其中,T表示正常學習時間中間值,按照正常學習時間范圍40~60 min之間,故T應該取值50;η表示不同時間段的權重系數,將24小時劃分為4部分:深夜、上午、下午、夜晚,每部分的權重系數分別為0.1、0.8、0.6、0.5。
上海大學思安網針對每類資源均定義了學習難度,學習的內容難度越大,表示用戶的學習能力越高,于是下面給出了學習難度的定義。
定義5:學習難度S5。
(5)
其中,N表示學習資源總數;σi表示第i個資源的難度系數。
所有用戶的學習能力可以看作是符合正態分布,同時根據定義3~5,給出學習能力的定義。
定義6:用戶學習能力S6。

(6)
其中,c1,c2,c3表示用戶年齡、學習時間、學習難度的權重系數;α表示整體權重系數;μ表示正態分布的位置參數,μ=75。
考試成績主要從用戶參加考試的考試結果進行分析,用戶的考試成績越高,其安全知識掌握程度越高。
定義7:考試成績S7。
(7)
其中,N表示用戶參加的考試數目;Score(i)表示用戶參加的第i個安全考試的考試成績。
課程考勤主要從用戶上課考勤情況進行分析,上課情況可以從側面反映出用戶的學習態度。
定義8:課程考勤S8:
(8)
其中,n表示出勤次數;N表示應該出勤次數;T表示課程總數。
信用歷史主要從用戶過去發生過的安全事故和安全預防的事件進行計算,這是最客觀反映用戶安全信用的方式。文中信用歷史采用指數函數表示,以提高初始的變化率。
定義9:信用歷史S9。
S9=-e-(α×Np-β×Na)+100
(9)
其中,α,β分別表示預防事故的權重和安全事故發生的權重,α+β=1;Np,Na分別表示預防事故的數量和安全事故發生的數量。
文中的安全信用評價方式主要是通過對每一個維度分別進行評價,最后綜合計算得出用戶的安全信用分數。安全信用分數的高低可以反映出用戶的安全知識和安全技術的掌握情況。那么,如何將六個維度歸一化成安全信用,文中采用六個維度來計算安全信用,并將這六個維度放置到一個六維坐標系中。安全信用值的計算如下所示:
(10)
實驗室事故預測主要是基于用戶安全信用的六個維度來進行。首先根據用戶六個維度,將用戶聚集為三類:高危人群、潛在危險人群、安全人群,下面會詳細介紹用戶的分類方法;接著根據實驗室面對的人群重點分析高危人群和潛在問題人群,從學習內容和考試成績中重點分析知識漏洞,從而預測安全事故。
根據安全信用公式計算出用戶的安全信用后,根據用戶安全信用進行第一次聚類[12-13],這次聚類主要分為兩類人群:安全人群和危險人群。聚類原則如下:
(1)安全人群應該滿足安全信用分大于等于220分,安全信用分達到這個層次可以表明用戶的六個維度的平均分不低于90分,用戶具有良好的安全知識和安全技術的積累。
(2)危險人群滿足安全信用分數低于220分,這部分用戶在安全意識方面還有一定的欠缺。
根據第一次用戶聚類方式可以區分安全人群和危險人群,但是在危險人群中,并非每一個用戶需要進行關注。那么,文中采用K-means算法對第一次聚類中的危險人群進行了第二次聚類[14],這次聚類主要分為:高危人群和潛在問題人群。聚類算法如下:
(1)首先根據用戶信用分與閾值220分做比較,如果大于等于220分則將該用戶劃分至安全人群中,如果低于220分則劃分至危險人群中;
(2)確定用戶行為向量,經過實際分析,公式為:
V={a1,a2,…,a6}
(11)
其中,a1,a2,…,a6分別為某個用戶的六個維度。
(3)隨機選擇k個初始聚類中心:
Centerk={C1k,C2k,…,C6k}
(12)
其中,k應滿足k=2。
(4)s∈S,其中S為樣本集合,根據歐幾里得公式計算S距離所有聚類中心的距離,將s劃分到距離最近的中心Center的集合內。
(5)重新計算聚類Center的中心,使用各個點的坐標的平均值來求點群新的中心點。若產生新的中心點,執行第3步;若中心點不再發生改變,執行第5步。
(6)使用歐幾里得公式計算2個聚類中心距離原點的距離,聚類中心距離原點更近的聚類簇為高危人群,距離較遠的聚類簇為潛在問題人群。
聚類算法如下:
算法1:用戶聚類算法。
輸入:用戶安全信用的六個維度信息及S1,S2,S6,S7,S8,S9評價分S
輸出:安全人群Groupsafe、高危人群Groupdanger和潛在問題人群Grouppotential
BEGIN
n=0
FOR EACHi=1 TOm
IFSi≥220 THEN
Groupsafe=Groupsafe∪i
ELSE
vi={a1,a2,a6,a7,a8,a9}
n=n+1
ENDIF
ENDFROEACH
FOR EACHi=1 TO 2
Random(Centeri)
ENDFROEACH
Group1={}
Group2={}
WHILE (Center is not change)
FOR EACHiINn


IFDisCenter1≥DisCenter2THEN
Group1=Group1∪i
ELSE
Group2=Group2∪i
ENDIF
ENDFOREACH
FOR EACHi=1 TO 2
Update(Centeri)
ENDIF
ENDWHILE
IFDisO&Center1≥DisO&Center2THEN
Grouppotential=Group1
Groupdanger=Group2
ELSE
Groupdanger=Group1
Grouppotential=Group2
ENDIF
END
根據3.1節,將用戶聚類為高危人群、潛在危險人群、安全人群三類,本節的安全事故預測算法將重點關注高危人群和潛在危險人群。將安全事故定義為五類:火或水災性事故、毒害性事故、爆炸性事故、機械性事故和電氣性事故;上海大學思安網中的安全知識學習和考試也分為六類:通識類、化學類、輻射類、醫學生物類、電氣類和機械類。定義的對應關系如表1所示。

表1 安全事故、學習和考試分類對應關系
在現實生活中每一個實驗室或高危場所都面對一些固定的用戶群,根據3.1節可以將固定的用戶群進行用戶類型劃分,從而抽取高危人群和潛在危險人群的數據進行分析。每一類事故發生的概率取決于兩類人群發生事故的概率,于是得到每一類事故發生的概率公式:
Pc=α×Pd+β×Pp
(13)
其中,Pd和Pp表示高危人群和潛在危險人群在該類事故中發生的概率;α和β表示權重系數。
那么,某類人群發生某類安全事故的概率,則可以直接由這類人群學習情況和考試情況來進行反映,于是可以得到如下公式:
(14)

(15)
其中,Learni表示第i個用戶學習某類資源的數量;Total表示某類學習資源的總量;Examij表示第i個用戶參加某類第j次考試的成績;N表示該用戶參加考試的總數;group表示人群總數。
可得到某類人群發生某類安全事故的概率公式:
Pgroup=η×PL+σ×PE
(16)
其中,η,σ表示權重系數,并且滿足η+σ=1。
文中的安全信用評價體系和實驗室安全事故預測算法均在上海大學思安網中實現,實際運行過程中分析相關數據量可以參考表2(截止2016年7月25日星期一)。算法中相關權重系數對的參數初始化可以參考表3。

表2 算法分析相關數據量
通過對上海大學所有用戶進行安全信用評價,并且針對5個實驗室進行安全事故預測來驗證算法的合理性。上海大學思安網自動根據用戶的相關數據進行六個維度的評價(相關維度定義參考2.1節),最終給出用戶的安全信用維度評價,可以參考圖1。

表3 相關權重系數對的參數初始化

圖1 用戶的安全信用維度示意圖
上海大學思安網在完成維度評價后,根據2.2節進行歸一化處理。系統默認展示用戶近半年的安全信用變化情況,可以參考表4。

表4 安全信用變化情況(學生14721185)
安全事故預測的重點是根據用戶群的知識漏洞來預測實驗室事故。表5展示的是4個實驗室安全事故預測統計情況,標注了事故類型和事故發生的概率。

表5 實驗室安全事故預測統計情況 %
上海大學實驗室安全教育綜合管理平臺是針對高校實驗室安全的問題提出的一種新型教育模式;同時在智慧實驗的背景下,提出了安全信用的概念,將用戶的安全知識和安全技能的掌握情況進行量化,形成一套完整的評價體系。根據用戶的安全信用,將用戶進行分類,找出危險用戶和知識漏洞,從而預測實驗室安全事故。在后續的工作中將把安全信用評價應用到更加廣泛的實驗室預約等功能中,為更安全、更便捷的實驗室管理提供保障。
參考文獻:
[1] MASSIE D L,CAMPBELL K L,WILLIAMS A F.Traffic accident involvement rates by driver age and gender[J].Accident Analysis and Prevention,1995,27(1):73-87.
[2] KOO J,KIM S,KIM H,et al.A systematic approach towards accident analysis and prevention[J].Drug Discovery Today,2015,20(7):856-862.
[3] WU Lirong,JIANG Zhongan,CHENG Weimin,et al.Major accident analysis and prevention of coal mines in China from the year of 1949 to 2009[J].Mining Science & Technology,2011,21(5):693-699.
[4] AKYUZ E,CELIK M,AKYUZ E,et al.Utilisation of cognitive map in modelling human error in marine accident analysis and prevention[J].Safety Science,2014,70:19-28.
[5] 鄭 祿,常 佳.基于Arduino與Python的實驗室聯動門禁報警系統設計[J].軟件導刊,2017,16(1):76-77.
[6] 張 博.基于GA-BP神經網絡的高校實驗室安全評價研究[J].微處理機,2016,37(2):51-55.
[7] MARSAGLIA G.Evaluating the normal distribution[J].Journal of Statistical Software,2004,11(5):1-11.
[8] RANI A J M,PARTHIPAN L.Clustering analysis by improved particle swarm optimization and K-means algorithm[C]//IET Chennai 3rd international conference on sustainable energy and intelligent systems.[s.l.]:[s.n.],2012:83-88.
[9] 王國強,吳 敏.實驗室安全防范智能化系統的組成與應用[J].實驗技術與管理,2008,25(4):151-155.
[10] 吳文華,馬升燈,沈水富.提高安全意識,預防高校實驗室安全事故發生[J].科技風,2015(23):189.
[11] 丁智斌,袁 方,董賀偉.數據挖掘在高校學生學習成績分析中的應用[J].計算機工程與設計,2006,27(4):590-592.
[12] 馬 闖,吳 濤,段夢雅.基于K近鄰隸屬度的聚類算法研究[J].計算機工程與應用,2016,52(10):55-58.
[13] 徐向平,魯海燕,徐 迅.基于環形鄰域的混沌粒子群聚類算法[J].計算機工程與應用,2016,52(2):54-60.
[14] HAMIDA E B,JAVED M A.Channel-aware ECDSA signature verification of basic safety messages with K-Means clustering in VANETs[C]//International conference on advanced information networking and applications.Crans-Montana,Switzerland:IEEE,2016:603-610.