


[摘 要]現有電子商務網站風險評估模型評估時間過長,導致精準度較低。為了解決這個問題,文章基于數據挖掘提出一種新的電子商務網站風險評估模型。該模型能確定網站數據風險指標,并計算風險數據在網站數據中的權重。文章根據網站的風險指標查找網站內的風險數據特征量,并完成風險數據的提取;根據電子商務網站的風險數據特征構建一個決策樹,并計算決策樹涉及的數據熵,通過歸納風險數據特征種類并創建決策樹的節點,得出電子商務網站的風險數據的狀態;將得到的風險數據狀態帶入貝葉斯網絡概率定義,以分析風險數據各種狀態的風險程度,從而提高風險數據分析的精度。實驗結果表明,基于數據挖掘的電子商務網站風險評估模型能夠有效縮短評估時間,并提高精準度。
[關鍵詞]數據挖掘技術;電子商務網站;風險數據提取;風險評估模型
doi:10.3969/j.issn.1673 - 0194.2023.22.028
[中圖分類號]F724.6;TP18[文獻標識碼]A[文章編號]1673-0194(2023)22-0087-03
0? ? ?引 言
隨著時代的進步,電子商務網站已經成為人們生活中不可或缺的一部分。首先,電子商務網站為企業提供了一個全天候、全球范圍內的銷售平臺。其次,電子商務網站也為消費者提供了便利的購物渠道。再次,電子商務網站還為企業提供了更廣闊的市場和更多的商業機會,同時能夠降低企業的運營成本,增強企業的競爭力。然而,隨之而來的是潛在的電子商務網站運營風險。在此情況下,建立一個有效的電子商務網站風險評估模型變得尤為重要。根據風險評估結果,合理對電子商務網站進行維護,保證網站內部用戶和資源的安全[1-2]。
電子商務網站內存在普通風險和連帶風險。傳統的電子商務網站風險評估模型只能評估出網站內部的普通風險對網站安全的威脅程度,無法全面考慮普通風險觸發的連帶風險對網站安全的威脅。傳統風險評估模型的評估結果往往低估了實際網站存在的風險威脅程度。這導致根據評估結果提出的網站維護方法失去了實際意義,使得網站的風險仍然存在甚至加重[3]。
本文擬突破傳統評估模型的結構特點,提出基于數據挖掘技術的電子商務網站風險評估模型,逐一解決上述問題,依次分析電子商務網站風險數據的提取方法,并建立基于數據挖掘技術的商務網站風險評估模型,完善網站的風險評估體系,保證風險評估模型評估結果的準確度。
1? ? ?電子商務網站風險數據提取
在電子商務網站風險數據提取中,首先確定網站數據的風險指標。如果滿足要求,則計算風險數據的權重,并查找相關的特征量。其次,判斷提取的數據是否滿足需求。如果滿足,則進行數據提取操作;如果不滿足需求,則需要重新計算并進行相應的調整。
設定風險源、隱藏風險、連帶風險特征作為評價電子商務網站風險數據特征,分別用A、B、C表示。風險源指標的樣本為風險等級、風險發生概率、風險屬性;隱藏風險指標的樣本為更改數據信息風險和隱藏數據風險樣本;網站連帶風險的樣本為風險效應[4-7]。根據以上對電子商務網站風險指標的說明,構建評估指標矩陣,矩陣如下:
(1)
式(1)中,k表示電子商務網站風險指標數據的熵權值,當其取1時,代表網站的風險混亂度最大,風險程度嚴重;yij為風險樣本的度量值,是一個常數。
為了在電子商務網站內快速檢索并無遺漏地檢測含有危險因素的風險數據,本文采用向量數據壓縮的方法對網站內的數據進行處理。首先,使用數據的多維化方法進行處理,計算公式如下:
(2)
式(2)中,P1為實際網站數據信息的功率特征向量;φ表示數據轉化為向量格式的n維列向量。將每一類型的電子商務風險數據實際功率特征向量中分量采取相應的常數代替,剔除電子商務網站風險數據集合中安全的數據,得到風險數據集合,如下所示:
(3)
式(3)中,h為數據的隨機向量;φi為風險數據特征向量壓縮的誤差;pi為實際數據壓縮平衡系數[8-9]。
通過對電子商務網站的風險數據進行壓縮,減少風險數據特征提取的流程和工作量。在此基礎上對多維電子商務網站風險特征向量進行提取。在成功壓縮的電子商務網站風險數據集合內,對所有數據進行特征分類,并進行數據的加權,以提取出不同風險數據的特征數據。計算公式如下:
(4)
式(4)中,m為對多維風險數據向量計算迭算次數;bij為對風險特征數據向量計算的初始中心位置;Δx(m)為風險數據特征的加權值[10-11]。
2? ? ?基于數據挖掘的電子商務網站風險評估模型構建
數據挖掘技術是通過算法協議對數據進行深度分析,以滿足特定需求。基于數據挖掘的電子商務網站風險評估模型,要采用數據挖掘技術中的決策樹和貝葉斯網絡算法來評估電子商務網站內的風險數據[12-13]。
決策樹算法是數據風險分析的重要方法之一,它將整體的數據根據層次結構、狀態、數據之間的關系合理分成類似樹形狀的狀態圖,完成數據的深度分析。決策樹結構內的各個支點是連接各個數據的關鍵點。決策樹在數據分析時,需要一個數據熵進行數據判斷指導,數據熵計算公式如下:
(5)
式(5)中,S表示決策樹的根,也是需要分析數據的集合;m、n表示數據集合的個數;mi、ni表示決策樹結構中的可能的節點。
在對風險數據進行分析時,決策樹算法會根據實際情況生成二義性節點。然而,決策樹對于二義性節點的數據分析存在偶然性,從而降低了其分析效果。為了提高決策樹分析數據的精度,本文采用貝葉斯網絡算法。該算法能夠有效地處理決策樹中的二義性節點,從而提高數據分析的準確性。
貝葉斯網絡算法的本質是基于條件概率雙向推導完成數據的正向分析和逆向分析,一方面是對數據分析的校驗,另一方面保證數據分析的深度和精度。貝葉斯網絡算法的公式如下:
(6)
式(6)中,p(B)表示數據分析的先驗概率;p(B|A)表示數據分析的后驗概率。
根據決策樹分析數據的多種狀態,帶入貝葉斯網絡概率算法中,即可得到每個狀態發生的全概率,公式如下:
(7)
綜上所述,本文總結了基于決策樹和貝葉斯網絡概率算法的數據挖掘技術在電子商務網站風險數據分析中的應用流程。在此基礎上,將構建基于數據挖掘技術的電子商務網站風險評估模型,并提出相應的電子商務網站風險數據提取方法。具體步驟如下。
(1)定義電子商務網站存在風險的集合,集合形式如下:
(8)
式(8)中,Fvt為網站受到攻擊形成的數據風險的概率;loss為電子商務網站風險存在過程中的損失;F1~F5依次為電子商務網站數據的保密性、完整性、可靠性、原則性、防御性出現風險漏洞的概率。
(2)對電子商務網站內的數據進行風險數據提取,將提取到的風險數據根據決策樹算法進行有效風險數據壓縮,減少網站風險評估的工作量。
(3)在壓縮的網站風險數據集合內,根據決策樹理論和貝葉斯網絡概率算法計算出網站數據風險狀態。
(4)將電子商務網站數據風險狀態的風險概率和數據風險的隱藏概率進行歸一計算,得出電子商務網站的風險評估模型,模型如下所示:
(9)
其中,未知數意義如上所示。
根據評估結果的范圍,將電子商務網站分為低風險、中風險和高風險3個等級。評估結果在0~30%的網站被歸類為低風險網站,評估結果在30%~60%的網站被歸類為中風險網站,評估結果在60%~100%的網站被歸類為高風險網站。
3? ? ?實驗分析
為了確保對比試驗結果的可靠性,本文選擇基于數據分析和基于數據測試的電子商務網站風險評估模型作為傳統對照模型,共同完成試驗。同時,隨機選擇了兩個電子商務網站作為試驗對象,并綜合考慮兩個試驗結果的準確度平均值,以確定不同電子商務網站風險評估模型的評估效率;對選定的電子商務網站進行風險評估,并對評估結果進行加密存儲,以作為試驗結束后重要的參考數據。在試驗過程中,數據分析器實時記錄了3種模型對電子商務網站的評估過程和關鍵數據。只有當3種評估模型都提交了2份評估結果后,試驗才能停止。試驗結束后,工作人員對數據進行校驗、匯總,并得出試驗結論。因為本文試驗操作剔除了外界可能存在的干擾因素,所以試驗結論具有可信度和真實性。
實驗結果顯示,經過專業評估軟件對松鼠賣書網和日用電子商務網站的評估,其風險指數為55%和30%,基于數據挖掘的電子商務網站風險評估模型的評估結果為55%和30%,用時55分鐘,評估結果具有99%的精度,然而基于數據分析的電子商務網站風險評估模型的風險評估結果為50%和27%,用時75分鐘;基于數據測試的電子商務風險評估模型的風險評估結果為53%和26%,用時67分鐘。根據以上結果,可以得出結論:基于數據挖掘的電子商務網站風險評估模型相較于兩種傳統的電子商務網站風險評估模型,在評估結果的精度和評估時間方面都具有優勢。此外,基于數據挖掘的電子商務風險評估模型還能夠提出一些建議性措施,而傳統的電子商務網站風險評估模型則不具備此功能。這些結果主要是本文采用了數據挖掘技術中的決策樹算法和貝葉斯網絡算法,對網站內的數據進行全面采集和分析。評估模型的每個步驟都具有邏輯性和相關性,不會忽略網站內的潛在風險和相關風險,從而保證了評估模型對網站風險的評估結果具有較高的精度。另外,評估模型還分析了網站內存在的風險特征,在綜合評估結果的基礎上,能夠提出一些有建議性的風險防范措施。綜上所述,基于數據挖掘的電子商務網站風險評估模型具有評估優勢,可以投入使用。
4? ? ?結束語
本文的研究主要集中在基于數據挖掘的電子商務網站風險評估模型上。通過對網站的風險數據特征進行提取,針對電子商務網站風險評估的特點,選擇了數據挖掘技術中的決策樹算法和貝葉斯網絡算法來共同構建電子商務網站風險評估模型。本文旨在提高電子商務網站風險評估的效率,縮短數據風險在網站內存在的時間,并確保電子商務交易的安全。經過對比試驗分析,本文驗證了研究的風險評估模型在評估方面的高性能,并取得了預期的效果,希望能為保障電子商務網站安全提供幫助。
主要參考文獻
[1]邱澤陽,梁偉,王雪,等.油氣輸送動設備實時定量風險評估模型[J].中國安全科學學報,2020(2):110-116.
[2]李艷.基于數據挖掘算法的移動電子商務群體用戶訪問控制模型[J].現代電子技術,2020(4):153-156.
[3]李振華,李立學.基于數據挖掘的校園物聯網流量特性建模與分析[J].微型電腦應用,2019(9):140-142.
[4]蔣毅,歐郁強,梁廣,等.基于數據挖掘的現場作業風險態勢評估方法[J].計算機與現代化,2020(4):78-84.
[5]秦瑩.基于數據挖掘技術的電子商務移動支付風險預測[J].現代電子技術,2020(21):106-109,113.
[6]吳宇玲.基于數據挖掘的光纖通信風險預警系統研究[J].科技通報,2019(5):111-114.
[7]張鑫,孫有朝.基于貝葉斯網絡的試飛風險評估方法研究[J].兵器裝備工程學報,2019(5):70-74.
[8]孟榮,趙冀寧,褚罡.基于設備監控大數據的變電站運行風險評估[J].信息技術,2020(6):154-157,167.
[9]周昊澄,楊宏,夏僑麗.基于PRA的組合體航天器風險評估模型[J].火箭推進,2019(1):59-65.
[10]李育陽.基于數據挖掘算法的高校教學質量評估模型設計[J].現代電子技術,2020(17):119-122.
[11]疏學明,顏峻,胡俊,等.基于Bayes網絡的建筑火災風險評估模型[J].清華大學學報(自然科學版),2020(4):321-327.
[12]羅艷,肖輔盛,王庭剛,等.基于隨機森林的電網實時運行風險評估方法[J].信息技術,2020(4):23-26,31.
[13]郝勇奇,王俊,朱彥,等.基于物聯網技術的地鐵機電設備全壽命周期管理系統[J].都市快軌交通,2020(2):121-126.
[收稿日期]2023-05-12
[基金項目]廣州應用科技學院城鄉文化發展研究中心
“數字經濟對中小企業風險承擔能力的影響”(GYKCS-2023-01);教育部產學合作協同育人項目“《數字商業 RPA機器人綜合實習》示范課程建設”(220600307233555);教育部第二期供需對接就業育人項目“面向就業的經管類專業校外實習基地建設”(20230109056)。
[作者簡介]邱丹平(1986— ),女,福建龍巖人,博士在讀,副教授,主要研究方向:公司治理與風險管理、經濟與會計。