俞濤
摘 要:電商使用個性化推薦系統分析用戶的興趣偏好,幫助用戶從龐大的商品目錄中挑選真正適合自己需要的商品,為每個用戶提供個性化服務。在很多電商個性化推薦技術中,作為當今運用最廣泛、最成功的推薦策略,從而改善了SVM算法在電商數據挖掘方面的性能,并且驗證了采用數據挖掘算法應用到電商研究是可行的,并且具有較高的準確性。
關鍵詞:SVM 電商 聚類 數據挖掘
中圖分類號: TP311 文獻標識碼:A 文章編號:1672-3791(2018)12(c)-0035-02
隨著新一代社交網絡、數字城市等大規模互聯網應用的迅猛發展。大數據的特點為:(1)彈性服務。(2)按需服務。(3)資源池化。(4)服務可計費。(5)泛在接入。大數據主要就是云架構計算技術,并且云架構計算是分布式計算、互聯網技術以及大規模資源管理等技術的發展與融合,其應用和研究涉及資源虛擬化、信息安全、海量數據處理等亟待處理的重要問題。
數據挖掘于2003年正式開啟開發和研究工作,美國的七所頂尖院校的研究人員共同提出了“數據挖掘VGrADS和網格虛擬化”的項目,之后Amazon、Giftag、Saleforce.com以及IBM都使用數據挖掘來提高自己在業界的競爭力。針對數據挖掘算法以及在解決電商研究領域中解決復雜問題的優勢及不足,本文提出一種基于支持向量機SVM算法的電商聚類算法,并將基于隨機森林模型下的基尼指標特征加權的支持向量機方法應用于電商分析中。從而改善了SVM算法在分類識別方面性能,并且驗證了采用數據挖掘算法應用到電商研究是可行的,并且具有較高的準確性。
1 利用數據挖掘技術進行電商研究的流程
隨著新一代社交網絡、數字城市等大規模互聯網應用的迅猛發展。大數據的特點為:彈性服務。大數據主要就是云架構計算技術,并且云架構計算是分布式計算、互聯網技術以及大規模資源管理等技術的發展與融合,其應用和研究涉及資源虛擬化、信息安全、海量數據處理等亟待處理的重要問題。數據挖掘的過程主要包括以下幾個方面:
(1)根據已知的條件,確定數據挖掘目的。
(2)需要挖掘數據的準備,即對數據的清洗、數據的篩選等步驟。
(3)根據選定的算法對已有的數據進行挖掘。
(4)依據上述挖掘的結果,對數據挖掘的模式評估與知識進行表示。
2 支持向量機SVM算法
2.1 支持向量機SVM算法
支持向量機SVM算法將我們待解決的問題通過一個二次規劃來進行解決。例如,通過假設樣本集上存在超平面能夠將已有的樣本劃分為兩大類,其中訓練集為,那么有一個超平面能使兩類樣本到其距離的和能達到最大值,那么該平面為超平面,并且超平面的計算公式為:
(1)
(2)
其中,是松弛變量,是一個閾值,是懲罰參數。
我們將上述計算最佳平面的問題通過Lagrange算子轉化為二次規劃的對偶問題,其計算公式為:
(3)
(4)
其中,是Lagrange乘子,解決此對偶問題得到的決策函數為:
(5)
雖然支持向量機SVM的理論目前的應用領域很廣泛,但是它在我們實際的應用過程中還會遇到一些如核函數的選擇、歸納、優化及內積參數尋優等問題。
2.2 改進的支持向量機SVM
特征加權支持向量機由核函數經特征加權構造的支持向量機。并且特征加權核函數定義為:
(6)
改進支持向量機SVM算法的詳細步驟如下:
Step1.確定樣本集S,即為:
其中為特征變量,為類別量。
Step2.所得指標參數對其相應的特征屬性加權,構造加權的特征向量:來優化核函數中的原始特征內積。
Step3.構造待輸入空間的線性變換矩陣,以建立特征加權的核函數。
Step4.應用所構造的特征加權的核函數在程序設計中替換傳統的支持向量機SVM模型中的線性核函數,并且輸出核心的SVM構造分類器,與此同時,對構造的改進的支持向量機SVM算法進行性能測試。
3 基于SVM算法的電商協同過濾推薦
本文將SVM,FWSVM,改進的支持向量機SVM3種算法在數據庫中的多個電商研究電商分析數據集上進行了實驗,將數據集分別應用前面所提到的SVM,FWSVM,改進的支持向量機SVM三種算法在MATLAB 2014a環境中進行仿真實驗,其統計結果如圖1所示。
UCI電商研究電商分析數據集對比實驗結果的分析如圖1所示,在這5個分析數據上,可以看出本文所提出的改進的支持向量機SVM算法平均的識別性能相對最高,而經典的SVM算法的識別性能最差,但總體而言,本文所提出的改進的支持向量機SVM算法在電商研究中識別的正確率最高,效果最為明顯。
4 結語
通過分析數據挖掘算法以及在解決電商研究領域中復雜問題的優勢及不足,提出一種基于支持向量機SVM算法的電商聚類算法,并將基于隨機森林模型下的基尼指標特征加權的支持向量機方法應用于電商分析中。從而改善了SVM算法在分類識別方面性能,而且驗證了采用數據挖掘算法應用到電商研究的可行性以及準確性,實驗結果表明,本文所提出的改進的支持向量機SVM算法在電商研究中識別的正確率最高,效果最為明顯。
參考文獻
[1] Valentine K, Kopcha TJ. The embodiment of cases as alternative perspective in a mathematics hypermedia learning environment[J].Educational Technology Research & Development,2016,64(6):1-24.
[2] 黃晟.基于變電站為中心的配電網電壓態勢圖片圖形特征的態勢評估模型及算法[D].杭州電子科技大學, 2017.