尚 暉
(浙江工貿職業技術學院,溫州 325002)
各類APP 依靠互聯網擴大影響,為提高自身在同行業中的競爭優勢,采用傳統用戶分類模型,對注冊用戶進行分類以便提供更好的服務.互聯網具有強大的通訊和社交功能,互聯網企業以互聯網為依托,開發具有企業特色的APP 軟件,吸引使用者利用APP 瀏覽網上信息.但隨著信息化時代到來,企業發現互聯網帶來的豐厚利益,越來越多的企業投身到互聯網行業中,競爭變得越來越激烈,因此為了提高自身的競爭優勢,提出利用一種分類手段,將網站中的互聯網用戶進行分類,相關學者對此進行了仔細研究.歐陽曄等[1]提出一個基于機器學習算法的分類模型,旨在利用該算法,對網絡用戶瀏覽偏好進行分類;王嘉祺等[2]提出用戶分類系統在不同的社交網絡中發揮著重要的作用,例如惡意賬號檢測,高影響力用戶發現及會員用戶發現.引入深度學習技術來解決用戶分類問題,且使用了陌陌的真實數據進行評估,對于不同的分類目標,均可取得較好的效果,但是分類準確度較低;蒲杰方,盧熒玲[3]篩選了14個關鍵變量作為影響客戶是否購買定期存款的影響因素,并對重要特征進行初步分析;根據數據特征利用k-means 聚類算法對銀行的客戶群進行分類,從而得出三類最有可能購買定期存款的客戶群,剖析每一類客戶群的特征,從而有針對性地為其提供差別化的分類,但是分類用時較長.這些傳統模型的使用效果沒有達到預期,因此研究一個全新的互聯網用戶分類模型.
支持向量機簡稱為SVM,是將風險控制在最小的一個機器學習算法,通過SVM的計算,得到全局最優解,同時將計算難度降至最低,減小以往學習算法的計算誤差.支持向量機解決了局部極小值的問題,且具有較好的推廣能力,對于數據檢測、數據挖掘以及數據處理等研究領域,有不錯的使用效果.為進一步提高支持向量機的使用性能,以原有支持向量機為依據,對SVM改進,得到全新的TWSVM和NPSVM.改進后的SVM數據擬合性更好、求解數據的能力更強,因此在互聯網用戶分類研究中,引入改進的SVM 進一步完善互聯網用戶分類方法.
假設互聯網用戶瀏覽網絡信息的時間序列為u(t),其中t∈(1,N);令嵌入維數為n,時間延遲為λ,則N′=N?(n?1)λ,表示重構后的相空間矢量長度,重構后獲得n維相空間相點Um,m∈(1,N′),表示Um的每一個分量都有n個元素,即維數[4].以u(t)中的u(m)為起點,每隔λ個互聯網用戶信息,重構相空間相點在相空間的軌跡,公式為:

模型設置合適的嵌入維數,則重構的相空間可以準確模擬互聯網用戶的瀏覽軌跡.根據混沌理論可知,嵌入維數n的值太小,c=1,2,···,n,重構空間中的用戶信息,會因吸引子的作用,而產生扭結和重疊現象,此時的信息距離過于接近,數據之間交融,難以進行分類.同時噪聲的維數是無窮大的,若嵌入維數n的值太大則n?c空間將被舍入誤差完全覆蓋,因此在設置嵌入維數n時,采用誤差最小算法設置嵌入維數[5].
獲得網絡用戶的時間序列數據 {um},其中um=u(t0+m?t),M表示樣本數據個數;t0表示用戶瀏覽網頁的初始時間;?t表示樣本時間間隔.根據同樣的假設條件,則其在n維空間Dn中形成的新向量Um可被定義為:

DnUiUj
根據式(2)的計算結果,在中定義到的距離,公式為:

式中,s表示信息長度;r表示空間所占范圍比[6].根據嵌入定理,令最佳延遲時間為λ,則n為最佳嵌入維數時的映射關系為f:D→Dn,其中f表示關系參數,D表示網絡空間中的用戶信息.則存在公式:

利用映射f的連續性,當Ui靠近Uj時,ui+n與uj+n之間也應靠近.記Ui的最鄰近點是Ui?,則:

計算平均一步誤差,結果為:

當n比最佳嵌入維數小時,誤差q(n,λ)較大;當n達到最小嵌入維數時,因為映射f所以q(n,λ)減少.當n繼續增大時,q(n,λ)隨之變化,當q(n,λ)為最小時得到的最佳嵌入維數n,可以作為最佳結果[7].將該結果帶入式(1),重構的相空間可以反映互聯網用戶的瀏覽軌跡,完成對樣本數據的構造.
根據互聯網用戶在瀏覽網頁信息時瀏覽軌跡,計算用戶屬性偏好度,將分值作為用戶分類的依據.根據物聯網客戶的瀏覽軌跡,設置用戶標簽,包括:財經、科技、數碼、社交、交通、天氣、新聞、法律、品牌、美食以及保險等.利用數學算法,計算用戶瀏覽軌跡中,存在的邏輯、類似偏好等,從而形成分類定義[8].
對第1.1 節構造的樣本進行統計,合理轉化統計結果擬合出函數圖像,根據圖像中正負樣本的差異指標重新清洗用戶信息,再次通過轉化得到擬合函數圖像,若圖中的樣本數據分布分散,說明提取的構造樣本存在問題,需要重新執行上述操作;若函數分布差異性明顯,說明維度有效.用戶偏好B的變化控制樣本在相空間的變化.假設用戶偏好存在w個,則有B1,B2,B3,···,Bw,數學算法的計算結果為:

式中,Zi表示構造的樣本數據集合;τi表示受偏好B變化影響的標簽偏移閾值;φ表示偏好差異[9].將顯著性問題轉化為偏好B在D空間內是否影響網頁瀏覽選擇行為,即檢驗G0:τ1=τ2=···=τw是否成立.給出下列方程,其中各項參數為驗證所需的指標.

上述公式中n表示結果總數;表示總均值;表示總方差平方和;表示組內平方和;表示組間平方和[10].根據上述指標,得到G0的拒絕域為:

得到的檢驗結果可分為4 種情況:高度顯著、顯著、有一定影響、無顯著影響,根據該結果得到用戶偏好B變化下對于互聯網信息選擇的影響程度建立一個互聯網需求客戶分類數據表,如表1所示[11].

表1 互聯網需求客戶分類數據表
按照上述分解結果,制定一個詳細的用戶分類策略,加強模型的分類效果.
根據制定的分類策略,利用改進的SVM 設計分類模型對互聯網用戶進行分類.用戶的非線性可分情形下假設兩個用戶的選擇向量分別為x和y,則經過改進SVM的非線性函數F的分類模型過程如下:
步驟1.計算待分類樣本與訓練集之間的距離,計算方法主要有歐氏距離;
步驟2.按距離遞增次序排序;
步驟3.選取與當前點距離最小的k個互聯網用戶;
步驟4.統計前k個互聯網用戶所在類別出現的頻率;
步驟5.返回前k個互聯網用戶出現頻率最高的類別作為互聯網用戶劃分目標.
將用戶選擇向量映射到特征空間K內,則兩個向量的歐氏距離為:

式中,H(?)代表核函數[12,13],那么特征空間樣本的中心向量C為:

根據上述公式計算類中心,再計算兩類中心的距離,公式為:

式中,C+表示正類中心;C?表示負類中心.計算兩類樣本與其他用戶樣本信息之間的距離,當該距離小于公式(12)的計算結果時,將樣本作為有效候選支持向量,即:

圖1為保留滿足L′ 圖1 預選有效的候選支持向量 根據圖1的示意圖可知,根據L′和L對特征空間中互聯網用戶選擇進行劃分,以此將選擇偏好相同的用戶歸集到一個數據集合中得到如表1所示的分類結果,至此實現基于改進SVM的互聯網用戶分類[15]. 以互聯網上某一期間的新聞作為實驗測試基本條件,利用設計的分類模型分別統計該期間的新聞展現量P和點擊量c lick,其中得到的新聞展現量統計分析結果如表2所示. 表2 新聞展現量統計分析表 表2中,展現次數為瀏覽過某條新聞的用戶數量.已知此次展現次數的最小值為1,最大值為645,均值為11,其中展現次數為50的新聞,所占比例為0.0009,表1是20 次以內展現次數的統計結果.根據表中數據可知,展現次數小于10的累積分布率約為78.06%,展現次數小于20的累積分布率約為89.42%.分類模型取新聞展現量P的對數,得到下圖2所示的新聞展現量P的分布圖. 根據圖中顯示數據可知,得到的分布是一個長尾的冪律分布,大部分點集中分布在較小展現量處.新聞作為網民了解國情、社會事件的重要媒介,更新速度十分迅速.用戶根據自身偏好,只瀏覽自身感興趣的新聞類型.因此該模型推斷出大量用戶瀏覽新聞的時間較為零散,專門定點瀏覽新聞的用戶數量較少.因此該分類模型根據這一分析,以用戶偏好作為參考進行互聯網用戶分類.為了實驗測試的嚴謹性,對該模型進行3 次性能測試,并計算該分類模型的分類準確率,當該模型的分類準確率在95%以上時,證明該模型成立且具有使用價值.表3為模型分類準確性計算結果. 圖2 分類模型得到的新聞展現量分布圖 表3 分類模型分類準確性測試結果 根據表中的數據計算結果可知,3 次測試下基于改進SVM的互聯網用戶分類結果,其分類平均準確率為98.56%,滿足預期,因此進行下一步對比實驗. 實驗測試環境和測試條件不變,分別利用3個模型對瀏覽新聞的用戶進行分類,對照組1是基于SVM的互聯網用戶分類模型,對照組2是文獻[3]模型,實驗組為基于改進SVM的互聯網用戶分類模型,對比3 種模型.實驗結果如圖3所示. 根據圖中數據可知,實驗組模型的學習樣本數量與模型自身提供的樣本數量幾乎一致.對照1 組模型的學習樣本數量,在模型自身提供的樣本數量達到1000 時其學習數量迅速下降且難以恢復.對照2 組模型的學習樣本數量,比其自身提供的樣本數量少了近1 倍.相比較而言,此次設計的模型性能更好.表4為模型性能比較分析結果. 根據表中分析結果可知,3 組模型雖然都是根據用戶偏好特征進行分類,但獲取偏好特征的方式不同,再加之模型自身約束了選擇的樣本,導致模型學習性能下降.可見此次設計的分類模型,解決了模型學習能力不足的問題. 傳統的分類模型與此次設計的分類模型都將用戶偏好作為詳細分類的依據,改進的SVM 充分發揮其強大的學習能力,對分類后的樣本數據進行學習,當該模型獲取到入網用戶信息后,根據其瀏覽內容迅速判斷用戶類型,提醒軟件推送用戶感興趣的各類信息.此次研究受時間的限制沒有介紹SVM的改進內容,而是直接將改進后的SVM 投入使用,在今后的研究項目將對改進過程、改進內容加以描述. 圖3 模型學習能力比較結果 表4 模型性能比較
2 實驗研究
2.1 性能測試



2.2 對比測試
3 結束語

