999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于k-means算法實現(xiàn)商品的聚類研究

2020-06-22 13:23:17張一帆胡佳浩李依橋
關(guān)鍵詞:機器學(xué)習(xí)

張一帆 胡佳浩 李依橋

摘要:商品的數(shù)量非常大,需要按照一定的標(biāo)準(zhǔn)分為k類,如何把眾多數(shù)據(jù)對象,分為合適k類商品,成為數(shù)據(jù)分析中的一個研究問題。本文主要闡述了該模型的具體實現(xiàn)過程,主要包括數(shù)據(jù)采集、數(shù)據(jù)歸一化處理、構(gòu)造算法模型、評估算法模型。通過采用實例數(shù)據(jù)集進行模型的訓(xùn)練和測試,實驗結(jié)果表明:該模型能較準(zhǔn)確的進行商品對象的分類,測試誤差較小。

關(guān)鍵詞:機器學(xué)習(xí);k-means算法;Python

中圖分類號:TP311.13? ? ? 文獻標(biāo)識碼:A? ? ?文章編號:1007-9416(2020)04-0000-00

0引言

如今網(wǎng)站的快速發(fā)展,人們的生活和工作都離不開網(wǎng)絡(luò)。人們的生活節(jié)奏也在逐漸加快,工作越來越忙了。網(wǎng)購網(wǎng)站吸納了眾多的群眾的參與,積累了大量的用戶資源。而且我國廣大的女性群體為網(wǎng)購網(wǎng)站提供了良好的用戶基礎(chǔ)[1]。一個好的網(wǎng)購網(wǎng)站可以帶運輸?shù)榷喾N產(chǎn)業(yè)的發(fā)展,但是目前的網(wǎng)購網(wǎng)站對用戶的數(shù)據(jù)處理有時候不夠準(zhǔn)確,商品分類標(biāo)準(zhǔn)不夠準(zhǔn)確。通過對網(wǎng)站數(shù)據(jù)進行分析,采用k-means算法較好的完成商品配對,為網(wǎng)站用戶提供較好的服務(wù)。

1 K-means算法

K均值(K-Means)算法是無監(jiān)督的聚類方法,實現(xiàn)起來比較簡單,聚類效果也比較好,因此應(yīng)用很廣泛。K-Means算法針對不同應(yīng)用場景,有不同方面的改進。我們從最傳統(tǒng)的K-Means算法講起,然后在此基礎(chǔ)上介紹初始化質(zhì)心優(yōu)化K-Means++算法,距離計算優(yōu)化Elkan K-Means算法和大樣本情況下Mini Batch K-Means算法[2]。

我們給定一個數(shù)據(jù)集D,以及要劃分的簇數(shù)k,就能通過該算法將數(shù)據(jù)集劃分為k個簇。一般來說,每個數(shù)據(jù)項只能屬于其中一個簇。具體方法可以這樣描述:

(1)假設(shè)數(shù)據(jù)集在一個m維的歐式空間中,我們初始時,可隨機選擇k個數(shù)據(jù)項作為這kk個簇的形心Ci,i∈{1,2,…k},每個簇心代表的其實是一個簇,也就是一組數(shù)據(jù)項構(gòu)成的集合。然后對所有的n個數(shù)據(jù)項,計算這些數(shù)據(jù)項與Ci的距離(一般情況下,在歐式空間中,數(shù)據(jù)項之間的距離用歐式距離表示)。比如對于數(shù)據(jù)項Dj,j∈{1,…n},它與其中的一個簇心Ci最近,則將Dj歸類為簇Ci[3]。

(2)通過上面這一步,我們就初步將DD劃分為k個類了?,F(xiàn)在重新計算這k個類的形心。方法是計算類中所有數(shù)據(jù)項的各個維度的均值。這樣,構(gòu)成一個新的形心,并且更新這個類的形心。每個類都這樣計算一次,更新形心。

(3)對上一步計算得到的新的形心,重復(fù)進行第(1),(2)步的工作,直到各個類的形心不再變化為止[4]。

2分類實現(xiàn)

本次使用的樣本數(shù)據(jù)一共有300行,對它們進行數(shù)據(jù)分類。分類過程具體實現(xiàn)分為四個步驟,分別是采樣數(shù)據(jù)、樣本數(shù)據(jù)可視化、數(shù)據(jù)分類,顯示分類視圖。

2.1獲取數(shù)據(jù)

我們獲取300個樣本數(shù)據(jù),同時做成表格,代碼如下:

import pandas as pda

import numpy as npy

import matplotlib.pylab as pyl

import pymysql

conn=pymysql.connect(host="127.0.0.1",user="root",passwd="root",db="tb")

sql="select price,comment from goods limit 300"

dataf=pda.read_sql(sql,conn)

x=dataf.iloc[:,:].as_matrix()

2.2模型分類

我們讓300個樣本數(shù)據(jù)劃分為不同的類別,該部分的核心代碼如下所示:

from sklearn.cluster import KMeans

kms=KMeans(n_clusters=2)

y=kms.fit_predict(x)

print(y)

for i in range(0,len(y)):

if(y[i]==0):? ? ? ? pyl.plot(dataf.iloc[i:i+1,0:1].as_matrix(),dataf.iloc[i:i+1,1:2].as_matrix(),"*r")

elif(y[i]==1):? ? ? ? pyl.plot(dataf.iloc[i:i+1,0:1].as_matrix(),dataf.iloc[i:i+1,1:2].as_matrix(),"sy")

elif(y[i]==2): pyl.plot(dataf.iloc[i:i+1,0:1].as_matrix(),dataf.iloc[i:i+1,1:2].as_matrix(),"*k")

pyl.show()

2.3分類結(jié)果

對于我們的測試數(shù)據(jù)的分類結(jié)果,我們首先標(biāo)每類數(shù)據(jù),黃色方塊代表第一類,黑色五角代表第二類,紅色五角代表第三類。為了更直觀的的理解樣本數(shù)據(jù),數(shù)據(jù)采用Matplotlib庫進行繪圖分析,如圖1所示。

3結(jié)語

本文通過采用k-means算法對商品數(shù)據(jù)進行分析,采用Python數(shù)據(jù)可視化庫中的函數(shù)和Matplotlib庫完成對數(shù)據(jù)的分類。通過測試結(jié)果,分類結(jié)果達到了相對的平均,基本能夠滿足我們的要求。

參考文獻

[1]魏建東.K-means初始化算法研究[D].南京:南京理工大學(xué),2015.

[2]宋建林.K-means聚類算法的改進研究[D].合肥:安徽大學(xué),2016.

[3]李衛(wèi)平.對k-means聚類算法的改進研究[J].中國西部科技,2010(24):49-50.

[4]劉越.K-means聚類算法的改進[D].桂林:廣西師范大學(xué),2016.

收稿日期:2020-03-15

基金項目:2019年省級大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃項目:ID3算法在網(wǎng)絡(luò)購物滿意度預(yù)測研究中的應(yīng)用(S201910722012)。

作者簡介:張一帆,男,陜西渭南人,本科,研究方向:軟件工程。

Research on Commodity Clustering Based on Kmeans Algorithm

ZHANG Yi-fan, HU Jia-hao, LI Yi-qiao

(Computer College of Xianyang Normal University, Xianyang Shaanxi 712000)

Abstract:The quantity of commodities is very large, which needs to be divided into k categories according to certain standards. How to divide a large number of data objects into appropriate K categories of commodities has become a research problem in data analysis. This paper mainly describes the specific implementation process of the model, including data collection, data normalization, algorithm model construction, evaluation algorithm model. Through the training and testing of the model with the case data set, the experimental results show that the model can classify the commodity objects accurately, and the test error is small.

Keywords: machine learning;k-means algorithm;Python

猜你喜歡
機器學(xué)習(xí)
基于詞典與機器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機的金融數(shù)據(jù)分析研究
機器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
主站蜘蛛池模板: 第一区免费在线观看| 国产成人精品一区二区秒拍1o| 亚洲午夜福利在线| 国产成人免费观看在线视频| www.91中文字幕| 国产成人亚洲无码淙合青草| 色有码无码视频| 国产精品第5页| 国产精品成人啪精品视频| 久久久久亚洲精品成人网| 日韩午夜福利在线观看| 久久无码av三级| 少妇被粗大的猛烈进出免费视频| 国产91全国探花系列在线播放| 亚洲天堂精品视频| 欧美爱爱网| 国产欧美中文字幕| 欧美日本在线播放| 欧美在线黄| 日韩a级毛片| 国产亚洲精品资源在线26u| 国产一区在线视频观看| 日韩欧美国产中文| 国产精品主播| 午夜少妇精品视频小电影| 国产尤物视频在线| 亚洲精品国产综合99| 亚洲性一区| 青青操国产视频| 国产xxxxx免费视频| 欧美亚洲一二三区| 性视频久久| 中文纯内无码H| 农村乱人伦一区二区| 亚洲国产欧美自拍| 蜜臀AVWWW国产天堂| 一级不卡毛片| 在线播放精品一区二区啪视频| 成人在线亚洲| 国内精品伊人久久久久7777人| 免费一极毛片| 欧洲免费精品视频在线| 国产手机在线观看| 国产区91| 久久香蕉国产线看观看精品蕉| 亚洲一级毛片在线观| 精品国产99久久| 国产高清在线精品一区二区三区| 免费看av在线网站网址| 99视频精品全国免费品| 国产情精品嫩草影院88av| 无码网站免费观看| 91在线丝袜| 亚洲一区无码在线| 国产中文在线亚洲精品官网| 国产综合精品日本亚洲777| 亚洲一级毛片在线播放| 波多野吉衣一区二区三区av| 国产成人精品18| 免费啪啪网址| 久久精品欧美一区二区| 国产亚洲高清在线精品99| 广东一级毛片| 久久青青草原亚洲av无码| 色吊丝av中文字幕| 一级毛片无毒不卡直接观看| 亚洲成年人网| 国产精品欧美在线观看| 国产在线日本| 国产日韩精品一区在线不卡| 国产精品第一区在线观看| 久久婷婷五月综合色一区二区| 人妻21p大胆| 高清色本在线www| 国产精品自在自线免费观看| 国产成人综合欧美精品久久| 亚洲人成网站观看在线观看| 在线观看亚洲人成网站| 欧美午夜视频| 波多野衣结在线精品二区| 99久久精品国产精品亚洲| 免费一级毛片在线观看|