張勤

摘要:K-means算法是一種分類的聚類算法,通過這種算法,對藥品銷售數據進行處理,把銷量較好的一組顯示給用戶,實現藥品銷售排行功能,以方便用戶的采購,也便于銷售商掌握銷售規律,采取相應的措施。這樣也就完成K-means聚類算法的實現過程。
關鍵詞:聚類算法;可行性;聚類算法的實現過程
中圖分類號:TP301.6 文獻標識碼:A 文章編號:1672-9129(2020)08-0182-01
1 問題的提出
當今是一個信息爆炸的時代,在生產和生活的各個方面,每天都有形形色色的海量數據不斷出現,這些數據背后都隱藏著有價值的信息。這些信息 需要被挖掘才能體現價值,聚類是這個過程中最常用到的一個技術,所以聚類被越來越多地運用,得到了越來越多的重視。例如,在藥品銷售方面,既存在銷路一般的滯銷藥,也有著銷售速度極快的暢銷藥。而倘若能夠準確把握其中的數據信息,采取聚類分析的方法來對相關藥品實施統一化的銷售處理,就能夠讓藥品的處理率得到有力提升,而且還可以通過對藥品銷售規律的把控,科學化地處理多類別藥品。
2 K-means聚類算法
客觀地說,聚類分析屬于一種以挖掘數據為核心的功能,其能夠充當為一種獲取數據分布情況的工具,為使用者正確認知類別對象特點,進而進行集中化的類別分析提供數據支持。同時,其作為當前較為時興的一種算法,能夠對注入市場營銷、生物學、空間數據技術、機器學習、統計學以及數據挖掘等多個領域提供便利。由于各領域都存有數據儲存量龐大的數據庫。故此,聚類分析意境逐步發展成數據挖掘領域中一個極其重要的研究課題。對于k-means 算法而言,其接受輸入量為k;然后以k為聚類劃分n各數據對象,進而獲得相應的聚類滿足:不同聚類中各個對象的相似度不高,而同一聚類中各個對象則有著極高的相似度。而其中的相似度,則是以聚類對象的“中心對象”,也就是均值來計算而得。
3 K-means聚類算法的可行性
聚類算法在各個方面都有所應用,在生物學上對于基因的聚類,分別同一物種;在上市分析上幫助銷售人員選擇客戶群;在房地產選址方面也能選擇較好的房源;在居民階梯電量制定方法雙眼皮也有應用。現如今藥品的數量、種類繁多,單獨去了解一個或一類藥品費時費力,而聚類K-means正是分類的算法,在此以銷量作為分組的依據,把銷量較好的顯示給用戶。銷量較差的提示給管理員,采取相應的措施。所以該系統使用K-means算法也是可行的。
4 K-means聚類算法的基本步驟
(1)從數據中選擇k個對象作為初始聚類中心;
(2)計算每個聚類對象到聚類中心的距離來劃分;
(3)再次計算每個聚類中心
(4)計算標準測度函數,到達到最大迭代次數,則停止,否則,繼續操作。
5 K-means聚類算法的實現過程
首先對所選數據進行預處理和標準化,做預處理是因為數據的“不純凈”,提高數據的挖掘質量,節約數據挖掘的時間;數據標準化是為了壓縮數據,提高數據的準確性和有效性。標準化的方法為:已知有n個藥品,設第i個藥品,第j個屬性的值為Xij,
下面是選擇的部分數據:
經過K-means聚類后可得到兩大藥品分類,第一類編號為:3、4、5、6、7;第二類編號為:8、9、11、12、13。
結語:用數據聚類K-means算法,通過聚類分析把銷售數據分為幾組,把銷量好的顯示給用戶,便于采購。銷量不好的反饋給管理者,以便采取措施,調整銷售策略。下一步將軟件的開發和完善。
參考文獻:
[1] 阿霍. 計算機算法設計與分析(英文版)[M].北京:機械工業出版社,2006.
[2] 任恒妮. 大數據 K-means 聚類算法的研究與應用[J].信息技術2019(11)
[3] 王曉東.計算機算法設計與分析[M].北京:電子工業出版社,2018.
[4] 王曉云,陳業綱.計算機算法設計、分析與實現[M].北京:科學出版社,2012.