機器學習算法在數據挖掘中的應用探討

2021-11-24 08:09:49楊昊天譚伊杰

科學與生活 2021年18期

楊昊天譚伊杰

摘要：機器學習算法是當前數據挖掘活動中的重要算法，其在人工智能的技術支持下，可在完成樣本集學習與訓練后，獲取運算所需的模式與參數。本文對機器學習算法進行分析，重點研究其應用情況，確定其在定位問題、處理與采集數據以及其他的定位技術中的應用情況，以此來更好地發揮出機器學習算法的作用，提升數據挖掘水平。

關鍵詞：機器學習算法;數據挖掘;應用方法

數據挖掘技術是大數據時代中的一項重要技術，可實現處理信息的技術需求，同時減少管理與應用數據的成本。在實施挖掘數據的活動時，可應用機器學習算法，應用計算機設備對人類行為加以模擬，以此展現出人工智能技術的優勢。現研究如何在挖掘數據的過程中，應用機器學習算法。

1機器學習算法

數據挖掘算法主要包括統計算法與機器學習算法。使用統計算法時，需要展開判別與概率分析、聚類分析與相關性分析;采取機器學習算法時，需引進人工智能技術，完成對數量較多的樣本集學習與訓練后，可確定運算所需的模式與參數。這兩種算法能夠對應不同的數據挖掘目標與領域，既可結合應用，也能夠各自單獨使用。

機器學習算法的優勢體現在自組織學習與數據處理等方面，能夠滿足精準識別的應用要求，對問題進行分類后實施數據處理。相比BP神經網絡，人工神經網絡的學習效率高，其借助模型實現應用目標，可用的模型具有多樣化的特點，可對各種需求進行滿足，魯棒性良好，描述能力強，并且不需要專家支持作為前提。在運用時，必須掌握其存在的問題，如數據訓練需要充足的時間，理解獲取的知識的智能化程度偏低，在可伸縮性與開放性方面也有受限的情況。與其他算法相比，機器學習算法需要對人工智能技術進行依靠與運用，收集大量的樣本，展開訓練與學習，運算時則可以自動對相應模式與參數進行匹配，該技術具有較強的綜合性，對計算機科學、自動化。物理學以及數學等學科進行綜合，進而可在更多的領域中發揮作用，實現差異化的應用目標。在神經網絡中運用機器學習算法使，需建設出神經元模型，確定數據具有的基本特點，分析出相應問題的結論。

2數據挖掘中應用機器學習算法

2.1定位問題與建模

移動終端已經實現大范圍普及，手機用戶數量激增，借助移動設備提供的定位數據，即可了解其所處的地理空間位置，對用戶信息進行識別與挖掘，了解用戶偏好，區域發展情況等重要信息，投資者、運營者以及政府可運用信息開展實際活動。進行數據挖掘活動時需要在海量信息中精準提取并挖掘具有一定價值的數據，挖掘過程中，應運用計算機，對挖掘目標進行有效實現，集合數據，在線分析數據，篩選數據等。對機器學習算法進行應用時，首先可以實現對問題的定位，確定定位方式，不可忽視向量機存在的定位需求，做好構建模型前的準備工作;在定位區域中實施柵格化處理，并對類別進行有效劃分;從終端處獲取測量信息并進行整理，結合相關報告確認終端位置，在機器學習算法的支持下，掌握柵格精準度與距離度量，預估判斷移動終端柵格情況，通過機器學習算法來實現求解。

2.2采集與處理數據

以周邊邊長數值為10km的區域為研究對象，應用模型，在該區域范圍內，對多個時間段的相應數據進行獲取，為了強化機器學習算法在定位活動中的有效性與精準性，可將三批數據設置成訓練數據，定位數據為其中的最后一批數據，清除定位數據周邊10m范圍內的訓練數據，具體為前三組數據。對待定位的信息數據進行確定后，繼續在各個時間點展開測量，明確數據的平均值與經緯度，實施換算，所獲得的數據量更加真實，定位不僅能夠滿足有效性要求，還能保持極高的定位效率。

2.3應用于定位活動

在對移動終端進行定位時，機器學習算法雖然能夠滿足定位要求，但是應用過程相對比較復雜，區域面積擴大后，模型的分類以及數量也應有所改變，同樣出現復雜化的特點。因此選擇機器學習算法時，要考慮到區域面積發生變化后，往往需要消耗更長的時間。早期定位時，主要采用基站的實際經緯度。對邊長數值為10km的正方形展開切割，形成的小柵格為1km，計算小柵格的相應數據，即可實現對數據集信息的精準定位，整合數據集。

選定2km邊長的正方形，向量機在首次支持的環節中定位范圍設置成0.4km，第二次則能夠實現自由輸出柵格數據的需求，可輸出經緯度數據，并以0.1km柵格作為基本中心。對比不同的定位結果，第二次定位計算過程更加復雜，既要完成向量機分類樣本的計算，同時還需進行決策函數的計算，使用成對分類法來處理分類問題，分類問題的具體增加量與定位精度之間存在反比的關系，分類問題所形成的增加量與定位復雜化程度之間具有正比的關系，當增加量逐步縮減時，定位精度將隨之提高，同時復雜化程度也降低;而當分類問題增加量呈現出上升趨勢后，定位復雜度將明顯增高，同時精度隨之降低。進行向量機的首次定位后，應選出大小適當的柵格，對分類問題的數量實施最小化處理，依照處理結果設置向量機二次定位時柵格的尺寸，進而獲得更加精準的測量結果。

處理數據樣本時，也能夠突顯出機器學習算法所具有的計算推演優勢，在線性數據中進行采樣，在多維度的數據空間中展開精準計算，如果維度數量過多，應展開點積計算，注重非線性區域與線性區域之間的演變情況，進而實現對復雜問題的有效解決，實現數據挖掘目標。

進行三次定位時，需要將K-近鄰法作為定位基礎，首先掌握定位區域的具體面積，實施二次輸出后，了解經緯度信息，根據經緯度以及其他信息進一步確定面積與邊長，為后續的定位做好完備的前期準備工作，訓練定位模型，在該定位模型中，必須對訓練數據進行綜合處理，結合具體的大小情況，展開合并與篩選，以此避免出現過多的重復計算行為，提升計算效率，縮短計算所需的時間，同時還需注意到當選定的區域面積加大時，定位的精確度與速度均會出現不同程度的降低。

3結論

本文主要對數據挖掘活動中的機器學習算法進行分析，確定該種算法的優勢與應用情況，其在定位活動中有良好的表現，確保滿足精準度方面的要求。結合不同的數據挖掘需求，應繼續完善機器學習算法，以此來將該算法的使用范圍進一步擴大，保持算法的優越性的同時，消除算法應用問題，強化使用效果。

參考文獻

[1] 郭皓. 機器學習算法在數據挖掘中的應用研究[J]. 數字通信世界， 2019， 171（03）：177-177.

[2] 戴惠麗. 大數據背景下機器學習在數據挖掘中的應用研究[J]. 呂梁教育學院學報， 2019， 036（003）：P.20-21.

[3] 葉梓. 機器學習算法在數據挖掘中的應用[J]. 信息與電腦， 2019， 031（018）：59-60.