郭 皓
(河南聯通,鄭州 450000)
數據挖掘技術能夠促進社會的科學技術快速發展,增強人們對信息處理的能力,在信息化時代中發揮著不可替代的作用,不僅能降低數據管理成本,也能增進彼此溝通的效率。但數據挖掘技術因自身的數據處理能力受到影響,導致數據分析也越加困難,尤其是在面對海量數據信息時,數據挖掘技術就顯得相當吃力。機器學習算法作為一門交叉學科,利用計算機模擬人類行為,自動獲取新的知識和技能,并且對原有的知識結構體系進行改進與優化,機器學習也是人工智能的核心功能,可以保證計算機的智能發展,將機器學習算法在數據挖掘中進行應用能夠比常規的BP神經網絡診斷模型具有更好的準確率,且診斷率也會更高。
隨著移動終端的普及,手機用戶時間序列的手機定位數據,映射到現實的地理空間位置,即可完整、客觀地還原出手機用戶的現實活動軌跡,從而挖掘出人口空間分布與活動聯系的特征信息。通過機器學習,結合特有的一些特征,通過大數據倒入識別出來的有用信息,對用戶數據關鍵信息進行識別,并自動歸類,比如基于位置信息等類似歸類。例如從不同緯度,比如基于位置信息可以有效總結出:地區發展情況,用戶偏好區域,不同商場用戶行為各自特點,用戶主要居住區域分布,這些信息能提供給政府、商場運營者、房地產商、投資者一定的參考價值。在現階段,我國的移動應用以及相關服務正在不斷的發展與完善,目前全球已經逐漸進入到大數據時代。根據相關調查資料顯示,2015年全球大數據技術的市場規模增長率將達到31.7%,大數據的市場發展規模高達115.9億元,增速超過30%。
例如在研究基于基站定位數據的商圈分析這一案例時,主要的目標如下:
(1)對用戶的歷史定位數據,采用數據挖掘技術,對基站進行分群。
(2)對不同的商圈分群進行特征分析,比較不同商圈類別的價值,選擇合適的區域進行運營商的促銷活動。
項目分析建模過程如下:
(1)從移動通信運營商提供的特定接口上解析、處理、并濾除用戶屬性后得到用戶定位數據。
(2)以單個用戶為例,進行數據探索分析,研究在不同基站的停留時間,并進一步地進行預處理,包括數據規約和數據變換。
(3)利用已完成的數據預處理的建模數據,基于基站覆蓋范圍區域的人流特征進行商圈聚類,對各個商圈分群進行特征分析,選擇適合的區域進行運營商的促銷活動。
本例設計工作日上班時間人均停留時間、凌晨人均停留時間、周末人均停留時間和日均人流量作為基站覆蓋范圍區域的人流特征。結果如下:
(1)對樣本數據進行數量級規約,使用離差標準化方法(圖1);
(2)使用scipy中的層次聚類方法對數據進行聚類,畫出譜系聚類圖(圖2);
(3)使用sklearn中的層次聚類方法對數據進行聚類,并將分類結果畫出來(圖3,4,5)。

由圖分析可知,圖1的商圈類別為商業區,圖2的商圈類別為住宅區,圖3的商業類別為工作區,商圈類別一的人流量大,在這樣的商業區有利于進行運營商的促銷活動。
為了能夠提高BP神經網絡的整體運算性能,必須要加強對遺傳算法的染色體結構和遺傳算子進行優化自適應交叉變異概率以及自適應等相關的內容,可以保證BP神經網絡的結構和初始權重得到提升。首先將染色體的結構設計進行優化,把染色體的基因分成上下兩層結構,并且上層結構為控制基因,下層結構為參數基因。另外要恰當的選擇算子,由于遺傳型BP神經網絡算法進行優化與改進,這樣就要求算子的選取必須要按照常規是硬直的比例算法來選取,尋求局部最優。自適應交叉變異的概率設計能夠保證BP神經網絡的結構和初始權重得到更加的平衡[3]。
本文對機器學習算法中人工神經網絡算法在數據挖掘中的實際應用情況進行了深入的研究,并且改進常規遺傳算法的方式來增強對數據挖掘的整體質量,保證了數據挖掘處理的實際效果。