文/周旭
隨著互聯網時代的發展,互聯網數據量劇增,催生了關于數據研究的很多個方向,其中,數據挖掘就是關于數據處理的新方向。數據挖掘是關于數據和信息決策的前沿方向,從實質上看,數據挖掘就是指在數據中發現隱藏的,人們事先不知道的,但是又具有潛在價值的信息的過程。目前,數據挖掘在商業領域的應用比較廣泛,有專家曾經指出,數據挖掘在21世紀將是企業商業成功與否的關鍵因素。數據挖掘是一個比較復雜的過程,一般來講,數據挖掘首先要分析數據的選擇,之后對數據進行清理,將數據之間的差異清除掉,具體包括數據清洗、數據集成等,再進行數據建模,通過模型的反饋,選擇出最佳的數據特征,最后得出科學的結論,對數據進行分析,得出科學的結論來指導商業行為或者輔助科學研究。
機器學習的最早發展是20世紀50年代,主要是神經模擬和決策理論技術,到70年代關于機器學習的研究才逐漸多起來,成為了人工智能單獨的一個研究領域。當前,關于機器學習的研究已經進入到自動化以及模式識別等領域,從理論研究逐漸開始了實踐應用,而且取得了很好的成就,在商業領域的廣泛應用就是很好的證明。比如在金融行業、零售行業等,金融分析員通過數據挖掘建立的預測模型,對引起市場波動的因素進行分析分類,提高市場風險預警能力。在零售行業中,銷售人員通過數據挖掘建立的模型了解潛在客戶人群,了解客戶的需求是什么,根據需求調整產品銷售策略,提高市場份額。
以商業數據庫為例,如果數據的驗證過程不嚴謹的話,就會出現一些錯誤的數據。此外,因為數據來源渠道不同,會導致存在數據缺失的情況,由于數據的屬性也存在不同,數據編碼標準的不同,可能會導致無法對所有的數據屬性進行分析。還存在數據的大小不等,所以在對不同類型的數據類型進行分析方面,機器學習還存在不足。對于數據挖掘的預測精度是一個重要的方面,機器學習的預測精度一般情況下會低于訓練數據的預測精度,所以提高對真實數據的預測精度也是機器學習的一個特性。此外,結果的可解釋性也是機器學習的一個重要特性,由于終端用戶的知識水平不同,所以需要對數據進行預處理工作,讓用戶便于理解。機器學習的特性如表1所示。
以支持向量機定位方法為基礎,將需要定位的區域柵格化,之后在定位區域內采集一種測量報告。定位移動終端的話,需要借助計算來接收測量報告,對報告的相似性進行度量,來判斷待定位移終端的柵格,應用機器學習來對這一問題進行解決。
仿真數據采集來源于一個周邊長為8km的正方形區域內,四個不同的時間段路測得到的四批數據,用線測得到三批數據作為訓練數據,為了保證機器學習定位方法的有效性,將第四批數據進行篩選,在周圍10m內,把含有前三組訓練的路測數據刪除。之后,以不同的時間段為依據,合并相同通話中的相鄰的定位數據,這樣可以減少定位數據量,提高定位的精度。
用機器學習對移動終端進行定位,復雜程度比較高,計算的復雜程度與待定位區域的面積呈正比關系,區域面積越大,回歸模型以及分類會更復雜,函數的計算也就越復雜,因此,機器學習在進行移動終端定位的過程中,區域面積越大,計算越復雜,耗費的時間更長。利用基站的經緯度進行初步定位過程:首先將待定位區域邊長為8km的正方形劃分為1km的小正方形柵格,通過對定位數據集的數據進行定位操作,以基站經緯度為基礎,對基站的1km邊長的正方形柵格進行計算,初步獲取定位區域。
初次定位后,選一個邊長為2km的正方形,劃分為兩級柵格來支持向量機定位,兩級支持的方式,使數據計算復雜程度降低。在實踐中,對于定位精度的影響主要是正方形的柵格,柵格劃分的越小,定位的精度就會越高,第一級支持向量機定位,在選擇正方形柵格時,要考慮第二級的柵格大小,把兩級的分類問題總數最小化,保證在最小的定位階段對總量進行計算。
在二次定位之后會有一個經緯度輸出,以經緯度為基礎,對幾百米內的正方形區域進行選擇。因為以向量機為基礎的定位法誤差在百米以內,所以待定數據實際的經緯度可能在以二次定位結果為中心的數百米正方形區域內。之后進行定位模型訓練,將8km正方形中的訓練數據進行集中合并,可以減少運算次數。最后對分類樣本進行定位,以K-近鄰法為基礎,對合并之后的訓練數據進行計算,之后同二次定位的數據繼續合并,對某一相似的特征以及距離進行計算,得到三次定位的最后結果。通過三個階段的定位法得出的結果分析,定位速度及精度有了很大的提高,是GSM網絡戶外移動終端定位的最優方案。
數據挖掘技術在社會發展中隨著科學技術的不斷進步而發展,近年來發展迅速,應用領域不斷擴大。機器學習在數據挖掘中的應用具有重要的意義,以GSM網絡戶外定位問題為例,介紹了以機器學習為基礎的定位方法,大大提高了定位的精度,縮短了定位時間。