吳紅
(首都經濟貿易大學,北京 100070)
基于移動互聯網的數據挖掘概述
吳紅
(首都經濟貿易大學,北京 100070)
隨著移動互聯網的不斷發展,海量移動互聯網數據不斷涌現,由于數據本身的價值,針對移動互聯網數據的挖掘更為重要。分析了移動互聯網信息價值,介紹了數據挖掘以及LBS在數據挖掘中的應用,最后從數據量、安全性和數據質量三方面對移動互聯網數據存在的問題進行了闡述。
移動互聯網 數據挖掘 信息價值 LBS
隨著各種移動設備、物聯網和云存儲等技術的發展,人和物的所有軌跡都可以被記錄。與互聯網不同的是,在移動互聯網中的核心網絡節點是人,不再是網頁。隨著數據大爆炸時代的到來,怎樣挖掘這些數據,同樣面臨著技術與商業的雙重挑戰。對于數據挖掘來說,移動互聯網的特殊性首先在于它能夠鎖定一個特定用戶,其次在于它能夠獲取用戶地理位置信息,再次是在于移動互聯網上的時空信息等多樣化的數據種類。而因為這三點,導致移動互聯網上的數據數量會比傳統互聯網更大,形式也比傳統互聯網更加豐富,從而也有更高的價值。
2.1 移動互聯網數據形式
移動互聯網數據形式多種多樣,在互聯網上存在的各種數據類型只是移動互聯網上的一個子集。同樣的互聯網信息,在移動端訪問的方式也使內容變得更加豐滿。同樣是都是圖片,但是在移動設備中存在的與位置相關的圖片要比單存在于互聯網上的圖片價值高很多,或者說同樣都是一句評論,但是有場景的評論和場景的評論相比前者更有挖掘的價值。
與傳統互聯網的數據不同的是,在移動互聯網的數據中,文字以外的其他信息占到更加重要的比例。從數據的屬性上來講,移動互聯網上的數據比傳統互聯網更加復雜,其中一個原因是這些數據包含了大量的時間和空間的信息,也就是需要把數據挖掘延伸到時空數據挖掘的領域(Spatio-temporal Data Mining)。因為多了一個維度,時空數據挖掘的復雜度比一般的數據挖掘又深了一層,雖然說研究方法和算法還是類似的。
2.2 移動用戶價值
從本質上,在移動互聯網上的挖掘的目的和傳統互聯網數據挖掘的目的是一樣的:都是為了從原始數據上找出有用的信息,進而轉化成可用的知識。但移動互聯網有其特殊性,即移動互聯網的某一個終端通常是由同一個個體使用的,所以用戶在移動終端上的所有行為是具有一定延續性的,通過收集用戶信息,可以建立用戶檔案(Profile)。
在移動互聯網上,即使沒有Cookie,依然可以鎖定用戶,即使因為隱私和用戶規則等原因,我們不主動獲取用戶的個人信息資料,但至少可以知道用戶是否和之前的某個訪客是同一個個體。這樣能夠通過移動互聯網應用獲取用戶當前的位置信息和參加活動的一些信息,并把這些信息記錄收集下來,從而積累成關于某個用戶的豐富檔案信息。這些信息積累將是一大筆財富,從一些位置信息中可以分析出用戶的大概活動范圍,經常出差還是常住,甚至可以預測用戶此刻需要什么。
2.3 移動互聯網地理位置信息價值
通過分析移動互聯網的數據,可以真正實現用戶的行為定向,通過用戶使用各種應用的習慣與場景,還原用戶屬性,了解用戶興趣和喜好,預測用戶消費習慣和消費意圖,實現真正的精準定向。基于移動互聯網地理位置信息,可以推薦針對某一人群的服務,比如可以再節假日之前提供北京往返機票和優惠禮品券,在平時提供商務人員需要的個性化產品等。
LBS(Location-Based Service)是與位置相關的軟件服務的英文縮寫,指的是一類利用和控制與位置與時間相關的計算機軟件服務。LBS通常是在移動終端實現的,現在很多原本只是在互聯網上的應用都有了LBS服務。基于位置的數據挖掘非常具有挑戰力,如幫助用戶尋找他所在地附近可能有用的商業地點,并按照一定的規則排序,實現并不那么容易。
任何與位置相關的數據挖掘的工作必不可少的第一步就是搜集關于地點的可靠數據。在這個過程中,常會面對多個不同的數據源,有些來自互聯網,而有些來自于線下,所以第一步面臨的常常就是數據的整合與清理。與位置相關的數據量常是在GB字節上下,對于這個量級的數據頻繁的整理、提取、集成和存儲都有一定的難度,但目前有一些框架和應用工具解決此問題,如Hadhoop和HBase等。各個地點之間的關聯性是需要通過數據挖掘才能完成的任務。每個地點都有多種屬性,而地點之間的關聯度是根據他們各自的屬性匹配所得到的。目前有一些相關挖掘領域及算法,如利用PU(Learning from Positive and Unlabeled examples)學習算法做文本挖掘,利用相似匹配算法做地點挖掘等。
LBS應用最有價值的地方在于藉此能夠對用戶做精準的地域定向,這樣的廣告價值相對要高很多。如一家餐館可以對它周圍1公里的用戶發送折扣券,一個搬家公司可以選擇對它周圍10公里的用戶發送廣告,等等。
移動互聯網有它的特殊性,而移動互聯網上的數據除了它的特殊價值之外,也有和傳統互聯網不完全相同的問題。下面從數據量、安全性和數據質量三方面分別介紹了移動互聯網數據存在的問題。
4.1 數據量
移動互聯網可能產生的數據量是一個需要考慮的問題。據統計,在中國,2012年約有不到6億移動互聯網用戶,其中有約1.8億是手機應用商店的使用者,而且這個數字正在飛速增長之中。每個用戶產生的所有數據,包括即時的位置信息、路徑信息、訪問信息等都需要實時分析,那么處理數據過程的負擔就加大。
4.2 安全性
互聯網安全性一直是關注的熱點,那么移動互聯網上的安全因素也需要考慮和解決。在移動互聯網上有很多惡意的應用程序,這些應用程序侵入用戶的移動設備來竊取個人信息。另外,移動終端和個人身份信息密切相關,在移動互聯網上更加要重視個人隱私問題。
4.3 數據質量
移動互聯網的數據價值顯而易見,但數據質量卻令人擔憂。移動互聯網行業結構目前并不明朗,盈利模式也不清晰。大量的移動應用通過刷量來沖擊移動互聯網應用排行榜以追求投資人的青睞。大量移動互聯網公司付費給水軍來給自己的移動應用發五星好評,給競爭對手的應用打一星差評。這些數據所占據的比例過高,已經嚴重干擾了數據的準確性,而這些行為實際上大大降低了移動互聯網數據的整體價值。所以提高數據質量問題不容忽視。
移動互聯網不斷發展,從而產生大量數據,海量數據中包含著重要信息,對各行業都有不可估量的價值。本文分析了移動互聯網信息價值,介紹了數據挖掘以及LBS在數據挖掘中的應用,最后從數據量、安全性和數據質量三方面對移動互聯網數據存在的問題進行了闡述。基于移動互聯網的數據挖掘意義重大,本文希望能為以后在移動互聯網方面針對數據挖掘的研究打下一定的基礎。
[1]Goh,Jen and Taniar,David.An Efficient Mobile Data Mining Model:Parallel and Distributed Processing and Applications. Springer Berlin,2005.
[2]趙占純,李濤,戚帥.移動互聯網信息挖掘的實現及應用淺析[J].郵電設計技術.2012(8).
[3]Nafiseh Shabib,John Krogstie.The use of data mining techniques in location-based recommender system.in Processing WIMS’11 Proceedings of the International Conference on Web Intelliengence,Mining and Semantics,2011.
[4]梁曉音.2012年中國移動互聯網應用趨勢預測[J].硅谷,2012(16).
[5]蔡梓鏵.2012年移動互聯網初探[J].軟件工程師,2012(Z1).