宋萬清
摘 要:數據挖掘是當今大數據應用研究中的重要理論知識部分。如何理解數據挖掘算法中的工程應用背景,對理解講授數據挖掘課程極其重要。本文詮釋了理論算法與實際應用的關系,并對數據挖掘的應用領域做了相關介紹,開拓學生對課程的由淺入深的理解。
關鍵詞:數據挖掘;決策支持;關聯規則;發展趨勢
1 在商務領域的應用
數據挖掘在商務領域的應用包括:庫存及物流管理、數據庫營銷、客戶群體劃分、背景分析、交叉銷售、客戶流失性分析等。美國運通公司(American Express)有一個用于記錄信用卡業務的數據庫,數據量達到54億字符,并仍在隨著業務進展不斷更新。運通公司對這些數據進行挖掘,在此基礎上制定了“關聯結算(Relation Ship Billing)優惠”的促銷策略,即如果一個顧客在一個商店用運通卡購買一套時裝,那么在同一個商店再買一雙鞋,就可以得到比較大的折扣。這種策略取得了極大的成功,實現了商店銷售量和運通卡使用率的雙雙增長。
農夫山泉通過定期采集純進水的生產、運輸、銷售、財務等環節的場景數據,每月收到約3 TB的數據,其中不乏圖像、視頻、音頻等非結構化數據,通過對這些數據的挖掘,實時制定生產、運輸、銷售的精準管理策略,取得了巨大的成功,近年銷售額連續以30%~40%的速度增長。
亞馬遜(Amazon)在業內率先使用了大數據、人工智能和云技術進行倉儲物流的管理。創新性地推出預測性調撥、跨區域配送、跨國境配送等服務。京東的JIMI客服機器人通過大數據挖掘來判斷用戶需求,還具備一定的學習能力,在售前咨詢方面,在部分品類上的回答滿意度已經超過了人工客服;同時在采銷系統上利用數據挖掘實現智能補貨,效率提高近50%,通過用戶和小區的需求畫像實現智能推薦和C2B(Consumer to Business)。
2015年8月,阿里巴巴與蘇寧戰略合作,實現線上與線下聯合,利用大數據、物聯網、移動應用、金融支付等手段打造了O2O(Online to Offline)的新模式,充分發揮了阿里巴巴強大的線上體系和蘇寧線下門店的互補優勢。
2 在醫療和醫學方面的應用
人體是一個復雜的系統,人的生老病死有著復雜的內在規律,盡管目前分子生物學和醫學高度發展,人類對這些復雜規律的了解仍然是冰山一角。總部位于美國的Tute Genomics公司通過基因測序服務收集了大量的受試者基因和健康信息,建立了一個大型基因數據庫,他們以云技術為依托,結合全世界的基因組學信息,解碼患者基因信息,為基于基因組學的精密醫療提供相應數據與決策。
斯坦福大學醫學院的Lloyd Minor教授與其同事們從不同資源中獲取了大量數據,包括電子醫療記錄、全基因組序列、保險和醫藥記錄、可穿戴式傳感器和社會環境數據,建立了一個名為“和你一樣的病人”的數據庫系統,通過數據挖掘,醫生和研究人員可更好地預測個人患特定疾病的概率,有針對性地制定對早期檢查和預防的方案。
大數據在醫療領域的另一個應用是利用電子病歷數據庫、互聯網大數據、社交媒體數據以及衛生部門專有的各種病疫數據庫實時開展公共衛生監測,包括流行病監測、傳染病監測、慢性非傳染性疾病及相關危險因素監測、出生缺陷監測、食品安全風險監測等。
3 在銀行和保險行業的應用
風險管理是商業銀行經營管理的重要內容,對互聯網金融企業尤其如此。阿里巴巴旗下的浙江網商銀行通過對海量客戶數據的挖掘實現對貸款申請人的信用評估;芝麻信用通過海量的網絡交易數據分析對用戶進行信用評估和風險控制。
在保險行業,大數據挖掘分析將成為風險評估與定價的重要手段,如美國前進保險公司(Progressive)利用車聯網設備,收集駕駛時間、地點、速度、急剎車等駕駛數據,來判斷駕駛行為中存在的風險,設計“從用”的個性化UBI 車險產品;英國保險公司英杰華集團(Aviva)運用網絡數據挖掘幫助該公司識別出申請者的潛在健康隱患及風險,為保費設定提供支持。
4 在社交媒體行業的應用
Facebook每天產生100億條消息、45億次“喜歡”按鈕點擊和3.5億張新圖片,通過對這些數據的挖掘分析可獲得用戶的位置、朋友、喜好等信息,Facebook一方面利用這些信息影響用戶行為,如提供標注建議等,另一方面還向合作伙伴推出話題數據(Topic Data),這些話題數據可以向市場營銷人員反應大眾對于品牌、事件、活動和主題的反應,市場營銷人員可以據此有選擇地調整他們在該平臺及其他渠道中的營銷方式。
騰訊每天接入5千億條數據,覆蓋移動設備數達7.7億臺,通過對這些數據的挖掘分析可實現對用戶的行為特點、偏好、消費能力等的精準定位,并以此為基礎實現精準廣告投放、精準移動推送、手機游戲精細化運營的業務。
YouTube是Google旗下的一個視頻交流網站,是目前世界上最大的視頻交流網站,在全球有超過10億注冊用戶,每天收到用戶上傳的視頻接近1 000萬個,用戶要從如此龐大的視頻數據庫中找到自己感興趣的視頻猶如大海撈針,為了增加用戶體驗,Google利用深度神經網絡挖掘視頻語義特征,改進搜索推薦算法,實現了目前世界上最強大的推薦系統。
5 結論
綜上,數據挖掘涵蓋多種理論和技術,成為一個熱門的研究課題,這說明數據挖掘的理論、技術及應用都具有重要的意義,在未來還會涉及更多的領域。但數據挖掘作為一個分析方法和工具,還需要專業人員根據具體情況,結合相關行業的大環境以及國家的政策法規等進行綜合分析后,才能得到正確及專業的數據挖掘信息。而在教學領域,對深入分析數據挖掘、應用數據挖掘技術將是我們未來努力的方向。
參考文獻
[1][美]Jiawei Han,Micheline Kamber(譯者:范明,孟小峰).數據挖掘概念與技術 [M],北京:機械工業出版社,2007-6-1.
[2]毛國君.數據挖掘原理與算法(第二版)[M].北京:清華大學出版社,2007-12-1.
[3][美]Pang-Ning Tan , [美]Michael Steinbach (譯者: 范明 ,范宏).數據挖掘導論 [M].北京:人民郵電出版社,2010-12-10
[4][美]Jiawei Han ,[加]Micheline Kamber ,[加]Jian Pei .Data Mining,Concepts and Techniques [M].北京:機械工業出版社,2012-3.
[5][美] Michael Milton(譯者:李芳).深入淺出數據分析 [M],北京:電子工業出版社,2011-4.