符傳健
摘 要:在這個時代里,從規模經濟到范圍經濟,從搜索經濟再到推薦經濟,數據挖掘經營開啟了“智”領革新、“智”在發展的新征程。文章以大數據架構體系下的數據挖掘模型為主線,從大數據環境自身的特點、當前典型企業對大數據技術的應用戰略模式和數據挖掘模型等方面對大數據技術進行分析。
關鍵詞:大數據;數據挖掘;模型研究
中圖分類號:TP315 文獻標志碼:A 文章編號:2095-2945(2018)33-0071-02
Abstract: In this era, from economies of scale to economies of scope, from economies of search to economies of recommendation, data mining operations have started a new journey in which "wisdom" leads to innovation and "wisdom" is developing. This paper takes the data mining model of big data architecture as the main line, analyzes big data technology from the characteristics of big data environment, the application strategy pattern of current typical enterprises to the technology of big data and the data mining model and so on.
Keywords: big data; data mining; model research
1 研究背景
伴隨著互聯網、云計算、移動互聯網和物聯網等一系列ICT技術迅猛發展,用戶數以億計的互聯網服務時刻產生巨量的信息交互,類似Web數據、傳感數據流等個性化的非結構數據在互聯網整個數據量中的比重逐步上升,數據的種類、復雜度都在大大增加,不再僅是處理企業內部結構化的數據,更多是無法用數字或統一的結構標識的非結構化數據,如文本、圖像、聲音、網頁等。諸如以上創新因素,大數據應用與價值挖掘成為產業最為關注的熱點課題,“IT”與“經營”的日趨融合,在大數據推動的商業革命與商業競爭暗涌中,要么學會應用大數據杠桿創造商業價值,要么被大數據驅動的新生代商業系統所淘汰。
2 大數據的架構體系與發展特征
大數據技術被稱為“地球的神經系統”,它背后蘊藏價值堪比石油,業界將其特性歸納為4個“V”——Volume,Variety,Value,Velocity。其發展從其根本上是從傳統的結構化數據處理模式走向現代非結構化的海量數據處理的一次根本性飛躍。目前,以大數據為核心的產業鏈正在形成,當前主要包括三層:第一層是企業內部交易數據和企業外部的用戶行為數據、物聯網數據;第二層是信息層,產生如數據包銷售、租賃等業務模式;第三層是知識層,需要人工介入,提供融合行業信息。
大數據及其數據挖掘理論體系的創生發展賦予了產業更多的發展特征。(1)以人為中心的全方位需求滿足成為產業的價值訴求,互聯網生態結構發生再生于重構。全天候、全業務、全生態、全終端、全模式等以客戶為中心的全方位需求滿足,是大數據發展終始目標,大量智能移動設備接入網絡,移動應用爆發性增長對數據進行深入挖掘的需求突顯。(2)數據世界技術發展的重點已不再是數據存儲,而是數據應用,數據價值挖掘成為數據的應用的關鍵和核心。從傳統互聯網到移動互聯網,數據時時刻刻、分分秒秒都在成幾何級的增長。而諸如twitte、facebook、google等也每天都在為數據的獲取與價值挖潛而勞碌奔波。(3)基于用戶行為分析,互聯網營銷趨向“開放-主動-整合”,“搜索+推薦”成為互聯網發展的新主導行為模式。
3 “平臺聚合+數據挖掘”的創新模式探討
3.1 以阿里巴巴為領銜的商務平臺大數據分享模式
阿里巴巴推出淘寶開放平臺,開展“數據分享平臺”戰略,大數據產生的價值已深入地影響了企業的經營和管理,如何有效管理和應用大數據也為企業提出了巨大的挑戰。天貓與阿里云、萬網宣布聯合推出淘寶開放平臺,是基于淘寶各類電子商務業務的開放平臺,提供外部合作伙伴參與服務淘寶用戶的原始數據分析。為天貓、淘寶平臺通過對全平臺內的交易信息和用戶行為等信息進行分析,為商家提供推薦參考及其他個性化服務,以此進一步加強自身平臺和商家之間的粘性。
3.2 以Facebook為領銜的社交平臺大數據分析模式
“大數據”技術對于社交網站的核心價值在于數據的挖掘和應用產生的多方位價值。Facebook構筑了多系列化得開放平臺,除自身所具備的社交網絡屬性外,在功能設計和頁面更新上均注重獲取多維用戶信息,力求全程記錄和沉淀用戶的行為數據。由此獲取的大量數據將成為未來Facebook的核心資源與競爭優勢。情感分析是近來社會媒體的大熱趨勢,其目的在于幫助公司了解消費者對于其產品的看法,是一個很有效的實時反饋系統,能夠監測廣告的有效性進而預測廣告投放的結果。
3.3以 IBM為領銜的數據服務分析平臺大數據創新模式
大數據時代,如何對極大量的數據進行及時的處理、高效地存儲和管理,成為了擁有大量數據的企業所要面臨的主要問題。而相應的,這也就為擁有豐富強大數據管理和計算能力的數據服務類企業帶來了機會。IBM推出了云計算平臺作為一個并行分布式系統,通過低成本和高擴展性的方案對現有數據倉庫系統進行增強和延伸,提升了倉庫存儲和商業決策分析能力,從而支持了大數據處理,為使用大數據的企業帶來了方便。
4 數據挖掘典型模型構建:知識發現與價值挖掘的衍生
數據挖掘則將“大數據”轉化為“大洞察”的方法論體系,它是一種透過數理模式來分析企業內儲存的大量數據資料,以找出不同的客戶或市場劃分,分析出消費者喜好和行為的方法,又名“數據庫中的知識發現”。通過數據挖掘整合和洞察數據,讓企業更全面、更深入、更準確地了解和把握客戶的需求特征,企業也就有更多的機會對潛在客興趣愛好、消費傾向及消費心理等,幫助企業提升運營管理能力和績效。硅谷的新寵,前有Google,后有Facebook,都是駕馭數據挖掘的大師。數據挖掘中的常用模型有:交叉銷售模型、關聯推薦匹配模型、互聯網信用模型、電商動態定價模型、信息聚合分類模型。
4.1 交叉銷售模型
利用關聯規則發現兩個產品間潛在的相關性,進而進行捆綁與推薦;關聯規則可用Apriori等算法實現。交叉銷售通過研究客戶的產品使用情況、消費行為特點,發現老客戶的潛在需求。一方面通過產品之間的關聯,尋找實現產品捆綁銷售的機會,另一方面,為新產品尋找已有用戶中的目標群體。
建立模型的具體步驟為:(1) 以個體用戶為單元,收集其訂購業務種類,計算其訂購比例;(2) 提取訂購比例較高的幾類業務,計算不同業務兩兩間的相關性,分組、篩選與分類;(3)針對相關性和替代性高的業務組合進行交叉銷售,如綁定銷售、精確推薦。
4.2 關聯推薦匹配模型
關聯推薦匹配模型著眼于用戶數據的基礎屬性、媒體屬性等,實現產品精準定位,在廣告的定向投放上效果顯著。建立該模型需要采集的用戶數據有基礎屬性數據如性別、年齡、收入、學歷;環境屬性數據如手機上網時間、城市,地點、系統平臺、語言環境;媒體屬性數據如瀏覽的媒體、瀏覽的內容、興趣關注點、當前的需求;消費屬性數據如關注品牌、關注產品、消費水平、消費心態等。
大數據技術使得社交網絡數據深度挖掘成為可能,運用計算機智能,通過社交網絡API獲取用戶授權數據,進而對用戶數據進行學習和解析,再通過數據挖掘進行建模與推薦(數據量更大);完全的個性化分析可以提供最有價值的產品。例如AppHero經由社交網絡數據深挖掘,使用Facebook的數據,讓這些數據成為推薦的基準。
4.3 互聯網信用模型
傳統通用模型存在環境因素難確定、屬性單一等缺點,而賣家間的差異巨大;基于APRIORI算法建立互聯網信用模型,更準確,并可預測信用趨勢。
數據變換(文字評價轉變為數字), APRIORI算法挖掘關聯生成關聯規則,得出:信用值與好評率、行業、性別、違規操作數、婚否、地區、賣家級別、收入、逾期壞賬次數相關。按照淘寶網的交易模式來看,信用模型同樣可以用于買家,實現買賣雙方的公平對等;電信行業也可以參考信用卡模式度,對用戶進行信用監管。移動的客戶中,曾經有月貢獻1000元左右的全球通高端客戶因為欠費0.7元而被停機,導致其離網的先例。以信用卡模式建立的基于數據挖掘技術的電信行業用戶信用管理,仿照信用卡模式對客戶授予一定的話費透支額度,與用戶信用度相關聯;同時也可以對透支部分的消費加收額外費用。
4.4 電商動態定價模型
傳統動態定價方法以拍賣為主,很難收集客戶信息;基于數據挖掘的電商動態定價模型則可以充分收集交易交易數據,并能通過自學習對價格進行調整電子商務通用信用模型的缺點主要有:賣家很難搜集全面的客戶、競爭對手信息,不能對其進行深度挖掘;不能依據客戶特征進行差別化定價,也做不到對不同的商品做出及時、適當的加價幅度的調整;當需求量具有隨機性和價格敏感性時,動態定價就成為使利潤最大化的有效方法。
4.5 信息聚合分類模型
信息雜志化是近年來的發展趨勢,雜志化閱讀一方面將社交網站集成一體,個性化定制界面使信息獲取更方便;但雜志化閱讀應用諸如Flipboard并不具備個體社交網絡軟件的很多功能,因此其必須要主打方便和效率;但目前為止其模式知識簡單的“搬運”——但雜志化并不意味著信息大雜燴,對信息進行聚合分類可以大大提升閱讀效率。大數據與Flipboard模式的結合可以很好地解決這一問題。通過社交網站數據的采集并進行特征歸類,自動將每一條信息劃歸最合適的分類區,大大提高了閱讀效率。該模型還可以定期對數據進行自學習與更新,產生新的分類建議。大量數據不僅可以通過數據挖掘建立模型供企業/賣家進行內部分析,也可以通過合法交易供其他企業/賣家使用,數據提供者不僅可以從中獲益,數據本身也能創造更多價值。在電視廣告領域,總部設在紐約的Nielsen已經連續十多年為廣告主以及電視臺提供了相關數據。
5 結束語
毋庸置疑,大數據將徹底改變人類文明的發展脈絡,重塑我們對于世界、對于生活的認知和價值挖潛。但任何事物都具有兩面性,大數據也相同,它的應用與現存的倫理還有著不小的沖突,是誰賦予了數據采集者使用個人數據的權利?如何保證個人數據不被別有用心的人利用?“Big brother”和“Big data”可能只有一步之遙,如何讓用戶在監控社會下尋找到內心期待已久的安全感,或許是大數據在應用時需要妥善解決的問題。
參考文獻:
[1]周紅紅.基于Apriori算法的Weka數據挖掘應用[J].科技信息,2011(39):17.
[2]王菲菲,李晶.基于數據挖掘的電子商務動態定價模型[J].中國信息界,2012(11):179.
[3]漆晨曦.運營商大數據管理及應用體系發展策略[J].通信企業管理,2012,30(3):65-68.