□ 文 郭曉韞
挖掘數據價值的四個基本步驟
□ 文 郭曉韞
紛繁復雜的數據在為決策者帶來便利的同時,也對數據解讀能力提出了更高的要求。許多企業已開始重新定義數據,在大數據的浪潮下開始把運營數據提升到一個前所未有的高度。
全球第一家信息技術研究和分析公司Gartner對大數據給出了這樣的定義:“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。大數據的意義不僅僅在于掌握龐大的數據信息,更在于對這些有意義的數據進行專業化處理之后產生的價值[1]。
先從一個具體的案例入手。維斯塔斯風力系統,依靠BigInsights軟件和IBM超級計算機,對氣象數據進行分析,然后找出安裝風力渦輪機和整個風電場最佳的地點。利用大數據,以往需要數周的分析工作,現在僅需要不足1小時便可完成,大數據的落地大大縮短了決策時間。從上面這個簡單的例子,我們可以抽象出數據落地的幾個基本步驟:1、確定需要解決的問題;如上所述,找出安裝風力渦輪機和整個風電場最佳的地點就是需要解決的眼下問題;2、判別關系,確定分析邏輯;對氣象數據進行分析,氣象數據能與安裝地點優劣進行關聯;3、清洗數據,深入判別關系,尋找數據的規律;對氣象數據進一步挖掘分析;4、數據應用,驗證效果,并不斷循環改進。
如例子所述,現在僅需要不足1小時便可完成數據分析的工作,大大提升了效率,縮短了決策時間。而且此應用還是一個周而復始的過程,可以不斷地進行驗證、改進、提升。

現實中運用數據的地方很多,需要解決的問題繁簡不一,都具備特定的場景。特定場景的應用方案,就是需要知道要解決什么問題,再根據這個問題展開,逐個擊破,最后匯集到問題的原點,找到解決的辦法,這樣以問題為導向的數據應用才有意義,才可以做到在茫茫的數據海洋中不迷失方向。
在確定了需要解決的問題后,就可以著手把問題逐層分解,這時最常用的分析邏輯就是“邏輯樹”的分析方法。所謂邏輯樹,指的是一種思考的框架,將包含前提事件在內的問題,按照該問題相關的因素,細致拆分成小的問題。[2]
例如在分析業績不佳時,通常都會對這個問題進行原因拆解。是無法提高每位顧客的銷售額?還是無法增加新的顧客?還是宏觀的市場大環境影響?在每一個問號的背后又可以繼續分解,比如“無法提高每位顧客的銷售額?”這個節點,我們可以思考是沒有提高每件商品的價格?還是沒有增加每位顧客的購買量等?然后先進行定性的假設判斷,形成解決問題的基本邏輯思路。
當然,在復雜的市場環境里每個問題都存在著很多影響因素,有宏觀因素、價格因素、銷量因素、廣告因素等,這些因素中有真的關系也有假的關系,有強的關系也有弱的關系,關系之間需要一張網把它們貫穿起來,這個就是分析的邏輯推導,但許多時候數據分析人員往往陷入只看數據,缺乏整體思維邏輯,所以分析邏輯是一個周密地解決問題的模擬過程,是講一個好故事的基礎所在。
明確了需要解決的問題,理順了分析的邏輯,那么就應該按需清洗數據,通過數據深入挖掘再次分析因素間的關系,并進行變形尋找數據規律。我們也知道,絕大部分的數據單從表面上看,是很難看出關系的,必須要經過數據清洗才能更好地還原數據的本貌。數據清洗是一個過程,需要對缺失值、噪聲和不一致性進行處理。而處理的關鍵,有一點往往被忽略了,那就是對市場的認知和數據邏輯上的理解,這個也是數據挖掘能力分水嶺的關鍵之一。
一般來說,各種因素之間只要有關系,均會存在著最基本的兩種形態,可以建立這兩類模型來分析,一種是因果關系類模型(causal model),另一種是相關關系類模型(correlation model),這兩者的區別很重要,不同的關系模型,在實際運用中解決的問題也存在著根本性的差異。因果關系模型告訴我們改變結果的辦法和量級。相關關系模型雖沒有直接告訴導致結果的原因,但對于結果本身是存在著關聯性的,這種關聯性也為實際的數據發掘提供了理論基礎。相關關系模型最典型的例子就是購物籃分析[3]。購物籃分析就是運用了相關關系,讓決策者知道哪些商品頻繁地被顧客同時購買,從而在商品擺放時把關聯的商品就近擺放,這已經有效地被運用于營銷規劃、廣告策略或者分類設計等當中。以零售業為例,在零售領域監控客戶的店內走動情況以及與商品的互動,將這些數據與交易記錄相結合來展開分析,從而在銷售哪些商品、如何擺放貨品以及何時調整售價上給出意見,此類方法已經幫助零售企業減少了存貨,同時在保持市場份額的前提下,增加了高利潤率自有品牌商品的比例。現今電商如淘寶、京東等,都會根據用戶的瀏覽行為推薦不同的產品,這也是相關關系的一個很好的應用。


在深入判別了關系后,就需要順藤摸瓜,尋找數據的規律,在這個過程中,也許就需要一些數據的變形,使得尋找規律更得心應手一些。舉一個直觀的例子,汽車數據研究公司威爾森曾對汽車價格數據與汽車的庫存數據做過這樣一個研究。在清洗分析完數據之后,他們發現對于汽車的成交價數據,由于受型號權重變化影響,加權成交價并不是一個很好的反映價格變化趨勢的指標。這時就需要先設立一個定性的假設,假設他們之間是有關系的,但成交價格跟庫存之間究竟存在著什么樣的關系呢?威爾森在需求研發階段便設計出6種不同的算法,最后經過反復討論驗證,設計出MMI(MoM Market Value Index)——以市值為基礎的環比算法。該算法既能準確反映價格環比變化,又包含當前不同型號的權重信息,威爾森采用以下方式計算汽車庫存深度:

這里有一個細節,就是基于對市場的認知,使用了上月末的庫存,而不是本月末的庫存,因為經銷商往往會根據上月末的庫存狀況來制定本月的銷售策略,因此采用上月末庫存來計算庫存深度更能反映經銷商的庫存壓力。這一數據變形后可以清晰地展現出庫存深度與價格環比變化存在顯著的負相關關系,這也證明了之前的定性假設是正確的。那么接下來,就是量化這個定性的關系。如上所述,在尋找到合適的算法之后,通過正確合理的數學建模,可以把因素的變化量化出來,從而指導實際的決策,如上面這個例子,最終可以量化出庫存深度變動,成交價格相應變化得出一個量化的值,這樣就會非常直觀地指導決策了。尋找因素間規律的方法很多,常見的建模分析多為統計學上運用的方法,如聚類分析、離群點分析等。
運用機器學習方法研究市場問題,現今已形成了新的學科方向,把數據應用于現實,需要做到理論、編程、統計建模、可計算思維四位一體。在應用層面,最廣泛的方向就是為預測服務的例子。例如在德國,通過電網每隔五分鐘或十分鐘收集一次數據,收集來的這些數據可以用來預測客戶的用電習慣等,從而推斷出在未來2~3個月時間里,整個電網大概需要多少電。有了這個預測后,就可以向發電或者供電企業購買一定數量的電。因為用電量如果提前買就會比較便宜,買現貨就比較貴。通過這個預測后,可以降低采購成本,這種預測性的發掘也就是基于相關性模型。而在數據應用中,也是對模型和分析理解的一次驗證,因此,數據的應用是一個不斷循環迭代的過程,在大數據的分析中不斷應用、驗證、優化、再應用、再驗證、再優化,如此往復。■
(作者單位:廣州威爾森信息科技有限公司)
[1]段云峰,秦曉飛,大數據的互聯網思維,中國工信出版集團,2015.10
[2]大島祥譽,麥肯錫工作法,中信出版社,2014.12
[3]JiaweiHan,Mieheline,Kamber,JianPei.數據挖掘概念與技術,機械工業出版社,2012.8