俞如富
摘 要 本文通過從數據分析的價值,延伸到數據分析三要素能力應用的案例,進而探索式的分享做好數據挖掘分析工作的五步法,為有志在這行業發展的人提供一些思路參考。
【關鍵詞】數據分析 數據挖掘 方法論
1 緒論
在互聯網快速發展的時代,通信、互聯網、金融、制造業等這些行業每天產生海量的生產運營數據。擁有這些關于數百萬潛在顧客的海量數據,結合軟件工具、數據庫技術、各種硬件設備的飛快發展,使得我們分析海量數據成為可能,也使得數據分析師能更好的為領導決策提供參考依據,進而節約成本,提高企業盈利能力。
2 數據挖掘分析思維的三要素
數據分析師不在于掌握多高深的分析方法和算法技術,而是要對分析的指標深入理解,理解數據背后的業務場景,同時,要不斷的去探究為什么,不是只告訴人家What,還要告訴人家下一步的How,這才是數據分析師的價值。
比如針對一組數據分析結果,“2017年7~9月公司的客戶活躍度是12%。”要更好的抓住和解決客戶活躍度的問題。需要考慮以下三大要素。
2.1 反饋場景現狀——描述問題
這個活躍度的數據統計口徑是什么?客戶活躍度是如何得到的?數值代表業務發生了什么(背景是什么)?客戶活躍度是如何定義的?這次取的數據是否具有一定的代表性?活躍的人群具有什么特點:是訪問了一下就走,還是呆了比較長時間才走,主要訪問了哪幾個功能模塊等,盡可能如實的描述數據在場景下的狀態。
2.2 比較找到定位——比較問題
描述了之后還要做比較,如12%算高還是低呢,要結合我們制定的活躍度目標,只有這樣才能明確這個活躍率是高還是低,要有個定性的結論:它是增長了還是衰退了;而且還需跟行業內其他競爭對手相比,還需同比和環比的情況,只有這樣,我們分析的數據才有立體感。
2.3 順藤找到根源——分析和解決問題
描述問題、比較問題,最終都是為了分析和解決問題。要進一步探究原因,找到解決方案和思路。
通過分析,對以下幾個問題就可以很好的做決策輔助:
2.3.1 對客戶
最近要對已有產品設計改版,活躍的人經常訪問的內容是否跟我們的客戶投訴有關聯?哪些設計能極大提升客戶的滿意度?
2.3.2 對活動
這次活躍度的提高或降低是因為什么原因?因為做營銷活動帶來的提升么?如果是,我們的營銷效果情況怎樣?后續要如何更好的跟蹤和評估效果。
上面的轉換思考例子,更多的要求數據分析師能結合一定的業務場景,并且能把業務的問題數據化,把數據的問題可視化,進而對后續的經營決策做輔助支撐。
3 數據挖掘分析5步法
數據挖掘分析工作都有一定的模式和方法論,重點以下5步驟如何更好的執行。
3.1 需求明確,理解業務
業務理解階段重點把握以下兩點:
3.1.1 需求分析,抓住痛點
具體可考慮以下三個方法:
(1)用戶使用場景梳理,明確問題在哪里?怎么發生的問題;
(2)用戶訪談、調查調研(為什么);
(3)利用原型法來確定或引導用戶需求,評估項目中可能的問題。
以上三個方法還需要考慮,滿足用戶的需求,并在痛點需求上引導用戶。
3.1.2 業務目標的明確和可行性分析
做好了需求分析就要明確業務目標,明確目標需要業務背景,明確數據挖掘分析的成功標準是什么。同時要做可行性分析,要從技術角度、業務角度、商業市場等角度,結合擁有的資源,條件和限制,評估風險,并做成本和效益估計,并對數據挖掘分析做整體的規劃,初步估計用到的工具和技術。
3.2 數據準備,加工處理
3.2.1 數據準備,探索數據屬性
重點做好收集原始數據并對收集的數據進行簡單的統計分析,了解數據的分布屬性,結合數據挖掘目標和數據質量選擇合適的數據,包括表的選擇、記錄選擇和屬性選擇,只有這樣才能科學的選擇樣本數據,分析場景結果。
3.2.2 數據加工處理,為分析建模做數據資源準備
重點是做好ETL(抽取、轉換、加載),清洗加載轉換數據過程是核心和靈魂,把數據從各種原始的業務系統中讀取出來,按照預先設計好的規則將抽取的數據進行轉換,使本來異構的數據格式能統一起來,最后把轉換完的數據按計劃增量或全部導入到目標結果庫中。
3.3 建立模型,尋找規律
在數據準備加工好后,需要利用數據分析的方法和工具對對處理過的數據進行分析,重點是包含以下四個內容:
(1)選擇建模技術:確定數據挖掘算法和參數,可能會利用多個算法;
(2)測試方案設計:設計某種測試模型的質量和有效性的機制;
(3)模型訓練:在準備好的數據集上運行數據挖掘算法,得出一個或者多個模型。
3.4 模型評估,目標導向
模型評估(Evaluation)階段,主要包括以下三個內容:
(1)結果評估:從商業角度評估得到的模型,甚至實際試用該模型測試其效果;
(2)過程回顧:回顧項目的所有流程,確定每一個階段都沒有失誤;
(3)確定下一步工作:根據結果評估和過程回顧得出的結論,確定是部署該挖掘模型還是從某個階段開始重新開始。
3.5 數據展現,報表撰寫
一般情況下,數據是通過表格和圖形的方式來呈現的。能用圖說明問題的就不用表格,能用表說明問題的就不用文字。
一份好的數據分析報告,首先需要有一個好的分析匯報框架,并且圖文并茂,層次明晰,能夠讓閱讀者一目了然。結構清晰、主次分明可以使閱讀者正確理解報告內容;圖文并茂,可以令數據更加生動活潑,提高視覺沖擊力,有助于閱讀者更形象、直觀地看清楚問題和結論,從而產生思考。
好的數據分析報告需要有明確的結論、建議或解決方案。
4 小結
數據分析行業是一個朝陽行業,特別是互聯網的不斷發展和大數據技術的應用和普及,越來越多的企業需要有數據分析師資質的專業人士為他們的項目做出科學、合理的分析,以便正確決策項目;越來越多的有志之士把數據分析知識作為其職業生涯發展中必備的知識體系。
參考文獻
[1][美]Nathan Yau.鮮活的數據[M].北京:人民郵電出版社,2012(10).
[2]陳哲.數據分析企業的賢內助[M].北京:機械工業出版社,2013(11).
作者單位
中電福富信息科技有限公司 福建省福州市 350003