朱金峰 陳曦
【摘 要】現行煙草專賣管理對違規行為主要采取普查方式,帶有很大的盲目性,浪費大量人力資源,同時也給零售戶帶來許多不便,影響客戶的滿意度,而現有的違規預警系統指標單一,預警準確率較低。如何利用相關數據挖掘理論研究以及對現狀的分析,從大量的歷史銷售記錄和與之相關的各種數據中提取信息,建立卷煙違規銷售預測模型,對零售戶進行違規預測為煙草專賣的檢查工作提供科學依據,提高檢查的準確性和及時性,從而提高專賣打假的效率,節約大量人力、物力。本文進行了簡單的探討。
【關鍵詞】數據挖掘;卷煙零售戶;違規;預測
煙草銷售由于實行專賣,銷售規律有一定的特殊性。煙草專賣局的一個重要的任務是對卷煙的銷售進行市場監督管理,對違規銷售的行為及時進行查處,以保證煙草市場秩序的穩定,然而專賣管理部門在確定檢查對象時,基本上都是采取普查的方式,帶有很大的盲目性,浪費大量人力、物力資源,同時也給零售戶帶來不必要的麻煩,影響客戶的滿意度,并且查處的準確率也較低,很多違規是從事后檢查賬目得到的,從而導致了工作的滯后性,降低了工作的及時性和有效性。
目前卷煙營銷提出“精準營銷”理念,然而如何對零售戶違規行為進行預測,實現專賣打假工作的精準化是目前我們需要仔細研究的一個問題,正是我們所要研究的課題。
一、現狀分析
目前專賣內管信息系統在這方面已經進行了有益的嘗試,但是其采取的是當期銷量與前三周期平均銷量比值這一簡單的計算手段,產生大量的預警信息,其產生的預警往往都被證實屬于無效預警。
如何利用數據挖掘技術,參考多種影響因素,從而獲取一個比較接近實際的模型,并將模型與現行的信息系統結合起來。通過對大量的歷史銷售記錄和與之相關的各種數據的分析,找出各種相關因素對違規行為的影響規律,使用成熟的算法建立卷煙銷售違規預測模型,對各個零售戶的銷售情況進行違規預測,為煙草專賣的檢查工作提供重要的科學依據,提高檢查的準確性和及時性,從而提高專賣打假的效率,節約大量人力、物力。
二、數據挖掘的意義
數據挖掘,又稱數據庫中的知識發現,是指從大量的、不完全的,有噪聲的、模糊的實際數據中提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息的過程。
數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又潛在于有用的信息和知識的獲取過程。隨著信息技術的高速發展,積累的數據量急劇增長,動輒以TB計,如何從海量的數據中提取有用的知識成為時代當務之急問題。數據挖掘就是順應這種需要去應運而生發展起來的數據處理技術是知識發現的關鍵步驟。
1.數據的處理功能
通過從現行信息系統中獲取的大量的歷史數據,建立卷煙銷售違規的預測模型,確立相對較優的參數。利用大數據能夠挖掘客戶的行為習慣和偏好,在紛繁復雜的數據背后找到更加契合用戶消費心理的產品和服務,并有針對性地調整和優化,使看似枯燥的數據產生價值。目前大部分煙草企業對數據信息不敏感,只是開展基本的采集和統計,沒有將其轉化為戰略資源的意識和工具,“數據豐富,信息匱乏”的現象比較普遍,制約了市場分析和經營決策能力的深化和提高。
因此,煙草行業亟需建立基于大數據分析與應用的信息支撐網絡,通過對多維數據的整合、運算、分析、利用等信息化操作,從海量數據中挖掘出隱含的、常規手段難以察覺的、對決策能提供直觀幫助的規律性認識,從而為市場定位、品牌培育、營銷策劃、案例分析等實踐行為提供參考依據。
2.模型的預測功能
在預測模型的基礎上,利用客戶當前已有的銷售信息,找到可能會違規的用戶,并用標注預警等級。
通過對大量的歷史銷售記錄和與之相關的各種數據的分析,找出各種相關因素對違規行為的影響規律,建立卷煙銷售違規預測模型,對各零售戶的銷售情況進行違規預測,為煙草專賣的檢查工作提供重要的科學依據,提高檢查的準確性和及時性,從而提高專賣打假的效率,節約大量人力、物力。
3.數據挖掘在專賣領域的應用
真煙非法流動是商業企業面臨的難題。通過孤立點分析法可用于確定極低或極高以及品牌高集中的客戶進貨行為。孤立點是數據集中與其它數據對象顯著不同的數據,它可能是度量或執行錯誤所導致的,也可能是固有數據變異性的結果。孤立點分析法就是找出數據中的這些孤立點,這些客戶的實際經營能力值得警惕,我們要采取相應對策做提前預防。采用孤立點分析技術對客戶群進行分析,找出與其他客戶明顯不同的客戶進行重點關注和防范。例如某卷煙零售客戶在當地煙草專賣批發企業進貨量比較少,但是經營規模比較大,則有可能從其它渠道購進卷煙或銷售假煙。
三、構建模型
1.零售戶的自身特征
(1)經營規模。卷煙零售戶的經營規模有“大”、“中”、“小”三類,在模型構建過程中將規模“大”的標記為“1”,“中”標記為“2”,“小”標記為“3”。
(2)市場細分類型。由于卷煙零售戶的市場細分類型有五種:“城鄉結合部”、“農村”、“市區”、“縣城城區”、“鄉鎮”。
(3)經營業態。分為有11種:百貨店、餐飲(賓館)、大型超市(大型商場)、流動攤點(小推車)、批零兼營雜貨店、小賣部、一般雜貨店、雜貨店、中小超市(中小超市、百貨店)、專營店、娛樂場所(酒店娛樂類)。
(4)商圈類型。商圈類型有8種,工業區、居民區(村)、旅客中轉區、商業(集貿)區、學區、娛樂(旅游)區、政務(商務)區、其他。
2.零售戶的銷售行為
(1)月銷售量差異:即用戶每月銷售數量與上個月銷售量差異。
(2)旬銷售量差異:零售戶每旬銷售總量與前三周期平均數的差異。
3.數據預處理
數據質量的好壞直接影響數據挖掘的質量,數據的預處理是數據挖掘過程中至關重要的一個步驟,也是耗費時間最多的一個步驟。數據預處理、尤其是在對包含有噪聲、不完整,甚至是不一致數據進行數據挖掘時,更需要進行數據的預處理,以提高數據挖掘對象的質量,并最終達到提高數據挖掘所獲模式知識質量的目的。數據預處理過程包含數據清理、數據選擇、數據集成、數據變換四個部分。
(1)數據清理。清除與建模主題無關的數據,即清除所采集樣本中與銷售數據沒有關系或者很明顯會影響建模效果的數據,本文對缺失值較多的屬性如性別,學歷也予以刪除。特別說明的是對噪聲數據即異常值的處理:噪聲是指標錄入或測量時所引入的隨機誤差或偏差。異常值的存在會對分析結果(平均值與標準差)產生重要影響,對于出現異常值的記錄,不能簡單的予以刪除,應根據挖掘主體進行具體分析,對于卷煙違規銷售預測,異常記錄正是所要研究的對象,因此予以保留。
(2)數據選擇。刪除建模無關指標,在源數據庫包含的很多客戶信息,某些指標沒有被選取納入初始指標,需要清除。預測模型是建立在屬性相互獨立的基礎上的,如果不予清除將造成冗余,冗余屬性會影響預測準確度。對定量指標而言,如果兩個指標之間的相關性比較大,則會產生共線性,對建模結果會產生影響,各定量指標之間的相關系數較小,不存在較嚴重的共線性。
參考文獻:
[1]趙衛東.商務智能, 20011年清華大學出版社27頁、82頁、145頁、165頁.
[2]張為民.云計算深刻改變未來, 2009年科學出版社46頁、65頁、192頁.
[3]趙曉秋.現代企業統計理論體系創新研究, 2010年經濟科學出版社12頁、216頁.
[4]朱明.數據挖掘導論[M].合肥:2012年中國科學技術大學出版社.