陳濤


摘 要:隨著計算機技術的進步,獲取準確的銷量統計數據一直是車企探索的方向,通過銷量趨勢對車企銷售形勢進行判斷、及時調整生產節奏、分車及營銷策略,以此優化庫存結構或評估經銷商運營能力進而調整渠道。對全行業車企銷量統計不僅可進行市場前景預測、還可進行各細分領域分析進而對車企自身進行準確定位,在激烈的競爭中獲取競爭優勢。消費者亦通過銷量排名鎖定購車范圍。本文討論了從機動車銷售發票數據中進行車輛銷量統計方法和實踐。介紹了發票數據現狀、數據倉發票數據預處理、數據模型構建、多維統計分析可視化的實現方法。
關鍵詞:機動車發票;數據倉;數據模型;多維分析
目前車輛銷量統計方法多種多樣,按數據源頭分,有各廠商批發量、4S店上報銷量、車管所上牌量、車輛上險量;按數據發布主體分:有乘聯會、汽車工業協會、汽車流通協會等等。由于數據源及統計方式的不同,銷量統計結果不一樣。對于批發量,是由車企每個月向乘用車市場信息聯席會上報批發出去的汽車數量。4S店上報,是由車企的加盟4S店在各時間周期內上報的客戶購車信息,由于車企將4S店所上報銷量目標完成情況與返點掛鉤,所以4S店上報量并非絕對準確。車管所上牌量是客戶購車后在辦理上牌時車管所記錄的購車數據,該數據在各種統計方法中較為權威,但是數據往往較難獲取。車輛上險量,是客戶購買車輛后購買交強險的記錄數據,該部分數據覆蓋面較廣,可獲取全行業上險數據,但是數據具有滯后性,滯后周期為一個月。
除了上述銷量統計方法外,還可以通過機動車銷售發票信息中提取銷量數據。本文基于所獲取的機動車銷售發票數據討論如何進行數據預處理提取車輛銷量數據,并進行數據建模、多維統計分析及可視化展示方法。
1 機動車銷售發票數據統計利用現狀
1.1 機動車銷售發票數據來源
汽車銷售行業在車輛銷售后需要向客戶開具《機動車銷售統一發票》,為了提高開票業務操作效率以及數據準確率、并更方便財務做賬,使用企稅通開票系統通過掃描合格證和身份證分別獲取汽車相關信息車主信息。并將汽車信息及車主信息自動傳輸給機動車銷售統一發票系統,進而協助開票員將輕松、快捷、準確地打印出機動車發票并交付給客戶,并且獲取到機動車銷售發票信息。與銷量統計有關的機動車銷售發票信息主要包括:銷售單位名稱(經銷商名稱)、車輛VIN、開票日期、整車價格、稅率、稅額、價稅合計、開票方式、備注、刪除標記、作廢標記等。
1.2 機動車銷售發票人工統計銷量現狀
企稅通稅控發票系統所獲取的機動車銷售發票數據臟亂,很難直接通過常規方法統計得到銷量數據。具體表現為:發票包含非機動車發票、非本廠車輛,同一臺車重復多次開票與退票,開票與退票先后順序錯綜復雜,正常與作廢發票過程記錄混雜在一起,無銷售單位代碼、無車型信息等等,進而無法直接進行地域維度、車型維度統計分析。
采用人工統計的方式,需全量導出臟亂發票數據,僅可對作廢或已刪除數據做數據篩選預處理,但是對同一臺車重復開票與退票數據,尤其是開票與退票過程時間跨度超過一個月的時候,需人為對該車輛所有歷史開票信息進行人工識別比對。人工識別比對過程需依據開票先后順序及價稅合計金額人為識別出可作為車輛銷量數據統計的有用開票信息,同時還需人工對歷史已統計過的車輛銷量進行扣減,以便去除對同一臺車的重復銷量統計。這個過程不僅效率低還容易出錯、可分析維度單一,且統計分析過程和結果不便于在線共享。
1.3 利用機動車銷售發票數據統計銷量的優勢
相比各廠商批發量與真實銷量統計角度差異、車管所上牌數據難以獲取、4S店上報銷量受銷量目標影響、車輛上險量數據獲取滯后性,利用機動車銷售發票獲取的銷量統計數據具有數據實時、由真實車輛銷售業務產生,數據容易獲取且不受銷售目標影響的特點。
1.4 利用機動車銷售發票數據統計銷量的問題
由于機動車銷售發票是圍繞著車輛銷售過程的發票打印業務開展獲取的,其具有以下問題影響直接的銷量統計獲取:
①包含非機動車銷售發票,通常表現為無VIN信息。
②包含非本廠發票信息。
③正常與作廢發票數據信息均記錄。
④開票和退票過程不規范,退票過程可能先退舊票再開有效發票,也可能先開有效發票再退舊票。
⑤經銷商名稱為非必填信息,未記錄經銷商代碼,無法識別銷售該車輛的經銷商。
⑥VIN信息會書寫錯誤,例如位數不足17位、數字寫錯等。
⑦時間跨度超過一個月車輛退票時,不能作廢原發票,只能通過開負票進行紅沖。
2 基于機動車銷售發票進行多維數據統計分析的實現方法
2.1 整體思路
首先基于機動車銷售發票數據問題,采用SQL語句對數據進行預處理剔除非車輛銷售、非本車企、VIN位數不正確的數據,利用虛擬視圖識別最終狀態為已經銷售的車輛及其銷售日期得到企稅通開票表。其次將企稅通開票表與其他需進行多維統計分析用到的基礎信息表進行數據建模,再并依據分析需求建好模型的數據創建統計度量值,最后進行可視化展示。
2.2 數據預處理過程
SQL數據預處理過程如圖1所示:
2.3 數據建模過程
利用表之間的關系,構建數據模型。在powerbi中導入以下表:經銷商檔案表、車型表、實銷與庫存表、企稅通開票表、日期表、行政區域劃分表;實銷表、實銷與庫存表與車型表通過VSN字段建立關系,從而拓展車型分析維度;實銷、企稅通開票與標準日期表通過銷售時間、開票日期字段建立關系;企稅通開票表和實銷與庫存表之間通過VIN字段構建關系從而獲得企稅通開票的開票單位代碼信息;實銷、實銷與庫存表與經銷商檔案表通過經銷商代碼字段建立關系。經銷商檔案表與行政區域劃分表通過省份字段建立關系。
2.4 統計分析與可視化過程
基于構建好的數據模型,創建指標度量值:開票當期、系統實銷(4S店上報實銷)、企-實(開票與實銷差異)等,并且創建切片器、從而不僅可以從開票的維度統計車輛銷量,還可以對將4S店上報實銷與開票當期對比,并且基于車型、區域、品牌、時間維度進行多維數據統計結果查詢。
3 實現范例
3.1 數據預處理
用SQL語句從開票信息表中選擇所需的字段(銷售單位名稱(經銷商名稱DealerName)、車輛VIN、開票日期InvoicingDate、整車價格ExcludingTaxAmount、稅率TaxRate、稅額TaxAmount、價稅合計Totalamount、開票方式InvoicingMethod、備注Comments、刪除標記IsDeleted、作廢標記FailureFlag等。),其中過濾條件設置有VIN開頭為“LZW”( substring(Vin,1,3)='LZW')、并且VIN長度為17位(len(Vin)=17),數據未刪除(IsDeleted=0)、數據未作廢(FailureFlag =0),此過程數據存儲為虛擬視圖。
以VIN為主鍵,對VIN進行分組統計,并對每條VIN價稅金額進行合計總額,篩選合計總額>0的數據(group by AllInvoicingCar.Vin;having sum(AllInvoicingCar.Totalamount)>0),此步驟可綜合同一輛車的所有開票和退票記錄,僅留下累計開票金額為正的數據,過濾掉銷售開過票但又發生了退車的數據。此過程存儲為表A。
對虛擬視圖中的數據,只保留價稅合計金額為正的數據,并且以VIN為主鍵,對VIN進行分組統計,對每條VIN的開票日期降序排序,保留排序等于1的數據,,此步驟可保留下所有正常車輛銷售業務所開的票據。次過程存儲為表B。
以表A為主表,用VIN進行表關系關聯,匹配B表中的信息,采用left join 語句取出B表中所有與A表能匹配上的信息,以此獲取到車輛開票日期信息等。
3.2 數據建模
依據2.3數據建模過程思路,創建利用機動車銷售發票統計車輛銷量的多維分析模型如圖2。
3.3 數據分析與可視化展示
依據2.4統計分析與可視化過程思路,構建以下度量值,并在可視化界面分別構建瀑布圖-區域系統實銷與開票差異對比、區域開票當期與實銷表、省份開票當期與實銷表,如圖3。
①開票當期=CALCULATE(sum('企稅通開票'[sl]),'企稅通開票'[價稅合計]>0)
②系統實銷=CALCULATE(sum('實銷'[數量]))
③企-實=CALCULATE('度量值-企稅通'[開票當期])-CALCULATE('度量值-實銷'[系統實銷])
4 結束語
1.通過該數據處理方法進行數據預處理,通過算法自動進行有效數據過濾,不需要反復多次導出臟亂發票數據;對于同一輛車多次開票問題,不需要人工識別各種開票場景并進行數據比對;可一次性導入有效性開票數據,降低錯誤率。
2.該多維數據統計分析的方法和裝置,一次性搭建好數據模型和統計度量值之后,只需要進行數據更新,即可得到既定的可視化分析結果,大大提升統計分析效率。
3.依據建好的模型,可設置自動更新數據網關或手動刷新數據,可實現不同人員/團隊進行在線異步分享可視化分析結果,提升工作溝通效率。
參考文獻:
[1]黃歆哲.計算機信息技術在銷售統計管理工作中的應用[M].科技視界. 2095-2457.2013.23.024.
[2]張紅軍.多維數據集中高維數據可視化算法研究[M].微電子學與計算機.34卷.第5期2017年5月.
[3]王淑蓉,趙穎.數據倉庫的OLAP多維展現技術的研究與應用[J].電子設計工程。20卷 第14期.2012年7月.
[4]航天信息股份有限公司.一種用于增值稅的數據清洗存儲方法[P].CN104636337B,2018.01.12.
[5]航天信息股份有限公司.稅控開票系統及利用該稅控開票系統統計商品數據的方法[P].CN106875237A,2017.06.20.