張子實
【摘 要】目前,人們對汽車的需求量越來越大,在購車時會更加關注汽車的性價比,因此,有很多消費者開始關注二手車市場,經濟且實用的二手車成了很多有購車需求的潛在購車用戶的考慮對象。在這樣的背景下,本研究對影響二手汽車質量的因素進行分析、研究,以便經銷商和消費者更好預測未來購入二手車的質量好壞。只有對二手車的車況做出正確的判斷才能,才能降低買到質量不好的車的風險。本文根據Carvana公司提供的數據資料建模分析,使用統計學方法,選擇最優的回歸模型,根據所得到的模型分析哪些是判斷車況好壞的主要影響因素,運用測試數據來預測并分析結果。并對依次二手車市場的發展提出了一些建議。
【關鍵詞】二手車;質量評估;logistic模型;決策樹;SAS-EM
引言:
1970年,著名的經濟學家喬治·阿克爾羅夫撰寫發表一篇小論文,從此有了逆向選擇理論的先例。喬治的論文提出了,在二手汽車的汽車市場,買賣雙方擁有的車輛信息嚴重失衡,賣方掌握車輛大部分的情況,但卻在賣車時,未能將車輛的不利信息傳遞給買方,買方只能通過討價還價來降低價格以避免買到低質量的二手汽車,這導致賣方不愿提供高品質二手汽車,最終導致質量較差的二手汽車充斥在市場,而好車退出市場,最后形成了一種市場的無效率性(好車全部退出市場),產生了經濟學中的逆向選擇,這就是所謂的二手車檸檬(瑕疵)市場[1-3]。
美國二手汽車市場已相對較為成熟,擁有較為完善的標準法規體系——檸檬法,擁有多樣的交易方式——汽車交易、品牌的車行、線上交易、C2C交易、拍賣行等[4-6],擁有質量認證制度及完善的價格評估體系——《汽車經銷商二手車價格指南》、《凱利藍皮書》等,擁有優質的售后服務和使用環境,也通過建立權威性較高的評比機構(ALG)通過對二手汽車價格的評估來應對二手汽車的檸檬市場。
由于二手車市場越來越受到重視,因此,二手汽車的經銷商所承擔的風險就越來越大,只有對二手車的車況做出正確的判斷才能,才能降低買到質量不好的車的風險。二手車市場往往存在銷售的過程中信息不完全的現象,對于經銷商和消費者來說,在二手汽車市場中購買二手汽車時,容易獲取不到真實有效的信息,如該車虛假告知二手汽車相關的零部件使用壽命等。這就要我們考慮多方面的變量觀測二手車的質量。通過本文的研究,可以建立多變量的logistic模型對二手汽車市場檸檬效應等問題的緩解作用,對實踐具有指導意義。本文通過SAS-EM軟件建模,根據現實市場上二手車數據,對二手車質量指標進行了分析,確立一個較好的判別模型,從而為消費者提供更好的汽車,減少公司損失,并對二手車市場發展提出了一些建議。
一、研究背景
美國的二手汽車交易量大,并且早已經是規模效應,二手汽車的交易量已經大大超過該國新車的成交量,且通常情況下是新車交易量2倍以上。相關數據資料表明,西方成熟的二手汽車交易市場中,一輛汽車報廢周期年限平均為8—12年,但汽車更新周期年限平均小于4年,由此可見二手汽車的市場有很大的發展空間,其中的效果是顯而易見的[7-10]。
二手車價格相對較低,市場供求平衡。美國的現代家庭不可或缺的交通工具就是轎車,由于消費者的層次性,因而對轎車的需求條件也會產生不同。部分中產階級及以上最看重的是車的可靠性,對價格關注較少,使用年限一般都少于5年,因此此類消費者購車新車較多;大多數中產階級以下的人是二手汽車的主要客戶群,他們主要考慮了汽車的使用成本方面。一輛二手汽車的價格大多數只有新車價格的50%左右,并且此類二手汽車再使用2—4年其性能依舊可靠,二手汽車使用后的價值損失相對新車要少很多。該類二手汽車當再次被賣掉轉手的時候,車價僅僅相當于新車價格的20%—30%,最終購買者一般為學生或低收入者[11]。
美國二手汽車大多數早已形成了二手汽車品牌專賣、二手汽車拍賣、二手汽車的連鎖經營、大型汽車超市及二手汽車專營等,再加上二手汽車立體式的經營模式,如置換、直銷、代銷、拍賣及租賃等,已經形成了一個龐大的產業鏈,整個二手汽車市場的相關體系已經相對完善[12-15]。
現今,越來越多的消費者習慣于線上交易,不僅縮減中間交易成本,而且改善了信息不對稱問題。美國的Carvana公司應運而生。Carvana是一個二手車交易平臺,在其網站上,顧客可以完成二手車的快速瀏覽、搜索和在線購買。Carvana網站上會列出顧客感興趣的汽車信息,比如汽車規格、評定等級以及人們對它的看法等等信息。顧客們甚至能通過一場虛擬旅行看到車身上的刻痕和劃痕。一旦顧客選中車輛并付款,該公司會在七天時間內將車輛運送到顧客身邊。與其他線上交易平臺不同的是:Carvana是一個在汽車垂直領域的綜合型的商業模式,集成了購買、修理、售車信貸等功能。Carvana不僅是一個在線交易平臺,可以實現直接從C端、運輸公司和拍賣行購買二手車,賣給消費者。
Carvana這樣的模式省去了中間費用,于Carvana(經銷商)和顧客都可以受惠。但是仍然存在由于C端、運輸公司和拍賣行的對二手車信息隱藏的問題,導致將質量較差的二手汽車賣給客戶,一方面經銷商花費昂貴的運輸成本及從賣方獲得所有權,一方面經銷商要花費巨額修車費用,使得經銷商在轉售市場有很大的損失風險,而且對公司的信用造成影響。所以Carvana提供了七萬多個調查樣本數據,希望可以建立一套有效的判別機制,減少公司的損失。
二、研究假設
(一)變量說明
本研究中所選取的變量為8個變量,其中,Isbadbuy是因變量,是研究的目標,其含義是購買的二手車質量是否有問題,類型為二值型;自變量有VehicleAge(汽車的使用年限),Nationality(出產國是否為美國),Transmission(手動擋還是自動擋),Vehodo(汽車里程數),MMRAcquisitionAuctionAveragePrice(二手車購買價格),MMRAcquisitionRetailAveragePrice(市場上的零售價格),Isonline(是否線上銷售),各變量的具體說明具體如表格3-1所示。endprint
(二)提出假設
研究的目的是在于降低經銷商購買到次品的風險,通過已知的自變量對因變量作判斷,并通過數據挖掘技術建立模型,通過信息識別規避或者降低風險。獲得信息的準確程度和全面程度也是影響預測的因素。以資產的三大貶值理論為主線,對影響二手車價值的因素進行系統的研究。即從實體性、功能性、經濟性三個方面探索影響二手車價值的因素
(三)理論模型
本文研究的因變量是是否二手車質量不好,及“是”或“否”,為兩分類變量,自變量就包括很多,有二手車使用年限、出產國家、購買價格等,自變量既有連續的,也有分類的。所以,本文采用的理論模型是logistic回歸模型,通過logistic回歸分析,就可以大致了解到底哪些因素是二手車質量不好的危險因素。
Logistic回歸模型用途有:1、尋找危險因素。2、預測,如果已經建立了logistic回歸模型,則可以根據模型,預測在不同的自變量情況下,事件發生的概率有多大。3、判別,實際上跟預測有些類似,也是根據logistic模型,判斷二手車屬于質量不好的車的概率有多大。這是logistic回歸最常用的三個用途,實際中的logistic回歸用途是極為廣泛的,logistic回歸尤其在流行病學和醫學中最為常用。
三、研究方法
本研究的數據來源于Carvana公開的數據,數據總量為72983個。本文使用的研究工具是SAS-EM軟件,對缺失值的采用平均值替代法。
數據的可靠性、完整性、有效性是數據挖掘成功最基本的保障,因此,數據預處理尤為重要。數據預處理主要對不符合要求的數據進行數據清洗,本研究的數據預處理主要包括以下幾個步驟:
1)圖形探索。有兩個目標,第一,作單個變量的直方圖,觀測變量的分布情況,判斷變量是否為近似正態分布的;第二,變量之間兩兩作散點圖,觀察散點圖的分布情況,判斷自變量之間是否存在線性相關性。
2)統計探索。有兩個目標,第一,獲得各變量缺失值的結果,判斷是否需要進行下一步補缺;第二,看各變量的峰度與偏度,判斷自變量的分布情況。
3)補缺。選用平均值替代法補缺。
4)數據分區。將數據分為訓練數據集和驗證數據集兩個區,各占總樣本的50%。
5)變量選擇。對自變量變量根據R2進行篩選,選擇影響較為顯著的變量,從而幫助后面建模更有效。
本文使用的是SAS-EM軟件,通過導入數據源、數據預處理、建立模型、模型評價等步驟得出結果進行研究。使用SAS-EM軟件建模的基本流程圖具體如圖3-1所示。
在軟件中應用分析流程所實際操作步驟如圖3-2所示,先導入數據源,然后對數據進行圖形探索和統計探索,對數據補缺之后,進行變量的選擇,選擇好變量將樣本數據分區,然后建立回歸模型和決策樹模型,建好模型后進行模型評估,最后用test數據進行最后的評分,如圖3-2所示。
四、研究結果及分析
(一)描述性統計和數據預處理
對各個變量作直方圖,觀測變量分布,具體結果如圖4-1、4-2、4-3、4-4所示。
根據上圖所示,除二值型的自變量以外,二手車購買價格、市場零售價格、二手車使用年限以及二手車的里程數所作的直方圖均近似正態分布,樣本中的數據質量較好,初步滿足建模的要求。
在圖形探索中對研究中的各自變量兩兩作散點圖,以觀測自變量之間是否存在共線性。具體結果如圖4-5、4-6、4-7所示。
根據上圖顯示,二手車購買價格和市場零售價格所作的散點圖呈現出明顯的線性關系,所以二手車的購買價格和新車在市場的零售價格兩個自變量相互不獨立,存在多重共線性,違背了多元回歸模型中解釋變量之間互不相關的基本假設,所以需要剔除模型中次要的或可替代的解釋變量,以消除多重共線性。具體變量篩選在下文介紹。
通過對原始數據進行分析, Isbadbuy 、Nationality、 Transmission、 Isonline四個二值型的變量都沒有缺失值; VehicleAge、Vehodo、MMRAcquisitionAuctionAveragePrice、MMRAcquisitionRetailAveragePrice四個自變量的偏度和峰度值都比較小,和直方圖顯示的結果相符合,說明自變量的分布良好,符合建模的要求。MMRAcquisitionAuctionAveragePrice、MMRAcquisitionRetailAveragePrice兩個自變量存在缺失值各18個,所以采用均值插補的方法進行補缺,共填補缺失值18個。
(二)篩選變量
本研究中使用變量選擇,根據R2的值對變量進行篩選,選擇對因變量影響效果較為顯著的自變量,從而建立更有效的模型。篩選后的結果是:自變量為:VehicleAge、Vehodo、MMRAcquisitionAuctionAveragePrice;因變量為:Isbadbuy。下面的研究都是基于篩選過后的變量進行研究的。
(三)建立模型的結果及分析
本研究中的因變量是二值型變量,所以建立的是logistic模型。軟件SAS-EM建立回歸模型的結果如圖4-8所示。
從結果中我們可知,常數項、MMRAcquisitionAuctionAveragePrice(x1)、Vehodo(x2)、VehicleAge(x3)的參數檢驗P值都小于萬分之一,都通過了參數檢驗,表明這個回歸模型是顯著的。常數項和MMRAcquisitionAuctionAveragePrice的參數是小于0的,說明影響是負向的;Vehodo和VehicleAge的參數是大于0的,說明影響是正向的。
(四)建立決策樹模型endprint
本研究不僅建立了回歸模型,同時建立了決策樹模型。建立的決策樹模型如圖4-9所示。
根據圖中決策樹的結果來看,當變量VehicleAge<3.5時,如果MMRAcquisitionAuctionAveragePrice<18176,那么,訓練數集Isbadbuy是0的可能性為93.11%,驗證數集Isbadbuy是0的可能性為92.73%;如果MMRAcquisitionAuctionAveragePrice>=18176,那么,訓練數集Isbadbuy是0的可能性僅為12.50%,驗證數集Isbadbuy是0的可能性為25.00%。此時的決策樹,能較好的預測和判別Isbadbuy的類別,葉子都相對較純。
軟件直接建立的模型如上,但是VehicleAge的重要程度為1.00,所以研究時拒用二手車使用年限的這個變量,使用交互式的方法,自己重新建立決策樹,但是得到的結果沒有系統建立的好,葉子的純度都不高,所以最后選擇軟件所建立的決策樹,即上面所分析的決策樹。
(五)模型對比和評價
本研究建立兩個模型,分別是回歸模型和決策樹模型,那么就要對模型進行對比和評價,以選出最優的模型作為研究所得到的模型。模型對比所要觀測的指標有R2值,MAPE、MAP,信息準則:AIC,ROC圖。本文所觀測的指標有ROC圖和AIC的值。ROC結果如圖4-10所示。
根據ROC圖所示,紅色線是回歸模型,藍色線是決策樹模型,紅色線所包含的面積大于藍色線的面積,所以回歸模型好于決策樹模型。根據AIC值看,回歸的AIC值小于決策樹的AIC值,所以也是回歸模型更優?;貧w模型為本研究所選用的模型。
五、結論與建議
(一)結論
目前,人們對汽車的需求量越來越大,他們的消費思想不斷改變,更加注重車輛的實用和經濟,也更加現實和理性,不再認為擁有車就是有高身份高地位,他們在購車時會更加關注汽車的實用性,因此,有很多有購車欲望的消費者幵始關注二手車市場,經濟且實用的二手車成了很多有購車需求的潛在購車用戶的考慮對象[17]。在這樣的背景下,對影響二手汽車質量的因素進行分析、研究,以便經銷商和消費者更好預測未來購入二手車的質量好壞。只有對二手車的車況做出正確的判斷才能,才能降低買到質量不好的車的風險。所以本文對二手車質量的評估做了系統的研究。
本文根據Carvana公司提供的數據資料建模分析,使用統計學方法,選擇最優的回歸模型,根據所得到的模型分析哪些是判斷車況好壞的主要影響因素,運用測試數據來預測并分析結果。最終得到的研究結果如下:
(1)從功能性、經濟性、實體性三大貶值理論入手選取了各方面的變量并對其量化之后作為自變量,研究這些變量對二手車質量的影響情況。經過研究得到logistic回歸模型:
模型的參數檢驗P值都小于萬分之一,回歸模型顯著。從模型中我們可知,常數項和MMRAcquisitionAuctionAveragePrice的參數是小于0的,說明影響是負向的;Vehodo和VehicleAge的參數是大于0的,說明影響是正向的。
(2)在建立回歸模型之后,使用同樣的變量建立決策樹模型,模型規則如下:當變量VehicleAge<3.5時,如果MMRAcquisition Auction Average Price<18176,那么,訓練數集Isbadbuy是0的可能性為93.11%,驗證數集Isbadbuy是0的可能性為92.73%;如果MMRAcquisitionAuctionAveragePrice>=18176,那么,訓練數集Isbadbuy是0的可能性僅為12.50%,驗證數集Isbadbuy是0的可能性為25.00%。此時的決策樹,能較好的預測和判別Isbadbuy的類別,葉子都相對較純。
根據ROC圖和AIC的值,logistic回歸模型優于決策樹模型。
(二)建議
本文通過對二手車質量影響因素的研究,根據得出的結論,得到了關于提高二手車質量識別的一些啟示,本文提出以下識別措施,希望能提供一些借鑒和參考。
(1)建立一套科學、完善的具有強大數據庫支持的信息化系統
對于二手車的質量,經銷商和消費者處于信息劣勢,這會增加消費者購買二手車的風險,進而降低其購買意愿。因此本文建議Carvana公司可以建立一個完善的數據庫支持的信息系統,一方面可以讓消費者能了解二手車的真實信息,并且可以知道二手車的參考價格,另一方面二手車經銷商可以獲得更多的車源,方便地區間的資源調劑,推動不同地區間的二手車經營主體的交流,加快各地二手車市場的發展。
(2)建立一個專業的二手車鑒定評估部門
針對二手車鑒定評估隨意性大,消費者感到的風險較大等問題,為了減低消費者的質量風險,建議Carvana公司可以成立一個專業的車輛檢測部門,根據評估模型,評估二手車的質量。除了理論上對二手車評估之外,同時還應該設有專業的檢測設備,不只依靠檢理論評估做出判斷,讓有意購買二手車的消費者無后顧之憂。
(3)擴大公司宣傳,注重營銷的長遠利益
消費者的購買行為很大程度上要受到相關群體的影響,口碑效應變得越來越重要,Carvana公司在二手車營銷過程中,不能只關注于短期利益,要注重長遠利益,改善二手車購買平臺,提升自身的營銷服務和售后服務,誠信經營,才能在消費者的心中樹立良好的形象,讓消費者對二手車充滿信心。
【參考文獻】
[1] 阿克爾羅夫. 檸檬市場:質量不確定性和市場機制[J]. 經濟導刊,2001,6:12-15
[2] 張禮軍. 美國二手車市場模式研究[J]. 上海汽車,2010,10:54-58
[3] 張波. O2O:移動互聯網時代的商業革命[M]. 北京:北京機械工業出版社,2013
[4] Urban, Glen. L, John R. Hauser. Design and Marketing of New Products[M]. Prentice Hall: Englewood Cliffs, 1993
[5] Naumanne. Creating Customer Value[M]. Cincinnati: Thomson Executi Ve Press, 1995
[6] 王文昌. 解決七大問題促進品牌二手車健康快速發展[J]. 中國汽車市場,2007,10: 54-56
[7] 邁克爾 波特. 競爭戰略[M]. 陳小悅譯. 北京: 華夏出版社, 2003
[8] 同晶. 二手車消費者購買決策模型研究[D]. 西安:長安大學, 2013
[9] 丁禮燈.從消費者行為看二手車經營模型和評估體系的發展[J]. 科技業,2008,11:18-22
[10] 邱俊杰. 二手市場的博弈論解釋[J]. 商業現代化,2009,3:170-171
[11] 周亮. 基于可比影響因素及篩選方法的二手車價格研究[J]. 信息系統工程, 2011, 24(4): 131-139
[12] 王惠東. SUV汽車消費行為實證研究[D]. 天津:天津大學,2010
[13] 肖立. 消費者行為學[M]. 北京:中國農業大學出版社,2011
[14] 李萌. 二手車評估[M]. 北京:北京理工大學出版社,2010
[15] 蓋國鳳. 影響二手車市場消費者購買行為的因子分析[J]. 吉林工商學院學報,2009,5:16-19
[16] 石永東. 汽車購買行為模型及其評價[J]. 汽車工業研究,2003,2:23-26
[17] 王麗芳. 論信息不對稱下產品外部線索對消費者購買意愿的影響消費[J]. 經濟,2005,(2):41-42endprint