張茜


【摘 要】logistic回歸分析是一種研究二分類或多分類問題的有效方法,適用于卷煙定制接受度分析及預測。通過調查問卷數據構建企業信息維度與接受度的logistic回歸方程并檢驗模型系數,可以用于分析預測不同類型企業對定制卷煙的接受度,為精準市場推廣提供數據參考。
【關鍵字】logistic回歸;定制卷煙;商務市場
中圖分類號: TS411 文獻標識碼: A 文章編號: 2095-2457(2018)28-0272-002
DOI:10.19694/j.cnki.issn2095-2457.2018.28.127
【Abstract】Logistic regression analysis is an effective method to study the problem of binary classification or multiple classification,which is applicable to the analysis and prediction of cigarette customization acceptability.The logistic regression equation of enterprise information dimension and acceptability was constructed based on the questionnaire data and the model coefficient was tested,which could be used to analyze and predict the acceptability of customized cigarettes of different types of enterprises and provide data reference for accurate market promotion.
【Key words】Logistic regression;Customized cigarettes;The business market
為了滿足消費者私人定制需求,全省創客工作室推出了卷煙定制服務并在前期進行廣泛的市場調研,目的是挖掘消費者需求,改進定制產品。
問卷數據由消費者信息和消費者意愿兩個維度組成,兩者之間會存在一定的聯系,不同類型的消費者對卷煙定制的接受會有所不同。如果從問卷數據中挖掘出不同類型的消費者對卷煙定制的接受度,創客工作室就能對接受度高的消費者進行精準宣傳。
1 模型的建立
商務市場的消費者是企業商家,企業的信息維度包括行業類別、地區等企業的基本信息,企業的意愿是對定制卷煙的接受度。分析各維度數據之間的相關關系有多種算法,關聯分析、決策樹分析等算法都可實現,但是關聯分析算法和決策樹算法建立的是關系模型并非數值模型。
數值化研究兩種或兩種以上變量之間定量關系需要運用回歸分析的方法。但是在構建企業信息與企業意愿的回歸模型時會存在因變量是二分類變量而非數值變量的情況。企業意愿存在“高”或“低”兩種情況,這是二分類問題。logistic回歸就是研究二分類或多分類的問題的回歸分析方法。
1.1 維度選取
設企業對定制卷煙的接受度為因變量Y,Y是一個二分類變量,“很感興趣”、“可以考慮”為“接受度高”,取值為1;“說不好”、“不感興趣”為“接受度低”,取值為0。影響因變量Y的自變量記為X,代表企業的信息維度,包括:企業所處地區x1、行業類別x2、員工規模x3、集團消費用煙是否有卷煙x4、有無定制先例x5、年卷煙采購量x6。
1.2 logistic回歸模型
logistic回歸模型發掘的是不同類型企業接受卷煙定制(Y為1)的條件概率:
P=P(Y=1|x1,x2,…,x6)
logistic回歸模型在用于研究變量之間數值關系時具有明顯優勢。首先它對自變量沒有明確要求,可以是連續變量,也可以是離散變量或是虛擬變量,而且不需要正態性假設。當被解釋變量是二分類變量時,logistic回歸是研究解釋變量與被解釋變量的常用方法。消費者對定制卷煙接受度是一個二分類變量,logistic回歸可以很好解決這類問題。
3 數據預處理
3.1 數據清洗
用于建立模型的數據來源于調查問卷,但是由于填寫問卷人員的知識水平、細心程度的不同,調查中收集的調查問卷并不能全部用來分析,需要對異常的問卷進行清洗,對缺失值進行補充。無效問卷主要為選項矛盾問卷、重復性問卷、不符合邏輯關系問卷。通過建立邏輯判斷規則對整體的問卷數據進行清洗、篩選。
3.2 數據轉換
離散變量通常是用虛擬變量進行處理,而問卷數據大多數都是離散變量。如果虛擬變量進行處理,則6個維度自變量數據可以表示為阿拉伯數字,比如員工規模x3可以分類為“50人及以下”、“50-500人”、“500人以上”,分別用0,1,2表示。但是虛擬變量并不能代表原始數據的含義,眾多虛擬變量的使用會造成分析結果不易解讀并降低準確率。
從模型中可以看出,在所有自變量中,企業的員工規模、是否有無定制先例和地區分布對預測企業對定制卷煙接受度時有重要影響。結合woe值分析,經濟發達地區、中等規模(50-500人)、有定制先例的企業對個性化定制卷煙的接受度更高。其它指標影響雖不是關鍵因素,但也存在影響,結合woe值分析,零售餐飲業、集團消費用品有卷煙、年卷煙采購量中等(50-200條)的企業對定制卷煙接受概率更高。
通過logistic回歸模型,可以估計預測某企業對定制卷煙接受的程度,根據概率的高低決定是否值得宣傳,精準定位企業的同時提高了推廣效率,應用性很強。假設衢州地區有一家300人的制造業企業,集團消費用品有卷煙但無定制先例,年卷煙采購量在100天左右。創客工作室通過logistic回歸模型可以推算出此企業接受卷煙定制的概率為84%(大于50%),判斷此企業值得宣傳推薦,可以重點關注。
5 總結與展望
目前,卷煙定制服務還處在起步階段,市場行為研究不充分,市場宣傳推廣具有盲目性。通過logistic回歸方法構建的模型不僅充分挖掘了調查問卷數據,定量分析市場環境的同時還可以推算預測未知的市場,為市場推廣提供依據。通過市場的完善、樣本數據的積累,logistic回歸模型可以進行拓展,提高精確度,更好得分析預測市場。
【參考文獻】
[1]Keating K A,Cherry S.Use and Interpretation of Logistic Regression in Habitat-Selection Studies[J].Journal of Wildlife Management,2011,68(4):774-789.
[2]Gude J A,Mitchell M S, Ausband D E, et al. Internal Validation of Predictive Logistic Regression Models for Decision-Making in Wildlife Management[J]. Wildlife Biology, 2017, 15(4):352-369.
[3]姜廣輝,張鳳榮,陳軍偉,等.基于Logistic回歸模型的北京山區農村居民點變化的驅動力分析[J].農業工程學報, 2007,23(5):81-87.