999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

決策樹模型在基于外顯屬性預測市場狀態中的應用

2023-11-07 11:35:58蔣麗雯張革伕王雄峰魏俊蓉
電腦知識與技術 2023年26期
關鍵詞:分類模型

蔣麗雯,張革伕,王雄峰,魏俊蓉

(1.衡陽市煙草專賣局(公司),湖南衡陽 421001;2.南華大學經濟管理與法學學院,湖南衡陽 421001)

0 引言

我國煙草生產量和銷售量占全世界的35%,是煙草生產大國,也是消費大國。煙草稅收是我國國民經濟重要來源之一,占全國總稅收收入的7%。近年來,隨著“Z 時代”變為消費主力,原有群體的健康消費理念的起伏,煙草消費市場同樣呈現出多樣化,許多品牌卷煙生產企業傾向于研發新品規香煙來應對復雜多變的市場環境。2012至2017年,卷煙行業共有673個新品上市[1],到2018 年的卷煙在銷品達千個,但其中有近半數的卷煙品規并未受到消費者的歡迎,年銷售量僅在千箱以下的有相當一部分是新開發的品規。這種情形對于零售商和商業企業構成了巨大的庫存負擔,最終影響到煙草工業企業的開發生產。國家煙草局提出,要充分應用行業數據來評估品規市場狀態,實施精準市場投放。本文試圖通過對卷煙品規的外顯屬性特征進行分析,尋找其與品規的市場狀態之間的關聯性,從而幫助相關企業在品規采購、品規開發設計決策上快速做出優化,減少損失。

1 文獻綜述

隨著數據在企業運行過程中積累越來越多,數據逐漸被認為是企業新的資產而加以利用,數據挖掘技術應時而生。數據挖掘作為新興的信息處理技術逐漸被應用于各行各業,就是要從“看似無益的數據堆中找出有價信息”的過程,如在稅收領域可用來尋找逃稅漏稅者,證券領域可用來識別老鼠倉,教育領域可用來發現行為異常者。煙草行業也有大量的應用,包括用來優化卷煙倉儲、物流和營銷等[2]。數據挖掘技術通常包含一系列的數據分析算法模型,例如決策樹、關聯規則、聚類、神經網絡、回歸、支持向量機等,所謂的大數據分析技術也以這些算法模型為基礎。限于本研究僅采用決策樹技術,在此僅就決策樹技術應用做介紹。

決策樹算法常用于分類預測。張偉豐[3]提出了將決策樹算法應用于卷煙產品零售客戶分類中,從而根據客戶重要性和產品依存度來制定更為合理化的卷煙營銷策略。Salazar-Concha C 等人[4]通過決策樹技術建立了捐贈者重復獻血意愿的預測模型,準確性達到84.17%,預計可以降低聯系希望獻血人和血液管理系統的成本。Permana B A C等[5]通過決策樹得出煩渴現象是糖尿病患者發病跡象的主導因素,分析了該因素對疾病的預測價值,可以幫助醫生更快地進行診斷和分析疾病。Yunmeng Zhang[6]等人運用決策樹算法來預測和分析兩種類型員工的營業額,管理者可以依據實驗結果制定相應的管理措施。構建決策樹常用的算法有:CHAID、CART、QUEST、ID3、C4.5和C5.0算法等。鄒黃剛等[7]用ID3決策樹算法來設計一種新型汽車故障檢查方案,查找出何種因素引起的汽車故障,使駕駛員自身具備故障檢查能力,并做出相應的預檢修,大大節約時間與成本。徐蕾等[8]在探討基于信息熵的決策樹在慢性胃炎中醫辨證分型中的應用中,采用基于信息熵的決策樹C4.5算法建立中醫辨證模型,產生了可用于分類的診斷規則。蔣麗雯等[9]構建了一個兩階段卷煙市場狀態評價模型,第一階段用決策樹C5.0算法進行“俏、緊、待評”三態分類,然后再用C5.0對“待評”態進行“平、松、軟”三態分類預測。

將決策樹算法和其他算法進行組合,形成更為精準和有效的分析模型也應用廣泛,在此不再進行介紹。

2 決策樹算法原理

決策樹算法是一種機器學習模型,是一種導師監督的機器學習模式,保證每次學習都能比原來做得更好。有監督學習是一種從實例中學習的方法,導師能夠憑借自身掌握的知識對實例中樣本進行分類,學習者可以利用導師分類好的實例進行學習,總結并導出其中的決策規則。導師分類決策的結果稱之為目標變量值,樣本的其他屬性稱之為輸入變量。決策樹算法通過歸納和提煉現有數據中目標變量和輸入變量的取值規律,以樹形結構的形式展示實例的分類規則。

一棵決策樹可以劃分為節點和有向邊兩部分,節點分為三種:根節點、內部節點與葉子節點。根節點是位于決策樹第一層的節點,包含了所有的樣本。內部節點代表著樣本中的某個屬性,葉子節點則表示實例劃分到最后的決策結果。有向邊表示從決策樹的根節點到葉節點的一條路徑,對應著一條取值規則。一棵決策樹如圖1所示。

圖1 決策樹模型

ID3 算法作為決策樹的最典型模型,采用所謂的啟發式學習法,以信息增益率來確定最佳的分組變量和分割點。

基本問題描述:一個數據集可分為訓練集和測試集兩個實例集,每個實例屬于一個特定的類型即分類,訓練集用于學習以生成分類模型,測試集用來檢測模型的分類效果。數據集包含一組可供分割的屬性,每個屬性的取值可把訓練實例集劃分為多個子集。每個屬性就是對實例進行分類的可選影響因素。定義如下:

選擇屬性集A={A1,A2,…,Ai,…,An}

選擇的檢測屬性設為:Ai

Ai的值域V(Ai)={V1, …, VS}的S 個取值把訓練實例集T分為S個子集如式(1)。

實例分類結果為Cj的概率為式(2)。

定義訓練實例集T 的實例平均信息量由式(3)決定。

子集實例數與實例總數關系滿足式(5)。

選擇屬性作為檢測屬性的原則是:屬性Ai的不同取值把實例集劃分為若干子集之前和之后的實例平均信息量差值最大的那個,即挑選式(7)取最大值的屬性。這就是啟發式規則。

GI(T,Ai)可認為是屬性Ai對訓練實例集T的信息變化量,熵總是朝大的方向增加,故稱之為熵增益原理。因此,啟發式規則實際上是選擇信息量最大的屬性作為檢測屬性Ai來劃分實例集,從而達到分類的目的。C4.5 和C5.0 都以ID3 算法為基礎,做了改進和優化。

IBM SPSS Modeler 從SPSS 旗下的Clementine 而來,因后者被IBM公司收購,而改名為IBM SPSS Modeler。Clementine 最開始由SPSS軟件開發的部分人員脫離出來,以開發專業的商業智能軟件,旨在對海量數據進行商業洞悉,挖掘數據價值。Clementine 提供了大量的算法模型,例如決策樹、C5.0、Apriori、KMeans和神經網絡等,通過數據流圖來完成建模,并進行可視化輸出。本文將利用該工具建模,完成從卷煙品規外顯屬性特征來預測其市場狀態。

3 卷煙的外顯屬性特征與品規市場狀態

卷煙的外顯屬性是指卷煙品規的外部包裝顯示出來的卷煙結構特征,這種特征無需煙民實際品吸感受后形成認知,而是實際存在的物理特征,對所有人的感知無差別。這些外顯特征包括如下:

1)品牌名稱(品規,實際上為包含一定的子品牌和規格特征合成稱呼,例如:云煙小熊貓家園);省內外(分省內品規、省外品規);類型(分烤煙型、非烤煙型);

2)焦油含量(實際由機構測定,外包裝上注明);一氧化碳含量(實際由機構測定,外包裝上注明);煙氣煙堿量(實際由機構測定,外包裝上注明);

3)長度(異型煙的參數之一,標準為84cm);過濾嘴長(異型煙的參數之一,標準為25cm);

4)包裝類型(軟、硬兩種);包裝主色調;包裝副色調;

5)煙支數(20支為標準,其他數量為異型);零售價(單位元/盒)。

品規的市場狀態以國家煙草總局發布的要求為依據,各地根據卷煙品規的市場表現來評估,參考品規的訂購頻率、覆蓋面等指標,分為“俏、緊、平、松、軟”,反映出消費者的接受度,是煙草商業企業采購卷煙和投放卷煙的依據。蔣麗雯等以衡陽地區銷售的卷煙為研究對象,就銷售的190多種卷煙品規進行了市場狀態評估,本文研究的卷煙同樣為衡陽煙草,將以這些狀態數據為導師,應用決策樹模型,基于卷煙品規的外顯屬性特征來預測其可能狀態。也就是看卷煙外表來預判卷煙在消費者中的接受情況。本研究所采集的卷煙品規外顯屬性特征數據如圖2所示,用Excel文件形式作為數據源,右邊最后一列為市場狀態,最開始將利用文獻給出的狀態值作為導師,交給模型學習。

4 基于SPSS Modeler C5.0的預測模型

本研究模型的構建包含三個階段:數據準備、數據預處理和建模。

4.1 數據準備

本文使用的卷煙外顯屬性特征數據通過相關煙草網站和煙草局查詢獲得,對應的卷煙市場狀態根據相關領域蔣麗雯等的研究所得。研究數據集包含湖南省在銷的45個大品牌、191個香煙品規的外表特征值記錄,每條記錄的屬性包括上文所交代的14個。

4.2 數據預處理

在實際業務中所采集的數據往往是臟數據,所謂的臟數據是指數據中出現數據缺失、數據噪聲、數據冗余、數據集不均衡和離群點等問題。這需要進行處理,否則可能產生運算異常,影響準確性。

圖2 卷煙品規外顯屬性特征數據集

1)數據空缺值的處理。其處理方式主要有直接刪除含有缺失值的記錄和補全缺失值兩種。對于原始數據集中部分雪茄型香煙的焦油含量、一氧化碳含量和煙氣煙堿量缺失,本文通過其他雪茄煙的特征經驗推導出來。對于零售價字段的缺失,本文通過獲得的單支雪茄煙價格和每盒支數進行簡單運算得到。

2)分類屬性值較繁雜的數據。收集的原始數據集包裝主色調和副色調顏色類型繁雜,在建立決策樹中可能會造成“過擬合”的現象,對預測結果產生不良的影響,所以需要化繁為簡。根據相同色系聚集的方法,將包裝主副色調重新進行簡化分類,主色調分為白、黑、紅、黃、藍、棕六種顏色,副色調分為白、黑、紅、金、藍、綠、棕七種顏色。

3)異常值處理。異常值也稱為離群點,指其數值明顯偏離樣本其余觀測值。在進行異常值處理前,首先要辨別出異常值。在SPSS Modeler 軟件中,可以利用“數據審核”節點對異常值進行辨別和處理,如針對焦油含量、一氧化碳含量、煙氣煙堿量、長度、過濾嘴長、零售價和煙支數這些連續型變量,選擇四分位差方法對異常值進行判斷。同樣的方法,可處理極值、離群值,如圖3所示,在“質量”窗口對離群值進行“強制替換離群值/丟棄極值”操作。之后,數據集刪除了9條記錄,剩余182條記錄。

圖3 異常值處理操作

4)數據規約

本文所采集的數據中存在大量離散數據,例如焦油含量、一氧化碳含量、卷煙長度等,對這些數據值進行規約,進行分級處理,有利于統一認識。在SPSS Modeler針對數據離散化處理問題,提供了包括固定寬度、分位數法、等級法、平均值、標準差法和最優法等分級方法。本文應用三分位數法對一氧化碳含量、焦油含量和煙氣煙堿量進行分級,分成高、中、低三級。

4.3 預測模型

在SPSS Modeler 18.0 版本軟件中,建立數據流,形成基于卷煙品規外顯屬性特征的市場狀態預測決策樹模型,決策樹算法使用C5.0,如圖4所示。

圖4 基于決策樹的品規市場狀態分類模型

在上述數據流圖中,包含數據源Excel、輸出觀察表格、數據審核超級節點、分級化、等級重新分類、過濾器、分區、C5.0模型、生成模型應用及模型效果分析等11種節點。將運行后生成的決策樹模型與“輸出”選項卡中的“分析”節點連接,可以得到預測正確率,從而評估模型預測效果。

5 研究結果與分析

本研究設置的樣本數據訓練集合測試集比例為7:3,設置修剪置信度為75,每個節點允許的最小樣本量為3,決策樹模型的準確性可達到87.91%。

圖5 為決策樹模型的規則輸出圖,影響卷煙市場狀態重要的因素依次有:包裝主色調、省內外、一氧化碳含量、長度、焦油含量、零售價、包裝副色調,其中包裝主色調相對于其他因素來說更為關鍵。煙氣煙堿量、過濾嘴長和包裝類型這三個屬性由于在剪枝過程中被剪掉,沒有進入決策樹,因此香煙煙氣煙堿量、過濾嘴長和包裝類型對卷煙市場狀態評價的影響很小。

圖5 決策樹模型運行結果

實際在Modeler 中,決策規則集可轉換為一棵相應的決策樹,如圖6所示,只實現了部分決策規則。

圖6 卷煙市場狀態的決策樹模型

下面來解釋所得到的有價值的分類預測規則集,如表1所示。所謂有價值是指置信度在一定范圍內的規則,例如80%~95%,剔除100%的過擬合嫌疑情形。分類規則4很有意思,“如果一款香煙屬于湖南省外,零售價格>82元,則其市場狀態為‘平’”,置信度大于92%,十拿九穩,外省的昂貴煙在湖南幾乎賣不動。

表1 部分預測規則集

“分析”節點展示了模型的效果,表明:訓練樣本中預測正確的記錄有105 條,預測錯誤的記錄有17條,訓練樣本正確率約為86.1%。測試樣本中預測正確的記錄有49條,預測錯誤的記錄有11條,測試樣本正確率為81.7%。

6 結束語

從卷煙品規的外顯屬性特征來預測其市場接受度,或者預估卷煙的采購量與投放量,可比針對消費者的大量市場調查來得更簡單,成本更低。構建的決策樹模型,以卷煙品規的外顯屬性特征數據為輸入,以卷煙市場品規狀態為分類輸出,通過學習已有的品規市場狀態評價訓練數據,可以讓預測輸出變得更有效。研究表明,卷煙品規的部分外顯屬性特征對消費影響很小,影響最大的除了工業企業屬地屬性,還包括包裝主色調、一氧化碳含量等屬性。預測的置信度達到了8成,模型具有較強應用可行性。當然模型受數據量限制,機器學習深度有限,下一步可直接讓外顯特征與其銷售投放數據結合,數據學習量可達到千萬級以上,相信可獲得更加準確的預測效果。

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产男女免费视频| 中文字幕在线一区二区在线| 午夜三级在线| 麻豆精品在线视频| 影音先锋亚洲无码| 在线亚洲小视频| 欧美人人干| 一本久道久久综合多人| 亚洲第一成人在线| 亚洲swag精品自拍一区| 中国国产A一级毛片| 嫩草国产在线| 日韩无码真实干出血视频| 五月天在线网站| 久久国产高潮流白浆免费观看| 日韩一区二区三免费高清| 中文字幕人成人乱码亚洲电影| 美女毛片在线| 色综合久久综合网| 国产精品亚洲综合久久小说| 久久免费视频播放| 欧美国产成人在线| 国产成人高清在线精品| 香蕉久久国产精品免| 一级成人a毛片免费播放| 国产精品久久久免费视频| 国产精品第| 92午夜福利影院一区二区三区| 国产无人区一区二区三区| 欧美在线天堂| 在线视频亚洲色图| 亚洲有无码中文网| 91精品aⅴ无码中文字字幕蜜桃| 日韩福利在线观看| 99久久精品免费看国产免费软件| 国产丰满成熟女性性满足视频| 日韩精品高清自在线| 婷婷六月激情综合一区| 亚洲男女天堂| 亚洲欧美一级一级a| 亚洲视屏在线观看| 国产成人盗摄精品| 欧美日韩中文国产va另类| 无码内射在线| 毛片基地视频| 456亚洲人成高清在线| 四虎免费视频网站| 国产极品美女在线| 日韩av手机在线| 美女国产在线| 久久永久精品免费视频| 自拍偷拍欧美日韩| 亚洲综合第一区| 乱码国产乱码精品精在线播放| 国产精品自在线天天看片| 婷婷伊人五月| 国产极品粉嫩小泬免费看| 天天婬欲婬香婬色婬视频播放| 日本中文字幕久久网站| 国产男女免费完整版视频| 国产内射一区亚洲| 国产一级在线观看www色 | 亚洲精品视频免费看| 亚洲免费福利视频| 亚洲经典在线中文字幕| 国产成年女人特黄特色大片免费| 喷潮白浆直流在线播放| 国产美女精品一区二区| 久久久受www免费人成| 日本伊人色综合网| 亚洲人成网站日本片| 色综合五月| 无码有码中文字幕| 天天综合网色中文字幕| 亚洲精品第五页| 亚洲欧美日韩中文字幕一区二区三区| 东京热av无码电影一区二区| 在线精品亚洲国产| 色香蕉影院| 香蕉国产精品视频| 日本三级精品| 乱人伦中文视频在线观看免费|