黃宇承,吳麗麗
(1.甘肅農業大學信息科學技術學院,甘肅 蘭州 730070;2.湖南都市職業學院,湖南 長沙 410137)
huangyu7630@sina.com;wull@gsau.edu.cn
在電商平臺銷售農產品成為當前農產品流通的一種新型電子商務模式。商務部的數據顯示,2020 年上半年全國農產品網絡零售額達1,937.7億元,同比增長39.7%,比2019 年上半年增速高了6 個百分點。特別是近兩年,更多的人愿意通過電商平臺購買農產品。甘肅省是馬鈴薯及其制品的主要產地,馬鈴薯及其制品是典型的特色農產品,通過電商平臺銷售是其主要的營銷渠道之一。馬鈴薯及其制品在電商平臺的銷售使傳統銷售中受種植環境、保存條件、南北差異等因素影響而導致農民受損的情況得到改善,不僅使特色農產品的銷售具有及時性和準確性,同時降低了銷售成本和風險。關聯規則分析能挖掘出銷售記錄中與銷售量相關聯的屬性和強關聯規則記錄,對指導馬鈴薯及其制品的種植和加工具有實際意義。
關聯規則分析是發現大數據對象之間隱含的關聯關系、相互影響,以及根據一(多)個事件的發生對另一(多)個事件所產生的反應,通過現象發現本質,以便更好地為決策提供理論依據。針對馬鈴薯及其制品在電商平臺的銷售記錄,一方面品種、品種規格、品牌、產地和單價、月銷售量可以反映消費者的購買意向;另一方面可以反映馬鈴薯及其制品的生產地所產出的不同產品的銷售量,可推斷出不同產地的何種馬鈴薯有利于銷售或指導種植生產。因此,本文采用Python語言運行關聯規則算法Apriori算法、DHP算法和FP-Growth算法,從而比較三種算法中哪種算法運算時間最短;將運算時間最短的FP-Growth算法在馬鈴薯及其制品的銷售數據集中運行得到頻繁項集,并找出其月銷售量和其他因素間的關聯關系,以期促進特色農產品在電商平臺中銷售的良性發展,同時指導特色農產品的正確種植和加工。
特色農產品在電商平臺銷售得好壞與產品的品種、規格、品牌建設與推廣、生產地及售價相關。搜集淘寶、拼多多等常用電商平臺中的馬鈴薯及其制品的銷售數據,結合甘肅省農業科學院馬鈴薯研究所對馬鈴薯品種的研究,經過數據清洗后的馬鈴薯及其制品的部分銷售數據如表1所示,通過關聯規則分析得出月銷售量與品種、規格、品牌、產地、銷售價格之間的關系。

表1 馬鈴薯及其制品在電商平臺的銷售記錄(部分)Tab.1 Sales records of potatoes and their products on E-commerce platform (part)


支持度計算公式如下:

置信度計算公式如下:


Apriori算法采用逐層搜索的迭代方法,對數據集多次遍歷,并且將每次遍歷所得的頻繁項集作為搜索項集,產生新的候選項集,對候選項集進行篩選,找到頻繁項集,依次循環,直到沒有找到更長的頻繁項集為止。要找到最終頻繁項集需完成兩個步驟,即連接步和剪枝步,在頻繁項集中找出強關聯規則。
DHP算法是Apriori算法的優化,基本過程與Apriori相同,生效于Apriori算法的剪枝步過程中。在第次掃描時,生成每個事務的+1項集,代入一個Hash函數中,生成一個Hash表,建立項集的Hash表,同時記錄每個桶中的元素個數。
當生成+1時,將×自連接產生的結果先代入上述Hash函數,若所落入該桶的計數小于最小支持閾值,則該元素必定不為頻繁項集,故可以過濾掉,不放入+1中。所有具有相同Hash值的項的總個數小于最小支持閾值,如:Hash(,)=4,Hash(,)=4,不妨假設4 號桶的元素個數小于最小支持閾值,則單個的(,)個數也必定小于最小支持閾值,故可排除。
FP-Growth算法巧妙地將樹型結構引入算法中,它采取如下分治策略:提供頻繁項集的數據庫壓縮到一棵頻繁模式樹(FP-Tree),但仍保留項集關聯信息。該算法和Apriori算法最大的不同有兩點:
第一,不產生候選集。
第二,只需要兩次遍歷數據集,大大提高了效率。
現在對馬鈴薯在電商平臺的部分銷售情況通過FPGrowth算法進行關聯規則分析,分析流程用表2的事務數據集舉例說明,用代號I描述馬鈴薯及其制品品種、規格、品牌、產地、價格、月銷售量,假設最小支持度計數為2。

表2 事務數據集DTab.2 Transaction dataset D
FP-Growth算法對數據集只需要掃描兩次:
第一次掃描,先對事務數據集的所有項進行支持度計數,若有最小支持度小于2的項集則刪除。以支持度計數進行降序排序,得到頻繁1-項集,如表3所示。

表3 頻繁1-項集Tab.3 Frequent 1-itemsets
第二次掃描數據集,構建FP樹,如圖1所示。

圖1 構建FP樹Fig.1 Building FP tree
然后挖掘頻繁項集:按照從下往上的順序,首先考慮I,得到條件模式基<(I,I:1)>,<(I,I,I:1)>構造FP樹,刪除小于支持度的節點,形成單條路徑后進行組合,得到I的頻繁項集:{{I,I:2},{I,I:2},{I,I,I:2}}。其次考慮I,得到條件模式基<(I,I:1)>,<(I:1)>構造條件FP樹,得到I的頻繁項集:{{I,I:2}}。第三考慮I,得到條件模式基<(I,I:2)>,<(I:2)>,<(I:2)>構造條件FP樹,由于此樹不是單一路徑,需要遞歸挖掘I,從而得到I的條件模式基<(I:2)>,I和I的條件模式基為<(I:2)>構造條件FP樹,得到I的頻繁項集{{I,I:4},{I,I:4},{I,I,I:2}}。最后考慮I,得到條件模式基<(I:4)>構造條件FP樹,得到I的頻繁項集{I,I:4}。
Apriori算法、DHP算法和FP-Growth算法的性能在數據集記錄數固定的情況下與其運算速度息息相關。在進行馬鈴薯及其制品在電商平臺的銷售數據的關聯規則實驗時,在1,000余條銷售數據固定的情況下,設置置信度固定為80%,支持度有變化,分別設置為2%、4%、6%、8%、12%、14%、16%、18%、20%、22%,使三種算法在對馬鈴薯及其制品在電商平臺的銷售數據進行挖掘時,不同支持度下的運行時間發生變化,所花時間越少,則證明該種算法的效率越高,性能也越高。圖2是Apriori、DHP和FPGrowth算法的運行時間,通過實驗得出FP-Growth算法更優于Apriori算法和DHP算法。

圖2 三種算法運行時間比較Fig.2 Comparison of running time of three algorithms
采用三種算法中運行時間最短的FP-Growth算法對馬鈴薯及其制品在電商平臺的銷售數據集進行數據挖掘,設置最小置信度為80%,最小支持度為20%,得到一組強關聯規則記錄:{品種,規格,品牌,產地,單價},挖掘結果中部分置信度相對較大的記錄如表4所示。

表4 馬鈴薯及其制品在電商平臺的銷售關聯規則挖掘結果(部分)Tab.4 Association rule mining results of potatoes and their products sold on E-commerce platform (part)
根據挖掘結果得到甘肅省各地在電商平臺中銷售較好的馬鈴薯及其制品,如表5所示。通過表5間接反映各地銷售較好的品種是該地大面積種植和加工的農產品,又表明各地銷售較好的品種受到消費者的喜愛。(1)隴薯15號以產地蘭州市和定西市銷售較好,但均無品牌,蘭州市的價格在4.0 元/斤以下,定西市為1.0—4.0 元/斤。針對隴薯15號,可以加大品牌建設,定西市的價格跨度較大,蘭州市的價格在4.0 元/斤以下,在保證馬鈴薯品質和低價穩定不變的同時將高價降低0.5—1.0 元/斤,從而提高市場競爭力。(2)L1192-4銷量較好的是定西市,價格適中,但只有少量是有品牌的,可以加大品牌建設和推廣。(3)隴薯5號銷量較好的有定西市、平涼市、武威市,定西市的價格比平涼市和武威市低,但只有少量有品牌,平涼市有品牌,武威市無品牌,可提升定西市和武威市無品牌土豆的品牌機制,將價格調整至定西市的價格水平,同時保證產品品質。(4)隴薯7號是強關聯規則記錄中最多的,以定西市、平涼市、武威市銷量較佳,定西市大部分有品牌,平涼市、武威市有品牌,價格屬武威市最低,三市的價格差別不大,將該品種的土豆種植推廣至周邊其他市更有利于銷售。(5)大西洋(ck)以定西市、平涼市、隴南市銷量較好,定西市少數有品牌、平涼市有品牌,隴南市無品牌,其中定西市的價格最低,隴南市的價格最高,價格差最高達3.5元/斤,在定西市對大西洋(ck)品種加大品牌推廣力度的同時保持價格穩定,而在隴南市加大品牌推廣力度的同時則適當降低價格。(6)土豆粉銷售較好的有蘭州市、定西市、臨夏回族自治州、天水市,價格差較大,僅定西市大部分有品牌,質量難以把控,可在對其價格進行監督的同時對加工質量進行管控。(7)土豆片(薯片)僅蘭州市銷量較好,且建立有品牌機制,可在定西市等土豆產出較多的市增設加工廠,同時大力建立品牌機制。

表5 數據挖掘結果中各電商平臺月銷售較好的馬鈴薯及其制品Tab.5 Potatoes and their products with better monthly sales on E-commerce platforms from the results of data mining

(續表)
消費者對農產品的購買意向和興趣度相關,關聯規則的興趣度有正關聯規則興趣度和負關聯規則興趣度。判斷消費者對購買馬鈴薯及其制品的興趣度,求正關聯規則即可,即馬鈴薯及其制品關聯規則本身的置信度與它所包含的月銷售量的交易支持度的差,其公式是:
規則的興趣度=規則的置信度-月銷售量的支持度
由表4挖掘結果中所得的置信度和所設置的月銷售量的支持度之差,可以得出其興趣度,結果如表6所示。通過興趣度計算結果得出,強關聯規則的銷售記錄消費者購買的興趣度在70%以上,推斷出消費者在后期購買馬鈴薯及其制品時大部分人會選擇再次購買。

表6 消費者的購買興趣度(部分)Tab.6 Consumers' purchase interest (part)
本文通過采用Python語言實現Apriori、DHP、FPGrowth三種算法,比較得出FP-Growth算法性能更優于另外兩種算法。同時,采用性能更優的FP-Growth算法對馬鈴薯及其制品在電商平臺的銷售數據集進行關聯規則分析,得到馬鈴薯及其制品在電商平臺銷售的強關聯規則記錄,將甘肅省各地銷售較好的品種進行分析,以指導馬鈴薯及其制品的種植和加工,同時分析得出消費者購買的興趣度在70%以上,由此可以推斷大多數消費者的再次購買意向。