江 進
(江蘇農林職業技術學院, 江蘇 句容 212400)
中國是茶的故鄉,國人有飲茶的習慣,我們也是茶葉生產、消費大國。2020年雖然有疫情的影響,但我國茶葉銷量依然達到了220.16 萬t,與2019年相比,增長8.69%。相比其他國家,我國有很多他們難以取代的優勢,但是優勢并未轉化為強勢。
隨著云計算、大數據等新技術的興起,這些新技術已經逐漸應用到了相對傳統的茶產業中。
2017年,農業部發布《關于推進農業農村大數據發展的實施意見》,明確了農業農村大數據發展和應用的總體要求和重要意義,要夯實農業農村大數據發展和應用的基礎,把握農業農村大數據發展和應用的重點領域,充分發揮大數據作為農業農村經濟新型資源要素的作用,實現農業農村大數據與現代農業的全面融合,促進智慧農業長足發展。
近幾年,以“國家茶葉全產業鏈大數據中心公共平臺”等為代表的大數據建設試點,為行業大數據分析平臺的建設探索路子、提供了經驗[1]。
數據分析是指使用統計分析、算法和建模等方法,對特定的數據集進行分析、探索和研究,以提取有價值的信息、挖掘規律或得到有效結論的過程。
目前絕大多數用戶使用Python 語言對數據進行分析。
Python 是一種面向對象的解釋性高級編程語言,借助豐富的第三方數據庫,它在數據分析、數據挖掘和數據化運營中的應用十分廣泛。Python 有以下特點:開源、可移植性、豐富的第三方數據工作庫,強大的數據獲取和集成能力,海量數據的計算能力等特點。
Jupyter Notebook 是一個在線交互式Web 應用服務,通過調用不同的內核程序,可支持包括Python在內的40 多種編程語言。它可以實現數據讀取、數據處理、數據分析、數據可視化以及數據結果保存,已經成為一種非常實用的交互式計算工具,同時還是科研和教學的一種理想媒介。如圖1 所示。
Jupyter 有一種基于JSON 的文檔格式.ipynb,可以輕松分享代碼、輸出結果以及圖片等內容。目前在各種Python 研討會上,一種流行的演示手段就是使用Jupyter Notebook,將.ipynb 文件發布到網上以供所有人查閱。
本文研究茶葉大數據分析平臺,提出茶葉供應鏈資源匹配概念,以促進茶葉生產企業的整體效益。資源匹配是利用供應鏈大數據技術,實現茶葉供需雙方對茶葉供需信息的集合,并明確供需雙方的要求信息,同時采用符合供銷企業自身業務的資源匹配方法,茶葉供需雙方可實現更高的資源匹配。
在國內茶葉市場競爭日趨激烈的情況下,茶葉生產企業如何通過改變傳統的管理模式,在競爭中與企業的上下游合作伙伴實現“協同”與“共贏”是一個亟待解決的問題。
茶葉供應鏈的優化和提升成為解決該問題的關鍵。尤其是在大數據的科技環境下,茶葉供應鏈信息管理的競爭直接影響到企業的核心競爭。而上游生產、加工企業、中游的茶葉運銷企業以及下游的終端用戶構成了重要的茶葉供應鏈模式。結合供應鏈協同理論,茶葉資源信息協同供應鏈如圖2 所示,分別從戰術、戰略及技術操作這三個協同角度進行設計。戰略協同主要是從宏觀角度出發,以實現各節點企業目標、收益等方面的協同;戰術協同是從實際業務出發,立足于茶葉供應的共贏目標,制定生產到使用的協同機制;技術操作層主要是依賴信息化技術,實現茶葉供應鏈的協同運作。
本文對茶葉生產、銷售信息進行數據分析,建立基于Python 數據分析的茶葉大數據分析平臺。平臺總體架構設計如圖3 所示,分為數據采集、分布式存儲、分布式運算、應用層和用戶界面五個層次。
1)數據采集層次包括茶葉生產信息、茶葉加工信息、物流信息和茶葉銷售信息。
2)分布式存儲層包括HDFS 和HBase。HDFS 是Hadoop 體系中數據存儲管理的基礎。它提供了一次寫入多次讀取的機制,數據以塊的形式,同時分布在集群不同物理機器上。HBase 是一個建立在HDFS之上,面向列的針對結構化數據的可伸縮、高可靠、高性能、分布式和面向列的動態模式數據庫。
3)分布式運算層包括了Spark 和MapReduce。Spark 提供了一個更快、更通用的數據處理平臺。分布式存儲層的HBase 中保存的數據可以使用MapReduce 來處理,它將數據存儲和并行計算完美地結合在一起[4-5]。
4)應用層為網優人員提供了自行代碼編寫、程序調試及結果展示的功能,利用Jupyter Hub 實現多個網優人員的Note-book 管理,同時也提供了HIVE、PIG 等傳統的大數據統計分析工具供網優人員選擇[6-7]。
5)用戶界面層供網優工作人員進行網優工作信息交互,實現網絡信息的內部組合形式與網優人員可以接受的按照既定業務邏輯形式之間的轉換。
茶葉大數據平臺可以根據近期銷售數據,預測之后的銷量。
對于預測數值的任務,由于除了時間因素外,沒有其他特征,因此無法通過回歸算法實現,只能使用時間序列實現。時間序列是用來研究數據隨時間變化趨勢變化的一類算法。可以解決在只有時間項而沒有其他可控變量時對未來數據的預測問題,常用于經濟預測、股市預測、天氣預測等偏宏觀或沒有可控自變量的場景。時間序列的常用算法有AR 模型(自回歸模型)、MA 模型(滑動平均模型)、ARMA 模型(自回歸滑動平均混合模型)和ARIMA 模型(差分整合移動平均自回歸模型)。
1)導入相關的庫,datetime 用于計算時間推移,pandas 用于讀取數據和預處理,Statsmodels 中導入了不同的庫,adfuller,arma_order_select_ic 分別用于做單位根檢驗和自動化參數值組合計算,acorr_ljungbox 用于檢驗白噪聲,ARIMA 用于分析時間序列。
2)將2021年1月1日至2021年5月29日的茶葉銷售數據導入。
3)通過調用前面導入的adfuller 方法,進行平穩性檢驗,目標是確保數據的平穩。獲得結果adf 值是小于1%、5%、10%三個指標,p-value 小于0.05,因此數據是平穩的。
4)白噪聲檢驗,又稱為純隨機檢驗。調用acorr_ljungbox()函數做檢驗,并得出檢驗結果。通過以上操作,我們獲得了平穩性且具有隨機性分布的數據。
5)獲得最優p、q 組合。
6)模型訓練,調用ARIMA 方法創建模型對象,調用模型對象的fit 方法訓練模型,使用Matplotlib方法做出折線圖,得到如圖5 所示的結果(虛線為訓練后的模型數據)。
7)建立預測函數,預測未來數據。得出未來7天銷量如圖6 中的虛線部分。
作為傳統行業中的茶葉行業,要想在新時代得到發展,不被時代淘汰,就必須與時俱進,勇于嘗試新的手段,將大數據技術應用于茶葉的生產、銷售過程中,優化茶葉的生產和營銷。
通過大數據了解并分析用戶需求和市場需求,保證自己具有核心競爭力,才能在市場競爭中存活甚至獲勝,茶葉銷售領域更是如此。借助了大數據技術,通過互聯網,茶葉的生產方很容易收集到有效的相關信息,同時能夠對用戶進行歸類,了解不同用戶的不同需求,并且可以根據這些需求調整生產策略,以滿足用戶和市場的需要。