李飛飛,宋慶燕,陳長秀,劉佳澤,高雪巖,2*
1.北京珍寶島中藥產業有限公司,北京 100800;2.中國中藥協會中藥材種植養殖專業委員會,北京 100700
三七是常用大宗中藥材之一,為五加科人參屬植物三七Panaxnotoginseng(Burk.)F.H.Chen的干燥根和根莖[1]。現代研究表明三七具有抗衰老、抗疲勞、抗缺氧、降血壓、降血脂、降血糖和提高機體免疫力等藥理作用[2]。三七臨床應用廣泛,近年來需求量不斷增加,目前三七年需求量約25 000 t。
近年來,市場炒作、種植農戶不了解市場信息等原因為部分中藥材投機商提供了機會,對中藥材市場價格波動起到了推波助瀾的作用。市場的波動造成藥農和中藥材經營者虧損嚴重,種植和經營積極性下降,進一步影響下游中藥飲片和中成藥企業的穩定生產,影響行業的健康可持續發展。對三七價格進行預測,可以幫助藥農和中藥生產企業合理決策,引導三七產業健康有序發展,成為一個重要的研究課題。
目前,中藥材相關的預測模型建設已有部分研究。馬健[3]基于時間序列對亳州的白芍產量進行了預測分析。馮烽等[4]基于灰色系統對中藥材羅漢果價格進行了預測。王諾等[5]等基于自回歸積分滑動平均模型對中藥材三七價格預測。馬廣慧等[6]基于遺傳BP神經網絡的三七價格預測。馬健等[7]基于遺傳模擬退火三次指數平滑模型對中藥材價格進行了預測。這些信息預測模型均只考慮了待預測量的歷史數據對其未來數據的影響,沒有考慮到影響待預測量變化的其它因素,而對于中藥材價格而言,其價格變化必然與供需、成本、宏觀經濟環境等各種因素密切相關,缺少這些因素的預測存在很大局限性。常征宇等[8]研究了各類因素對中藥材價格的影響,并獲得了各類因素對中藥材價格變化的貢獻度,但是未給出各因素與價格之間的定量關系。楊勇等[9]從市場角度分析中藥材價格的影響因素,建立向量自回歸模型(VAR模型),并運用脈沖響應和方差分解定量方法分析這些影響因素作用的大小,利用已知數據對中藥材價格指數進行價格預測,但是模型對3個季度以后價格的預測精度急劇下降。
循環神經網絡RNN(Recurrent Neural Network)是一類用于處理序列數據的神經網絡。與傳統的神經網絡相比,RNN的特點在于將時序的概念引入到模型的設計中,RNN網絡會對前面的信息進行記憶并應用于當前輸出的計算中,即隱藏層之間的節點不再無連接而是有連接的,并且隱藏層的輸入不僅包括輸入層的輸出還包括上一時刻隱藏層的輸出。這一特點使得RNN能夠很好的應用于時序輸入序列的預測。LSTM(Long Short Term)神經網絡是RNN的一種特殊形式,利用LSTM模型學習長期依賴信息,在很多應用中取得了巨大成功。本研究擬首先分析影響三七價格波動的外在因素,并分析各影響因素的相關性,進行影響因素的篩選后引入LSTM模型,以多種影響因素的時間序列作為模型輸入,對三七價格進行預測。
LSTM是RNN神經網絡的一種特殊類型。RNN神經網絡由輸入層、隱藏層、輸出層組成,其中隱藏層接收本個序列以及上一個序列通過RNN隱藏層計算后輸出的結果,實現時間序列的歷史信息通過隱藏層計算后與新一期的序列值共同作用于隱藏層,形成新的輸出。如圖1、圖2所示,RNN結構按照時間線展開可以更清楚的看到RNN的結構。

圖1 RNN神經網絡結構圖

圖2 RNN神經網絡沿時間維度展開
假設RNN的輸入層大小為I,隱層大小為H,輸出層大小為K。輸入層、隱藏層、輸出層的向量序列分別表示為:x1,x2,x3…xt;b1,b2,b3…bt;o1,o2,o3…ot。圖2中xt為輸入序列x的第t項輸入,at為第t項的隱藏層的輸入,bt為第t項隱藏層的輸出。at由第t項輸入層的xt以及第t-1項的隱層輸出項bt-1共同決定:
(1)
(2)
其中ωih、ωh′h分別為輸入層和隱藏層間的權重矩陣、前項隱藏層輸出傳輸到后項隱藏層輸入間的權重矩陣,mh為隱層偏置,f(x)為隱層激活函數,常見的激活函數有Sigmoid,雙曲正切函數tanh等。第t項隱藏層輸出bt傳導至輸出層,輸出層的輸出為:
(3)
其中ωhk為隱層到輸出層權重矩陣,nk為輸出層偏置,g(x)為輸出層激活函數。
對于長期依賴問題,理論上RNN能夠處理無限長的時間序列數據,但是實際應用中,常常存在喪失學習到連接較遠的信息的能力的情況。LSTM作為RNN的一種特殊類型,改進了RNN的結構,通過構建特殊的控制單元解決了長期依賴的問題。LSTM存儲和計算模塊內部結構的核心思想是將歷史信息作為細胞狀態在一條專門的信息傳送路徑中傳播,信息受較小干擾,容易保持不變。圖3為LSTM的一個存儲處理單元的基本結構,其中的忘記門讀取ot-1和xt的信息并輸出信息以決定選擇忘記bt-1的某些信息,輸入門確定什么樣的新信息被存放在細胞狀態中;輸出門確定何種信息被輸出。

圖3 LSTM神經網絡存儲處理單元
三七價格波動的影響因素包括宏觀因素、微觀因素以及各類突發類事件因素[10-14]。宏觀方面,國家的經濟發展水平、三七所處的醫藥行業發展水平、國家的宏觀貨幣政策等是影響價格波動的中藥因素;微觀方面,三七的供需和成本是影響價格波動的關鍵因素;除此之外,三七價格的波動還受到一些突發事件的影響,如三七為原料的新產品開發、相關疫病流行、國家政策變化等。
本研究基于北京珍寶島中藥產業有限公司提供的三七2006—2018年在全國范圍內的產量、需求量、庫存量、成本、全國種植面積、畝產量等數據,并從官方網站獲取年度居民消費支出、月度全國中成藥產量、月度貨幣供應量數據建立基于LSTM的價格預測模型,用以預測三七價格走勢。
根據珍寶島中藥材大數據中心提供的數據,2017年全國三七產量在15 000 t左右,三七的年需求量在25 000 t左右,目前年用量以10%~20%遞增,預計2018年三七的用量在27 000 t左右。三七種植成本目前為32 000元/畝左右。三七2006—2018年間產量、需求量、種植面積、畝產、種植成本數據見表1。

表1 2006—2018年三七供需及成本數據
本研究使用的宏觀數據如年度居民消費支出、月度全國中成藥產量、月度貨幣供應量均來自國家官方統計數據。
三七產新期固定,在產新期前后存在價格的明顯波動,因此本研究最后引入月份作為三七價格波動的一個重要影響因素。
市場上三七的規格較多,其中出現最多的規格有:20頭、40頭、60頭、80頭、120頭、無數頭等,不同規格的三七價格存在較大差異。本研究采用珍寶島中藥材數據庫中三七的價格指數數據,此指數綜合了三七各個規格的價格。2006—2018年部分三七價格指數見表2,三七價格指數變化趨勢見圖4。

表2 2006—2018年部分三七價格數據

圖4 三七價格指數變化趨勢圖
本研究通過對影響三七價格變化的宏觀、微觀因素進行分析,初步確定使用產量、需求量、種植面積、畝產、成本、中成藥產量、貨幣和準貨幣(M2)、居民消費支出、月份共9個維度的影響因素。
高維數據建模增加了模型的復雜度,降低了算法的泛化能力,增加了算法的搜索難度。建模前進行特征選擇,消除冗余數據,有利于提升模型性能。本研究通過分析影響因素間相關性進行影響因素選擇。
圖5為三七的產量、需求量、種植面積、畝產、成本、中成藥產量、貨幣和準貨幣(M2)、居民消費支出8個因素的相關性分析。從圖中可以看出,中成藥產量、貨幣和準貨幣(M2)、居民消費支出這3個宏觀因素間存在明顯的線性相關性。因此從3個因素中任意剔除其它2個因素,本研究剔除中成藥產量和居民消費支出2個因素,最終保留三七的產量、需求量、種植面積、畝產、成本、貨幣和準貨幣(M2)、月份作為模型的輸入變量。
完成特征選擇后,對篩選后的特征進行歸一化處理。本研究采用min-max標準化方法,即通過下列公式對數據進行標準化處理。
(4)
基于上述算法說明與數據準備,本研究構建了基于LSTM的三七價格指數預測模型。其預測流程主要包括數據預處理、影響因素篩選、數據歸一化處理、基于LSTM的三七價格指數預測模型建設、訓練、模型測試和應用幾個部分,見圖6。

圖5 影響因素間相關性分析

圖6 影響因素間相關性分析
數據的預處理包括數據獲取后對缺失值、異常值的基本處理,模型的構建和訓練過程中不斷檢測模型的預測精度,如果精度達到要求則進入下一步模型測試階段,精度未達到要求則通過增加訓練次數、調整模型參數等直到模型達到精度要求。
本研究使用2006—2017年數據作為模型的訓練數據,使用2018年數據作為模型的測試數據。基于LSTM的三七價格指數模型建立后,針對測試數據進行模型預測效果測試。
圖7中實線為真實價格指數數據,虛線為擬合數據和預測數據。2018年的價格預測結果如圖7所示。

圖7 三七價格預測
從表3中可以看出,模型預測2018年三七價格指數數據的波動范圍在206~306之間,全年價格呈現先漲后跌態勢,總體比2017年略有下跌。對比2018年三七價格指數實際波動情況可以看到,預測結果能夠很好的擬合三七價格變動的整體趨勢。2018年上半年前期2—3月份略有上升,之后緩慢下跌。預測精度上,預測值與實際值最大誤差為13.01%,最小誤差為2.36%。

表3 模型預測2018年三七價格數據
此外,圖7還展示了應用此模型另外對2019年上半年的三七價格進行預測的結果,2019年上半年的預測價格見表4。從表4中可以看出,2019年上半年三七價格范圍處于216~236之間,整體上在年初略有上漲,3—4月份之后呈現緩慢下跌趨勢,三七價格指數在2019年波動較為平緩。

表4 模型預測2019年上半年三七價格數據
三七作為我國傳統名貴中藥材,是很多經典名方以及大品種中成藥的重要原料,其功效也受到消費者越來越多的認同。近年來,三七的價格在市場需求、資本炒作等多方面因素的影響下,2013—2014年出現了大漲大跌,價格的非正常波動造成藥農盲目進行種植擴張,繼而造成供需不平衡,影響三七相關產業的健康發展。通過科學方法對三七的價格進行預測,進而指導三七藥材的生產者和經營者作出正確的生產經營決策,能夠有效抑制投機,保證市場健康穩定運行。
通過上述的實驗數據表明,LSTM神經網絡應用于三七價格指數預測取得了較好的效果。分析主要原因在于三七等中藥材價格變化為典型的時序序列,歷史價格對當期價格的影響較大,而LSTM神經網絡對歷史信息處理的典型優勢特別有利于三七價格指數的預測。
本文建立的價格指數預測模型也可以引入到其它中藥材價格預測,通過信息化、智能化高效利用市場宏觀數據和微觀數據,有利于達到提高資源配置有效性和保證市場健康運行的目標。