呂紅娣,詹棠森,陳 武,張佳奇
(景德鎮陶瓷大學信息工程學院,333403,江西,景德鎮)
市場價值是定量表征藝術品具有投資價值的指標,市場價值的大小可以直觀有效指導拍賣行工作人員、藝術品投資者、收藏者以及愛好者對古陶瓷藝術品進行客觀估價,保障投資顧問的建議合理可觀。國外對于藝術品的研究早于國內研究,國外已具有精準的定價研究方法,主要方法為:Candela利用代表作品的方法[1],即同一作者的作品的價值通過以往的代表作價值進行參考,分析了意大利現代和當代繪畫1983—1994年期間的拍賣數據,構建了意大利藝術品市場的現當代繪畫價格指數,此方法簡單明了,但缺乏穩定性。基于重復銷售的思想,Goetzmann于1986年提出了重復銷售定價方法[2],建立基于重復銷售定價法的價格指數體系[3]。在1999年,Biey等[4]則指出只有在藝術品市場受到沖擊時,傳統重復銷售定價法才發揮有效,于是他們對傳統的重復銷售法進行了改進。
國內對于藝術品價值預測的定量研究的方法主要還是傳統的計量經濟和統計學方法。對于藝術品的統計學方法多采用基于信息貧、數據少的灰色關聯度[5]、關聯變權的小波神經網絡逼近[6]以及數據包絡分析法DEA[7],層次分析法和信息熵等方法[8-12],以及灰色GM(1,N)模型[13-14]進行陶瓷藝術品價格預測。但這些方法都是定量化,而沒有文本數據預測。
本文通過雅昌藝術網采集了最近5 年比較有參考價值的6個指標,建立基于改進隨機森林回歸算法的古陶瓷藝術品價值預測模型。通過實例,預測精度高,具有文本和定量相結合的算法,具有較好的廣泛性。
隨機森林(RF)算法最早由美國Leo Breiman[15]于2001年提出,而隨機森林回歸算法(RFR)是機器學習中基于Bagging的算法之一,從原始樣本中抽取多個不同樣本,對每個樣本進行決策樹建模,最后匯總所有回歸樹的輸出的平均值作為最終預測結果,這樣的預測結果具有很好的魯棒性和穩定性。
回歸樹匯總的公式如下所示:
(1)

RFR模型預測準確率由預測誤差的大小決定,而為了達到預測誤差的方差與偏差的平衡,讓模型的效果達到最優,需要進行超參數的優化,由于RFR算法的參數比較多,但是對預測結果影響較大的參數則是迭代次數n_estimators、決策樹的最大深度max_depth、最大特征數max_features、最小分離樣本數min_impurity_split。
RFR算法常用的優化參數方法有隨機搜索法(Random search method)和網格搜索法(Grid search method)。交叉驗證則主要用于模型的效果驗證,它是對于數據集的測試集和驗證集的選擇,也能夠有效地防止模型過擬合。為了提高訓練的效率,本文提出了在隨機搜索法調參的基礎上,再次進行網格搜索法調參。基于隨機搜索法,實現N次的超參數隨機匹配與擇優;但由于隨機搜索法尋到的是一個隨機不完全遍歷后所得的結果,可能并不是全局最優的,而只是一個大概的最優范圍。另外通過網格搜索法,從而使最優解更加接近全局最優解。為了驗證模型的可行性,利用交叉回歸的評分函數Score對模型的訓練進行評分。評分函數Score分數值越接近1,說明此模型越好;反之,分值越小說明模型預測能力越差。計算表達式為
(2)

利用Python編寫網頁爬蟲代碼,從國內較為權威的雅昌藝術網頁爬取2017—2021年的古陶瓷藝術品歷史拍賣數據,包括古陶瓷藝術品名、尺寸、估價、成交價格、拍賣時間、拍賣行、藝術品描述等,作為后期建模訓練的數據基礎。將從定性和定量雙角度進行研究影響古陶瓷藝術品價值的特征重要性和預測效果。
由于采集到的是雅昌網頁的原始數據,還需要刪除重復值、缺失值、異常值、文本分析和提取特征等預處理,才能輸入訓練模型。
1)缺失和重復值處理:需要刪除重復值,手動查詢填補缺失值。
2)異常值處理:異常值包括屬性不明確以及價格偏差較大的數據,除此類明顯不符合模型的異常值。
3)文本分析提取特征:在充分考慮古陶瓷藝術品內部特征對價格的影響后,還需要根據藝術品的專家描述提取相應的特征。因此根據文獻[12]的特征劃分方法,確定特征指標范圍,將古陶瓷的生產年代特征劃分為唐、宋、元、明、清等5個指標;其次將古陶瓷的器型的劃分為文房用具、日用器、祭祀器、陳列器等4個指標;然后將古陶瓷裝飾劃分為彩裝飾、釉裝飾和胎裝飾等3個指標;最后將古陶瓷的圖案則劃分為動物圖案、人物圖案、吉祥圖案、山水圖案、無圖案以及植物圖案等5個指標;根據此劃分標準,利用文本分析法,對數據集中的專家描述內容進行提取古陶瓷藝術品的生產年代、造型、裝飾和圖案等指標。如表1所示。

表1 原始數據以及標簽處理(部分展示)
4)數據平滑處理:由于尺寸的數值較多,不便于統計分析,則將尺寸以10 cm的步長劃分為“≤10”“10~20”“20~30”“30~40”“40~50”“50+”6類劃分;對于數值型的古陶瓷拍賣價格特征,將其作為RFR模型的輸出值,但為了減少數據偏差較大對預測結果的影響,利用式(3)對古陶瓷拍賣價格pricei進行對數平滑處理得到logpricei。
對數平滑處理的對數公式為
logpricei=ln(pricei)
(3)
式(3)的反對數處理公式為
pricei=exp(logpricei)
(4)
5)熱編碼處理:面對表1中的定性數據,由于樣本文本特征維度較低,因此直接采用獨熱編碼處理為一個多維的0/1矩陣,增加決策樹深度。
獨熱編碼(One-Hot Encoding),是使用N棵二叉樹來對N個特征指標進行編碼,每個特征的指標都有它獨立的二叉樹,并且在任意時候,只有值為1 的樹枝才代表某個特征指標,為0的樹枝則代表非此特征指標。
一般,樹模型所使用的獨熱編碼(One-Hot Encoding),就是利用歐式空間的點與點之間的距離公式求得離散特征指標與特征指標之間的距離,從而使得特征指標之間距離的計算或相似度的計算更加合理。
6)將上述預處理后的定性與定量數據以4:1的比例隨機劃分221個樣本數據,將其中的116個樣本(80%)用于訓練模型,另外45個樣本(20%)用于模型測試。
因所采用的雙重搜索調參法均是通過K折交叉驗證法確定最終的參數值,隨著K值越大,模型結果越好,但其訓練的時間越長,綜合考慮后,選擇K=3的交叉驗證法。
基于三折交叉驗證的隨機搜索法,實現了300次的超參數隨機匹配與擇優,在其所得到的最優匹配結果的臨近范圍內選取幾個數據;然后通過網格交叉搜索法遍歷每一種參數組合,從而選出比較好的超參數組合作為最終結果。經過隨機與網格雙重搜索尋優后得到的最終參數組合如表2所示。

表2 RG-RFR算法的主要參數優化結果
利用式(2)計算得到傳統RFR模型的訓練得分和驗證得分分別為0.795 1、0.769 5。而經過三折交叉驗證的雙重搜索法調參優化后的RFR模型(RG-RFR模型)確定的4個參數依次為60、350、12、3,將這4個參數帶入模型訓練和預測的得分分別達到了0.998、0.986 7,比傳統RFR模型訓練的效果明顯提高了不少,Score值越接近于1,則說明改進RG-RFR模型訓練效果越好,其可用度更高。
將古陶瓷藝術品特征數據作為RG-RFR模型的輸入變量,對古陶瓷藝術品進行價值預測。以雅昌藝術網公布的古陶瓷藝術品的成交價格的對數值為實際值和傳統RFR模型的預測值與改進RFR模型的預測值進行比較分析,通過可視化分析結果如圖1所示。

圖1 RG-RFR模型和RFR模型預測結果對比圖
由圖1所示,訓練過程中,傳統RFR模型的預測值比RG-RFR模型的預測值誤差較大。并且比較45組預測結果如表3所示。

表3 45組基于RG-RFR模型的預測結果(部分展示)
由表3可知,這45組測試數據的預測結果中也有1~4處預測誤差較大,但總體的平均預測誤差小于0.005 1,足以說明模型預測效果較好。RG-RFR模型的預測誤差的均值MRE1=0.005 1遠小于傳統RFR模型的預測誤差的均值MRE2=0.082 1,說明此RG-RFR模型更適合用于古陶瓷藝術品價值研究。
在古陶瓷藝術品價格預測模型中,對每個價格影響參數在每棵樹上的貢獻求平均值,經比較后可度量每個藝術品價值的影響參數的重要度。經過Python編程,得到特征重要度圖,如圖2所示,古陶瓷藝術品價值影響因素中最重要的是古陶瓷的出產年代,重要度值為0.481 2,陶瓷的裝飾、器型、尺寸的重要度也比較高且差不多,相比下,古陶瓷的圖案的重要性偏低。

圖2 古陶瓷特征重要性的柱形圖
以2017—2021年雅昌藝術網拍賣古陶瓷藝術品的221個歷史數據為例,充分體現古陶瓷藝術品的自身特征,對歷史拍賣數據進行定性文本挖掘,獲得5個主要的內部特征作為訓練特征,基于三折交叉驗證的雙重搜索法優化的RFR算法,構建古陶瓷藝術品價格的預測模型。結果表明:這一方法可以很好地挖掘了古陶瓷藝術品內部特征和其市場價格之間的非線性關系。在古陶瓷藝術品估價策略尚不明確的情況下,應用這一方法預測得到的古陶瓷藝術品的市場價值具有一定的可靠性和參考性。同時隨機森林回歸算法結構簡單,需要調整的參數較少,能夠針對古陶瓷藝術品進行快速、批量估價。根據模型影響參數的重要性,可知古陶瓷的生產年代、裝飾、器型、尺寸以及圖案對古陶瓷藝術品價值研究都較為重要,依次增加這些數據的精度,可以提高模型的準確度。但還存在一些需要改進的地方,例如模型選取的樣本量和特征有點少,及特征重要性分析,對特征的篩選繼續完善,以及隨著樣本數據的增加,模型的性能還需要進一步改善。
本文提出的RG-RFR模型,相較于單一搜索法,避免了本文參數選擇的最優參數陷入局部最優。該算法可以打破以往固有的金融統計預測方法廣泛應用于古書畫作品、古式鐘表等物件的市場價值評估和定價模型,自然也可以應用于其他房價、二手車價等金融領域的預測。