曹宇軒,隋國榮
(上海理工大學光電信息與計算機工程學院,上海 200093)
研究并確定文物成分一直是考古和文化遺產領域的難題,在文物的挖掘過程,由于缺乏相關的信息,以及受環境和人為操作等多方面因素的影響,不可避免地出現了文物損壞現象,導致古代文物攜帶的歷史信息缺失。因此,通過現有文物,快速、準確地識別文物的某些特定參數,對考古和文物保護工作具有重要的價值。
玻璃的生產歷史悠久,最早可追溯至公元前2600年左右的美索不達米亞文明,是人類歷史中重要的歷史文物。玻璃最常見的風化機理是周圍環境的水分子與玻璃網結構鍵之間的反應。這一現象使暴露在自然環境中的古代玻璃的光學、化學性質產生不可逆的變化[1]。宋代醬釉器及登封南洼遺址出土的白色項鏈等玻璃質的文化財產都受到嚴重的風化影響[2-3]。因此,古代玻璃的風化,不僅影響人類對古代文明的研究,還侵害了人類的文明財產。現階段,保護古代玻璃方法亟待創新,目前尚未提出一種能對古代玻璃風化水平進行定量分析的模型。為此,本文根據古代玻璃的特點,建立一種全新的模型,首先使用GA-BP神經網絡對玻璃樣品的類別實現較高準確率的分類,其次利用主成分分析降維法對高維數據進行降維,最后結合熵權法實現對不同玻璃樣本風化指數的數值評價。
由于玻璃類型與其成分間存在的關系不是簡單的線性關系,因此考慮使用BP神經網絡處理該非線性問題。BP神經網絡的每一層都由許多的神經細胞組成。每層神經元接收來自前一層的輸入,并通過傳遞函數將計算結果輸出到下一層[4]。
假設輸入層的節點數為m,輸入層的輸入為,隱藏層的節點數為n,輸出層的節點數為q,輸入層到隱藏層的權重為ωij,隱藏層到輸出層的權重為ωj k,輸入層到隱藏層的偏移量為a j,隱藏層到輸出層的偏移量為b k,學習速率為η,激勵函數為g(x)。那么,隱藏層H j的輸出如下:
計算誤差如下:
其中,i=1,2,…,m,j=1,2,…,n,k=1,2,…,q;i為輸入層編號,m為輸入層節點數,j為隱藏層編號,n為隱藏層節點數,k為輸出層編號,q為輸出層節點數,Y k為期望輸出。神經網絡示意結構如圖1所示。

圖1 神經網絡示意結構Fig.1 Structure schematic diagram of neural net work
如果輸出層的期望輸出值與實際輸出值的誤差大于預定值,則誤差將反向傳播。通過調整各層的連接權重和閾值,逐漸減小計算值與實際值之間的誤差,直到誤差達到預定要求[5]。但是,BP神經網絡在訓練過程容易陷入局部最小值,為克服這一缺陷,本文使用遺傳算法優化BP神經網絡[6]。
遺傳算法是通過模仿遺傳進化和生物的自然選擇而發展起來的一種優化算法,其主要特征是基于種群的進化,適者生存,具有定向性和隨機性,并且不依賴梯度信息,它包括編碼、選擇、交叉、突變和解碼操作5個過程。
本模型利用遺傳算法的全局尋優搜索功能獲得每一次的最優種群,接著利用BP神經網絡的局部尋優特征,反向尋得最優值[7]。
本文選取三層結構的神經網絡,包括輸入層、隱藏層和輸出層,每層包含一定數量的神經元。對于基于GA-BP神經網絡的玻璃類別預測模型,影響因素包含14種化學成分的含量。因此,設置輸入層節點數為14,即m=14,樣本數量為69。因為僅研究玻璃的類型,所以輸出層節點數為1,即q=1。本模型將預測輸出與期望輸出的平均誤差值Error作為個體的適應度函數,其定義如公式(4)所示:
其中,xtrain為樣本的實際玻璃類別,t為樣本編號。Error越大,該個體的適應度值越大,則該個體越容易在種群迭代的過程中被淘汰。通過遺傳算法不斷迭代,最終找到最優的隱藏層數量。
從圖2可以看到,在種群迭代次數為41時,網絡迎來最優適應度,其隱藏層的數量為8,即j=8。

圖2 種群迭代次數與最優適應度關系Fig.2 The relationship bet ween the population generation number and optimal fitness
本文所提分類模型首先將樣本數據隨機分散,然后選擇50個樣本作為訓練樣本,10個樣本作為測試樣本訓練神經網絡,9個樣本作為驗證集,其中69個樣本分為高鉀玻璃和鉛鋇玻璃。在實驗過程中通過調整特征向量、激活函數、訓練算法、學習速度等,獲得最佳的實驗結果,達到最高的準確率。本文使用8個隱藏層構建神經網絡模型。隱藏神經元傳輸函數選擇logsig函數,輸出層傳輸函數選擇tansig函數。訓練神經網絡的算法使用trainlm算法。學習速度設置為0.1。訓練目標誤差設置為0.000 1。最終通過Matlab R2020a軟件搭建GA-BP神經網絡仿真平臺,并得到以下實驗結果。
從圖3可以看出,網絡訓練迭代至第7代時,訓練集誤差滿足目標誤差條件,此時驗證集均方誤差最小,僅為0.000 521 22,同時該網絡收斂速度快,不存在鋸齒現象。

圖3 網絡訓練次數與均方誤差Fig.3 Net work training times and mean square error
為衡量GA-BP神經網絡在各個數據集中期望輸出與實際輸出的偏差,本文引入擬合優度R的概念,其定義如公式(5)所示。擬合優度R是指回歸直線對期望輸出的擬合程度,其最大值為1且其值越接近1,說明回歸直線對期望輸出的擬合程度越好;反之,說明回歸直線對期望輸出的擬合程度越差,即訓練的GA-BP神經網絡質量越差。
通過圖4可以看出,網絡訓練集、測試集、驗證集以及總數據集擬合優度均高于97.8%,證明該神經網絡的優越性。

圖4 各數據集擬合優度Fig.4 Goodness fit of every data set
圖3和圖4證明該網絡能夠成功區分訓練集玻璃的類別,并具有較高的準確率。
主成分分析(PCA),被視為經典數據降維方法,在模式識別和計算機視覺領域得到廣泛的應用。PCA是一種多變量統
計技術,根據捕獲的所有信息,可將數據量減少至較小的數量,并提取特征信息[8];其基本思想是重新組合原始相關索引X1,X2,…,X k(該矩陣已進行數據中心化處理),形成少量不相關的綜合指標。綜合指標應最大限度地反映原有變量所代表的信息,并能保證新指標相互獨立,從而盡可能多地保留原始變量中所包含的信息,以達到數據降維和稀釋數據信息的目的[9]。如果F1,F2,…,F n用于表示原始變量的n個主成分,即可得到:
隨后,本文將分別計算鉛鋇玻璃和高鉀玻璃中各種化學成分的貢獻率,并進行降序排序,同時依次算出每種化學成分對主成分的累計貢獻率。為盡可能對數據進行降維以及保存數據的信息量,本文將累計貢獻率的最低標準劃分為90%。
由圖5可知,對于鉛鋇玻璃而言,其14種化學成分降維至9個主成分即滿足累計貢獻率達到90%的條件。對于高鉀玻璃而言,僅需要6個主成分即可滿足條件。

圖5 累計貢獻率階梯圖Fig.5 Ladder diagram of cumulative contribution rate
決策者的主觀考慮會造成指數權重的偏差,為避免這類干擾,產生符合事實的結果,使用基于指標固有信息的客觀權重法確定權重[10],因此選擇熵權法(EWM)模型,其模型實現過程如下。
步驟1:將經過PCA降維后的主成分F1,F2,…,F n正向化為,對于正向指標:
對于負向指標:
假設各指標數據標準化后為Y1,Y2,…,Y n。
步驟2:將Y ij進行數據歸一化處理,處理過程如公式(9)所示:
其中,m為樣本數量。
步驟3:計算所有樣本指標的熵值E,范圍在0~1,其計算公式如下:
步驟4:具有較小熵值的指標表示大量信息,即指標具有更高的重要性且應當具有更高的權重。因此,使用公式(11)計算熵權重ωe:
步驟5:利用熵權重ωe計算得分,將其轉化為百分制,并定義其為未風化程度指數Score。Score計算公式如下:
其中,n為主成分數量。
根據模型計算,分別得到不同材質玻璃的不同樣本的未風化程度指數。
對高鉀玻璃而言,在現有的玻璃樣品庫中,試驗發現風化玻璃與未風化玻璃的未風化程度指數分界點,所有風化玻璃的未風化程度指數均小于20,并且15號樣本的風化最嚴重,僅為9.709,其結果如圖6所示。

圖6 高鉀玻璃未風化程度Fig.6 Unweathering degree of high potassium glass
對于鉛鋇玻璃而言,試驗也能觀察得到風化玻璃與未風化玻璃的未風化程度指數分界點在53,并且第37號樣本的風化程度最嚴重,未風化程度指數僅為21.404,其結果如圖7所示。

圖7 鉛鋇玻璃未風化程度Fig.7 Unweathering degree of lead barium glass
由圖7中的結果可知,隨著玻璃測量樣本數量的不斷增加,模型越精確。
本文建立GA-BP優化模型,通過選擇合適的隱藏層,極大程度地降低神經網絡的預測誤差,從而可以根據14種化學物質的含量精確預測樣本的玻璃類型。同時,利用PCA降維,配合熵權法,對每個樣本的風化程度進行評分,并進一步劃分高風化程度分數線。因此,對于挖掘出土的古代文物,可利用無損檢測手段在第一時間分析其化學成分,并針對風化嚴重的區域做出針對性的保護措施。
本模型在大樣本數量的環境下,不僅可以評估當前環境是否會進一步加劇文物的風化程度,也能通過未風化程度指數,幫助考古學家在挖掘文物的過程中提前制定技術路線和設置技術參數。此外,本模型應用于在建筑行業時,配合強化風化條件,可以得到一個警戒風化分數并定期對玻璃的風化程度進行量化比較,確保建造結構的安全性。