郭佳欣
(北京建筑大學,北京 102616)
玻璃文物極易受埋藏環境的影響而風化。在風化過程中,內部元素與環境元素進行大量交換,導致其成分比例發生變化,從而影響對其類別的正確判斷。
玻璃的主要原料是石英砂,主要化學成分是二氧化硅(SiO2)。由于純石英砂的熔點較高,為了降低熔化溫度,在煉制時需要添加助熔劑。古代常用的助熔劑有草木灰、天然泡堿、硝石和鉛礦石等,并添加石灰石作為穩定劑,石灰石煅燒以后轉化為氧化鈣(CaO)。添加的助熔劑不同,其主要化學成分也不同。
1.對玻璃文物的化學成分含量數據進行分析,將成分比例累加和介于85%~105%之間的數據視為有效數據。對這些玻璃文物的表面風化與其玻璃類型、紋飾和顏色的關系進行分析;結合玻璃的類型,分析文物樣品表面有無風化化學成分含量的統計規律,并根據風化點檢測數據,預測其風化前的化學成分含量。
2.依據附件數據分析高鉀玻璃、鉛鋇玻璃的分類規律;對于每個類別選擇合適的化學成分對其進行亞類劃分,給出具體的劃分方法及劃分結果,并對分類結果的合理性和敏感性進行分析。
針對問題一,該問要求需要對玻璃表面風化情況與玻璃類型,紋飾和顏色的相關性進行分析,并結合玻璃的類型分析化學成分含量的變化規律以及預測風化前的化學成分含量。
首先,對文本數據進行預處理,通過求解Spearman系數來對玻璃類型、顏色、紋飾、表面風化四個定類變量進行相關性分析,從而得到變量間的相關性。
其次,對玻璃文物的化學成分含量進行預處理,將成分比例累加和介于85%~105%之間的數據視為有效數據,從而刪掉15 號和17 號并將表結合。結合玻璃的類型,我們分別對高鉀類,和鉛鋇類的風化前后變化差異進行描述性統計分析,以及有無風化各成分的均值是什么,假設檢驗,從而分析文物樣品表面有無風化化學成分含量的統計規律。
最后,通過給定的數據,判斷出二氧化硅為主要成分,所以針對風化的玻璃文物數據做Logistic 回歸模型,令高鉀為“0”,鉛鋇為“1”,預測出其類別,從而得出風化前的化學成分含量[1]。
針對問題二,依據附件數據分析高鉀玻璃、鉛鋇玻璃的分類規律,該問要求對于每個類別選擇合適的化學成分對其進行亞類劃分,給出具體的劃分方法及劃分結果,并對分類結果的合理性和敏感性進行分析。
通過數據分析高鉀玻璃、鉛鋇玻璃的分類規律,我們采用聚類分析模型中的K-means 算法,對于每個類別所有的化學成分對其進行亞類劃分,得出相關化學成分的分類[2-4]。
(1)數據預處理后,題目所給的數據均是合理的,正確的。(2)題目所提供結果均符合一般規律。(3)題目中所給的各項指標的測定時帶來的誤差忽略不計。(4)題目不考慮其他因素對玻璃文物風化的影響。(5)題目不考慮隨時間影響使其風化產物產生影響。
4.1.1 建立Spearman 和Logistic 回歸模型
1.Spearman 相關系數的具體計算方法:
其中,n是樣本的數量,d代表數據x和y之間的等級差。
在得到的p值中,如果p值大于0.05,則沒有顯著性差異,也就是說沒有理由認為顯著性差異存在,即沒有相關性,如果p值小于0.05,我們可以認為存在顯著性差異。
2.Logistic 回歸的原理是用邏輯函數把線性回歸的結果(-∞,+∞)映射到(0,1)。故先建立線性回歸表達式和邏輯函數表達式。
線性回歸函數的數學表達式:y=θ0+θ1*x1+θ2*x2+…+θnxn=θTx,其中xi是自變量,y是因變量,y的值域為(-∞,+∞),θ0是常數項,θi是待求系數,不同的權重θi反映了自變量對因變量不同的貢獻程度。
邏輯函數表達式:
邏輯回歸函數表達式:
在邏輯回歸函數中用邏輯函數把線性回歸的結果(-∞,+∞)映射到(0,1),得到的結果類似一個概率值。上式中xi表示給的表中的14個特征,y代表玻璃表面的“風化”“未風化”,當y為1 表示為“風化”,當y為0表示“未風化”時,這樣我們可以進一步地把邏輯函數的值定義為風化的概率:
其表示未風化的概率為:
我們用極大似然數求解邏輯回歸中的參數。其中y∈{0,1,}。θi為待求參數[5]。
4.1.2 Spearman 和Logistic 回歸模型的求解
通過MATLAB 求解,我們計算出變量之間的斯皮爾曼系數,得出表面風化與類型的相關系數為0.3444較大,顏色與類型的相關系數為0.3733 較大。
通過MATLAB 求解,得出表面風化與類型的顯著性較高,類型和顏色的顯著性較高,它們的相關性成立。
在樣本數量大于30 的情況下,我們可以通過構建統計量的方式進行假設檢驗,以下的統計量是符合正態分布的。結合玻璃的類型,我們分別對高鉀類和鉛鋇類的風化前后變化差異進行描述性統計分析,假設檢驗。最終結果符合原假設,且高鉀類和鉛鋇類風化前后主要化學成分二氧化硅差異比較大,高鉀類風化后,二氧化硅含量變多了,鉛鋇類風化后二氧化硅含量變少了。
最后,我們通過給定的數據,判斷出二氧化硅為主要成分,所以針對風化的玻璃文物數據做Logistic 回歸模型,由MATLAB 求解出解析式為:
由模型分析結果得出p-value 為0.00575<0.05,則該模型符合,預測出其類別,將實際的成分與前面求得的各類的風化產物成分進行比較,從而得出風化前的化學成分含量。
4.2.1 建立K-means 聚類模型
設有N個樣品,每個樣品測得n項指標(變量),原始資料陣為:
其中xij(i=1,…,N,j=1,…,n)為第i個樣品的第j個指標的觀測數據。第i個樣品,Xi為矩陣X的第i行所描述,所以任何兩個樣品xk與xl之間的相似性,可以通過第k行和第l行的相似程度來刻畫;任何兩個指標xk與xl之間的相似性,可以以通過第k列和第l列的相似程度來刻畫。
對N個樣品進行分類的方法,稱為Q型聚類法,常用的統計量是用“距離”來表達。對應該題N為各類的監測數據,化學成分為指標。
1.聚類模型的歐式距離。如果把N個樣品(X中的N個行)看成p維空問中的N個點,則兩個樣品間相似程度可用p維空間中地兩點距離來度量。令dij表示樣品xi與xj之間的距離。
當q=2 時為歐氏距離:
計算任何兩個樣品Xi與Xj,之間的距離dij,其值越小表示兩個樣品接近程度越大,值越大表示兩樣品接近程度越小。如果把任何兩個樣品的距離都算出來后,可排成距離陣D:
其中d11=d22=…=dNN=0.D是一個實對稱陣,所以只需計算上三角形部分或下三角形部分即可。根據D可對N個點進行分類,距離近的點歸為一類,距離遠的點歸為不同的類。
2.聚類模型的相關系數。通常所說的相關系數,一般是指變量間的相關系數,作為刻畫樣品間的相關關系也可類似給出定義,即第i個樣品與第j個樣品之間的相關系數定義為:
于是R=(rij),其中r11=r22=…=rNN=1,可根據R對N個樣品進行分類[6]。
3.K-means 算法。K-means 算法是最常用的聚類算法,主要思想是:在給定K 值和K 個初始類簇中心點的情況下,把每個點(亦即數據記錄)分到離其最近的類簇中心點所代表的類簇中,所有點分配完畢之后,根據一個類簇內的所有點重新計算該類簇的中心點(取平均值),然后再迭代地進行分配點和更新類簇中心點的步驟,直至類簇中心點的變化很小,或者達到指定的迭代次數。
4.2.2 K-means 聚類模型求解
具體的劃分方法及劃分結果:
我們采用聚類分析模型中的K-means 算法,對于每個類別所有的化學成分對其進行亞類劃分。通過MA TLAB 求解得:
高鉀類分成亞類劃分大致可分為三類:
第一類:二氧化硅(SiO2)。
第二類:氧化鉀(K2O)。
第三類:氧化鈉(Na2O)、氧化鈣(CaO)、氧化鎂(MgO)、氧化鋁(Al2O3)、氧化鐵(Fe2O3)、氧化銅(CuO)、氧化鉛(PbO)、氧化鋇(BaO)、五氧化二磷(P2O5)、氧化鍶(SrO)、氧化錫(SnO2)、二氧化硫(SO2)。
鉛鋇類成分亞類劃分大致主要分為三類:
第一類:二氧化硅(SiO2)。
第二類:氧化鉛(PbO)。
第三類:氧化鈉(Na2O)、氧化鉀(K2O)、氧化鈣(CaO)、氧化鎂(MgO)、氧化鋁(Al2O3)、氧化鐵(Fe2O3)、氧化銅(CuO)、氧化鋇(BaO)、五氧化二磷(P2O5)、氧化鍶(SrO)、氧化錫(SnO2)、二氧化硫(SO2)。
對分類結果的合理性和敏感性進行分析,通過MATLAB 求解得出:高鉀類和鉛鋇類化學成分的分類情況與實際情況相吻合,主要成分分類中,二氧化硅都占為一類,該結果比較合理;鉛鋇類比高鉀類的分類多一類,若變動某化學成分含量,則結果可能不準確。
1.建立的Logistic 回歸模型以及判別分析模型可以更好地判別出未知數據的所屬特征,簡單易懂,有較強的數學基礎,且易于應用于現實生活中。
2.建立的主成分分析模型,可以更好地看出變量之間的相關性,把復雜的數據綜合化,使其盡可能地反映原來的信息,降低了復雜性。
3.建立的聚類分析可以把一堆成分進行進一步的分類,使其更好地展現成分之間的關系。
1.在問題一中,斯皮爾曼系數對于變量之間的相關性分析不夠嚴謹。
2.在問題二中,我們用的是聚類分析中的最短距離法,還可以用更好的方法來對主要成分進行亞分類,對結果的敏感性分析不夠完善。
在問題一中,在變量分析中,其實我們可以用卡方檢驗來分析不同變量之間的相關性。可以用更多的數據來對建立的邏輯回歸的模型進行驗證,看它是否更貼合實際。
1.判別分析與回歸分析相似,可用于確定哪些預測變量與因變量相關,并在給定預測變量的某些值的情況下預測因變量的值。在實際生活中,判別分析也被廣泛用于預測事物的類別歸屬。企業營銷中,營銷人員可通過已有的客戶特征數,預測當前的消費者屬于哪種類型的顧客,并根據其特點有針對性地采取有效的營銷手段,或是根據各成分含量指標,判斷特征等。判別分析還可與聚類分析結合使用,如同本文一樣。比如,銀行確認一些用戶的資格之前,可通過此方法判斷申請人是否具有良好的信用風險。
2.聚類用于基于模式識別過程將數據劃分為不相交的組;在生物學中聚類是遺傳學和分類學的重要工具,有助于理解生物和滅絕生物的進化。還有建立推薦系統、社交媒體網絡分析、土地利用分類中的空間分析等。