付 菲,孫滿利,朱明哲,王廣輝,李 庫
(1.西北大學文化遺產學院,陜西西安 710069;2.西安電子科技大學電子工程學院,陜西西安 710071;3.漢景帝陽陵博物院,陜西西安 712038)
建于2006年的漢陽陵外藏坑遺址博物館是我國第一個大型全封閉式的土遺址博物館。其保護效果一直受到業內關注,為有效評估封閉保護模式的效果,自2009年以來,該遺址內共設置各類傳感器260處,累積各類環境、土體監測數據達700多萬條。通過監測這些影響遺址保存狀態發展變化的因素,可以研究遺址的演變規律并預測其發展趨勢,從而指導具體的遺址保護管理工作。近年間,我國開展了大量遺址監測工作,監測技術已日趨成熟。但與此對應的是,該類監測數據的挖掘利用程度較低,缺少對積累數據的統計規律和細節特征的綜合分析,因此無法通過監測來有效分析遺址的演變規律,更無法對后續的保護管理提供指導。大數據分析挖掘能力已成為預防性保護技術發展的關鍵技術。
溫度是影響遺址保存狀態的主要環境因素之一,長期以來都是遺址監測的一項重點內容。近年來基于溫度監測數據分析而展開的保護研究已有不少。研究對象包括室外土遺址和室內博物館,也有專門圍繞漢陽陵外藏坑遺址的研究。研究內容涉及劣化機理[1-5]、變化規律[6-12]、預報模型[13-14]等方面。根據上述文獻,目前圍繞溫度等環境監測數據的研究方法主要為:先將采集到的數據作出其在監測周期內隨時間變化的曲線圖,得到環境因素的變化規律,之后圍繞該規律展開后續研究。但是,這些研究,一方面并沒有從海量監測數據的挖掘入手,所用數據的時限大多長為一年內,短則一個月甚至一天。另一方面處理數據所采用的算法較為簡單,所用有效數據點基本在十幾至幾十個,沒有充分利用并分析監測數據的統計及變化規律。以溫度預報模型的研究為例,往往將海量監測數據簡化為代表年、月、日的平均值,從而推導出年際或月際的簡單變化趨勢。相比于單傳感器一年上萬的數據量,這種簡單平均統計的數據利用率是比較低的。同時,數據簡化雖然避免了大數據挖掘,但也模糊了數據的細節信息。因此,傳統的監測數據處理方法無法準確表達溫度變化特征及規律,更無法做到準確分析以分鐘甚至以秒為計時單位的瞬時溫度變化趨勢,浪費了大量監測數據的有效信息。過于低分辨的數據分析難以為實際的遺址保護工作提供可靠的先驗知識。
機器學習,是讓計算機具有像人一樣的學習能力,可以從堆積如山的數據中尋找出有用知識的一種數據挖掘技術[15]。機器學習通過對數據的歷史關系和趨勢的學習發現“隱藏的視角”,并以此設計復雜模型和算法從而實現預測功能。近年來,隨著互聯網或多重傳感器技術的應用,使得大量獲取多種數據成為了可能,大數據已經成為了可以創造更多附加值的新興技術領域。因此也使得在大數據處理和發掘方面具有出色表現的各類機器學習算法受到越來越多的關注,并廣泛應用在人工智能、金融市場分析、軟件工程、醫療診斷等眾多領域。
針對漢陽陵外藏坑遺址博物館以往海量的溫度監測數據,將機器學習技術引入溫度監測數據的分析研究中,在總結溫度變化統計規律的同時對其進行建模,并通過實測數據驗證了模型的有效性,初步探討了該模型的建立在未來研究工作中的應用方向及可行性。
漢陽陵外藏坑遺址博物館采用全地下建筑,遺址保護區由玻璃通道構成,呈“L”型環繞外藏坑四周。博物館內環境監測采用西安元智系統技術有限公司設計的實時環境監測系統,可實現遠程實時數據傳送,監測點位共108處,監測內容主要包括空氣溫濕度、土壤溫度及含水率、二氧化碳濃度等。本工作選取了位于外藏坑帝陵中廳的11-65號傳感器(圖1)的溫度監測數據作為分析對象。監測儀器為室內型大氣溫濕度傳感器(型號MW301GA),測量精度和范圍分別±0.3℃和-20~80℃,監測時間段為2011年3月3日至2011年12月27日,監測頻率30 min,應測數據14 448條,實測數據總數共10 359條。
由于全年數據記錄超過萬條,并且數據本身存在缺陷,傳統平均統計的數據處理方法顯然無法有效利用如此大量的數據記錄信息。在利用數據進行分析和預測前,首先需要對數據分布特點和缺失狀況進行研究,因此,繪制了數據的分布圖(圖2)。
從圖1可以看出,該類數據的結構是比較復雜的。主要體現在兩個方面:
1)數據分布不均勻。由于傳感器、數據記錄、數據傳輸等各個模塊的突發情況,部分監測日內記錄數據較多,而個別測日內記錄數據嚴重不足。如圖2所示,全年平均日記錄數據在40條左右,而3月上旬(61~70監測日)普遍記錄數據為日均超過120條,與之對應的是,8月中旬(255~265監測日)的部分日記錄數據不足10條。在數據樣本不均勻的情況下,以此采樣的數據為基礎得出的日平均溫度將會存在較大誤差,再用此類統計數據為依據進行下一步的溫度規律分析或建立溫度預測模型都會帶來較大的誤差傳遞。
2)數據存在缺失。該類數據的缺失具體包含兩種情況:
(1)短期缺失:傳感器采樣頻率約為30 min,因此正常情況下一天數據約48組,但某些天數據較少,將會影響后續機器學習的效果和預測評價;
(2)長期缺失:以天為基數的缺失,如2011年74~86 d共13整天的數據缺失。數據長期缺失的部分會影響后續處理對數據細節的分析。
綜上,由于數據自身的復雜性,在建模前需要對其進行一定的預處理來提高模型的準確性,來實現精確的趨勢預測。
為了進一步探討數據的整理分析方法,繪制了溫度變化曲線(圖3)。由圖3可以看出,采用的溫度監測數據主要有3種變化特征:1)日間變化趨勢,主要是指在較長的一段時間中,溫度的平均走勢。可細分為單調上升趨勢,單調下降趨勢和平穩走勢;2)日內變化趨勢,主要是指在一天的變化周期中,每個時刻的溫度細節變化趨勢;3)溫度突變,主要是指由于數據缺失或傳感器等問題引起的溫度數據突然變化。
由此可見,溫度隨時間的變化具有不同的規律特征,僅靠單一的線性擬合描述時間-溫度的映射是十分不準確的,特別是溫度的日周期性變化通常為高度非線性。由于機器學習具有強大的非線性擬合能力,可通過對歷史數據的學習逼近特征(feature)和標簽(label)間的非線性映射關系。采用機器學習領域較新的極限學習機算法,探討基于現有的大量歷史數據,建立時間-溫度關系模型,用于短期溫度預測的數據分析方法將有助于解決傳統數據整理方法的缺陷。
在以往的系統建模中,需要詳細分析系統中的主要因素以及各因素間的相互作用關系,這種“抽絲剝繭”般的研究方式更適合進行單因素或簡單系統的分析建模。然而博物館內溫度變化受到外界氣候條件、建筑結構、游客數量等諸多因素的影響,對于這種大型復雜系統的建模,由于其內部結構及耦合關系難以直接描述,因此無法采用以往的經驗建?;驒C理建模方法。而溫度監測數據作為此復雜系統作用的直接表現,其中已然蘊含著多因素間的復雜關系。所以機器學習建模的原理即是從數據出發,無需深究這個復雜系統內部的作用機制,而是通過分析反映這些機制的數據,采取一定的算法反推和擬合出該系統的數學模型,不斷訓練以逼近原系統的真實結構和狀態。
極限學習機(extreme learning machine,ELM)是一種新型的單隱層前饋神經網絡學習方法,它對大量非結構性、非精確性規律具有自適應能力、自主學習和優化計算的特點[16-20]。相比于其他機器學習算法,該方法最突出的特點是運算速度快,實時性強,適合大數據分析。在溫度預測應用中,極限學習機在獲取海量溫度監測數據的基礎上,學習數據的歷史關系和趨勢,總結數據特征及規律,利用神經網絡算法建立模型,預測未來溫度,整個學習建模過程一次完成,無需迭代,并且產生唯一的最優解。同時,極限學習機在預測的過程中,能夠不斷引入新的實測數據來對現有模型進行訓練,這種“訓練—學習”模式使整個預測過程具有在線學習、持續更新的特點,相較于傳統的“一次性”建模方法,該方法建立的預測模型可以通過反復修正,逐步接近系統的真實狀態,從而提高溫度預測的準確性。在神經網絡模型中,最重要的是設定輸入/輸出及訓練集/測試集。設定輸入/輸出這一組變量,是要建立從輸入到輸出的映射關系:將以日期和日內相對時間作為輸入,溫度作為輸出建立模型,以此來建立溫度的日內周期性變化模型和日際趨勢變化模型。
針對提前量為1天的溫度進行預測建模,即學習前幾天的(時間-溫度)數據,預測未來一天的溫度。沿數據時間軸滑動,依次預測下一日的溫度數據。其流程示意如圖4所示。
在建立溫度預測模型前,先應確定預測參數,包括訓練集大小(使用預測日之前幾天的歷史數據)、預測時效(預測未來幾天)、訓練集格式(溫度時序)。通過前期實驗,考慮數據間的時效性和關聯性,最終確定采用7天的歷史數據來預測未來1天的溫度,預測溫度的時序精確到年內第幾天、該天第幾秒。
由于數據存在缺失部分,所以需對其進行預處理,來提高后續建模的準確性。
根據預測參數的要求,對于監測周期內的任意一天(如第k天),建模時需要學習訓練數據(第k-7天到第k-1天)的時間-溫度關系,來預測第k天的溫度,并用第k天的實測數據驗證預測結果的準確性。所以,需要通過數據預處理來篩選出每個符合預測要求的“第k天”,即這一天和之前的7天均為正常數據天。按照該預處理策略,對數據進行如下預處理:
1)若某天數據量小于20條,判定為該天為“數據嚴重缺失天”。
2)若訓練數據(7天)或測試數據(1天)中包含“數據嚴重缺失天”,則跳過該組學習和預測,滑動時間窗直到訓練(和測試)數據中不包含“數據嚴重缺失”天為止。按上述策略,最終用于測試的數據分布如圖5所示。
從圖5可以看出,標為紅色的天即為滿足預測要求的“第k天”,共142天,包括數據5 772條。將待預測的5 772條數據按順序編號,得到所有測試集的組合如圖6所示。該實測數據將與預測數據通過對比來證明預測模型的有效性。
3 預測模型實測數據驗證
首先,給出預測效果的評價指標。
整體預測實驗結果如圖7所示,圖中是預測數據曲線和實測數據曲線的對比??梢钥闯?,預測值和實際值曲線基本吻合。預測模型不但能夠準確預測每個時刻的溫度變化,同時在數據的突變點具有較好的跟蹤能力。
從圖8中可以看出,預測最大誤差不超過5%。對預測的5 772組數據的相對誤差進行統計分析,得到如下結果:
平均相對誤差:0.569%;誤差小于1%的預測值占總數的84.877%;誤差小于2%的預測值占總數的97.921%;誤差小于3%的預測值占總數的99.708%。
從圖8和誤差統計結果中可以看出,該方法具有較好的預測效果和預測精度,尤其是在有效預測溫度數據的細節變化方面。
為更好的說明這一點,針對小節1.2數據特征分析中總結的3種溫度變化特征,分析了ELM模型在溫度處于不同變化趨勢時的預測效果。
1)日間變化趨勢。針對日間變化趨勢,由于ELM模型在訓練過程中輸入了之前7天所有的溫度數據,因此模型在其參數的充分訓練調整后,能夠有效表征前一段時間溫度變化的整體趨勢。即ELM模型能夠判斷之前溫度屬于哪一類變化,并在之后的處理中對預測溫度進行調整。如果ELM模型判斷之前溫度處于下降(或上升)趨勢,將會降低(或升高)后續的溫度預測值。圖9所示為全年第3 220~4 710組數據,該數據處于秋季,溫度處于緩慢的下降趨勢中,預測結果在保持日內溫度變化趨勢的同時,較好地預測了溫度下降變化趨勢。為了進一步說明本方法的預測效果,圖10所示為傳統預測方法在溫度單調下降時的預測結果,該方法通過數據的平均統計,往往利用分段線性模型進行預測,只能粗略估計溫度的變化趨勢;同時由于算法簡單,一方面造成數據利用率不足,對溫度的細節變化無法預測,另一方面容易受限于數據的不均勻分布和缺失,模型誤差較大;另外,傳統方法沒有在線學習機制,預測模型無法進行修正、更新。以上原因導致傳統方法在運算效率和預測效果上均不及極限學習機。同理,傳統算法在溫度的其他變化特征下預測效果類似,后文將不再做對比贅述。圖11所示為全年第570~1 174組數據的預測結果,該數據處于春季,溫度處于明顯的上升趨勢中,預測曲線與實際值曲線擬合較好。綜上,本方法結合大數據分析,可以有效預測溫度變化趨勢,并精確預測數據的細節變化特征。
2)日內變化趨勢。日內變化趨勢,主要是指在一天的變化周期中,每個時刻的溫度細節變化趨勢。每日溫度的周期性變化趨勢是相似的,并且時間上相距越近的數據,相關性越高,尤其是相鄰兩天的溫度數據。ELM模型在訓練過程中,是將之前7天每個時刻的數據按由遠及近的順序輸入。因此,距預測日越近的數據,對模型參數的影響越大,符合認知。此外,由于溫度數據是按年內第幾天,該天第幾秒的格式輸入,保證了ELM對每天同一時刻溫度的跟蹤。
圖12所示為全年第5 004~5 772組數據的預測結果,該數據處于冬季,平均溫度較低。日內溫度變化呈現較強的規律性,日間變化趨勢不明顯。從圖中可以看出,預測模型較好地跟蹤了日內溫度周期性變化特征,和日間溫度的非單調變化趨勢,預測值與真實值吻合度較好。
3)溫度突變。針對溫度突變,ELM模型本身是無法進行處理的。因此,在具體建模過程中,引入2.2節所述的在線更新機制。由于在預測的過程中,不斷有新的真實值加入對后續的預測進行修正,因此整個預測模型能夠有效跟蹤溫度的突然變化。圖13為全年第1~1 000組數據的預測結果,在溫度正常變化的部分,預測值和實際值相差不大,可實現較精確的擬合溫度變化規律。而第580組及第840組由于數據不完全,導致曲線發生突變。但是在線更新機制可以迅速跟蹤到這些突變點的影響。因此預測曲線將很快跳過突變點,并預測出正確的結果。
結合漢陽陵外藏坑遺址博物館環境監測數據利用的實際問題,引入大數據機器學習技術中的極限學習機對遺址的海量溫度數據進行了特征分析和預測模型建立。與通常對數據以平均統計和線性擬合的研究方法不同,極限學習機充分利用了全年的監測數據,一方面降低了數據缺失在以往工作中帶來的誤差影響,另一方面能夠有效學習跟蹤溫度變化的不同趨勢特征,所建模型經實測數據驗證,結果表明預測效果和預測精度較好,可對未來溫度的細節變化進行精確預測。該方法也可擴展至包括濕度、二氧化碳濃度等多種環境監測數據的分析處理上。極限學習機方法的引入可為遺址預防性保護和管理提供借鑒和參考。