涂愛琴,陳慶亮,于 帥,張玉潔
(1 中國科學院合肥物質科學研究院 安徽光學精密機械研究所,中國科學院大氣光學重點實驗室,合肥 230031;2 中國科學技術大學研究生院科學島分院,合肥 230026;3 山東省氣象防災減災重點實驗室,濟南 250031;4 山東省氣象局大氣探測技術保障中心,濟南 250031)
隨著以深度學習為代表的機器學習算法取得突破,人工智能(AI)呈現了加速發展的態勢[1]。由于機器學習在計算效率、準確性、可移植性、協同性、靈活性和易用性等方面具有較大的優勢,近年來已在氣象領域獲得廣泛應用。在地面觀測上,朱磊等人[2]提出了一種基于小樣本學習的地面結露結霜現象檢測方法,田治仁等人[3]發明了基于圖像的霧濃度等級判別方法,黃小玉等人[4]建立了冰雪天氣現象的識別模型。在天氣雷達觀測上,主要開展了異?;夭ㄗR別、雷達回波外推、水凝物相態識別等應用研究[5-14]。在數值天氣預報上,從數據預處理、數據同化到預報和預測后的處理和校正,都已經進行了機器學習算法的應用研究[1,15-18]。此外,人工智能技術在強對流天氣的監測和預警[19-21]、衛星資料的應用[22-24]、氣候預測[25]和農業氣象[26]等方向也都取得了系列研究成果。
綜上所述,目前人工智能技術在氣象領域的應用主要集中在氣象觀測、數值天氣預報、強對流天氣識別預警及衛星資料應用四個方面,但是在氣象裝備保障方向的應用還尚未開展。論文舉例分析了人工智能技術在氣象裝備保障中的應用場景,并依托百度EasyDL 開發平臺建立實驗模型,對應用效果進行驗證。
EasyDL 是百度推出的人工智能開發平臺,內置百度超大規模預訓練模型和自研AutoDL 技術,只需少量數據就能訓練出高精度模型,適用于AI 零算法基礎或追求高效率開發的用戶。根據應用場景及深度學習的技術方向,EasyDL 產品可分為6 大類,分別是:EasyDL 圖像、EasyDL 文本、EasyDL 語音、EasyDL OCR、EasyDL 視頻和EasyDL 結構化數據。其中,EasyDL 圖像定制基于圖像進行多樣化分析的AI 模型,實現圖像內容理解分類、圖中物體檢測定位等,適用于圖片內容檢索、安防監控、工業質檢等場景;EasyDL 文本基于百度大腦文心領先的語義理解技術,提供一整套NLP 定制與應用能力,廣泛應用于文本分類、文本實體抽取、情感傾向分析及短文本相似度分析等場景;EasyDL 語音定制語音識別模型,適用于數據采集錄入、聲音分類等場景;EasyDL OCR 定制化訓練文字識別模型,結構化輸出關鍵字段內容,適用于證件照電子化審批、財稅報銷電子化等場景;EasyDL 視頻定制化分析視頻片段內容、跟蹤視頻中特定的目標對象,適用于視頻內容審核、人流/車流統計、養殖場牲畜移動軌跡分析等場景;EasyDL 結構化數據旨在幫助用戶通過機器學習技術從數據中發現潛在規律,從而對未來的變化趨勢進行預測,包含表格數據預測和時序預測兩個細分產品,適用于交通流量預測、價格預測等場景。
每年汛期結束后停止非稱重降水觀測,維護人員要給雨量筒加蓋保護設備;汛期開始前則要揭開雨量筒蓋,利于后續的降水觀測。目前區域站維護業務大多采取了外包服務,因此對外包公司是否及時進行了加/揭蓋維護需要開展業務檢查。由于區域站場地分散,一般采取抽查的方式,不但不能實現普查,且耗費的人力財力巨大。在業務場景安裝監控攝像頭,采用定時抓拍或手動抓拍方式采集雨量筒圖片,建立雨量筒加/揭蓋檢查模型,就可以實現區域站雨量筒是否加蓋和揭蓋的智能檢查,提高業務質量。雨量筒有無加蓋檢測圖像如圖1 所示。

圖1 雨量筒有無加蓋圖像Fig. 1 Pictures of rain gauge with or without the cover
當雨量筒中出現樹葉等異物時,常常會影響觀測結果的準確性,如帶來延時降水、降水偏小和無降水等情況,給氣象服務造成困擾。因此每當預報有天氣變化過程時,保障人員需要在過程前巡查和維護雨量筒;氣象服務人員則需要在過程結束后制作雨情報告等服務材料時,甄別數據的真實性,并將存疑的站點數據剔除掉。前者成本高、效率低,后者難度大、易出錯。在業務場景安裝監控攝像頭,建立雨量筒有無異物檢查模型,當預報有天氣變化過程時,保障人員抓拍現場圖片并自動識別雨量筒有無異物,隨后僅對識別結果為有異物的站點進行維護,能大大降低維護成本。當雨情出現后,氣象服務人員在制作服務材料前抓拍現場圖片,并自動識別雨量筒有無異物,將模型識別為有異物的站點數據剔除掉,能確保材料的準確性,有效提高服務質量。雨量筒有無異物檢測圖像如圖2 所示。

圖2 雨量筒有無異物圖像Fig. 2 Pictures of rain gauge with or without foreign matters
當觀測設備出現故障的時候,常常會在觀測數據上有所體現,如缺測、跳變、數值偏低或偏高等。因此對觀測數據進行監控能夠實現對氣象觀測設備故障的監控。通過數據監控設備運行狀態的常規方法是設置閾值來檢驗觀測數據是否正常,但是閾值設置不當會影響監控方法的準確性,且閾值檢測是單點檢測,因觀測環境等因素引起的單個數值跳變容易引起設備故障的誤判。
另一方面,當觀測數據出現缺測和跳變等異常時,其觀測產品、如時間變化曲線等也往往出現異常,如圖3、圖4 所示。圖3 是正常和典型故障下氣溶膠觀測數據時間變化曲線圖。圖3(a)中,PM2.5觀測值長時間大于PM10 觀測值,是典型的倒掛故障;圖3(b)中,PM2.5 值一直沒有變化,是恒值故障;圖3(c)是正常的曲線圖。圖4 是正常和典型故障下土壤水分觀測數據時間變化曲線圖。圖4(a)是正常曲線;圖4(b)表示20 公分傳感器附近有個菜根引起數據跳變;圖4(c)表示10 公分傳感器故障導致數據偏小且跳變。鑒于正常曲線和典型故障曲線的明顯區別,將觀測數據按模板制作成數據產品,隨后應用基于深度學習的圖像識別技術,建立設備故障智能監控模型,可對設備的運行狀態進行實時監控和預警。

圖3 正常和典型故障下氣溶膠觀測數據曲線圖Fig. 3 Curve of aerosol observation data under normal situation and typical faults

圖4 正常和典型故障下自動土壤水分觀測數據曲線圖Fig. 4 Curve of automatic soil moisture observation data under normal situation and typical faults
使用EasyDL 平臺建立AI 模型的步驟如圖5 所示。在建模之前,需要有效分析和拆解業務需求,然后選擇合適的產品類型。如,針對雨量筒有無異物檢查的業務需求,可以通過EasyDL 產品中的圖像模型進行判斷;針對預測備件消耗數量的業務需求,則可以通過EasyDL 產品中的結構化數據來進行建模預測。有的業務需求含有多個業務功能,且每個功能適用的產品不同,這時就需要對業務需求進行拆解,并針對每個業務功能分別建模,綜合應用多個模型來滿足業務需要。

圖5 AI 模型建立流程Fig. 5 Flow chart of AI model establishment
研究可知,基于EasyDL 平臺開發,確定了產品類型就相當于確定了算法,因此接下來需要進行的就是數據收集工作。采集數據后,可以通過EasyDL在線標注工具或線下利用其他標注工具對已有的數據進行標注。如上述雨量筒有無異物的模型,需要將采集圖片按照有異物和無異物兩類進行分類標注。
數據準備好后,在EasyDL 平臺根據向導填寫模型名稱、應用場景和功能描述等信息創建模型。模型建好后加入數據集進行訓練,根據數據集大小及訓練環境等因素,模型訓練時間從幾分鐘到幾小時不等。模型訓練完成后,百度平臺自動生成了評估報告,查看評估報告初步了解模型的效果。為了進一步驗證模型效果,可以通過平臺提供的校驗功能,對模型效果進行測試。測試結果可用的模型就可以申請發布,并在業務系統的運行中調入使用;測試結果不理想的模型則需要增加數據集繼續訓練,直到測試結果可用后發布。
論文基于百度EasyDL 平臺的圖像分類產品,通過在區域站安裝攝像頭,采集了區域站雨量筒圖片500 張,訓練了雨量筒是否加蓋和雨量筒是否有異物兩個模型。通過中國氣象局氣象探測中心開發的數據質量控制系統-天衡,采集了氣溶膠質量濃度時間變化曲線圖片150 張,訓練了氣溶膠觀測設備故障識別模型。
3 個模型的檢測效果見表1。表1 中,準確率是指正確分類的樣本數與總樣本數之比,越接近1、模型效果越好。就某類別而言,精確率是正確預測為該類別的樣本數與預測為該類別的總樣本數之比,指標越高、誤識別率越低;召回率是正確預測為該類別的樣本數與該類別的樣本數之比,指標越高、漏識別率越低;F1-score是精確率和召回率的調和平均數,其值越高、模型效果越好。
由表1 可以看出,雨量筒是否加蓋和是否有異物的識別模型效果較好,準確率達到或接近100%,而氣溶膠觀測設備故障識別模型由于設置的故障分類較多,訓練的圖片樣本數量又偏少等原因,準確率偏低,模型需要進一步優化。

表1 模型效果評估表Tab.1 Evaluation sheet of models effect %
(1)百度EasyDL 開發平臺提供了包括數據清洗、數據標注、訓練任務配置和調參、模型效果評估和模型部署等一站式服務,具有廣適配和高精度等優勢,平臺設計簡約,容易理解,適用于零基礎氣象業務人員開展人工智能技術的應用研究。
(2)隨著深度學習算法的突破,人工智能技術在氣象領域的應用也在飛快發展。在觀測保障上,除了智能觀測方面的應用,人工智能技術未來在觀測業務質量檢查和智能保障方面也將會得到大規模應用。如應用圖像分類和物體檢測技術開展觀測環境的監控和預警,應用異常觀測產品識別方法開展數據質量控制和設備故障監控工作,應用時序預測模型開展備件消耗數量預測用于備件儲備指導等。
(3)基于百度EasyDL 平臺訓練的雨量筒是否加蓋、雨量筒是否有異物和氣溶膠觀測設備故障識別模型驗證了深度學習技術應用于氣象裝備保障領域的可行性。此外,前2 個模型的精度已經達到業務使用的要求,第3 個模型仍需要積累數據做進一步的優化。