王秀琴,梁中軍
(新疆氣象檔案館,新疆 830000)
大數據時代的到來,引發了全球范圍的技術變革,數據已成為國家基礎性戰略資源,掌握豐富的高價值數據資源日益成為搶占未來發展主動權的前提和保障。面對種類繁雜的數據信息,元數據在各類信息管理中得到廣泛應用。
元數據(Metadate)又稱中介數據,是用來描述數據的數據。主要是指描述數據屬性的信息,用來支持指示存儲位置、歷史數據、文件的生成時間和數據源等。
元數據自身的特性,使其具有提高信息查詢效率,提升信息完整性,為用戶使用信息提供判斷依據,實現信息高效利用等功能。目前,元數據在各學科、各行業中也得到了廣泛應用:元數據在信息系統中,通過說明數據內容、質量和其他有關特征,實現數據的檢索、維護,使元數據成為了電子文件的“身份證”[1];元數據是政府數據注冊管理和開放的重要基礎,通過建立多層級、易擴展的元數據結構體系,可提高不同政府部門與機構間、政府部門與非政府機構或組織間的互操作性,滿足不同的特定需求[2];在圖書館資源管理中,元數據格式包括信息資源集合、網絡信息資源、數字圖像及文獻等,元數據對資源、數據的全方位描述,成為信息資源、數據的搜索目錄,也是信息組織管理及保存的一種先進技術[3];在地理國情普查數據成果的管理中,可利用元數據實現普查數據的選擇、識別、組織、管理、開發、利用和評價,以確保數據的真實性、完整性和安全性[4]。
氣象檔案數據是為開展氣象業務布設的各類氣象臺站(含氣象衛星)觀測并積累的,以及利用各種途徑收集、存檔的各種載體形式的氣象資料及其整編、分析成果等。氣象檔案數據具有顯著的時間性、空間差異性和地域差異性,是中國歷史年代最長、保存最完整、最系統的地球信息資源[5]。而隨著氣象觀測技術的不斷發展,特別是高時空分辨力數據觀測技術的發展,氣象檔案數據多源頭、多種類、多格式和多處理環節等特點也日益凸顯,總體表現為以下幾個方面:
1)數據來源復雜:由于數據是在不同歷史時期由不同系統采集獲得,而傳統系統采用“煙筒”式建設,容易導致數據重復采集、不一致、不完整和準確性不高的問題,以及不同環節的數據管理缺失;
2)數據質量沒有保障:氣象數據種類多、源頭多,目前只對個別種類個別站點數據進行了有效的質量控制,其他數據處于弱管理狀態,數據可靠性無法得到保證;
3)數據不能有效應用:科研人員在實際工作中對數據的需求很大程度上得不到滿足,主要表現為數據匱乏,而這種匱乏,原因不在于缺少數據,而是數據很難被發現、獲取和認識,可用性得不到保障。
元數據是解決以上數據問題的有效途徑。元數據的本質與目標就是建立數據的聯系信息,對數據進行描述,實現快速檢索,提升數據質量的同時,為服務對象發現匹配資源。
文章擬從元數據在檔案數據存儲和應用中的作用出發,研究氣象檔案數據收集、管理和服務中元數據編制方法,提出元數據庫及元數據知識圖譜建設的應用思路,為氣象檔案數據管理提供參考。
基于氣象檔案數據應用的元數據設計遵循WMO(世界氣象組織)核心元數據標準,主要參考QX/T 514-2019《氣象檔案元數據》及QX/T 544-2020《氣象數據發現元數據》設計細則。
元數據作為管理信息,是數據及用戶之間的交流媒介,形成的元數據信息需具備可檢索查閱和可調用功能。元數據對數據準確、詳細地描述,將有效支撐數據檢索,也更加有利于用戶理解[6,7]。中國氣象局于2009年發布了氣象行業標準《氣象資料分類與編碼》,對氣象觀、探測資料的分類方法、類別及其編碼,以及根據分類進行氣象數據文件命名的方法進行了描述,目前已應用于氣象數據加工、交換、服務和存儲過程中。基于氣象資料分類編碼框架,參考氣象數據文件規則、規范,提取數據中包含的元數據信息,還原為直白描述,記錄為可擴展的置標語言(XML格式)的文件結構體,同時形成元數據信息庫,與業務系統通過接口實現連接訪問(圖1)。

圖1 元數據框架
以氣象應用為基礎的元數據,包括管理型和描述型兩部分內容。充分考慮氣象檔案數據的地域性、時間性等特點,以四級編碼中的一級和二級編碼為依據,建立管理型元數據清單,包括類別、內容、結構和命名方式等,用于了解整體數據。對管理型元數據進一步擴展分級,將各類別信息進行細化,四級編碼擴展到第三、四級,分別對每一種數據進行詳細信息描述,包括四級編碼、資料名稱、收集時間、內容說明、生產或加工中心、編碼格式、簡式報頭、文件名規則、頻次、時次、發布時間、資料覆蓋范圍、數據量、資料來源、入庫情況、服務方式、資料用戶、廣播通道和目錄等。
以原始格式氣象多普勒雷達基數據為例,對其元數據進行整理,步驟如下:根據四級編碼規則,氣象雷達在氣象資料大類中的簡碼是J,原始格式多普勒雷達基數據2級碼為J.0010,根據正則表達式匹配原則,對數據庫中的原始格式多普勒雷達基數據進行解析統計,可形成該類文件的管理元數據信息,即四級編碼、資料名稱、觀測站點、頻次、起止時間、資料覆蓋范圍和數據量等內容。
元數據詳細信息的整理步驟為:根據數據文件編碼格式和命名規范等相關說明文件,整理原始格式多普勒雷達基數據的內容說明、生產或加工中心、編碼格式、簡式報頭、文件名規則、資料來源、頻次、服務方式、資料用戶、廣播通道和目錄等。
將以上2類信息進行整合,即可得到原始格式多普勒雷達基數據元數據信息。
隨著信息社會對氣象業務需求的不斷增長,氣象檔案數據信息化建設已成為氣象事業可持續發展的重中之重。元數據是氣象信息化建設的基礎,是氣象檔案數據管理過程中用于資源組織及數據服務的基本工具。根據元數據的特征及其在氣象檔案數據管理中的必要性及可操作性,提出應用參考。
建立氣象檔案數據元數據庫是為更好地進行數據管理,數據元數據庫、數據存儲管理及數據服務3者之間的關系如圖2所示。

圖2 元數據信息關系
其中,數據元數據庫即是各類氣象數據的描述信息,并將元數據提交到元數據管理系統中。同時,數據管理人員及時更新元數據,使用戶能夠進行各類氣象數據的查詢;用戶根據查詢結果向數據管理人員提出數據申請。數據存儲管理系統根據用戶需求,檢索元數據信息,根據正則匹配原則,向用戶提供數據存儲系統中的相關數據。
知識圖譜技術屬于人工智能技術的一個分支[8]。2012年,谷歌首先提出知識圖譜的概念,知識圖譜作為一個知識庫,旨在提高其搜索引擎的能力。知識圖譜本質上是一種語義網,旨在描述真實世界中存在的各種實體或者概念,以及他們之間的關系[9]。
知識圖譜以圖為基本結構,各實體或者概念是圖譜的各節點結構,而實體或概念的屬性及其之間的相互關系構成各節點的邊結構。對于元數據知識圖譜而言,不同類型的數據就是一個實體,這些實體構成實體結點,數據的屬性構成語義節點,屬性值構成各節點的邊結構。將各節點關聯到一起,就會形成一個三元組的組合,如:雷達觀測數據—基數據—J.001.*。一個實體可以有多種屬性,相對應有多個屬性值,如地面氣象觀測日數據,可以有多種屬性,如頻次、資料來源、資料覆蓋范圍和服務方式等(圖3)。

圖3 地面氣象觀測日數據元數據知識圖譜
知識圖譜是元數據信息的圖形化展示,利用知識圖譜檢索技術,可提高元數據的查詢效率。用戶根據數據本身可查詢到數據的多種屬性,圖3中,用戶點擊地面氣象觀測日數據,即可同時獲取其多種屬性展示,根據需要,可查看相關內容。而不同數據也可能存在相同的屬性值,圖3中,通過懸浮的知識圖譜屬性值“文件分發”,就可查詢到通過文件分發方式獲取的氣象數據。通過元數據知識圖譜獲取相關數據信息,可提高氣象數據智能應用效率,極大地促進了氣象數據應用人員在實際工作中及時發現、認識數據。
文章針對信息時代,氣象檔案數據海量增加,傳統檔案數據管理方式已無法滿足信息處理和利用的需求問題,得出通過建立元數據信息庫及知識圖譜,實現檔案數據的有序存儲及查詢建議,為氣象檔案數據管理提供了參考。