鄭江平 渠寒花 王慕華 豐德恩 唐 衛
(中國氣象局公共氣象服務中心 北京 100081)
冬季奧林匹克運動會是世界規模最大的冬季綜合性運動會,2022年在北京、河北舉辦,比賽項目中冰上項目占30%,雪上項目占70%。冰雪項目與氣象條件關系密切,尤其是在室外的雪上項目,受氣象條件影響更大[1],如高山滑雪,對風速風向、能見度、溫度都有嚴格的要求。氣象是冬奧成功舉辦最關鍵因素之一[2]。冬奧氣象中心現場預報服務團隊負責在比賽之前和比賽之中分析、判斷、把握天氣,將專業預報結論以圖片、圖表或文字表述的氣象服務產品形式傳達給公眾、賽事組織及國際氣象專家,其中,以自然語言表述的氣象服務文本,因其直觀、形象、簡單易懂的特點,成為保障高質量冬奧氣象服務鏈條上必不可少的重要環節。目前,冬奧氣象服務文本由服務團隊基于觀測及模式預報產品人工編輯完成,文本生成效率不高;生成文本質量因編輯人員不同可能出現差異性,質量發生波動;冬奧賽事保障對英文表述文本需求迫切。面對冬奧氣象服務責任大、時間緊、任務重、質量要求高等特點,利用自然語言生成技術研究精準、高效的冬奧氣象服務文本自動生成技術,成為保障冬奧氣象服務成功的輔助手段之一。自然語言生成是人工智能和計算語言學的分支, 是基于語言信息處理的計算機模型,體系結構包括內容規劃(宏觀規劃)、微觀規劃(句子規劃)和表層生成3個基本功能模塊[3]。內容規劃確定內容并完成結構規劃,將句子規劃后的文本描述映射到文字、標點等方面,形成表層文本[4-5]。近年來,國內外陸續開展了自然語言文本生成研究與實踐,氣象領域也應用自然語言生成技術開展了氣象文本生成探索。FoG系統能夠生成雙語天氣預報文本[6],SumTime系統能夠生成海洋天氣預報文本[7],此外,英國阿伯丁大學的Reiter等[8]提出概率生成模型進行天氣語言文本的自動生成;相比之下國內相關領域的研究則開展較晚,2000年由上海交通大學研發的多語種天氣預報文本自動生成系統(MLWFA)[9]開啟了國內基于自然語言處理進行天氣文本自動生成的先河,吳煥萍等[10]提出了針對氣象落區文本語言生成的基本原理與流程。文本自動生成技術應用于國內奧運會及其他賽事氣象服務保障方面[11-12],李德泉等[13]基于TeX模版技術,介紹了奧運氣象文本自動化生成流程,服務于2008年北京奧運會、殘奧會氣象保障任務。
上述研究與實踐為冬奧氣象服務文本自動生成奠定了一定的研究基礎,但實現冬奧氣象服務文本自動生成仍需要解決一系列新情況新問題。首先,冬奧氣象服務是我國氣象服務首次保障國際冰雪賽事項目,需要新建冬奧賽事活動及氣象服務用語的專項語料庫。其次,雪上項目易受大風(強陣風)、強降雪、低能見度等天氣影響,需要提取建立冰雪賽事活動與高影響天氣條件的關鍵數據知識特征。另外,本文將首次嘗試運用篇章規劃技術構建文本自動生成模型,代替以往使用的模版技術。開展冬奧氣象服務文本自動生成關鍵技術研究,將滿足冬奧賽事項目應用場景和服務對象的特殊需求,并為今后各類大型冬季賽事氣象服務保障提供解決方案。
設計面向冬奧氣象服務的文本自動生成模型,需要從冬奧氣象服務場景出發,提取冬奧氣象服務文本自動生成的關鍵特征,涉及冬奧服務文本生成的輸入數據、基礎語料、句式結構、篇章結構和內容描述等特征(見圖1)。輸入數據特征方面,關注以點、線、面為屬性的冬奧賽區內特定賽點、場館、重要賽道及賽區的氣象要素的時空變化及天氣趨勢演變特征,以定性描述(如“increase”“be up to”)和定量描述為主(如“11~14 m/s”、“5~8℃”),其分析結果決定了文本內容的準確性;基礎語料方面,涉及大量的氣象要素類別及量級、賽事名詞、規則及句式描述等基礎語料;在文本結構方面:主要包括標題、生成時間、天氣實況及預報組成,文本結構清晰且比較固定;段落結構方面,英文文本表達,以天氣要素或賽事的名詞短語(np)、描述天氣變化的動詞短語(vp)、時態說明(tense)及表達時間、方位的副詞(advp)等構成;文本內容方面,涉及賽事監測預報范圍內重要關鍵點的天氣、氣溫、風速風向、積雪深度等要素,構成賽事天氣服務熱點,根據賽事安排、氣象觀測條件、天氣條件閾值而服務內容差異較大,文本描述的先后順序也因氣象要素與賽事服務緊密程度不同而變化,傳統的基于模板的、固定描述順序的氣象文本生成方法無法滿足需求。

圖1 冬奧氣象服務文本篇章結構特征及句式結構特征
針對以上需求,本文提出基于自然語言生成方法的冬奧氣象服務文本生成模型,結合冬奧服務數據和知識,形成從氣象大數據挖掘分析到知識建模、句式創作、自動生成的智能化文本生成流程,提升冬奧氣象服務精細化、自動化和智能化水平。
從模型設計來看,冬奧氣象服務文本自動生成的關鍵問題集中在冬奧專項語料庫、內容規劃、句式規劃及篇章結構規劃4個環節(見圖2)。

圖2 冬奧氣象服務文本自動生成模型
語料庫實體單元構成了冬奧氣象服務文本的基本單元,是冬奧服務領域的知識抽象與建模。通過對文本特征分析,挖掘出冬奧氣象服務的規律性特征及文本特性,以專項語料庫組織和管理文本相關時間變量、地理變量、方向變量、氣象要素變量及斷句結構、句式、段落及篇章結構等。由于冬奧氣象服務工作開始時間不長,初始語料的獲取主要有3種途徑:(1) 冬奧現場服務團隊提供的冬奧稿件樣例,主要包括服務團隊2018年項目測試中的文本樣例中獲取,樣本量較少;(2) 在線或歷史冬奧資料,利用公開數據集與歷史冬奧資料庫,利用在線分詞、文本挖掘技術進行語料提取,作為冬奧語料庫重要內容;(3) 歷史大量的氣象服務文本,開展中英文文本標注和分詞,提取具有共性的天氣變量、方向變量、句式結構等,作為對冬奧語料庫的有益補充。經規范化處理,初步形成冬奧氣象服務的專項語料庫,包括賽事名詞庫、冬奧知識規則庫、冬奧服務風險提示庫、文本語言連詞庫四類,形成的語料詞條及樣例見表1,并根據冬奧服務深入開展而不斷豐富。

表1 冬奧氣象專項語料庫詞條語料來源
從冬奧數據、知識挖掘出發,設計文本生成的自動化引擎從而完成文本內容規劃,將促使冬奧氣象服務文本生成過程從圍繞文本的主觀探索向圍繞服務熱點的啟發式流程轉變。包括氣象數據的時空特征分析提取、天氣服務熱點知識的獲取兩個方面。
冬奧氣象數據時空特征提取,將實時冬奧賽區所有觀測站逐10分鐘、1小時實況觀測數據,以及冬奧氣象服務團隊進行主觀訂正之后的0~24小時逐1小時、2~3天逐3小時、4~10天逐12小時預報結論數據通過一定模型轉化到空間區域上,結合冬奧氣象服務專項語料庫中各專用服務名詞和氣象站點時間、空間和要素值之間的關聯關系,構建冬奧氣象服務時空特征提取模型,確定氣象要素及相關量級,對氣象要素的時間、地點、強度等信息進行合理組織,解決從氣象數據到文本描述的生成問題,獲得文本內容規劃氣象要素類型、時空變化趨勢的描述信息[14]。包含氣象要素分級定性、區別性描述、時間對比分析、空間差異比較、可能性描述確定5大類文稿生產內容規劃文本特征提取。(1) 要素分級定性:通過對一種或者多種組合分析,對任意天氣現象進行更為精細的分級定性。例如根據天氣現象雪編碼和降水量提取降雪級別,不同降雪量可描述為{snow shower,light snow,moderate snow,heavy snow}。(2) 要素區別性描述:利用指標庫中專家經驗知識區分一種氣象要素在服務用語中更為貼切表述,進而增加服務用語的感情色彩。例如不同天氣條件下對氣溫區別性描述{freezing,cold,chilly,cool}。(3) 時間對比分析:利用歷史、實況和預報氣象數據對占據空間并隨時間變化的氣象要素強度進行時空統一推理,確定連續天氣過程已經或者將要持續的時間和變化幅度。統計分析結果將存入知識庫中,作為下時次開展時間對比分析參考依據。例如表示天氣過程發展變化的描述{drop,increase,over,decreas…}。(4) 空間差異比較:對同氣象要素值或變量分析在場館、賽道、賽區等不同地理空間位置所體現的差異性變化,尤其針對賽事高度關注的不同高度賽道風速風向、關鍵賽程能見度變化的精準分析,采用客觀化分析模型生成基于冬奧空間區域的氣象要素分布特征。例如賽道的起點和終點可描述為{Men’s downhill piste start,Men’s downhill piste end…}。(5) 可能性描述確定:綜合氣象要素覆蓋的賽區地理區域面積變化氣象要素量級,及疊加區域的持續范圍移動方向獲得天氣要素未來幾天加強或消逝的天氣變化趨勢,形成對賽區關注的降雪天氣發生可能性的描述{likely,probable,highly likely,almost certainly…},對表述賽場“可能性”描述短語的箱線圖,將90%<可能性≤100%時描述為“almost certainly”,以定量分析方法捕捉小尺度山地空間天氣要素的細微變化。
冬奧天氣服務熱點知識的獲取。從冬奧氣象中心《2022年冬奧會和冬殘奧會氣象服務需求分析報告(2017版)》中整理(見表2),同時結合與現場服務團隊中多年預報經驗的專家訪談后,獲得與賽事組織、氣象服務保障相關的經驗閾值和關聯規則。冬奧場景下的氣象服務知識表現為基礎氣象觀測因子與指標、規則及屬性值間的二元或三元關系。將知識內涵定義為持續時間范圍內氣象因子的分段函數,{氣溫,最高溫,最低溫,能見度,平均風,陣風,降雪…},將知識外延設計為冬奧賽事氣象服務風險服務等級的偏序集{無風險,風險藍色等級,風險黃色等級,風險紅色等級},結合謂詞邏輯和描述邏輯表示的形式化語言,利用形式概念分析多值背景模型轉換,實現多值背景向單值背景轉換,完成從冬奧數據特征到構建冬奧知識庫,實現冬奧知識計算和風險服務等級的挖掘。渠寒花等[15-16]前期將形式概念分析多值背景轉換、謂詞邏輯及OWL2描述規范研究應用于氣象服務領域,為本文工作提供了理論基礎和應用工具。

表2 部分冬奧賽事項目與天氣條件關系表

續表2
語言學理論是自然語言生成的理論基礎。將知識推理結果形成的詞、短語等內容規劃信息,輔以語言學的修辭關系,可以控制局部連貫性,生成自然語言句式。功能合一語法(FUG)是美國計算語言學家Martin Kay于1985年提出的用于自然語言處理的形式語法,后來成為應用最廣泛的形式語法之一。在語法中,詞條定義、句法規則、語義規則、句子的結構功能關系全部都由復雜特征集來表示,采用合一運算(unification)進行特征結構(feature structure,FS)的操作和推理?;舅枷胧禽斎胫付ㄌ卣鳎⑻卣髋c生成語法進行一致化,通過遞歸的矩陣運算,生成全部的特征結構及句式,這種語法既可用于自然語言的自動分析,又可用于自然語言的自動生成,是一種雙向性的語法,廣泛應用于計算機語言學、機器翻譯、自然語言理解與生成等領域。利用FUG理論,根據知識驅動引擎階段生成的詞、短語,加上修辭關系,可以優化組織信息內容,以增強局部連貫性。冬奧賽事服務文本的句式從特征結構來看,主要包括名詞短語(賽事項目名稱Alpine_Skiing、Sliding、Cross-countrySkiing,天氣要素名稱如the wind、the temperature)、動詞短語(天氣變化,如描述氣溫變化的rise、drop)、副詞短語(如描述風力持續時間from pm 6:00-9:00)等,表示了冬奧氣象服務領域的“謂詞-論元結構”的信息,在功能合一語法中將這些信息轉寫為功能描述的屬性值矩陣,作為自然語言生成系統的輸入,梳理形成天氣條件功能描述信息(見表3)。

表3 高山滑雪中心某日天氣條件功能描述
功能語法進行遞歸合一運算的過程,利用系統網絡結構的屬性矩陣,能夠處理過去、現在及將來時等不同時態的句子,表達動詞的及物性關系,保證句式主語和謂語的數的一致[17],符合冬奧服務文本生成的句式修辭關系要求。每個復雜短語成分的特征(如np、vp等)都有一個模式說明(pattern),而每個簡單成分的特征(如名詞、冠詞、動詞)都有一個詞匯說明(lex),通過模式指定句子中各個特征的描述順序,生成系統可以利用模式說明將功能描述線性化。用于生成句式的天氣服務短語特征結構列表,將用于生成的語法與輸入中的特征結構進行合一,采用多次回歸運算,生成全部的文本句式,批量句式生成需要借助英文自然語言自動生成系統,經過多次特征結構轉換和遞歸合一運算,形成文本的基本單元-句式,如“Visibility was good from today morning to afternoon.”“The wind speed will increase from 12th afternoon.”
文本篇章規劃是文本生成的一個不可或缺的組成部分,即采用計算機手段,確定所要生成的內容以及生成內容之間的邏輯關系,進行句式、段落及篇章結構的規劃、組織和生成。以往氣象服務文本的篇章規劃主要采用模板方式組織,通過提取文本中的共性特征進行固定化,如固定的標題、標注、圖片等,而將文本中的可變部分,如氣象信息等使用特定標簽標注開始和結束、由分析程序替換為最終產品,模板方法實現起來技術簡單,一定程度上滿足了定制服務需求,但存在模板風格單調、文本形式單一、模板應用場景可遷移性差的問題。
XML Schema是W3C組織于2001年推薦的模式設計語言。XML Schema提供了廣泛且可擴展的類與類型系統[18],其創建方法運用了面向對象的概念和機制,如全局和局部、繼承、擴展和替代、封裝和模塊等,定義的大量組件及面向對象方法,能夠定義出現在文檔中的元素、屬性、元素次序、元素數目、文本類型、混合內容等,約束XML文件邏輯結構,進行篇章結構的組織與管理。結合冬奧氣象服務文本結構分析,基于該模式設計文本句式結構、段落結構和篇章結構,并可針對未來需求進行擴展[18]??紤]到冬奧文本結構的層次性、內容的可擴展性和模塊的復雜性,本文在篇章結構設計中采用了結構化設計方法,而在段落對象的設計采用了面向對象的設計方法。將文本結構中的段落定義為模式對象,利用接口方式進行對象間交互,在冬奧服務文本中,對象可以是一個詞、詞語、句式或段落。設計多層嵌套封裝的層次,將句式定義為Schema的嵌套組件,同時將句式組件中的詞語、詞封裝為類型(相當于文本中的變量名)的全局組件,從而所有變量可被全局訪問和重用(相當于文本中的時間、要素變量值)。本文應用該模式在句式順序組織、同義句式多樣化表達和篇章結構的組織三方面實現了文本篇章的組織和生成:(1) 句式描述順序的組織。句式描述順序決定了段落的組織結構。氣象要素及數值量級的描述,與賽事及相關氣象條件密切相關,由特征引擎階段獲得的要素及量級的優先級確定,在模式生成時依據優先級類型加入索引標注,自動形成段落中天氣熱點句式組織。(2) 同義句式的多樣化表達。采用動態擾動進行同義短語替換能豐富語言表達方式,如,同是對于天氣晴朗的表述“fair,clear,sunny,bright”,預設多種表達方式,實現句式的同義替換,在自動化實現過程中,以

圖3 經XML Schema規劃的文本層次結構
綜合上述文本自動生成方法,對冬奧氣象服務文本的生成進行定時任務設置,利用Python編程實現,完成北京延慶賽區高山滑雪中心氣象服務文本自動生成,并在2019年—2020年現場服務團隊冬訓中得到應用、反饋(文本生成樣例見圖4)。

圖4 冬奧氣象服務文本模型自動生成樣例
開展文本自動生成評價有助于模型的完善和改進。借鑒國內外自然語言生成評價方法,結合冬奧服務文本應用場景,經與現場服務團隊協商,先期以準確度、流暢性和生成效率等3個指標評價模型質量。由于人工樣本量較少,技術團隊先后以文本比較、問卷調查、現場訪談方式,對比分析了2019年12月至2020年1月由現場服務人員和計算機分別生成的文本內容,得到初步結論:
(1) 自動生成的文本內容,在數據時空特征及天氣服務熱點信息提取方面準確率高,相較現場服務人員人工撰寫的服務文本更能精準獲取服務要點,同時能兼顧賽事其他重要氣象要素的描述,行文結構比較客觀。人工撰寫的文本會因預報員之間經驗差異,在數據分析結果、天氣熱點捕捉、文本內容撰寫方面體現出更多主觀性。
(2) 自然語言描述較為順暢,經功能語法規劃的英文句式表達,一定程度解決了從詞、短語生成句式的問題,能滿足服務產品基本要求。但整體來看,自動生成的句式以基礎單句為主,與人工撰寫相比,句式之間的邏輯性相對較弱,尤其對于階段總結性句式表達,常常需要服務團隊人工補充,這也是自然語言生成的難點所在。
(3) 文本自動生成效率高,從人工撰寫2小時縮短為分鐘級、秒級的自動生成,極大程度簡化了人工數據分析、對比、文本撰寫的工作量,得到現場服務人員的認可。
就文本自動生成模型試用和反饋來看,冬奧現場服務團隊總體認為文本生成效率較高,能對天氣服務熱點快速反應,形成初步滿足現場服務人員的實用性強的文本材料,可以作為現場服務文本材料初稿。
冬奧氣象服務文本自動文本生成,根據冬奧氣象服務需求及文本特征要求,旨在以精確、高效、自然語言表述的文本自動生成減輕現場氣象服務人員工作量,有效保障冬奧氣象服務時效性,提升氣象服務保障水平。以自然語言生成、功能語言學理論為指導,提出包含專項語料庫的語料收集與預處理,構建冬奧服務特征的驅動引擎實現服務熱點發現,利用功能合一運算進行文本句式生成,并基于XML Schema實現文本結構的組織和生成,形成了冬奧氣象服務文本生成解決方案,初步滿足測試賽期間服務人員需要,主要體現在:
(1) 提出冬奧氣象服務熱點知識快速發現及應用方法。以W3C描述邏輯為基礎,設計集數據特征時空分析、賽事閾值條件、服務指標的特征驅動引擎,通過智能推理應用形成賽事氣象服務熱點,使冬奧賽事氣象服務保障更有針對性。
(2) 實現了功能語言學在氣象服務文本生成中的應用。從功能語言學角度,研究氣象服務知識、短語、關鍵詞的語言組織,較傳統模板生成在核心知識表示準確度、自然語言表達流暢性方面有了很大進步。
(3) 形成文本自然語言表述多樣性技術的探索與應用?;赬ML Schema規劃的文本篇章結構規劃,尤其是動態擾動的句式組織,使區分不同日期、天氣條件、服務場景的自然語言表述成為可能,推動在描述風格、詞語表達上的技術創新。
文本生成研究將隨著冬奧氣象服務的推進不斷完善,深入應用分析反饋與定量評估將是下一步將要開展的工作。目前來看,本文在功能語言學文本表層生成技術方面尚未涉足。另外,研究將現有文本生成功能集成于冬奧現場氣象服務等業務系統中,形成文本輔助生成的工具供用戶使用也是下一階段工作將要考慮的重點。