(張鵬,清華大學計算機科學與技術系知識工程研究室資深工程師,清華數據科學研究院科技大數據研究中心研究員,研究領域包括文本數據挖掘和語義分析、知識圖譜構建和應用等)
當前新聞業務的發展對基于事件的報道管理和稿件組織有著迫切的需求,但國內正在使用的各種新聞標準和采編系統均沒有從系統設計上很好地滿足這種需求。另一方面,根據建立多媒體業態發展的需要,新聞產品及資源需要提供更加多元化的展示方式。相比于傳統的按照時間順序展示新聞,按新聞主題事件組合展示的方式逐漸被廣泛使用。例如,以新聞事件為中心組織報道和稿件的編輯加工,以市場為導向進行新聞產品的生產,尤其是面向新興媒體用戶,提供滿足個性化需求、基于專題和突發事件的產品營銷和稿件展示方式。這一多媒體報道形式的轉變,要求新聞信息管理平臺能夠提供基于事件的新聞組織管理和展示方式。對此,國外通訊社(德新社、美聯社)已經建立相應的技術系統。IPTC發布的NewsML G2標準就是其中的代表性成果。
綜上,中文新聞事件標準的制定和應用已經是必然的趨勢。報道策劃和新聞事件信息置標語言(Reporting Planing and News Event Markup Language,以下簡稱REML)標準恰好滿足了以上對于新聞數據標準的需求,為實現適合新聞業務特點和發展要求的基于事件的新聞稿件組織模式、報道管理模式和新聞產品供稿模式提供了堅實的基礎,也填補了國內相關領域的一項空白。
REML標準的需求主要分為業務流程需求和數據需求兩個方面,其中,業務流程需求是根本,數據需求是對業務流程需求在元數據層面的具體化表現。
根據新聞事件報道的業務流程,大致上可以將新聞事件分為有計劃事件和突發事件兩種。兩種新聞事件在報道流程上略有不同。
1.1 有計劃事件報道流程
有計劃事件報道流程示意圖,如圖1所示。
如圖1所示,整個事件報道流程可以分為三個階段:準備、進行和結束。
(1)準備階段指事件報道還未開始,進行事件前的各項準備工作階段。該階段主要包括事件發起(確定事件的大致內容、時間表等信息),報道準備(確定參與事件報道工作的人力、設備等資源),報道組織(依據事件時間表和人力物力等資源,安排報道的詳細計劃)三個步驟。
(2)進行階段指事件報道已開始,隨時根據事件進展發布、更新事件相關信息的過程。該階段主要的工作內容就是根據實際報道工作過程中產生的各種反饋信息調整事件數據和報道組織數據,并及時發送給各個需求方。
(3)結束階段指事件報道已經終止,對報道工作進行后期總結、匯總和整理的過程。該階段的工作主要步驟是報道總結(對報道管理信息的統計分析),以及事件歸檔(將事件信息加工成完整成熟的事件知識庫詞條)。

圖 1 有計劃事件報道流程
1.2 突發事件報道流程
突發事件報道流程由于突發事件的特殊性,與有計劃事件報道流程的差異主要是基本沒有準備階段,進行階段和結束階段基本相同。突發事件報道流程示意圖,如圖2所示。

圖 2 突發事件報道流程
需要特殊說明的是,突發事件報道流程中,最開始發布事件時,由于時間緊迫,缺乏事先的準備,只有對事件本身的簡單描述,報道組織相關的數據,例如報道需要的人力物力、報道安排等都十分缺乏設置完全沒有。這些缺少的數據需要在進行階段不斷更新,甚至到結束階段視情況進行后期補充。
REML標準覆蓋的元數據主要分為兩類:事件元數據和報道元數據。
事件元數據定義了事件元數據指描述新聞事件本身的客觀元數據。一個事件的描述信息,包括一個通用的屬性集和一些特定于事件的屬性,并且這些屬性通過一個完整結構來包裝。通用的屬性集包括了事件的名稱、定義、標注以及事件與其他某個事件或者某個話題的關系。特定屬性包括了時間、發生狀態、訪問狀態信息、加入條件信息、主題信息、地點信息、參與者信息、組織者信息、聯系信息、語言信息、其他信息等內容。
報道元數據是指新聞事件報道之前或過程中產生的管理元數據。報道元數據應包含了報道人員、事件報道中需要使用的各種設備信息、報道任務等、以及提供者根據自己的需要利用自定義結構和元數據來提供額外的非標準信息。
2.1 研制過程
REML標準的研制工作從2012年6月正式啟動,經過近10個月的調研、分析、起草、驗證和修改過程,于2013年3月基本定稿,并完成標準文本。后經公開意見征集,收集了眾多新聞行業內外專家學者和企業技術工作者的反饋意見,并依此對標準文本進行了大規模增補修訂,最終于2017年完成全部國標送審和報批工作,于2017年12月底由國家標準委正式發布為國家標準。
標準的起草單位包括新華通訊社、清華大學、北京中科大洋科技發展股份有限公司、新奧特(北京)視頻技術有限公司、人民日報社、北京日報報業集團、解放軍報社、北京北大方正電子有限公司和中國傳媒大學等來自學術界、媒體、科技企業等多個領域的頂尖單位,起草人也囊括了媒體領域專家、學者教授、計算機技術專家以及眾多媒體一線工作者,確保了標準的研制過程既有理論高度,又切合行業實際情況。
標準的研制過程包括了需求收集分析、標準設計和起草、公開征求意見和修改以及應用測試等幾個階段。
在需求收集分析階段,標準起草小組成員廣泛調研了當前國內外相關的標準規范,收集了國內新聞領域的各種需求。在相關標準方面,IPTC國際標準組織發布的NewsML-G2中包含的EventsML-G2是相關性最大的工作;國內的國家標準GB/T 20092-2013 中文新聞信息置標語言(CNML)則是中文新聞信息標準領域最權威的技術標準之一。這兩項標準為REML標準的研制工作提供了良好的基礎和參考依據。與此同時,通過對國內新聞領域的相關需求收集,也獲得了眾多有價值的需求信息,包括:
(1)事件導向的新聞采編、管理流程,以及REML標準在上述流程中的地位和應用模式等。這方面的需求從根本上決定了REML標準的服務對象,業務模型和數據模型等各個方面。
(2)元數據模型的需求。從EventsML-G2標準的內容來看,IPTC標準組已經將事件導向的新聞工作流程中的各種可能都已經考慮的比較周全,但是在各種細節上,由于國情和語言、工作習慣上的差異可能會導致其元數據模型與實際應用需求間的各種差異。因此,有必要針對我國中文新聞環境下的特殊情況,考慮對其元數據模型進行必要的增補和修改。
(3)與CNML標準的配合。CNML標準已經成為中文新聞信息領域的國標,且已經獲得了業內大多數單位和企業的采納。REML標準的制定必須要緊密圍繞CNML標準,利用好CNML標準現有的各種有利條件。
從需求收集的結果來看,新需求主要集中在對報道管理系統的支持上。與EventsML-G2相比,REML標準既包括了面向新聞用戶的事件數據表示和應用,還兼顧了新聞生產者以事件為中心的全新新聞報道管理流程和規范。
依據上述需求,標準起草小組融合置標語言、語義網等技術,吸收EventsML-G2和CNML標準的優點,完成了REML標準的初步起草工作。起草稿既保證了與EventsML-G2和CNML標準的兼容性,又補充擴展了面向國內新聞行業專業需求的元數據和業務模型。
在之后的兩年多時間里,標準研制小組一邊征集各方專家對REML標準的建議和意見,一邊也積極與技術公司合作,將REML標準應用于實際新聞行業應用系統的開發中,通過實際的軟件開發和使用獲取更直接和更真實的反饋意見。通過對這些專家意見和應用測試反饋的仔細分析研判,標準起草小組對REML標準內容進行了持續不斷地升級修改,期間歷經近十個版本的迭代,最終形成相對穩定且實用的標準版本。
2.2 技術優勢
REML標準的研制過程其實是一次技術創新和思維方式改造的過程,才能保證標準在本領域中處于領先地位,并且在相當一段時間內仍然保持其生命力和應用價值。REML的技術優勢主要體現在如下幾個方面:
首先,REML標準的數據模型涵蓋了新聞事件和報道的策劃、生產、交換和管理等新聞事件數據的全生命周期,是一套完整的新聞事件信息數據解決方案。這點可以保證新聞事件數據在多個技術系統間實現自由流轉,而并不需要轉換,大大降低了數據使用和管理的成本,也降低了相關系統的開發難度。
其次,REML標準與現有中文新聞信息國家標準(例如中文新聞信息置標語言,CNML)之間有良好的兼容性,對已經采用了CNML標準的單位、系統來說都不存在任何顛覆性技術風險。
再次,REML標準采用了面向知識的語義技術,不僅可以描述新聞事件數據本身,還可以與外部知識庫進行關聯,進而實現新聞事件數據的語義化分析處理,甚至以此為基礎建立新聞事件知識庫。
2.3 應用及前景
REML標準的研發過程采用了更先進的“研制-應用”雙線螺旋式推進模式。該模式的優勢顯而易見,標準在研制過程中就充分考慮了實際應用的需要,并且通過實際應用對標準進行充分的驗證和修正,避免了標準高高在上,與實際應用脫節的問題。
隨著融媒體服務、知識服務和智能服務的概念在新聞領域逐漸興起和發展,新聞生產和利用逐漸向數據融合、知識融合的方向快速前進。新聞事件數據作為行業中最重要的知識和資產之一,必將成為各新聞媒體單位關注的重點。而REML標準的頒布實施,則從標準層面保證了新聞事件從生產端開始就是以高質量結構化的形式保存,并且能夠有效交換和傳輸,最后還能以語義數據的形式成為知識資產,為構建基于新聞事件知識的智能服務提供基礎。