(楊鵬,副教授,東南大學未來網絡研究中心副主任)
2017年12月29日,由全國中文新聞信息標準化技術委員會牽頭制定的中華人民共和國國家標準《統一內容標簽格式規范》,經國家質量監督檢驗檢疫總局、國家標準化管理委員會正式批準頒布,標準編號GB/T 35304-2017。該標準的主要起草單位包括東南大學、新華通訊社、國家新聞出版廣電總局、清華大學、大有數字資源有限公司和北京大學。統一內容標簽(Uniform Content Label,簡稱UCL)是我國科學家原創的內容元數據,國家標準《統一內容標簽格式規范》的正式頒布,為統一內容標簽技術的推廣、普及和應用,以及內容大數據的規范標引、高效共享與依法治理等,提供了關鍵的標準支持。
在2000年左右,中國工程院李幼平院士在深入研究互聯網信息共享方式及其缺陷的基礎上,提出了統一內容標簽UCL的概念。關于UCL的最初研究成果主要發表在《中國工程科學》和《電視技術》等雜志上。2002年,《中國傳媒科技》陸續發表了李幼平院士和新華通訊社孫寶傳同志關于后萬維網時代和第五媒體“猜想”的對話,對UCL及新型信息共享網絡進行了早期較為系統的闡述。自統一內容標簽UCL概念提出以來,經過李幼平院士與多位科學家、領域專家和研究人員等的多年研究和應用實踐,它的內涵和外延得到不斷豐富和完善。
統一內容標簽主要在統一資源定位符URL(Uniform Resource Locator)的基礎上發展而來。URL是互聯網的基礎,互聯網中的各種信息資源都是按照URL地址符(“Locator”)進行組織。URL的提出及標準化極大推動了互聯網的發展,但是URL通常只能表示信息資源的位置,無法描述信息資源的豐富語義,由此帶來互聯網信息資源難找、難管、失序等弊端。具體而言,互聯網的主要弊端表現為:有用信息不易尋找,個性需求無法滿足;網上內容難以有效治理,良莠不齊垃圾泛濫;網絡導讀嚴重缺失,輿論導向難以落實等。盡管Tim Berners-Lee提出了語義網(Semantic Web)概念,試圖使Web變成能夠自動理解詞語和概念、以及它們之間邏輯關系的智能網絡,但是語義網實現起來非常困難。統一內容標簽從互聯網中內容資源難找、難管和失序等問題的根本癥結入手,兼顧了內容共享應用中的三個重要角色(讀者、作者和管理者),能夠有效彌補統一資源定位符URL的語義缺失和管理缺失。
關于統一內容標簽的研究,與我國近年來若干重大戰略需求緊密相關。互聯網已經成為網絡空間的主要載體,與此同時,互聯網的缺陷和不足日益顯露。我國政府發出“用好互聯網,管好互聯網”的號召,提倡采用“三網融合”營造國家公共文化服務體系。2013年11月,全面深化改革若干重大問題的決定,指出要“促進基本公共文化服務標準化、均等化”,在此基礎上“構建現代公共文化服務體系”;同時,要“確保國家網絡和信息安全”。2014年2月,中央網絡安全和信息化領導小組第一次會議指出,沒有網絡安全就沒有國家安全,沒有信息化就沒有現代化,網絡安全和信息化是一體之兩翼、驅動之雙輪,我們要從網絡大國建設成為網絡強國。2015年12月,第二屆世界互聯網大會指出,依法開展網絡空間治理,網絡空間日漸清朗,國際社會應該加強對話合作,推動互聯網全球治理體系變革,構建網絡空間命運共同體。2016年4月,網絡安全和信息化工作座談會指出,網絡空間是億萬民眾共同的精神家園,網絡空間天朗氣清、生態良好,符合人民利益,網絡空間不是“法外之地”,要依法加強網絡空間治理。統一內容標簽充分考慮這些戰略需求,采取內容驅動的先進理念對內容標識進行了全新設計,形成生產、消費和管理三位一體的內容大數據創新標識體系,使之成為網絡空間新的內容基元。
此外,統一內容標簽的研究也與媒體領域的最新發展趨勢緊密關聯。2015年6月,蘋果公司在Apple全球開發者大會上推出Apple News,它可以為iOS用戶提供新聞內容定制服務,熱門網站和報紙的內容都可以按用戶需求出現在Apple News中;Facebook也在同時期推出了交互式媒體內容創建和發布工具Instant Articles。2015年10月,國際著名媒體紐約時報(New York Times)為了應對蘋果公司和Facebook等進軍傳媒業的挑戰,提出研制“新聞編碼”(Particles Code),通過可檢索的“新聞編碼”來實現累積性新聞(accumulative news),把新聞報道按照時間軸和知識點進行組織。我國政府高度重視互聯網時代媒體融合與轉型的新趨勢,中央《關于推動傳統媒體和新興媒體融合發展的指導意見》明確提出,堅持傳統媒體和新興媒體優勢互補、一體發展,推動傳統媒體和新興媒體在內容、渠道、平臺、經營、管理等方面的深度融合。統一內容標簽順應傳統媒體、新興媒體、以及互聯網等領域的發展趨勢,按照媒體融合發展要求著力支持內容信息的聚合、傳播、管理和個性化服務等,注重提高海量內容的匯聚和分析能力,建立“內容自尋網民”的主動服務機制。
東南大學李幼平院士團隊關于統一內容標簽的研究工作,受到全國中文新聞信息標準化技術委員會的高度重視,從2013年開始推動統一內容標簽的標準化工作。在此過程中,國家若干重要戰略需求和媒體領域最新發展趨勢得到充分重視,并通過不斷發展和完善,體現在剛剛頒布的統一內容標簽國家標準中。
考慮到統一內容標簽自2000年以來已經過十余年研究和發展,其核心思想和主體結構已趨成熟,李幼平院士從2013年初開始籌劃統一內容標簽的標準化工作,并帶領東南大學未來網絡研究中心團隊進行了大量準備工作。2013年11月,在全國中文新聞信息標準化技術委員會第二次主任辦公會上,明確提出“籌建‘統一內容標簽標準工作組’,加快統一內容標簽技術標準的制定”的要求。2014年2月,新標委秘書處邀請李幼平院士擔任工作組顧問,正式成立“統一內容標簽標準工作組”,致力于統一內容標簽技術標準的制定和推廣工作。工作組主要由東南大學、新華通訊社、國家新聞出版廣電總局、清華大學、大有數字資源有限公司和北京大學等機構的專家學者組成。
統一內容標簽標準工作組自成立后,迅速開始著手研制統一內容標簽的核心標準《統一內容標簽(UCL)格式規范》。2014年3月,統一內容標簽標準工作組召開第一次會議,討論和審議了工作組關于統一內容標簽(UCL)研究進展及標準研制工作的報告,圍繞統一內容標簽中代碼部分和屬性部分的格式展開討論,并達成一致。在此基礎上,工作組整理匯總了前期UCL技術的主要研究成果,組織召開了多次討論會,并對國內外相關技術標準進行深入研究,在充分吸收各方意見建議后,由多名起草專家協同工作、聯合攻關,于2014年5月初完成《統一內容標簽(UCL)格式規范(征求意見稿)》的起草工作。隨后又進行了廣泛的意見征求,經修改完善后形成標準送審稿,于2014年8月順利通過標準審查會的審查,并于2015年1月正式發布成為新華社技術標準。
以新華社技術標準《統一內容標簽(UCL)格式規范》為基礎,2015年3月新標委秘書處上報國家標準化管理委員會申請國家標準立項,國家標準化管理委員會在2015年7月正式批準UCL國家標準立項。其后的兩年多時間,工作組圍繞統一內容標簽國家標準編制工作,多次召開工作組會議和院士專家咨詢研討會,不斷吸納媒體融合發展、網絡空間安全、互聯網內容治理等新的需求,從UCL描述完備性和結構靈活性方面對標準文本進行了創新性修改和完善,先后完成了統一內容標簽推薦性國家標準復審、國家標準《統一內容標簽格式規范》征求意見稿、送審稿和報批稿,在2017年5月報送國家標準化管理委員。2017年12月29日,經國家質量監督檢驗檢疫總局、國家標準化管理委員會批準,《統一內容標簽格式規范》正式頒布成為中華人民共和國國家標準,標準編號為GB/T 35304-2017,標準正式實施時間為2018年4月1日。
國家標準《統一內容標簽格式規范》按照科學、完善的方法定義了UCL數據包的基本格式,包括各個域的名稱、含義及定義規則等。UCL數據包主要分成前后兩個部分,分別為UCL代碼(UCL Code)部分和UCL屬性(UCL Properties)部分。UCL代碼部分儲存與內容相關的代碼信息,用于面向讀者的快速導航,主要的域包括版本、媒體類型、優先級與策略、內容來源、一級類別、二級類別、話題、內容版權與類型、安全能級碼、語種、時間戳、順序號等,標準規約了各個域的定義、位置、長度、取值、數據類型等格式信息。UCL屬性部分儲存與內容相關的語義信息和管理信息等,主要的域包括UCL屬性總頭部、內容標題、內容關鍵詞、內容摘要、內容作者、內容實體、傳播路徑、內容數字簽名、內容責任鏈、UCL包數字簽名等,標準規約了各個域的定義、屬性類別、屬性長度、屬性凈荷、凈荷數據類型等格式信息。
國家標準《統一內容標簽格式規范》瞄準我國未來信息共享網絡的發展目標,聚焦互聯網中內容難找、難管和失序等棘手問題,以互聯網思維和大數據思維為指導,為整合富類型、多渠道、寬領域的國家信息資源提供標準支持,成為富有中國特色的原創性內容大數據創新標識體系。大數據趨勢與互聯網飛速發展下的媒體變革,已經促使互聯網演變為“博大精深”內容大數據的集散地,實現全民科學享用內容大數據,必然面臨三個挑戰:內容共享如何普惠全民,內容服務如何安全可信,國家如何對內容依法治理。統一內容標簽國家標準是應對這些挑戰的利器,它可以提高內容大數據的聚合和分析能力,提升內容的傳播力和影響力,建立“以內容為中心”的普惠全民引導機制,為實現“加快構建輿論引導新格局”做出貢獻。
國家標準《統一內容標簽格式規范》聚焦和服務于我國現代公共文化服務體系、網絡空間安全與媒體融合發展等重大戰略需求,填補了我國傳媒科技領域和原創性內容元數據標準方面的重大空白。統一內容標簽國家標準適用于對傳媒、互聯網及相關行業中主要面向群體受眾的內容資源進行標引,其應用范圍不僅包括新聞網站、信息門戶、通訊社、廣播、電視、報刊、網絡媒體等新聞媒體,也包括應急廣播、內容聚合、輿情分析、版權保護等其他應用,并且已經在相關領域得到實際應用。與現有的各種內容元數據標準和內容標識技術方案相比,統一內容標簽具有理念先進、簡潔高效、結構靈活等特點,可以從多個維度描述內容資源的語用、語義和管理信息,允許按照應用需求進行裁剪和自由擴展,能夠有效支持內容大數據的高效聚合與泛在分發、個性化主動服務、語義分析與知識萃取、認證注冊物證鏈管理、追蹤溯源與依法追責等,尤其在內容依法治理與網絡空間安全等方面具有顯著優勢。