于紅雪,趙 鋒,賓小林
(中國電子科技集團公司第三研究所,北京 100016)
在過去的較長一段時間里,以電視臺、新聞機構、制作公司等媒體機構為代表的眾多單位,都已經建設并使用了媒體資產管理系統,但每天產生的海量媒體內容所帶來的硬件持續投入和有效地組織、存儲和檢索等使用方式、充分體現資產價值之間已經形成一對主要矛盾。這一矛盾的解決,已經成為一項極具挑戰性的工作。內容數字化保存容易,資產屬性的實現困難,已經擺在眾多擁有媒體資產的單位面前。近年來發展并被廣泛探索和實踐的知識圖譜作為一種有效的信息組織和處理工具,提供了解決這一困難問題的可能性。
知識圖譜是一種結構化的知識表示形式,通過實體和實體間的關系,對各種類型的信息進行有效組織。近年來,知識圖譜在信息檢索、推薦系統、自然語言處理等眾多領域得到了廣泛應用。其強大的信息整合、鏈接和推理能力,為解決復雜問題提供了新的視角和可能性。
本文將探索知識圖譜在媒體資產管理中的應用,嘗試解答如何利用知識圖譜優化媒體資產管理,提升媒體內容的檢索效率,增強媒體資產的使用價值等問題,或將有助于推動知識圖譜在媒體領域的應用,也為其他領域知識圖譜應用提供一定的借鑒。
知識圖譜(Knowledge Graph)起源于語義網(Semantic Web)的研究,最早由Google 公司于2012年提出并應用于其搜索引擎中,目的是提供更準確和豐富的搜索結果。它基于圖結構,其中的節點表示實體(如人、地點、物品等),邊則代表這些實體間的各種關系,是一種用于存儲信息的結構化模型,可以整合多源異構數據,便于機器理解并提供給用戶有價值的信息。
知識圖譜的構建主要包含知識抽取、知識融合及知識推理三個階段。知識抽取是從各種數據源(如文本、圖像、數據庫等)中識別、提取實體及其屬性和關系,知識融合是處理并解決來自不同數據源的沖突和矛盾,生成一致的、全面的知識圖譜;知識推理是基于已有的知識,進行邏輯推導,發現新的知識。
知識圖譜的關鍵特性包括統一數據、語義的理解、集成數據源以及跨數據實體映射關系的推理。
大多數媒體資產管理系統存儲和管理數據都是弱關聯的,在完成索引后,根據索引關鍵字進行查詢和使用。使用者的主觀意愿決定了媒體資產管理系統的使用價值,缺乏語境的組織和呈現時,媒體資產價值的呈現是隱性的,服務能力也是被動而淺顯的。知識圖譜完成統一數據的邏輯處理后,每個實體都有其特定的類型(如人、地點、事件等),每種關系也都有明確的定義。這種強語義的特性使得知識圖譜能夠理解并處理復雜的查詢和任務,而不僅僅是簡單的關鍵詞匹配。
媒體資產管理的內容涵蓋了還原現實的大量數據,有效地反映客觀事物所具備的數據形態及其復雜的相互聯系邏輯,必須具備語義理解能力,才能減少人們使用數據之前需要大量投入的識別、定義、關聯處理等工作的精力。知識圖譜自主創建的數據網絡可以完成已有數據和新產生數據之間的關聯處理,不需要對已有工作進行返工。
知識圖譜從數據中提取實體和上下文關系,通過智能的擬合推理,自動更新知識庫并響應數據變化,根據一定的結構和語義進行邏輯推導,發現并填補知識的空缺,從而提升知識的完整性和一致性。例如,岳云鵬是中國知名的喜劇演員和相聲藝術家,他的知識圖譜可以從多個方面進行建模和描述,如圖1 所示。首先,他的個人信息可以包括出生日期、出生地、籍貫等基本背景信息。其次,可以記錄他的作品名稱、與其他演員、導演等的合作關系。這些關系可以通過知識圖譜的邊來表示。通過建立岳云鵬的知識圖譜,可以更好地了解他的個人和職業生涯。未來,隨著更多信息的積累和技術的發展,岳云鵬的知識圖譜將不斷完善和擴展,為人們提供更多有關他的深入了解和應用價值。

圖1 岳云鵬知識圖譜
總的來說,知識圖譜能夠將碎片化、分散的信息集成到一個統一、結構化的框架中,提供更深層次、更全面的信息理解和應用,在有效地處理大規模的數據時不斷挖掘其中的價值,服務于各種復雜的任務和需求。如今,知識圖譜已經成為人工智能領域的一種重要工具,被廣泛應用在信息檢索、推薦系統、自然語言處理、數據挖掘等眾多領域。
媒體資產管理系統(Media Asset Management System,MAMS)是對音頻、視頻、圖片和文本等各種媒體資產進行集中存儲、管理和分發的信息化系統。在不同單位的各類應用場景中,MAMS 可以有效地利用和共享數字媒體資源,從而提升使用媒體資產各環節的工作效率,降低運營成本。
媒體系資產管理系統在IT 技術發展歷程中,已經在“采集、存儲、編目、自動標注、索引、搜索(查詢)、編輯、轉碼、分發和歸檔”等環節持續加深與人工智能引擎的對接和能力挖掘,對元數據的處理圍繞基本信息(如創建日期、作者等)、描述信息(如標題、摘要等)和技術信息(如格式、分辨率等)等維度持續拓展,多維服務能力不斷增長,很大程度上幫助用戶在不同業務場景中調用內容服務。然而,海量的多模態數據在某個維度上的數量增加,造成了精準檢索輸出的結果規模很大,內容之間的關聯關系無法一目了然,仍然需要人為花時間進行判斷。
很多用戶根據自己的應用場景對媒體內容進行組織和分類,根據需要創建文件夾、播放列表或項目,將相關的媒體資產組合在一起,希望達到便于管理和利用的目的,但總是不能滿足業務需求。
除此之外,MAMS 還可以與其他系統(如協同指揮系統、內容生產系統、版權管理系統、內容發布系統、運維管理系統、信息安全系統等)進行集成,實現全流程的媒體內容生產和發布。例如,新聞機構可以通過MAMS 將新聞報道的文字、圖片和視頻一同發布到網站或社交媒體上;電視臺可以通過MAMS將電視節目的錄制、編輯、播放和存檔等環節統一管理。在云計算和大數據的背景下,MAMS 的重要性越來越突出,也面臨更多的挑戰與問題,具體如下。
(1)從海量內容中尋找有價值的媒體資產訴求明確。隨著數字媒體的快速發展,每天都有大量的媒體內容產生。如何從這些海量的內容中快速、有效地找到有價值的媒體資產,是一項具有挑戰性的任務。傳統的基于關鍵詞的搜索方法難以滿足這種復雜和動態的檢索需求。
(2)個性化的媒體服務需求持續增加。隨著用戶需求的多樣化和個性化,如何根據用戶的興趣和行為,高效地管理和利用媒體資產,提供個性化的媒體服務,滿足各種商業和創新需求,是MAMS 面臨的一個重要挑戰。
媒體資產管理系統有效地組織、索引和檢索各類媒體資產,對于實現高效的媒體生產和分發具有至關重要的意義。知識圖譜,作為一種結構化的知識表示形式,為媒體資產管理提升服務能力、充分挖掘媒體資產價值提供了新的手段。
知識圖譜可以在很大程度上豐富媒體資產的元數據。在傳統的元數據管理中,元數據主要包括創建日期、作者、標題等基本信息。然而,這種靜態、平面化的元數據管理方式,難以表達和檢索復雜的語義信息。知識圖譜通過圖形結構,可以表達實體(如人物、事件、概念等)之間的復雜關系,使元數據管理具有更多的維度和更高的深度。例如,對于一部電影,知識圖譜不僅可以記錄電影的名字、導演和演員,還可以鏈接到電影的劇情、主題、評價等相關知識,為用戶提供多角度、不斷深入了解信息的路徑。
知識圖譜通過對媒體內容的深度語義分析,可以提升對媒體內容的理解和利用。在過去的很長一段時間內,媒體資產管理必須通過人工方式對內容進行理解和分析,從而形成元數據。對于元數據之間的關系,需要花更多的時間進行關聯處理。MAMS 好用與否,完全取決于元數據處理的詳細與否。在知識圖譜中,每個實體和關系都有明確的語義,可以表示復雜的事實和推理,通過機器學習和自然語言處理技術,可以從媒體內容中抽取出實體和關系,構建出與知識圖譜鏈接的語義網絡,實現對媒體內容的深度語義理解,大量節約了人工,提升了效率。例如,對于一篇關于岳云鵬主演《滿江紅》電影的報道,可以通過知識圖譜理解報道中的主要事件、相關人物和背景情況,以及他們之間的關系和影響,如圖2 所示。

圖2 媒體資源的深度理解
知識圖譜可以提供更個性化和智能化的內容推薦。傳統的內容推薦主要依據用戶的瀏覽歷史和興趣標簽,推薦相似的內容。然而,這種方式往往忽略了用戶的多樣性和動態性。知識圖譜可以構建用戶的興趣模型,根據用戶的行為和反饋,動態更新興趣模型,從而根據興趣模型和知識圖譜中的知識,推薦更符合用戶個性化需求的內容。
知識圖譜可以通過構建一種統一和高效的管理框架,優化媒體資產管理的采集、存儲、處理和分發各環節構成的工作流程。例如,在媒體資產的采集階段,可以通過知識圖譜自動識別和標注媒體內容的主要信息和關鍵概念,降低人工標注的成本和錯誤。在存儲階段,知識圖譜可以提供一種靈活的數據模型,支持媒體資產的多維度、多層次、多視角的組織和檢索。在處理階段,知識圖譜可以提供各種自動化的分析和處理工具,如實體鏈接、事件抽取、情感分析等。在分發階段,知識圖譜可以根據用戶的興趣模型和行為數據,提供個性化的內容推薦和導航。
知識圖譜還可以支持媒體資產的高級分析,如趨勢預測、社區檢測、影響力評估等。這些高級分析不僅可以幫助媒體機構理解媒體資產的使用情況和用戶需求,還可以指導媒體內容的創作和策略制定。例如,通過分析知識圖譜中的實體和關系的演變趨勢,可以預測未來的熱點話題和新聞事件。通過檢測知識圖譜中的社區結構,可以發現用戶的興趣群體和潛在需求。通過評估媒體內容在知識圖譜中的影響力,可以評價媒體內容的影響力和價值。
總的來說,知識圖譜在媒體資產管理中的應用,既可以提升媒體資產的管理效率和質量,也可以提供智能化和個性化的媒體服務,發掘新的業務機會和創新空間。但是,知識圖譜的應用也面臨一些挑戰,如知識圖譜的構建和維護成本、知識的實時更新、隱私和安全問題等,需要結合具體場景進行不斷的研究和實踐,尋找最佳的解決方案。
本文通過對知識圖譜和媒體資產管理系統基本概念的解讀,探討兩者的應用,得出結論:知識圖譜作為一種強大的語義工具,可以在諸多方面加強和優化媒體資產管理能力,并在媒體資產管理系統未來服務能力的可拓展空間上發掘機會。
盡管知識圖譜在媒體資產管理中的應用前景廣闊,但也存在一些挑戰和限制,如知識圖譜的構建和維護成本,知識的實時更新問題,以及隱私和安全問題等。此外,如何在保持知識圖譜的準確性和一致性的同時處理海量的媒體內容和用戶行為數據,也是一個待解決的問題。
未來,對于知識圖譜的研究可以圍繞以下幾個方向展開:一是結合人工智能大趨勢,充分評估ChatGPT 等先進應用技術發展的現狀,形成標準化遵循規范,以降低知識圖譜的構建和維護成本,提高知識圖譜的實時更新能力;二是在切實保護用戶隱私和保證數據安全的前提下,有效利用知識圖譜進一步提升媒體資產管理效能;三是開發新的算法和工具,以處理和分析大規模的媒體數據和用戶行為數據。這些研究將推動知識圖譜在媒體資產管理中的應用,也為相關領域的發展帶來新的啟示和機會。