尹建新,徐進苗,滿曉彤,張 玲
(中國電子科技集團公司第三研究所,北京 100016)
當前,隨著“全民自媒體時代”的到來,讀者觀眾面對海量媒體信息,在有限的注意力下,很難持續關注某一話題和內容源。這給傳統內容生產單位帶來了激烈的外部競爭和挑戰。業務專家作為單位的核心戰略資源,在長期的內容生產業務中積累了豐富的經驗智慧[1]。如何通過科學的方法萃取單位內部關鍵業務專家的經驗智慧并實現有效復用,生產高質量的多模態精品節目,成為提高單位核心競爭力的關鍵所在。
本文以多模態內容生產業務需求為牽引,以對專家智慧的萃取和業務復用為目的,從知識的挖掘、轉化、復用角度分析專家智慧的樣式、載體、轉移條件,并在萃取技術和復用模型方面進行設計和探析。
“知識冰山模型”將知識分類顯性知識和隱性知識兩類。顯性知識又稱明晰知識、外顯知識,是指能明確表達的知識[2]。顯性知識易于編碼,人們可以通過書本資料、期刊雜志、視聽媒體、軟件和數據庫等方式將顯性知識記錄下來供組織內部再次學習、應用和繼承。顯性知識相對容易保存,而隱性知識往往只能保存于人的大腦中。人的經驗、信念等知識是難以讓別人學習、共享的非編碼型知識,往往要通過人際、人機在特定場景環境下交流才能顯示出來,不易被挖掘。
專家智慧在“知識冰山模型”中的分布如圖1所示。從“知識冰山模型”來看,專家智慧中,顯性知識和隱性知識都有分布[3]。顯性知識包括陳述性知識(如某一專業領域的事實、重要概念、描述原則、理論方法等)和程序性知識(主要是完成內容生產所需要的行為和操作步驟,如某事實評論的文案腳本、某視頻生產工具使用習慣等)。隱性知識包括技能類知識(如創作思路、策劃理念、策劃經驗、預期效果的知覺判別)和心智類知識(如信念、觀點、洞察力、動機、感悟、心智模式等)。

圖1 專家智慧在“知識冰山模型”中的分布
對專家智慧的萃取和復用,就是對專家智慧的挖掘和共享。其核心是將隱性知識轉化為顯性知識并進行載體轉移[4](知識由人轉移到模型系統中)。專家智慧萃取復用業務路線如圖2 所示,共有4 個路線。

圖2 專家智慧萃取復用業務路線
(1)對專家歷史積累的成品文件、素材、工程文件等組成的顯性知識的萃取和復用。通過多模態語義提取技術對成品和素材進行挖掘,形成“標記的訓練語料”(以顯性知識為主),再通過聚類分析等方法匯入知識經驗模型。
(2)對專家大腦內的隱性知識,需要先結合多模態內容生產業務場景需求驅動生成特定的語料體系。通過人-機(人)問答體系、決策點設計等方式形成原始語料,再營造專用語境有效刺激專家大腦進行隱性知識表達,形成含有隱性知識的標記訓練語料。經過知識挖掘的“編碼”過程匯入知識經驗訓練模型,形成顯性的知識經驗。
(3)知識和經驗模型復用于多模態內容生產的策劃、生產、發布、內容效果評估反饋環節。
(4)專家智慧萃取到載體(知識經驗模型)并共享復用之后,模型進一步結合多模態內容生產和業務場景進行不斷的反饋和修正。通過調節語料、問答體系和決策點設計內容迭代調整形成良性循環,發揮專家智慧更大效用。
專家智慧萃取復用系統功能架構如圖3 所示。根據專家智慧的知識分布和載體特征,本文構建了專家智慧萃取子系統,對現有顯性知識進行挖掘直接形成語料,對隱性知識通過問答決策點設計、語料體系對隱性知識進行深度挖掘,最后形成知識經驗模型[5]。專家智慧復用子系統基于知識經驗模型在多模態內容策劃、生產、發布和效果評估反饋環節進行知識復用,整個工作形成一個閉環。

圖3 專家智慧萃取復用系統功能架構
3.1.1 語料體系
語料體系包含原始語料采集、數據預處理、標注體系、編碼轉換、語料分割以及標注語料庫管理等功能,整體流程如圖4 所示。

圖4 語料體系流程圖
原始語料采集依據多模態內容生產業務的場景需求,通過公有、私有多模態數據進行查詢匯聚。數據預處理對原始數據進行格式轉換、數據清洗、文檔分割。標注體系提供可視化數據標注接口,支持標注樣式設計、標注去重、統計分析以及可視化結果展現;支持按需進行編碼轉換和語料分割,對標記的訓練語料進行歸類管理,支撐知識經驗模型訓練。
3.1.2 顯性知識挖掘
顯性知識載體主要是專家歷史積累下來的多模態成品、素材和工程文件。顯性知識挖掘按照不同載體類型,進行知識提取和挖掘。成品和素材主要以音視圖文的形式存在。對不同的載體類型,使用不同技術進行知識抽取,具體技術如表1 所示。

表1 顯性知識載體類型及對應的內容抽取技術
3.1.3 問答和決策點設計
針對技能類隱性知識,可通過問答+決策點設計的方式挖掘。基于多模態內容生產的主題、生產環節,挖掘隱藏在流程內部的“決策點”,依據決策點形成與專家問答交流的語境。專家完成基于決策點的問答后,形成含有“隱性知識”標記的訓練語料。
3.1.4 隱性知識挖掘
針對心智類隱性知識(如信念、觀點、洞察力、動機、感悟、心智模式等),難以通過設計“決策點”實現,只能采用人-人直接交流的方式實現。首先,在適宜的交流環境中明確主題的背景語境,設計好話題和發言范圍,確定合適的交流時間、交流形式;其次,觸發家專家積極思考、主動表達;最后,形成含有專家心智類隱性知識的交流結果,如多模態、有標記的訪談記錄等。
3.1.5 知識經驗模型設計和訓練
知識經驗模型訓練架構如圖5 所示。知識經驗模型包含語料層、策略層、方法層以及知識經驗層4 層。語料層由文本抽取的語料、音視頻抽取的語料、工程文件的數據、標記的決策點數據以及標記的專家問答語料等模塊組成。策略層由提煉模板、數據分類、異常檢測、相似性/差異性以及反饋修正模塊組成。方法層由關聯算法、聚類算法、分類算法、預測算法、回歸算法以及序列分析算法組成。知識經驗層面向上層應用提供多維立體展示功能,由決策點、關系維、數據維及場景維組成。

圖5 知識經驗模型訓練架構圖
3.2.1 多模態內容策劃
多模態內容策劃結合模態內容生產任務要求,基于知識觀念模型提供的思路創意,自動生成文案腳本和視頻場景邏輯,支持知識觀念模型對制作內容的理解,依據視頻場景邏輯進行音視圖素材智能聚類準備。
3.2.2 多模態內容生產
多模態內容生產依據文案腳本調用文字生成引擎(如GPT 類軟件)、圖片生成引擎(如AIGC 類軟件),結合領域素材庫生成文字文案,基于知識觀念模型、文案進行評價和篩選。音視頻內容生產,依據視頻場景邏輯調用智能AI 生產能力,結合領域素材庫、工程文件庫,自動生成音視頻成片。
3.2.3 效果評估反饋
效果評估反饋模塊為每一個成品內容建立多維度效果預判矩陣參數。內容發布前,用知識經驗模型中學習到的專家智慧評價部分對內容進行預評價。內容發布后,用采集的真實效果數據修正效果預判矩陣參數。
通過本次探析發現,對專家智慧的萃取和復用,就是對專家智慧的挖掘和共享,其核心是將知識進行編碼和載體轉移(由專家大腦轉移到模型系統中)的過程。
從“知識冰山模型”來看,專家智慧中顯性知識部分(陳述性知識、程序性知識)已經儲存在成品文件、素材和工程文件中,通過各類內容抽取技術可實現較好的知識萃取。對于專家智慧中的技能類隱性知識,可以通過特定的語料、問答場景設計刺激專家大腦,生成含有隱性知識的標記語料,通過知識挖掘和編碼,進行顯性化的訓練。專家智慧中,心智類隱性知識的萃取難度最大,只能通過人-人交流的方式,在特定專題語境下,通過與專家交流,觸發專家主動思考表達,并由人完成對知識的編碼,生成音頻、文本、視頻等多模態訓練語料。專家智慧尤其是隱性知識部分很難充分挖掘,還需要建立基于業務的反饋修正模式,對新的載體-知識經驗模型進行迭代完善。
對專家智慧復用的關鍵是對專家智慧新的載體-知識經驗模型的充分利用。需要注意的是,專家智慧可能分落到全業務鏈,比如多模態內容生產的策劃、生產、發布、評估反饋各環節。挖掘全業務的“決策點”并結合問答語料存儲專家智慧,是有效實現智慧復用的關鍵環節。
專家智慧在提高單位競爭力反面具有十分重要的意義。本文分析了專家智慧在“知識冰山模型”中的分布特點,基于業務使用場景,提出了專家智慧萃取復用系統的設計框架,對進一步提高“模型載體”的作用進行了探析,為專家智慧挖掘共享提供了一種實現思路。