張煒?季士妍

摘 要 新技術環境下網絡視聽服務蓬勃興起,深刻影響和推動公共文化服務行業的變革與發展。視聽資源是圖書館立體館藏資源體系的重要組成部分,與圖書館傳統的平面化文獻資源相比,其立體化的資源呈現形式更具感染力、親和力和傳播力。論文探討人工智能技術在圖書館視聽資源的應用場景、實現功能,特別對人工智能技術在視聽資源內容自動化識別、知識內容發現、知識體系構建、知識關聯服務等方面的探索與應用進行了探討,以期為其他機構在拓展智慧圖書館多維服務領域上開辟新的應用范圍提供思路與參考。
關鍵詞 人工智能;視聽資源;智慧化建設;知識圖譜
分類號 G255.73
DOI 10.16810/j.cnki.1672-514X.2024.03.008
Exploration of Intelligent Processing of Library Audiovisual Resources in AI Perspective
Zhang Wei, Ji Shiyan
Abstract In the new technological environment, online audiovisual services are booming, which are profoundly affecting and driving the change and development of the public cultural services sector. As an important part of the librarys three-dimensional collection resource system, audiovisual resources are different from the librarys traditional documentary resources. Audiovisual resources have a three-dimensional form of resource presentation, more infectious, affinity and dissemination. This paper discusses the application scenarios and realized functions of AI technology in library audiovisual resources. In particular, this paper discusses the exploration and application of AI technology in the automated identification of audiovisual resource content, knowledge content discovery, knowledge system construction, and knowledge association service. It is hoped that the research in this paper will provide ideas and references for other organizations that will open up a new range of applications in expanding the field of multidimensional services in smart libraries.
Keywords Artificial intelligence(AI). Audiovisual resources. Intelligence building. Knowledge graphs.
0 引言
為發揮人工智能技術在數字中國戰略中的重要作用,自2016年起我國就相繼出臺了《“互聯網+”人工智能三年行動實施方案》[1]《新一代人工智能發展規劃》[2]等一系列國家政策,部署構筑我國人工智能發展的先發優勢,并為2030年我國新一代人工智能發展指明了指導思想、戰略目標、重點任務和保障措施 [3]。2020年國家圖書館提出建設“全國智慧圖書館體系”的總體思路,2021年文化和旅游部發布《“十四五”公共文化服務體系建設規劃》明確了智慧圖書館的建設中要加強5G、區塊鏈、云計算、VR/AR/MR、物聯網、人工智能等高新技術的應用,不斷創新公共文化服務的應用場景,著力推動公共文化數字化建設[4]。國家相關政策出臺和行業的整體要求,為圖書館借助人工智能技術開展智慧化、智能化應用研究和實踐提供了堅實的政策保障。與此同時,人工智能技術的理論和技術日益成熟,已經在眾多行業中有較為成熟的探索、應用與實踐。ChatGPT和Gemini的相繼發布將AI的應用推廣到大眾視野中,阿里云的“通義千問”、百度“文心一言”、科大訊飛“訊飛星火”、字節科技“字節豆包”等,為國內AI技術的發展與應用提供了廣闊的前景。隨著智慧圖書館建設的如火如荼,人工智能技術在圖書館的應用將會越來越適配和成熟。
視聽資源是文化資源的重要組成部分,也是人們學習和娛樂的重要媒介,其借助聲音和影像技術增強文化的表現力,極大地提高了文化內容的感染力和吸引力,能更好地提升受眾的感官體驗,進而滿足現代人群對文化娛樂的需要[5]。現代公共文化服務已逐步與人工智能技術進行初步結合,數字內容的生產、傳播和服務機制正在發生重大變化,用戶需求也朝著多元化、微型化、碎片化、知識化、虛擬化方向發展。在這種背景下,傳統的單一的視頻播放形式已不能滿足新環境下的服務需求,而基于人工智能的數據挖掘、自然語言處理和自學習技術等信息分析和抽取手段,不僅能夠面向資源揭示深層次的內容特征,分析實體單元內部蘊含的語義以及實體間關聯展開數據處理,將本體、關聯數據、語義聚合、知識圖譜等動態關聯和組織“知識碎片”,又能消除多元異構數據差異,滿足多元智慧化的知識需求和服務,必將成為圖書館在新環境下提供知識表達和知識服務的新方向和思路。
1 國內外圖書館相關研究及實踐進展
圖書館是大眾獲取知識信息和社會教育的重要陣地,越來越多的公共圖書館開始重視利用和深度發掘館藏視聽資源,從視聽資源的數據描述和數據管理層面,從視聽資源與其他多種類型資源的多元異構數據描述和知識邏輯建立層面,均有一定的探索與實踐。在視聽資源的數據描述和管理方面,Europeana作為歐洲國家圖書館的數字資源門戶,聚合了來自歐洲圖書館和文化機構的關于包括視聽資源在內等多種圖書館對象的各種形式元數據[6]。針對數字視頻的大型項目《視頻開發計劃應用綱要》(Video Development Initiative Application Profile),制定了《基于都柏林核心元數據集構建數字視音頻資源的元數據應用綱要》(Guide:Dublin Core Application Profile for Digital Video),為數字視音頻資源的描述和管理提供統一的規則與定義。一些國際合作的項目,如聯邦機構數字化指南倡議、國際多媒體數字圖書館工程等對數字視音頻資源數據的描述和管理較為重視。2017年《聯邦機構數字指南倡議》(Federal Agencies Digital Guidelines Initiative)將原生性數字圖像和數字影音資源均納入項目范圍,并為廣播WAVE文件、數字靜態圖像等制定內嵌元數據指南,開發了BWF MetaEdit等工具方便用戶使用。基于元數據的統一管理,不同機構也開展了集成數字視音頻資源的知識化建設和服務。國家圖書館的戰“疫”記憶庫項目就利用算法、本體等對包括紀錄片、電影、公開課、網絡多媒體資源等多類型異構數據進行規范化清洗和語義標注,融合多維實體及關系,建立了與圖書館其他館藏、外購數據庫、開放數據集等的鏈接。上海圖書館搭建基于BIBFRAME本體設計的數字人文開放數據平臺,以關聯數據方式公開發布老電影庫、基礎知識庫以及本體詞表。2023年,國家圖書館聯合北京大學、字節跳動數字人文開放實驗室,開發了永樂大典高清影像數據庫,對部分內容進行知識標引,推出國家珍貴古籍名錄知識庫服務,以多維度知識圖譜等可視化形式,為用戶提供前所未有的典籍文化體驗[7]。
在應用服務方面,通過AI推動視聽服務模式的根本變革,全面加強文化服務的新鮮感和體驗感,進而共創協同發展的富媒體文化生態,是當前圖書館界的普遍共識。美國加州大學Fresno分校圖書館的Marianne對美國流媒體服務情況進行了深入分析后指出,疫情期間受到場所封閉的影響,在線流媒體服務以其多樣性和開放性得到快速發展,與此同時,相關研究論文和流媒體資源庫建設數量也大幅增長,并對流媒體服務趨勢進行了評判。美國埃默里亨利學院的Adam和Jody對基于短視頻社交網絡媒體平臺的服務進行了研究,并以TikTok為例,對學術圖書館文化服務模式、用戶互動機制、資源主題和效益評價進行了論述。印度沃森大學商學院的Samala等對基于OTT的視頻流媒體文化服務模式進行研究,并對用戶文化消費需求和影響文化服務效益的因素進行了評估。
隨著網絡視聽服務產業的快速發展,公共文化機構開始借助融媒體和智能化手段創新服務模式,擴大文化影響力。眾多公共文化機構借助社交視聽網站、網絡音視頻平臺等打造在線視聽服務,不僅在內容的選擇和整合方面發揮著重要作用,還積極與創作者緊密合作,為其提供資源和輔助支持,深入參與到優質內容創作中,通過活動、訪問、互動等形式推廣并提供優質服務。智能設備的普及為文化視聽服務的創新提供了新的契機,我國已有二十多家省級公共圖書館開展基于App的移動視頻服務和互聯網電視服務。此外,虛擬現實等技術也逐漸被業界重視,公共文化機構也逐漸將虛擬現實技術應用于文化視聽服務、虛擬展覽、虛擬演出等服務中,提供更加生動、互動和多樣化的觀看體驗。
國內一些公共圖書館已經開始利用人工智能技術進一步開展視聽資源內容的智能化組織和生成、知識發現和應用服務的探索與實踐,范圍包括自動化的內容分類和標注、智能化的搜索和推薦等。但是,人工智能技術在視聽資源建設領域的應用仍面臨一些挑戰和不足,例如:目前已有的算法模型對于獲取高質量的知識發現結果還存在差距;智能化的個性推薦與用戶興趣和需求的精準性和多樣性匹配還存在差距;在智能化的內容組織和服務中,版權保護的手段單一或被忽視。因此,已有的經驗和實踐基本停留在一個較為初級的淺層次的階段,未見有體系化和模式化的深層次實踐和應用成果。
2 AI助力下圖書館在視聽資源智慧化加工方式和服務模式的探索
隨著網絡通訊技術的發展,人們的閱讀和學習方式發生了根本改變,對知識化服務的需求越來越突出。圖書館利用人工智能技術提升視聽資源內容的自動化解析效率和正確率,挖掘視聽資源內在的知識架構、合理構建較為完善的領域知識體系,是當前從業人員較為關注并付諸研究和行動的方向。筆者以國家圖書館在視聽資源加工智慧化進程中的研究與實踐為例,從AI技術應用于視聽資源的自動化識別、視聽資源知識化挖掘和知識圖譜構建等角度分別進行探討。
2.1 將AI語音識別技術應用于視聽資源的自動化識別
以往圖書館對其所制作的視聽類資源均采用人工輔助識別的方式實現字幕文字的生產和管理,尤其在學術性、專業性較強,或者主講老師口音較重的情況下,需要投入大量的人力、時間成本,才能保障視頻資源的字幕的正確性。國家圖書館在公開課智慧化加工建設中,嘗試在AI技術助力下采用語音識別、自然語言處理等技術,對公開課講座視頻內容進行自動的語音識別操作,實現視音頻資源的文字化表示,最終生成符合視音頻資源數字化建設通用格式的字幕文件(SRT文件)。在公開課視頻資源的語音識別實現上,充分使用自動語音識別技術(Automatic Speech Recognition),匹配音頻分割、文本識別、自然語言理解及文本后處理等一系列算法的結合,實現了初始語音識別正確率達到90%。國圖公開課在內容上偏重人文、社科類的知識性講解,存在較大比例的專業名詞和專有知識,相較于普通的語音識別算法來說,初始識別正確率并不理想,因此在公開課智慧化加工建設中,將自學習的算法添加到語音識別的業務流程中,輔助以人工審核、反饋、自學習的處理流程,最終實現了自動語音識別的正確性達到99.7%。
2.2 以混合機器學習多種算法實現視聽資源的知識發現與構建
圖書館的公開課視聽資源包含大量的知識性內容,為了較為準確、完整地挖掘出公開課的顯性及隱含的知識,公開課智慧化加工建設中引用多個機器算法,通過算法相互結合、深度機器學習等技術,采用程序處理與專家人工審核相配合的模式,以人工反饋增強算法學習的能力螺旋上升的方式,逐步建設完成一個圖書館公開課領域的知識建設算法集。在知識內容發現的功能實現上,使用基于深度神經網絡模型 BERT + CRF 算法實現知識實體自動識別。根據公開課的內容,算法首先分析出核心知識點,并按照實體類型不同,自動提取出人物、機構、事件、地理、作品、自然實物共計六大類的知識實體,并完成實體的分類管理。在實體識別的同時,算法也通過分析講座內容、結合實體類別,自動提取出該實體多個屬性進行屬性填充。在自動實體識別和屬性構建的基礎上,公開課智慧化加工建設還針對視頻內容做了進一步的自然語言理解和算法控制,通過算法計算出與知識實體有較緊密知識關系的視頻內容片段,并且自動標注出知識內容片段的時間節點。在該算法的實現上,采用了“深度神經網絡進行監督學習,實體間信息使用信息概要抽取到隱層網絡進行表達,以分類方法對關系類型進行確定”的策略,由算法識別出不同實體之間的上下位關系,實體之間的領域關系及類別關系等,最終構造出實體與知識片段的關聯。在知識內容片段提取的基礎之上,算法還進一步細化知識提取的精細度,從公開課講座的內容出發,將與視頻講座語義最密切的人物、場景、專有名詞、專有文獻進行標注與管理,標注該實體出現的關鍵幀、切割出該實體對應的畫面,最終形成豐富的知識素材庫。為了更符合用戶對公開課的內容的理解,公開課智慧化加工建設也基于完整的講座內容進行了自然語言分析,采用基于詞的 TF-IDF 和語義模型相結合的算法實現關鍵詞提取[8],為每一場講座提煉出與講座內容最為貼合的關鍵詞詞集。在關鍵詞的處理上,首先按照名詞、動名詞和名詞短語等詞性進行選擇,再結合字詞左右信息熵計算,最終對于每一部課程、課程下面的每一個小節均由系統計算出與視頻內容最為接近的多個關鍵詞,輔以人工審核。人工審核結果反饋給算法,提高關鍵詞自動提取的準確度。
2.3 以智能知識圖譜實現知識體系結構的自動化立體呈現
公開課智慧化加工建設的成果,例如:主講人實體、機構組織實體、事件實體、地理實體、作品實體、自然實物實體與課程知識實體進行語義關聯,通過知識圖譜的形式形象地展示各類知識之間的顯性及隱形的知識關聯關系,為用戶提供知識關聯化服務是公開課智慧化加工建設的目標與成果。公開課智慧化加工建設提取出各類實體、實體間建立的知識關聯關系均采用圖數據庫進行存儲與管理;知識本體的構建采用自頂向下的建模方式,將公開課視頻中的信息資源、人物、機構、事件等資源內容,構建成公開課領域知識體系,并使用Jena API和OWL本體語言實現本體模型構建。本體建模效果如圖1所示。
在公開課本體模型的控制下,將公開課智慧化加工建設提取出各類實體和知識內容進行實例填充,最終形成一個較為體系化的公開課細粒度知識體系。隨著公開課視聽資源頻數量的不斷豐富和完善,知識圖譜的概念層和數據層將不斷迭代,內容和關系也將不斷優化和擴容。
2.4 基于智能語義檢索實現自然語言環境下的知識揭示
使用自然語言進行問詢是用戶最習慣的獲取信息的方式,因此基于自然語言的視頻檢索功能將扮演重要的角色。視頻自然語言檢索是為了為給一段自然語言描述,從海量的視聽資源中精準找到相匹配的視頻片段或關鍵畫面,包括對視頻的理解、對語言的理解,以及將兩種模態的理解進行匹配三部分[9]。國家圖書館在公開課智慧化加工建設中,結合機器學習、文本挖掘、自然語言處理等技術,重點研究基于視頻字幕數據的語義標注技術、基于知識組織體系的知識計算和關聯技術[10],以及基于深度學習的分析和知識推理技術,為從數據中發現知識及關聯關系提供核心算法與技術支撐,設計基于圖書館公開課領域知識計算和分析模型,目前嘗試了采取了圍繞實體進行關聯的方式進行自然語言檢索,實現了語義檢索的初步嘗試。
3 圖書館視聽資源智慧化建設與服務的思考
視聽產業正成為數字文化產業中最具有顯示度和增長性的產業之一,視聽資源規模和邊界不斷擴大,已經是數字經濟的重要價值元素和場景標配。當前,視聽進一步成為產業要素向各行業領域滲透融合,圖書館要推動大視聽模式高質量發展,還需要緊密結合先進技術實現整體推進和重點突破,不斷強弱項、補短板,主動加快視聽資源智慧化加工進程,從而帶動智慧圖書館資源知識化服務的高質量發展。
3.1 對視聽資源的內容及知識進行持續深入分析與解構
公共圖書館所擁有的海量視頻作為傳統文化的重要表達形式,其表現內容、表現形式及知識表達具有高度的直觀性和準確性,這與圖書館傳統的文本、圖片有較大區別。因此,要從視聽資源的內容表達特征入手,借助人工智能技術將語音識別、圖像識別、自然語言理解等技術應用在深入分析視聽資源的內容層次、準確理解視聽資源的知識架構上;借助語義網及外部的知識開放體系,解構視聽資源的知識實體、知識描述,用較為通用的專業術語進行描述,進而將以往視聽資源未表達出的知識內容充分地表達出來,為智慧化服務提供支撐。
3.2 不斷開展對視聽資源的語義知識體系進行構建與服務
圖書館擁有的優秀視聽資源是當前用戶欣然接受和希望接受的重要資源類型之一,因此,圖書館應該將對傳統文獻實施知識體系建設的范圍擴充化、豐富化、多維化,以圖書館視聽資源的圖像、文字、音頻為主要研究對象,開展多模態語義挖掘處理和語義聚合策略的研究與探索。在知識體系建設中,要充分利用人工智能技術針對圖像、音頻與視聽資源內容的融合,選取相適應的知識描述架構進行基于學習情境、易于知識表達的知識描述。
視聽資源具有內容表達多樣性、知識發現困難性、專業壁壘復雜性等特點,因此,圖書館在實施知識整序、融合管理上難度較大,亟需利用人工智能手段處理好視聽資源之間及其與其他類型資源之間在相融相促中出現的各種復雜性和不確定性,將其中豐富和新穎的表現形式、內容形式以及復雜的知識內容生產創造、知識信息交流方式、知識信息傳播方式、版權環境和管理利用方式、知識間內在聯系、關聯關系等系統地描述和組織起來,逐步實現智能化、知識化,形成泛在化和深度閱讀結合的良好生態。
3.3 重視并持續深化人工智能機器學習驅動的助力
隨著算力、預訓練模型和多模態技術的不斷匯聚發展,在自然語言和視聽領域將會涌現出大量人工智能生產的內容。但是目前,業界對人工智能生成內容(AIGC)技術的定義并沒有統一標準,不同領域、不同研究機構和學者對AIGC技術的定義和范圍也有所不同。一般來說,AIGC技術是通過AI技術(如機器學習、深度學習等)自動或半自動地生成內容的生產方式,生成內容包括但不限于文字、音頻、視頻、圖像等形式[11],隨著AIGC技術與PGC和UGC的結合,將大大提高PGC和UGC內容的生產效率和質量,在實現內容創作的自動化和智能化方面發揮更大的作用。目前AIGC技術仍存在一定的局限性,其算法和技術仍處于不斷發展和完善的過程中,可靠性和普適性仍有待進一步提高和加強。
圖書館要跟隨技術發展的趨勢,跟蹤業界應用模式,將AI、AIGC等技術應用到視聽資源智能化的生產和服務中,利用視覺認知機理算法的升級,通過建立視覺注意力統計學習計算模型和顯著性目標檢測新理論,完善視聽覺信息處理與計算,在自然語言理解方面與圖書館視聽資源的融合更加緊密和優化。此外,圖書館還應該發揮人工智能算法在視聽資源的空間、序列、時間、場景、物體和動作等知識的學習和積累,將AIGC的底層技術和產業生態的優勢,促進圖書館視聽資源的人工智能處理能力提升。
3.4 帶動業務場景和服務模式的創新與發展
在數字化技術及人工智能技術的加持下,圖書館館藏的視聽資源作為公眾較為喜愛和更易接納的資源形式,其業務場景和服務模式勢必要與公眾的娛樂學習和生活緊密結合,與圖書館其他類型資源的融合程度更加緊密和深入,進而促進圖書館在視聽資源的建設、管理與服務的各個環節產生迭代和質變。隨著生成對抗網絡(GAN)、變分自編碼器(VAE)等深度學習算法快速升級,人工智能技術驅動的圖像生成、視頻生成、語音生成等功能在圖書館視聽資源建設及內容重組方面會發揮更多作用。人工智能技術不僅實現圖書館的視頻剪輯、鏡頭編排、聲音圖像同步、語音合成等業務重組和發展,更可以將智能推薦、知識互動、精準識別、一對一需求服務模式精準落地,進而促進圖書館視聽資源的發現能力和知識服務能力,推動行業向智慧化、個性化、創新化方向發展。
4 結語
新時代的到來,對公共文化服務的智慧化、智能化要求更為迫切,作為創新文化服務模式的新探索,全國各級公共圖書館應秉承發展這個硬道理,聚焦人工智能技術在視聽資源智慧化建設中的巨大作用和推力,以此為突破口形成智慧化數字技術場景新范式和新實踐,不斷拓展智慧公共文化服務新應用。
參考文獻:
四部門關于印發《“互聯網+”人工智能三年行動實施方案》的通知[EB/OL].[ 2023-06-10].https://www.gov.cn/xinwen/2016-05/23/content_5075944.htm.
國務院印發《新一代人工智能發展規劃》[EB/OL].[2023-06-10]. https://www.gov.cn/xinwen/2017-07/20/content_5212064.htm.
黃一樑.智慧化開啟新型廣播未來[J].中國廣播電視學刊,2018(8):103-105.
《“十四五”公共文化服務體系建設規劃》:以文化繁榮助力鄉村振興[EB/OL]. [2023-06-20].https://www.gov.cn/xinwen/2021-06/23/content_5620454.htm.
張煒,敦文杰.國家圖書館影音視聽資源智慧化服務的實踐與思考[J].圖書館,2022(7):37-43.
About Europeana[EB/OL]. [2023-06-10].https://www.europeana.eu/en/about-us.
科技賦能,讓塵封已久的字符重新跳動[EB/OL].[2023-06-20]. https://baijiahao.baidu.com/s?id=1757342081130577289&wfr=spider&for=pc.
張麗,馬靜.融合詞語統計特征和語義信息的文本分類方法研究[J].計算機工程與科學,2021,43(7):1308-1315.
薛繼偉,劉濟塵,劉顯德,等.基于深度學習的視頻檢索方法研究[J].計算機與數字工程,2021,49(4):771-775.
黃永文,孫坦,趙瑞雪,等.大數據與人工智能
背景下新型知識服務研究與實踐[J].圖書情報工作,2022,66(19):36-46.
路遠,胡峰.AIGC技術在智慧廣電與網絡新視聽中的應用探析[J].影視制作,2023,29(3):43-47.
張 煒 國家圖書館研究館員。 北京,100081。
季士妍 國家圖書館研究館員。 北京,100081。
(收稿日期:2023-09-20 編校:陳安琪,謝艷秋)