999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

人工智能技術在新華社統一數據庫中的應用

2023-11-01 08:38:16孟慶玉
中國傳媒科技 2023年10期
關鍵詞:模態數據庫文本

孟慶玉

(新華社技術局,北京 100803)

1.背景

媒體融合是時代所向、大勢所趨。從《關于推動傳統媒體和新興媒體融合發展的指導意見》,到印發《關于加快推進媒體深度融合發展的意見》,媒體融合發展成為國家戰略。[1]2021 年新華社建社90 周年之際,習近平總書記給新華社的賀信中指出,新華社要“加快融合發展,加強對外傳播,努力建成國際一流新型全媒體機構”。

隨著數據井噴、算法進步以及算力突破,以ChatGPT 為代表的人工智能技術“一日千里,狂飆突進”,給傳媒業帶來巨大機遇和挑戰。2021 年11 月,人民日報社傳播內容認知國家重點實驗室與人民中科共同發布了面向內容安全的跨模態視頻搜索引擎“白澤”。2022 年7 月,“白澤”企業公共服務平臺正式發布。“白澤”實現了文本搜圖片、文本搜視頻、圖片搜視頻、視頻搜視頻、圖片搜文字、視頻搜文字等多元搜索功能。2022 年4 月,谷歌在移動端推出Multisearch,允許用戶同時輸入圖片和文本進行檢索。例如拍攝了模特一身橙色長裙的照片,輸入“綠色”文本,即可獲得綠色長裙的商品信息。5 月,谷歌推出“Multi-search near Me”,結合谷歌地圖進行檢索。統一數據庫是新華社大數據中心整合新華社新聞信息、報刊、文獻資料、圖片總匯、中國照片檔案館、新華網、電視節目視頻、移動新媒體等渠道資源,應用多種前沿的人工智能技術融匯而成的數據服務系統。本文將對大數據分析、預訓練大模型、多模態檢索等人工智能技術在統一數據庫中的應用進行闡述,并就未來發展趨勢進行探索與展望。

2.業務需求

新華社大數據中心存儲了15 個語種,近4.5 億條珍貴文本稿件和資料,2000 萬張照片、2.5 萬小時音視頻資料。傳統的檢索方式對圖片、視頻、音頻資源的搜索是基于稿件的標題或正文等信息,圖片、視頻、音頻自身的非結構化信息,沒有得到有效利用?;谖谋镜膫鹘y檢索在全媒體時代已逐漸陷入困境。手機拍了一張照片,新華社有相似的圖片和視頻嗎?有相關的文字報道嗎?如何精確檢索到“古特雷斯”的照片和視頻?新華社很多歷史音頻沒有同期聲文字,這些音頻如何檢索?

隨著傳媒格局和傳播形態的深刻變革,隨著新華社深入推進媒體融合、大力構建內外并重的工作格局,用戶迫切需要對視音頻自身的非結構信息結合文本信息實現聯合檢索,新聞內容生產和檢索服務需求呈現出從資料查詢到價值發現的趨勢,形態上呈現出從單一模態到多模態的發展態勢。經過深度的用戶需求調研,統一數據庫在優化傳統文字檢索服務基礎上,提供語義搜索、以圖搜圖、人像檢索、以圖搜視頻、音頻搜索音頻等多項多模態檢索服務,豐富了編輯記者信息搜索的方式。

3.技術應用

3.1 大數據技術強化數據分析

統一數據庫應用NLP 大數據分析技術對文本數據自動提取摘要、主題詞等新聞要素,實現聚類、敏感詞檢測、情感分析等數據處理;利用語音轉寫技術,將音視頻中的同期聲轉換為文本數據;應用人工智能技術對圖片、圖像進行OCR 文字的識別和人物、機構、場景、物體、顏色等新聞要素的標注。

3.1.1 報道專題庫

統一數據庫利用自動標注后的數據,按照新聞報道策劃自動生成兩會報道、元首外交、進博會和紀錄小康等專題數據庫產品,推動了新聞內容生產流程的自動化、智能化,實現了從單純的稿件管理到內容產品服務的升級跨越。打破了以往以分類為主的稿件展示形式,讓稿件真正“活起來”,達到“從業務角度整理數據,從用戶角度展示數據”。

3.1.2 綜合檢索

綜合搜索服務功能強大,應用廣泛,采用開源搜索數據庫ElasticSearch 作為基礎組件,實現業務需求全覆蓋。搜索服務支持多種類型的字段檢索,包括大文本、多值、單值、時間等多種類型。統一數據庫融合新聞文本、圖像OCR、語音同期聲以及人物、機構、場景等新聞要素字段提供搜索服務,提升了挖掘信息的能力。

綜合檢索服務支持中文、英文、日文、韓文等近二十種語言的檢索功能。針對不同的語言,經開發團隊進行特定分析,采用符合該語種特點的分詞器生成索引數據,并在檢索服務層面進行定制化開發。為提高中文檢索的準確度,項目組利用新華社稿件作為訓練數據集,采用lstm+crf 深度學習模型完成分詞模型的訓練工作,基于該分詞模型封裝的ElastiSearch 中文分析器在分詞的準確度方面較開源的Jieba、IK 分詞器有了明顯提升,顯著提升了中文檢索的準確性。為提高檢索結果的相關度,綜合檢索使用自研的相關度打分模型。該模型能夠顯著提高檢索服務的準確率和召回率,并支持多種排序方式,如相關度、時間等,以確保用戶“想找的”始終排在最前面。

3.2 多模態檢索

傳統的信息檢索以文本檢索為主,只能按照文本中的關鍵詞文本進行匹配檢索。隨著大模型時代的到來,圖片、視頻、音頻經過大模型處理后,將非結構化數據轉化為大模型向量。由于相似的圖片、視頻、音頻具有空間上相近的向量,結合大模型推理能力,就可以實現多模態、跨模態檢索。統一數據庫新推出的多模態檢索可以結合文本、圖像、音頻、視頻等多種媒體形式,為用戶提供更準確、豐富的檢索功能。

新華社大數據中心在多模態檢索方面布局較早,采用大模型特征提取和Milvus 向量檢索技術路線,利用特征提取技術,從圖片、音頻、視頻中提取圖片、人臉、音頻、視頻向量特征,存入Milvus 開源向量數據庫,基于Milvus 進行向量檢索;利用深度學習,基于新華社稿件訓練得到分詞模型,并運用到全文檢索引擎分析器,進一步提升了全文檢索的準確性和召回率。面向全媒體業務提供語義搜索、以圖搜圖、以圖搜視頻、人像檢索、音頻檢索、顏色篩選等多模態、跨模態的智能檢索功能。

圖1 多模態檢索技術架構示例圖

3.2.1 語義搜索

語義搜索包括語義搜圖和語義搜視頻,是指用自然語言以文本描述檢索到所需圖片或者視頻。媒體融合發展背景下,該功能是新聞編輯最為迫切的需求。傳統的文字編輯使用此功能后可以迅速達到新媒體編輯的要求。

預訓練大模型由于其極佳的性能和泛用性,已經成為人工智能領域通用的解決方案。統一數據庫中使用的多模態預訓練大模型技術是在國內通用領域基線模型ERNIE 基礎上,針對新華社稿件預訓練的研發成果。

傳統的視覺-語言預訓練技術基于單視角的對比學習,無法學習多種模態間和模態內的關聯性,我們采用了ERNIE-ViL 基于多視角對比學習的預訓練框架,基于新華社豐富的新聞媒體領域視覺/文本樣本,使用超大規模樣本無監督地進行跨模態對比學習訓練,訓練出能夠理解不同模態間和模態內媒體樣本關聯性的大模型。

在預測階段,我們將預訓練大模型部署為特征提取模式,對輸入的視頻、文本樣本,提取特征向量,再由調用方根據不同需求,送入向量數據庫作為待檢索樣本,或者作為搜索請求去向量數據庫檢索。訓練針對實時新聞數據的大模型,將多媒體樣本提取特征映射到統一的空間中,搭配相似度檢索技術完成無標簽樣本的通用語義稿件檢索。

開源預訓練大模型主要面向通用數據,往往對新聞樣本,尤其涉政樣本效果不佳,且對新聞概念難以及時理解分析。本項目面向新華社的權威媒體新聞業務,基于主流媒體新聞數據,側重涉政稿件內容,并增加特色訓練任務,如圖文匹配、組圖分類等,周期性地產出模型,確保模型對新聞數據的準確理解和分析,從而為新華社的權威媒體新聞業務提供更加準確、有效的多模態語義檢索服務。

經與百度公司協同客觀評測,本項目訓練后的模型在全領域稿件數據下,與國際通用的CLIP 架構模型對比,召回準確率提升一倍以上;與開源最佳的清華大學R2D2 對比,召回準確率提升約10%。在主流媒體側重的涉政類領域,與國際通用的CLIP 架構模型對比,召回準確率提升數倍;與開源最佳的清華大學R2D2 對比,召回準確率提升約70%。預訓練大模型技術的多模態檢索能力在行業中表現出最佳性能,顯示出其在自然語言處理領域的卓越能力。

3.2.2 圖片搜索

統一數據庫的圖片搜索包括以圖搜圖和以圖搜視頻。特別是以圖搜圖功能存在更多的使用場景,更是受到了記者編輯的極大歡迎。例如,上傳一張未知建筑或者未知場景的圖片可以快速在圖片庫中找到相似圖片,通過圖片庫中已經存在數據可以識別用戶上傳的圖片場景。

統一數據庫圖片搜索選用EfficientNetV2 模型對新華社2000 萬張的成品圖片進行了特征向量抽取,將特征結果存入向量數據庫,提供秒級檢索服務,處于行業領先水平。

以圖搜圖功能在技術選型上,通過對比Vgg16、ResNet50、EfficientNetV1、EfficientNetV2 等人工智能模型在新華社1800 萬圖片稿件測試下的效果,最終選擇EfficientNetV2 模型。

3.2.3 人像搜索

人像搜索在應用上和以圖搜圖有相似之處,算法上各有側重。統一數據庫的人像搜索采用最先進的MTCNN 人臉檢測算法。MTCNN 是一種多任務級聯卷積神經網絡,用以同時處理人臉檢測和人臉關鍵點定位問題。人臉檢測和人臉關鍵點檢測兩個任務之間往往存在著潛在的聯系,然而以往的方法都未將兩個任務有效的結合起來,MTCNN 充分利用兩個任務之間潛在的聯系,將人臉檢測和人臉關鍵點檢測同時進行,實現人臉檢測和5 個特征點的標定。這個算法在應用上準確率很高,達到了非常完美的效果。

3.2.4 音頻搜索

統一數據庫音頻處理采用DeepSpeaker 人工智能模型。同百度的DeepSpeech 模型和Google 的WaveNet相比,DeepSpeaker 具有更高的說話人識別準確率和更好的魯棒性。同時還具有良好的可擴展性,能夠不斷學習和適應新的語音和說話人,挖掘音頻波形中蘊含的說話人聲紋信息。在以新華社成品音頻稿件作為測試集的試驗中,超過90%的檢索結果于首位擊中目標音頻,展示出優越的檢索能力。

為提高音頻檢索的準確度,本項目根據新華社音頻稿件特點定制化設計音頻分幀算法,在錨定音頻片段時間位置的同時,實現單一人聲的分離和足量聲紋特征的保留,增強特征向量的表征能力和區分度。調優后的音頻處理算法相較于通用音頻檢索算法,更加適用于以新聞為基本內容的音頻的檢索,檢索精度優異,達到了先進水平。

4.探索與思考

通過統一數據庫在大數據分析、大模型、多模態檢索等方面的實踐探索,可以看到先進適用技術的潛力和價值。智慧中臺提供數智融合的大數據底座,大模型重塑生產傳播全流程,多模態檢索更快速準確獲取信息,改善用戶體驗,創造更多價值。本項目由于應用了側重不同場景的多種算法模型,前端應用需要花費資源對各種返回結果進行聚合才能更好的服務用戶。未來應加大力度研發將不同模態信息映射到一個統一特征表示空間下的算法準確率,以便優化系統架構,減少中間環節。在開源技術基礎上,設計并訓練一個符合傳媒業或者新華社特點和需求的生成式大模型,基于特定場景進行訓練和使用,將有助于提升新華社內容生產質量和效率,產生意想不到的效果。

新的功能服務上線,用戶需要花費時間來學習和適應。為減少學習成本,未來應依靠開源大模型自主研發對話式檢索,通過自然語言,進行深度交互,支持連續多輪對話,并在對話過程中記憶先前的對話信息,實現上下文理解。這將極大地提升用戶體驗,幫助受眾準確地表達他們的需求。

未來,多模態檢索應用場景還將延展到移動端檢索、媒資管理、內容安全、內容推薦、知識圖譜等更多領域。依托人工智能技術,新華社大數據平臺多模態檢索能力將不斷提升,持續為采編和營銷賦能。同時需要警惕,AIGC 技術的過度應用將給我國主流全媒體傳播體系在維護良好輿論環境和意識形態安全方面帶來挑戰。過度依賴AIGC 將改變互聯網的內容構成,人類原創內容和知識發現會逐步減少。據國際新聞媒體協會預測,到2030 年將有超過一半的在線內容由人工智能生產,其中絕大多數不會來自主流媒體或權威機構。

我們要充分發揮內容資源優勢,積極拓展宣傳陣地,不僅要鞏固自身作為傳統新聞輿論重鎮的地位,還將傳統媒體的影響力拓展到網絡空間,不斷推出具有自身特色的新媒體平臺和產品。

猜你喜歡
模態數據庫文本
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
主站蜘蛛池模板: 亚洲国产高清精品线久久| 日韩福利在线视频| 色国产视频| 久久福利网| 日日拍夜夜嗷嗷叫国产| 又粗又硬又大又爽免费视频播放| 狠狠色狠狠综合久久| 97国产精品视频自在拍| 国产精品久久久久鬼色| 国产高清在线丝袜精品一区 | 亚洲国产天堂久久综合| 精品视频一区在线观看| 亚洲欧美日韩中文字幕在线一区| 乱色熟女综合一区二区| 亚洲成人精品在线| 久久五月天国产自| 欧美性猛交一区二区三区| 69视频国产| 国产主播福利在线观看| 久久精品人人做人人爽电影蜜月| 欧美国产日产一区二区| 美女免费黄网站| 狠狠色综合网| 亚洲欧美在线看片AI| 91视频首页| 美女扒开下面流白浆在线试听| 国产精品极品美女自在线网站| 国产精品亚洲综合久久小说| 国产成人综合在线视频| 精品久久高清| 91www在线观看| 日本成人福利视频| 国产亚洲精品91| 亚洲中久无码永久在线观看软件| 国产在线第二页| 久久人搡人人玩人妻精品 | 亚洲一区精品视频在线 | 亚洲欧美另类专区| 日韩AV无码免费一二三区| 国产经典免费播放视频| 精品国产网| 无码 在线 在线| 依依成人精品无v国产| 国产69精品久久久久妇女| 永久在线播放| 精品福利视频网| 亚洲无线一二三四区男男| a级免费视频| 一本视频精品中文字幕| 国产成人1024精品| 国产性精品| 国产成人AV男人的天堂| 国产性爱网站| 欧美一区二区福利视频| 亚洲天堂2014| 国产网友愉拍精品视频| 免费99精品国产自在现线| 九色在线观看视频| 99ri国产在线| 性色一区| 亚洲aaa视频| 亚洲精品男人天堂| 91精品国产综合久久不国产大片| 国产日产欧美精品| 日韩欧美在线观看| 一本久道久久综合多人| 国产一级在线观看www色 | 日本少妇又色又爽又高潮| 国产流白浆视频| 国产迷奸在线看| 中文字幕人妻无码系列第三区| 无码粉嫩虎白一线天在线观看| 国产精品任我爽爆在线播放6080| 久久人妻xunleige无码| 国产熟睡乱子伦视频网站| 四虎精品黑人视频| a网站在线观看| 波多野结衣在线一区二区| 国产精品综合色区在线观看| 精品无码一区二区三区电影| 亚洲精品va| 国产网友愉拍精品视频|