999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多媒體信息檢索研究進展:從檢索到推薦再到生成

2021-06-23 08:06:48薛向陽
世界科學 2021年6期
關鍵詞:信息檢索語義模態

薛向陽

人類通過視覺、聽覺、觸覺、嗅覺等從周圍環境中獲取信息,大腦對這些感知信息進行加工實現認知能力,例如產生記憶和知識、進行聯想和想象,并用語言描述所見所聞和萬事萬物。在人類社會發展的歷史長河中,一直在探索利用外物對越來越多信息進行存儲和檢索。在計算機發明以前,主要借助紙張等對信息進行記載,并用關鍵詞索引進行檢索。計算機誕生之后,信息開始用文本、圖像、音頻和視頻等越來越多模態的數字媒體數據進行存儲。這些數據是計算機可讀的,但是并不是計算機可理解的,為了讓計算機從海量的多媒體數據中快速找到感興趣內容,20多年前,基于內容的多媒體信息檢索技術成為研究熱點,其研究重點是期望計算機能對多媒體數據的內容有一定的理解。近10年來,隨著深度學習技術取得突破性進展,除了檢索技術之外,多媒體信息推薦和內容生成成為新的熱點技術,今天計算機已經能為用戶精準推薦感興趣的多媒體信息,也能根據用戶意圖生成精彩的多媒體內容。

檢索

信息檢索任務有三個要素,即查詢項、數據集(或稱語料庫)和相似度計算,一個檢索任務需根據查詢項在數據集中尋找最相似的實例,例如文檔、圖片或網頁等。根據查詢項與查詢結果的可能模態,例如考慮文本和圖片兩個模態,可將檢索任務分為同模態檢索(文本到文本、圖片到圖片)和跨模態檢索(文本到圖片,圖片到文本)。

長期以來,文本是人類記載信息最重要的載體,文本到文本的檢索是信息檢索關注的首要問題。文本到文本的檢索通常以文本關鍵字作為查詢項,在包含大量文本文檔的數據集中檢索出最相關的那些文檔實例。較早提出的最有影響的文本檢索算法是TF-IDF,這里某單詞的詞頻TF(term frequency)定義為“該單詞在當前文檔中出現的總次數/當前文檔中所有詞出現的總次數”,逆文檔頻率IDF定義為“語料庫中文檔總數量/出現該單詞的文檔數量”的對數。假如以“信息檢索簡介”為查詢項Q,在一個文檔數量為10 000的數據集中進行檢索。首先,查詢項Q可表示成“信息檢索”和“簡介”兩個關鍵詞。假如D文檔包含100個單詞,其中“信息檢索”出現2次,“簡介”出現3次,數據集中包含“信息檢索”的文檔有4篇,包含“簡介”的文檔有1 000篇。那么查詢項Q與文檔D的相似度計算公式是:

雖然單從詞頻角度考慮,“簡介”在文檔D中的出現次數更多,但是考慮到“簡介”是一個常用詞,所以經過逆文檔頻率加權之后,“信息檢索”對于相關性的貢獻才是最大的。將查詢項Q和數據集中每一篇文檔Dj進行相似度計算,然后對相似度進行排序,就可以得到檢索結果。

如果將圖片作為查詢項到圖片數據集中查詢相似圖片,那么這種圖片到圖片的檢索又被稱為基于內容的圖像檢索技術(content-based image retrieval,CBIR)。在傳統方法中,利用手工設計的SIFT等算子提取表示圖像的視覺特征,再對特征使用聚類方法將所有聚類中心作為視覺詞典,接著用詞袋方法(bag of words)將圖片轉化為向量,通過度量向量間的某種距離完成相似度計算。1995年,IBM研制的QBIC系統最早采用了CBIR技術,用于查詢博物館繪畫作品。CBIR技術的提出標志著多媒體信息檢索研究的肇始。在深度神經網絡方法興起之后,通過深度卷積神經網絡可以自動學習得到圖像特征向量。神經網絡的淺層輸出代表的是圖像中出現了某種邊或角等低級視覺特征,深層輸出則代表出現了某物體部分區域(如貓頭、羽毛、拱門等)等高級語義特征。顯然,在信息檢索中,我們關心的是高級語義特征,所以采用的是卷積神經網絡的最后一層輸出。

文本到圖片的檢索屬于一種跨模態檢索。以根據查詢項“藍色格子襯衫”檢索圖片為例,查詢項Q是文本模態信息,數據集則是由大量圖片實例構成的,它們將被嵌入到某一個共同的度量空間中,即得到該空間的兩個向量。文本查詢項嵌入到某個空間是通過在大量語料庫上訓練的神經網絡模型實現的。研究表明,語義相近的兩個文本關鍵詞,它們嵌入到空間后,位置比較靠近,語義無關的則距離較遠。將圖片嵌入到某個空間,則是通過卷積神經網絡來實現。在兩者都映射到某個公共空間之后,就可以通過距離度量實現相似度計算和相似檢索。對于圖片到文本的檢索,同樣也是跨模態檢索,可采用類似計算方式。

多媒體信息檢索技術被廣泛應用于搜索引擎。用戶根據關鍵字搜索相關文本、圖片和視頻,或直接通過圖片來檢索圖片或視頻等。

圖2 文本到圖片的檢索示例。檢索系統首先將襯衫圖片數據集中每一幅圖片經深度神經網絡模型計算得到其視覺特征向量,這些特征向量構成了公共語義空間。用戶進行查詢時,查詢項“藍色格子襯衫”同樣被一個神經網絡模型映射到公共語義空間中,表征為查詢向量。在公共語義空間中計算查詢向量和每一個圖片的特征向量之間相似度,按從大到小排序,取最前面3個結果,就得到了3幅查詢結果圖片,顯然這些結果圖片中包含了“藍色”“格子”“襯衫”等重要語義特征

圖3 推薦任務示例。推薦系統首先將用戶的性別、年齡和行為等語義屬性映射到向量空間,對用戶畫像形成一種向量表示;其次將商品的類型和地區等屬性映射到向量空間;隨后基于這些向量來計算用戶和商品之間的匹配分值,根據匹配分值從高到低排序,產生推薦列表,如圖3中右側所示

推薦

檢索依賴于用戶提供明確的查詢需求,可用文本關鍵詞或圖片等表達用戶的查詢意愿。然而,在很多時候,用戶很難用查詢項清晰且準確地表達其真實的查詢意愿。一個直觀簡單的想法是計算機能否像知心朋友一樣,在朋友未明確表達查詢興趣或需求時,就能主動向朋友提供可能感興趣的信息,這就是推薦,實現精準推薦的前提是知心朋友要對朋友的興趣愛好有透徹了解。用計算機實現推薦的關鍵技術是對用戶進行畫像,即對用戶的社會屬性、興趣愛好、生活習慣和消費行為等進行全面刻畫。此時,計算機將用戶畫像視作查詢項或查詢條件,在數據集中主動尋找可能的用戶感興趣的數據實例。

如果換一個角度看推薦問題,其本質是將每一個用戶和數據集中每一個實例進行匹配或關聯,例如給用戶推薦感興趣的商品,就是要推薦系統能生成一個包括N個用戶和M個商品的關聯矩陣R(i,j),其值越大,則將商品j推薦給用戶i的可能性就越大。目前,通過對用戶點擊數據進行特征分析和建模,就能近似獲得上述關聯矩陣,主流方法是融合因子分解機(factorized machine)和神經網絡。其中,因子分解機可以捕捉二階統計關聯特征,比如“7歲”和“動畫片”這個二階特征組合可以增加匹配分值,而神經網絡則以黑盒的方式捕捉用戶和商品之間的高階特征組合。

在追求個性化的互聯網時代,推薦系統在工業界具有重要的應用價值。根據用戶畫像,淘寶和京東可以推薦商品,網易云音樂可以推薦歌曲,頭條可以推薦新聞,抖音可以推薦短視頻。

圖4 圖像描述、視覺問答和目標檢測任務示例。利用設計好的深度神經網絡模型,可以獲得圖片中包含的主要目標的語義及其所在位置,例如草地、小狗、足球等目標,同時還能獲取目標之間的某種關系信息。基于這些圖片語義內容信息,圖像描述任務能產生描述圖片的句子,視覺問答任務能回答“圖中有幾個足球”,目標檢測任務能用紅色邊界框定義小狗的空間位置

圖5 文本生成圖片。用戶希望計算機生成牛油果形狀的椅子,雖然這種樣式的椅子可能并不存在,純粹是計算機利用生成網絡模型產生的

圖6 視覺語言導航。在未來服務機器人應用場景中,用戶期望機器人能理解指令,在完成期望任務過程中能自動產生相應動作或行為,在這個過程中機器人要理解用戶指令,同時還要從工作環境中獲取信息,并產生恰當的行為,最終才能完成某項任務

生成

人類除了有信息檢索的能力,還具有豐富的想象力。今天,基于深度學習方法,利用大規模數據集,訓練各種模態的深度生成神經網絡模型,可以讓計算機寫一篇作文、生成一幅圖像或一段視頻,這些生成的多媒體數據能達到以假亂真的效果。計算機生成或創作技術的誕生,觸發了一些超越多媒體信息檢索和推薦的新技術,例如圖像描述、視覺問答、文本生成圖片和視覺語言導航等,這些新技術讓我們感受到更多的驚奇,今天可以獲得真實世界中可能并不存在的圖片或視頻等多媒體數據。

圖像描述任務是根據輸入圖片內容,計算機自動生成描述該圖片內容的文本語句。視覺問答任務則是根據輸入圖片和文本表達的問題,計算機生成最有可能的答案。目標檢測任務可以看作一種特殊的視覺問答任務,即輸入問題是“某類物體在圖片中的位置?”其答案就是物體外接矩形框。從這些任務來看,輸入項一般包含文本和視覺兩個模態,目前主流方法使用Transformer神經網絡模型來實現兩個模態特征之間的對齊和融合,并自動產生答案。文本生成圖片任務和圖像描述任務剛好相反,以描述畫面內容的文本句子作為輸入,生成最符合文本句子語義的圖像。

在視覺語言導航任務中,智能體或機器人從當前環境中感知到的圖片和語言導航指令為輸入,隨著導航動作的執行,其視覺傳感器感知到的環境圖片信息將發生相應變化,從而引發新一輪的動作生成,直到導航指令完成和動作結束。如果家政服務機器人具備視覺語言導航能力,則向其發出語言指令“出衛生間左轉,走過護欄后在第一個臥室門口停下”后,機器人可以按照指令的規劃路徑完成導航,實現運送衣物甚至幫助殘疾人等服務。

結論

綜上所述,多媒體信息的檢索、推薦和生成技術在過去的20多年內取得了顯著進步,它們至少包含了自然語言處理、圖像處理、視頻處理、語音識別、數據挖掘、模式識別、人工智能、機器學習等眾多學科方向。作為應用,它們正在融入日常生活的方方面面,如搜索引擎、電子商務、社交娛樂、安保巡防、殘疾人輔助、無人駕駛和藝術創作等應用。

猜你喜歡
信息檢索語義模態
語言與語義
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
基于神經網絡的個性化信息檢索模型研究
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
認知范疇模糊與語義模糊
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
教學型大學《信息檢索》公選課的設計與實施
河南科技(2014年11期)2014-02-27 14:10:19
公共圖書館信息檢索服務的實踐探索——以上海浦東圖書館為例
圖書館界(2013年5期)2013-03-11 18:50:29
主站蜘蛛池模板: 九九九精品成人免费视频7| 欧美一区二区精品久久久| 久久黄色免费电影| 91欧洲国产日韩在线人成| 中文字幕啪啪| 亚洲激情99| 欧美国产另类| 日韩一区精品视频一区二区| 天堂成人在线| 网友自拍视频精品区| аⅴ资源中文在线天堂| 婷婷六月在线| 青青草国产一区二区三区| 国产激爽大片高清在线观看| 青草娱乐极品免费视频| 亚洲欧美日韩中文字幕在线一区| 国产精品片在线观看手机版| 日本手机在线视频| 91精选国产大片| 婷婷六月综合网| 狠狠色丁香婷婷综合| 国产欧美日韩免费| 毛片a级毛片免费观看免下载| 亚洲欧美成人在线视频| 亚洲欧美另类专区| 久久精品亚洲专区| 久青草国产高清在线视频| 色哟哟国产精品| 欧美亚洲日韩不卡在线在线观看| 亚洲中文字幕97久久精品少妇| 美女无遮挡免费视频网站| 精品福利视频网| 婷婷五月在线视频| jizz在线观看| 亚洲福利视频一区二区| 国产福利不卡视频| 手机在线免费毛片| 亚洲精品无码不卡在线播放| 国产全黄a一级毛片| 99国产精品国产| 成人av手机在线观看| 国产欧美精品专区一区二区| 四虎综合网| 亚洲色图综合在线| 有专无码视频| 久久男人资源站| 亚洲欧美日韩久久精品| 久久永久免费人妻精品| 国产精品欧美日本韩免费一区二区三区不卡 | 国产Av无码精品色午夜| 好紧好深好大乳无码中文字幕| 国产亚洲欧美在线专区| 国产尤物在线播放| 中文字幕乱码中文乱码51精品| 亚洲一区网站| 91av成人日本不卡三区| 美女扒开下面流白浆在线试听| 亚洲第一黄色网址| 亚洲,国产,日韩,综合一区 | 精品无码视频在线观看| 国产精品国产三级国产专业不| 亚洲人成影院在线观看| 一本无码在线观看| 色窝窝免费一区二区三区| 欧美一区二区三区国产精品| 欧美一区二区啪啪| 亚州AV秘 一区二区三区| 99国产精品一区二区| 在线99视频| 亚洲AⅤ无码国产精品| 色婷婷亚洲综合五月| 蜜臀AV在线播放| 国产欧美精品午夜在线播放| 亚洲精品中文字幕午夜| 国产黄色免费看| 亚洲欧美日韩色图| 91久久偷偷做嫩草影院免费看| 欧美国产日本高清不卡| 婷婷99视频精品全部在线观看| 国产免费黄| 国产在线视频自拍| 亚洲综合经典在线一区二区|