999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Android的多模態情感識別APP的設計與開發

2023-05-15 07:27:46張明嘉黃丁韞楊超宇蔣玉茹
現代計算機 2023年5期
關鍵詞:模態文本情感

張明嘉,黃丁韞,趙 凱,楊超宇,蔣玉茹

(北京信息科技大學計算機學院,北京 100000)

0 引言

隨著信息技術快速、爆發式的增長,人工智能成為當今研究越來越熱門的話題。在各個領域,人工智能逐漸成為重要的研究方法。我國十四五計劃提出要建設具有國際前瞻性的人工智能應用方法,人工智能迎來新的發展機遇[1],其中情感識別是一個重要的熱點問題。

目前已經存在的多款情感識別軟件,普遍是進行單模態的情感識別,即能夠根據一個模態(語音、文字或圖片)的信息來進行情感的識別。其優勢就是在單一的模態下,能夠精準地識別圖片、音頻或者文本中的情感。例如:百度的對話情緒識別系統能夠自動檢測用戶日常對話文本中蘊含的情感特征,能夠幫助企業更全面地把握產品體驗、監控客戶服務質量。而Affectiva 公司的Automotive AI解決方案能夠通過視頻(圖片)實時監控駕駛員的情感狀態,當其出現焦慮、嗜睡或易怒等狀態時,令自動駕駛功能接管汽車操控權。這些案例是單模態的情感識別模型根據圖片、音頻或者文本的單模態信息識別出人物的情感,但如果能同時捕獲多種模態信息,訓練多模態情感識別模型,則能更好地預測人物的情感。因此,為了能夠滿足多模態場景下的情感識別需求,開發基于多模態情感識別模型的情感識別軟件勢在必行。

1 多模態情感識別模型的設計和訓練

首先利用中文情景喜劇《天真派武林外傳》構建一個中文多模態情感語料庫。根據美國心理學家Ekman[2]在1982 年提出的六大基本情緒:生氣、快樂、驚訝、厭惡、傷心和害怕,在構建語料庫時將情緒設置七個類別,分別為生氣(anger)、快樂(joy)、厭惡(disgust)、驚訝(surprise)、傷心(sadness)、害怕(fear)和中立(neutral)。人工從《天真派武林外傳》的每一集中按照一定的規則合理地對視頻進行切分,同時多位標注人員采用人工標注方式對切分后的視頻片段進行情緒類別標注。

多模態信息的提取工作,首先從視頻片段中提取圖片信息:使用Python中cv2模塊的Video-Capture 類構建程序,逐幀截取圖片。利用cv2模塊的人臉分類器識別每一張圖片中的人臉,并將識別結果保存成圖片。然后從視頻片段中提取音頻信息:使用OpenSmile 自動化工具從視頻片段中提取音頻。最后在Python 中調用百度語音識別接口將音頻轉換成文本。

接下來對圖片、音頻和文本分別進行情感特征提取。采用預訓練語言模型BERT進行文本特征提取,并使用全連接的方式對文本特征進行降維,獲得300維的文本情感特征向量;使用Opensmile自動化工具進行語音特征提取得到384維的話語級語音情感特征,并使用全連接的方式對音頻特征進行降維,獲得300維的音頻情感特征向量;使用FaceCNN 結合BiLSTM 的方式進行圖片特征提取,并使用全連接的方式對圖片特征進行降維,獲得300維的圖片情感特征向量。將DialogueRNN[3]模型作為多模態情感識別模型,訓練時將先前得到的文本情感特征向量、音頻情感特征向量和圖片情感特征向量進行拼接得到當前話語的情感特征向量,作為DialogueRNN模型的輸入,對DialogueRNN模型進行訓練,最終得到一個效果較為良好的多模態情感識別模型。

2 功能設計

該應用的客戶端支持用戶實時拍攝視頻進行上傳;該應用的服務端可以對用戶上傳的視頻分別進行圖片特征抽取、音頻特征抽取和文本特征抽取,并將得到的圖片特征、音頻特征和文本特征輸入至多模態情感識別模型,識別得到用戶上傳的視頻中人物的情感信息,并將該情感信息返回至客戶端。系統時序圖如圖1所示。

圖1 系統時序圖

3 平臺架構

該應用分為客戶端和服務端兩部分,客戶端負責用戶上傳視頻至服務端和接收服務端返回的視頻中人物的情感信息;服務端負責接收用戶上傳的視頻,并使用多模態情感識別模型識別視頻中人物的情感,并將該情感信息傳回客戶端。

3.1 客戶端

使用Android 實現客戶端的功能。該應用在Layout 布局文件中使用Button 控件、ProgressBar控件和TextView 控件,點擊Button 按鈕實現拍攝視頻并將視頻上傳至服務器,ProgressBar 用于顯示視頻上傳至服務器的進度,TextView 控件用以顯示服務器返回的情感信息。分別創建對應實現拍攝視頻并上傳至服務器的Button 對象、顯示視頻上傳進度的ProgressBar 對象和顯示服務器返回的情感信息的TextView 對象,為Button對象的點擊事件注冊一個監聽器,當用戶點擊按鈕時,使用intent 機制實現視頻錄制的功能,如果成功調用手機的攝像機拍攝視頻,并且在拍攝視頻的過程中沒有取消拍攝,該視頻將會保存至手機的指定路徑中。調用getContent-Resolver().query()方法獲取視頻保存路徑。定義isConnectingToInterne(t)方法檢查該應用是否有網絡連接,定義checkURL()方法檢查指定的服務端URL 地址是否有效。在MainActivity 類中定義uploadFile()方法,將拍攝的視頻上傳至指定的URL 地址對應的服務端中,并獲取服務端返回的視頻中人物的情感信息。

在該方法中,首先指定服務端的URL地址,以該URL 地址獲取HttpURLConnection 類的實例對象,調用該實例對象的setDoInpu(t)方法將該doInput 字段的值設置true,調用該實例對象的setDoOutput()方法將doOutput 字段的值設置為true,調用該實例對象的setRequestMethod()方法設置向服務器發送POST 請求,通過該實例對象的getOutputStream()方法向服務端發送視頻數據,并通過該實例對象的getInputStream()方法接收服務器返回的情感信息。在MainActivity 類中創建一個線程類,并重寫run()方法,調用is-ConnectingToInterne(t)方法檢查該應用當前是否已經連網,調用checkURL()方法檢查指定的服務端URL 地址是否有效。如果該應用當前已經連網并且指定的服務端URL 地址有效,調用uploadFile()方法將拍攝的視頻上傳至服務器并得到服務器返回的視頻中人物的情感信息,并調用Handler類的sendMessage()方法將情感信息發送給主線程。在MainActivity 類中聲明Handler類的實例對象,并重寫Handler 實例對象的handleMessage()方法,在該方法中調用TextView 對象的setText()方法將該情感信息展示給用戶。完成上述操作,即可實現該應用客戶端的功能。

3.2 服務器端

使用Python實現服務端的功能。使用Python中的Flask 框架[4]搭建Web 應用,并且將該Web應用部署到服務器上:注冊一個視圖函數,該函數用來處理客戶端的請求;使用app.route()裝飾器為視圖函數綁定URL,當用戶上傳視頻至這個URL 時,就會觸發這個函數,獲取返回值。具體做法:首先接收用戶上傳的視頻,然后使用cv2 模塊中的VideoWriter 類保存用戶上傳的視頻至指定的視頻文件夾中,并分別抽取視頻中對應的圖片、音頻和文本內容。抽取視頻中對應圖片的方法:對保存在指定路徑下的視頻使用cv2 模塊的VideoCapture 類逐幀截取圖片,并使用cv2 模塊中的imwrite()方法將獲得的圖片保存至指定的圖片文件夾中。將人臉識別模型的xml 文件“haarcascade_frontalface_default.xml”作為cv2 模塊中的級聯分類器CascadeClassifier類的參數,使用該方法對圖片文件夾中圖片上的人臉進行識別并保存識別得到的人臉圖片。抽取視頻中對應音頻的方法:指定音頻的保存路徑path,使用cv2 模塊的VideoFileClip 類從視頻文件中加載視頻,并使用AudioFileClip 類的write_audiofile()方法將從視頻中提取的音頻保存至指定的音頻文件中。同時使用opensmile 模塊中Smile 類的process_folder()方法從指定音頻文件中提取音頻特征并將提取得到的音頻特征保存至指定路徑下的csv 文件和pkl 文件中;根據音頻文件的路徑讀取音頻文件,并使用百度提供的開源API 實現語音轉文字的功能,并將得到的文本內容保存至指定的文本文件中。經過上述步驟,可以從用戶上傳的視頻中分別得到視頻中人物的人臉圖片、音頻和文本內容。加載經過訓練的多模態情感識別模型,將處理好的人臉圖片、音頻和文本內容輸入至多模態情感識別模型中,得到預測的視頻中對應人物的情感信息,并以數據流的方式將該情感信息發送回客戶端。

4 系統設計

4.1 Android端

4.1.1 用戶登錄/注冊

用戶只有在登錄之后才能使用該多模態情感識別的APP,如果用戶沒有賬號,需要進行注冊,并且使用注冊的賬號和密碼進行登錄。

4.1.2 拍攝視頻

用戶可以使用手機系統自帶的相機拍攝視頻,并將拍攝的視頻進行上傳。

4.2 服務器端

4.2.1 抽取單模態信息

圖片抽取模塊:用來從用戶上傳的視頻中逐幀抽取圖片,并從圖片中提取人物人臉圖片。

音頻抽取模塊:用來從用戶上傳的視頻中抽取音頻。

文本抽取模塊:用來從抽取得到的音頻中抽取文本內容。

4.2.2 情感識別

多模態情感識別模塊:此模塊用來識別用戶上傳的視頻中人物的情感。

5 工作流程

整體工作流程如圖2所示,用戶使用多模態情感識別APP 上傳視頻至服務器,服務器從用戶上傳的視頻中提取人臉圖片、音頻和文本內容,將提取得到的人臉圖片、音頻和文本內容傳入至多模態情感識別模型中,由多模態情感識別模型對視頻中的人物情感進行識別,最后以數據流的方式將識別得到的情感信息返回給用戶。

圖2 系統工作流程

6 結語

本文設計并開發了一個能夠使用多模態情感識別模型識別視頻中對應人物情感信息的移動應用程序。本項目團隊自行構建了基于中文情景喜劇《天真派武林外傳》的中文多模態情感語料庫,并利用DialogueRNN 模型訓練出了中文多模態情感識別模型,通過從《天真派武林外傳》中提取得到的圖片、音頻和文本內容對多模態情感識別模型進行訓練,并使用訓練好的多模態情感識別模型對視頻中人物的情感進行識別。相較于單模態的情感識別,基于多模態情感識別模型的情感識別能更準確地識別用戶的情感狀態。本文所設計的應用可以用于智能對話的很多場景中,比如在線學習系統中,隨時檢測學習者的情感狀態,并根據學習者的情感狀態調整學習進度;或者在客服對話系統中,實時檢測用戶的情感,以輔助客服人員可以根據用戶的情感更好地為用戶提供服務。

猜你喜歡
模態文本情感
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
主站蜘蛛池模板: 欧美日韩专区| 亚洲第一视频免费在线| 亚洲综合色区在线播放2019| 毛片大全免费观看| 日韩精品高清自在线| 国产亚洲欧美在线专区| 日韩视频福利| 亚洲国产精品无码AV| 岛国精品一区免费视频在线观看| 欧美视频在线播放观看免费福利资源| 久久婷婷人人澡人人爱91| 免费国产在线精品一区| 在线观看国产精美视频| 久草热视频在线| 97国产在线视频| 国产黄网站在线观看| 国产精品亚洲一区二区三区在线观看| 色婷婷亚洲综合五月| 日本在线欧美在线| 啦啦啦网站在线观看a毛片| 亚洲综合日韩精品| 亚洲第一国产综合| 女同久久精品国产99国| 国产精品19p| 国产美女无遮挡免费视频| 9久久伊人精品综合| 国产无码制服丝袜| www.国产福利| 亚洲h视频在线| 国产一级在线观看www色 | 日韩欧美在线观看| 成人在线欧美| 婷婷亚洲最大| 亚洲国产高清精品线久久| 日本福利视频网站| 亚洲福利视频一区二区| 日韩一区二区三免费高清| 国产精品手机在线播放| 色综合激情网| 国产一二视频| 亚洲精品无码专区在线观看 | 亚洲91精品视频| 啪啪国产视频| 日韩精品久久无码中文字幕色欲| 中文精品久久久久国产网址| 国产精品亚洲专区一区| 中文字幕免费视频| 欧美中出一区二区| 亚洲AV无码一区二区三区牲色| 国产精品不卡片视频免费观看| 国产欧美另类| 免费A级毛片无码无遮挡| 欧洲免费精品视频在线| 国产女人18毛片水真多1| 99久久国产自偷自偷免费一区| 国产福利小视频高清在线观看| 91成人在线免费观看| 亚洲人成网站在线播放2019| 中文字幕66页| 欧美三級片黃色三級片黃色1| 天堂亚洲网| 欧美亚洲国产一区| 欧美一级黄片一区2区| 成人国产免费| 天天色综网| 午夜欧美理论2019理论| 蜜芽一区二区国产精品| 色九九视频| 99视频全部免费| 激情无码字幕综合| 亚洲三级色| 国产精品一区在线麻豆| 国产经典在线观看一区| 日本一区中文字幕最新在线| 伊人久久久大香线蕉综合直播| 国产区在线看| 国产精品微拍| 99久久精品免费观看国产| 极品国产一区二区三区| 国产亚洲欧美在线人成aaaa| 欧美精品一二三区| 伊人91在线|