999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于用戶興趣語義的視頻關(guān)鍵幀提取

2018-01-08 08:42:09俞璜悅郭夢婷
計算機(jī)應(yīng)用 2017年11期
關(guān)鍵詞:語義用戶模型

俞璜悅,王 晗,郭夢婷

(北京林業(yè)大學(xué) 信息學(xué)院,北京 100083)

基于用戶興趣語義的視頻關(guān)鍵幀提取

俞璜悅,王 晗*,郭夢婷

(北京林業(yè)大學(xué) 信息學(xué)院,北京 100083)

目前,視頻關(guān)鍵信息提取技術(shù)主要集中于根據(jù)視頻低層特征進(jìn)行關(guān)鍵幀的提取,忽略了與用戶興趣相關(guān)的語義信息。對視頻進(jìn)行語義建模需收集大量已標(biāo)注的視頻訓(xùn)練樣本,費(fèi)時費(fèi)力。為緩解這一問題,使用大量互聯(lián)網(wǎng)圖像數(shù)據(jù)構(gòu)建基于用戶興趣的語義模型,這些圖像數(shù)據(jù)內(nèi)容豐富、同時涵蓋大量事件信息; 然而,從互聯(lián)網(wǎng)獲取的圖像知識多樣且常伴隨圖像噪聲,使用蠻力遷移將大幅影響視頻最終提取效果, 提出使用近義詞聯(lián)合權(quán)重模型衡量互聯(lián)網(wǎng)中存在差異但語義相近的圖像組,并利用這些圖像組構(gòu)建語義模型。通過聯(lián)合權(quán)重學(xué)習(xí)獲取語義權(quán)重,每一圖像組在知識遷移中所起的作用由權(quán)重值決定。使用來自不同視頻網(wǎng)站的多段視頻對所提方法進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明對用戶感興趣的內(nèi)容進(jìn)行聯(lián)合權(quán)重語義建模能更加全面、準(zhǔn)確地獲取信息,從而有效指導(dǎo)視頻關(guān)鍵幀提取。

視頻檢索;關(guān)鍵幀提取;視頻分析;知識遷移

0 引言

隨著移動拍攝技術(shù)和網(wǎng)絡(luò)的高速發(fā)展,每天都有海量的視頻數(shù)據(jù)生成和共享,用戶難以從如此海量的視頻數(shù)據(jù)中獲取到自己感興趣的內(nèi)容。如何對視頻關(guān)鍵幀進(jìn)行有效識別、提取,使用戶能快速而準(zhǔn)確地獲取視頻中感興趣的內(nèi)容成為亟須解決的問題。

傳統(tǒng)方法大多基于底層特征對視頻關(guān)鍵信息進(jìn)行提取[1-3],忽略了對用戶感興趣內(nèi)容的選取。而視頻關(guān)鍵幀提取是一個相對主觀的工作,當(dāng)視頻內(nèi)容較為復(fù)雜或者持續(xù)時間較長時,不同用戶對于同一段視頻感興趣的內(nèi)容區(qū)別較大。例如,對于一場籃球比賽視頻,用戶感興趣的內(nèi)容可能是灌籃、三分球等一些精彩片段,也可能集中在球員的控球姿勢、球場走位等技術(shù)動作,這導(dǎo)致不同用戶對于視頻關(guān)鍵幀提取的期望有所不同。因此,本文考慮能為不同偏好的用戶在同一段視頻中提取出不同的關(guān)鍵幀。

近年來,通過使用視頻高層語義對關(guān)鍵幀進(jìn)行提取的研究逐漸引起研究人員的關(guān)注:Yao等[4]提出可根據(jù)用戶在互聯(lián)網(wǎng)中的搜索和點(diǎn)擊事件挖掘視頻語義,從而對視頻進(jìn)行標(biāo)注; El Sayad等[5]指出圖像的語義標(biāo)簽和底層特征決定了其是否能被觀看者記住并產(chǎn)生興趣;王晗等[6]提出收集聯(lián)想關(guān)鍵詞構(gòu)建遷移源域,進(jìn)一步遷移學(xué)習(xí)后實(shí)現(xiàn)視頻標(biāo)注。然而互聯(lián)網(wǎng)中的視頻,尤其體育賽事和影視作品,通常在復(fù)雜的背景下拍攝并包含大量類內(nèi)變化[7],在這樣的訓(xùn)練和學(xué)習(xí)過程中,直接對視頻本身進(jìn)行語義建模需要標(biāo)注大量的視頻,費(fèi)時費(fèi)力,且視頻中可能存在的模糊、抖動情況,給語義建模帶來極大困難。互聯(lián)網(wǎng)中包含大量的已標(biāo)注圖像[8],這些圖像通常包含豐富信息,且由用戶經(jīng)過挑選上傳。通過給定與用戶興趣相關(guān)的關(guān)鍵字,并在互聯(lián)網(wǎng)圖像搜索引擎中進(jìn)行檢索即可獲得大量與用戶興趣語義相關(guān)圖像集。因此,本文考慮將從互聯(lián)網(wǎng)圖像集中習(xí)得的語義模型作為提取與用戶興趣相關(guān)的視頻關(guān)鍵幀的依據(jù),從而避免為獲得用戶興趣語義模型而標(biāo)注大量視頻作為訓(xùn)練數(shù)據(jù)的繁重工作[9]。

在使用與用戶興趣相關(guān)的關(guān)鍵字進(jìn)行圖像檢索時,對于同一個內(nèi)容,不同用戶可能會以不同詞匯描述。例如,扣籃、灌籃、補(bǔ)扣、大風(fēng)車等在籃球比賽中都屬于同一種語義內(nèi)容,但這些關(guān)鍵字在互聯(lián)網(wǎng)中進(jìn)行檢索時,獲得的圖像集會產(chǎn)生差別[10],如圖1所示。基于近義詞檢索差異,本文提出一種基于近義詞檢索的聯(lián)合權(quán)重學(xué)習(xí)模型,對不同用戶提供的興趣內(nèi)容進(jìn)行近似語義建模。通過對含有近似語義模型的興趣內(nèi)容進(jìn)行再加權(quán)聯(lián)合學(xué)習(xí),可獲得關(guān)于一個用戶感興趣內(nèi)容更全面的視覺信息。另一方面, 為了提高關(guān)鍵幀提取效率,考慮到音頻信號中同樣蘊(yùn)含豐富信息[11],且與視頻內(nèi)容有著密切聯(lián)系,本文使用伴生音頻特征對視頻進(jìn)行篩選,使提取結(jié)果更加高效、準(zhǔn)確。

圖1 近義詞檢索得到不同的圖像集Fig. 1 Different image sets got by synonym searching

本文提出一種面向用戶興趣的視頻關(guān)鍵幀提取算法。首先,根據(jù)用戶興趣從互聯(lián)網(wǎng)圖像搜索引擎中檢索與該興趣語義相關(guān)的圖像集,作為用戶興趣關(guān)鍵幀提取的知識來源;其次,通過對近義詞圖像組的聯(lián)合權(quán)重學(xué)習(xí),將圖像中習(xí)得的知識遷移到視頻中;然后,使用伴生音頻特征對視頻進(jìn)行預(yù)處理,將視頻分割成為時長較短的待提取片段;最后,使用圖像集中習(xí)得的語義模型對待提取片段進(jìn)行關(guān)鍵幀提取。本文算法框架如圖2所示。

圖2 基于用戶興趣的視頻關(guān)鍵幀提取算法框架Fig. 2 Framework of keyframe extraction based on users’ interests

1 用戶興趣語義獲取

考慮到互聯(lián)網(wǎng)中視頻具有復(fù)雜性和多樣性等特點(diǎn),不同用戶對視頻期望關(guān)注的內(nèi)容有所不同[12],用戶對于同一興趣語義的描述方式也可能存在差異,為搜集盡可能全面的事件知識,本文使用基于近義詞檢索的聯(lián)合權(quán)重學(xué)習(xí)模型,圍繞同一興趣語義選取多個含義相近但存在差異的近義詞構(gòu)建互聯(lián)網(wǎng)索引。例如籃球比賽視頻中球員扣籃行為的索引可為“扣籃”“灌籃”“扣球”等,從互聯(lián)網(wǎng)檢索一個近義詞可得到與之對應(yīng)的一組圖像,構(gòu)成近義詞圖像組,這些圖像組內(nèi)容存在差異(如圖1所示),能從不同方面對語義進(jìn)行描述,使興趣語義圖像集內(nèi)容更加全面豐富。對于每一個興趣語義使用多個近義詞進(jìn)行檢索,通過索引構(gòu)建近義圖像組指導(dǎo)近似語義建模,通過對近似語義模型的聯(lián)合權(quán)重學(xué)習(xí),進(jìn)一步提高遷移學(xué)習(xí)有效性,獲取更加完整的語義模型,識別內(nèi)容能更全面地表征用戶對于該視頻的關(guān)注點(diǎn),有針對性獲取用戶所需的精彩內(nèi)容。

2 針對用戶興趣的視頻關(guān)鍵幀提取

2.1 基于用戶興趣語義建模

i=1,2,…,Ns,j=1,2,…,ns

(1)

(2)

其中αs表示第s個近似語義模型的權(quán)重。進(jìn)一步,為求不同近似語義模型的權(quán)重,提高知識遷移有效性,本文將第i個圖像集中的圖像視為正樣本,除去第i個圖像集以外的所有剩余圖像集中的圖像視為負(fù)樣本,構(gòu)建基于F(Zi)的概率預(yù)測函數(shù),將求解語義模型轉(zhuǎn)換為計算邏輯模型參數(shù)α*:

(3)

(4)

2.2 近似語義聯(lián)合權(quán)重學(xué)習(xí)

興趣語義由多個近似語義組成,近似語義間含有相似語義信息,所描述行為基本一致,為使不同描述詞得到提取結(jié)果差異盡可能小,用戶使用不同描述能得到基本一致且較全面的結(jié)果。本文使用二次規(guī)劃對模型系數(shù)α*進(jìn)行優(yōu)化,根據(jù)測試數(shù)據(jù)的計算結(jié)果調(diào)整αs的取值,為效果較好的圖像組分配較高的權(quán)值。優(yōu)化函數(shù)可描述如下:

(5)

其中μ為函數(shù)系數(shù)。通過多次迭代計算模型系數(shù)α,縮小近似語義模型間的差異,用戶通過不同近義詞描述可得到較為一致且準(zhǔn)確的結(jié)果。

圖3 基于用戶興趣語義的語義模型算法框架Fig. 3 Semantic model framework based on users’ interests

2.3 視頻關(guān)鍵幀提取

本文提出一種基于聯(lián)合權(quán)重的語義模型,收集與興趣語義描述相似的近似語義,構(gòu)建多個近似圖像組,將多個圖像組訓(xùn)練所得的近似語義模型通過聯(lián)合優(yōu)化學(xué)習(xí)的方法自動學(xué)習(xí)各組的權(quán)重,構(gòu)建語義模型。該方法能廣泛全面地獲取該興趣語義的數(shù)據(jù)信息,提供更加全面的視覺信息。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)庫

1)圖像數(shù)據(jù)集。

本文針對用戶興趣,獲取不同用戶對視頻的不同關(guān)注點(diǎn),將每個興趣語義用多個近似語義描述,并從互聯(lián)網(wǎng)中檢索與近似語義相關(guān)的圖像組,通過對近似語義模型的聯(lián)合權(quán)重學(xué)習(xí)得到最終興趣語義模型,該模型描述信息全面,符合用戶個性。本文使用百度圖片搜索引擎,每一興趣語義構(gòu)建3~5個近義詞索引,索引得圖像組由200~300張互聯(lián)網(wǎng)圖像構(gòu)成,使用的檢索關(guān)鍵詞在表1中列出。

2)視頻數(shù)據(jù)集。

現(xiàn)有的大部分視頻數(shù)據(jù)庫普遍存在時長短、特例性強(qiáng)等特點(diǎn),為充分驗(yàn)證本文方法的合理性與有效性,本文從NBA官網(wǎng)、南非世界杯官網(wǎng)和樂視視頻網(wǎng)站獲取大量視頻數(shù)據(jù)進(jìn)行測試。其中包含由普通攝像機(jī)拍攝,總時長達(dá)300 min的4類體育視頻與一類事件視頻,每類視頻由20段時間在1~3 min的視頻片段組成。為了更好地分析提取結(jié)果,采用二級計分[13]的方式對目標(biāo)域視頻進(jìn)行關(guān)注點(diǎn)標(biāo)注:首先將原始視頻均勻的分割為時長為4 s的視頻片段;然后邀請來自不同研究領(lǐng)域(包括語言學(xué)、物理學(xué)、經(jīng)濟(jì)管理學(xué)、計算機(jī)和設(shè)計美學(xué))的15位測試人員對視頻進(jìn)行關(guān)注點(diǎn)標(biāo)記評級,同時記錄測試員對視頻中感興趣行為的描述方式。對于任意一段4 s視頻段,測試人員可給出0或1兩種分?jǐn)?shù),其中0代表沒有興趣,1代表產(chǎn)生興趣。結(jié)果統(tǒng)計時,同一視頻段的不同描述歸為同一類興趣語義,將15位測試人員的評判結(jié)果進(jìn)行統(tǒng)計,分?jǐn)?shù)高于9分的視頻段認(rèn)為存在用戶普遍感興趣的精彩內(nèi)容。將5類視頻關(guān)注點(diǎn)信息統(tǒng)計得表1,其中表格第一列指測試視頻類別,第二列指結(jié)果統(tǒng)計得出的該視頻中興趣語義個數(shù),第三列指對興趣語義的不同描述(大括號內(nèi)為對同一行為的不同描述)。

表1 用戶關(guān)注點(diǎn)統(tǒng)計Tab. 1 List of user’ interest

3.2 實(shí)驗(yàn)設(shè)置

為降低提取結(jié)果重復(fù)率,本文提取10幀/秒,即一段4 s視頻中將提取40幀進(jìn)行處理。對視頻幀及互聯(lián)網(wǎng)圖像分別提取了以下特征:1)尺度不變特征轉(zhuǎn)換(Scale-Invariant Feature Transform, SIFT)特征[14]和方向梯度直方圖(Histogram of Oriented Gradients, HOG)特征[15],通過量化局部特征比較圖像與視頻幀間的相似性;2)GIST(Generalized Search Trees)特征[16],由于不同用戶興趣關(guān)注點(diǎn)不同,視頻常常表現(xiàn)為隨意且無重點(diǎn),這時若通過局部特征去識別圖像,計算量巨大,因此本文利用GIST特征忽略圖像的局部特點(diǎn),用一種更加“宏觀”的方式去描述圖像,降低計算復(fù)雜度;3)顏色直方圖特征[17],用來描述不同色彩在圖像中所占的比例,將特征融合為4 324維特征向量,構(gòu)建訓(xùn)練集與測試集數(shù)據(jù)。

考慮到音頻信號蘊(yùn)含豐富的語義,并與視頻聯(lián)系緊密,能有效反映視頻內(nèi)容變化,本文使用音頻短時能量特征對視頻進(jìn)行預(yù)處理,篩選出能量值高的視頻段以提高算法準(zhǔn)確率。根據(jù)測試人員評分結(jié)果選取E=18為短時能量閾值,用于精彩片段篩選。進(jìn)一步,為盡可能客觀地對比不同方法間的結(jié)果差異,本文選用平均正確率(Average Precision, AP)、平均正確率均值(mean Average Precision, mAP)和運(yùn)行時間(Runtime, RT)對算法性能進(jìn)行評價。

3.3 實(shí)驗(yàn)結(jié)果

1)視頻預(yù)處理結(jié)果驗(yàn)證。

選取視頻長度相同的各類視頻進(jìn)行測試,將未使用音頻預(yù)處理的方法與本文方法(使用音頻處理)進(jìn)行對比。表2展示了兩種方式算法總運(yùn)行時間(s)和結(jié)果mAP(%)對比,其中在計算使用本文方法測試的總運(yùn)行時間時,將音頻處理時間包含在內(nèi)。圖4給出本文方法的最終提取結(jié)果,其中對于每一類視頻由上至下依次為該視頻不同興趣語義的提取結(jié)果,紅叉標(biāo)記則表示提取錯誤。由實(shí)驗(yàn)結(jié)果可看出,采用音頻信號指導(dǎo)視頻關(guān)鍵信息提取能有效縮減算法運(yùn)行時間,使用短時能量閾值對視頻進(jìn)行分割能將算法時間縮減76.5%以上,極大程度提高了算法運(yùn)行效率;同時,使用音頻信號指導(dǎo)視頻預(yù)處理能提高結(jié)果準(zhǔn)確率,有效排除計算過程中特例干擾,避免在計算過程中由于個別特征點(diǎn)引起分類函數(shù)偏移等情況。綜上所述,使用音頻信號指導(dǎo)視頻關(guān)鍵信息提取能有效縮減算法運(yùn)行時間,同時保證結(jié)果準(zhǔn)確可靠。

2)近似語義分組訓(xùn)練結(jié)果驗(yàn)證。

將對比實(shí)驗(yàn)設(shè)置為不對興趣語義進(jìn)行近似語義的聯(lián)合權(quán)重學(xué)習(xí),直接對用戶選擇的興趣語義構(gòu)建索引,從互聯(lián)網(wǎng)檢索獲取該語義圖像集,根據(jù)圖像集進(jìn)行模型訓(xùn)練,將本文方法與對比實(shí)驗(yàn)進(jìn)行結(jié)果mAP對比。由實(shí)驗(yàn)結(jié)果表3可以看出,對同一語義進(jìn)行多個近似語義分組學(xué)習(xí)將mAP提高了51.5%,多組學(xué)習(xí)能有效提高結(jié)果準(zhǔn)確率,適用于不同用戶的不同描述。注意到本文方法與對比實(shí)驗(yàn)在生日類視頻上mAP值相近,僅提高3.1%,這是由于生日類視頻對比其他視頻可關(guān)注信息較少,且用戶描述較為統(tǒng)一,近似語義間差異較小,但對比籃球類視頻本文方法較對比實(shí)驗(yàn)mAP提高了134.6%,這是由于籃球類視頻中可關(guān)注點(diǎn)較多,且不同用戶興趣差異較大,容易產(chǎn)生不同的興趣語義描述,進(jìn)一步說明本文方法針對內(nèi)容復(fù)雜、可關(guān)注點(diǎn)較多的視頻有較好分類效果。

表2 是否對視頻使用音頻預(yù)處理效果對比Tab. 2 Comparison results between keyframe extraction with and without audio preprocessing

圖4 使用本文方法提取結(jié)果Fig. 4 Results extracted by the proposed method

3)與傳統(tǒng)關(guān)鍵幀提取方法對比。

本文使用基于關(guān)鍵幀的視頻關(guān)鍵信息提取算法框架,下面將本文方法與下列傳統(tǒng)關(guān)鍵幀提取法進(jìn)行對比:

隨機(jī)選取法 構(gòu)造隨機(jī)模擬器,模擬生成多個在[0,1]服從均勻分布的隨機(jī)樣本點(diǎn)ν,得到隨機(jī)數(shù)rand=ν·(NS·ns),從測試視頻中選取對應(yīng)幀圖像作為視頻關(guān)鍵信息,該方法不考慮用戶需求且不使用圖像特征進(jìn)行訓(xùn)練。

表3 是否進(jìn)行近似語義分組學(xué)習(xí)mAP對比 %Tab. 3 mAP comparison between keyframe extraction with and without similar semantic group learning %

顏色直方圖對比法 考慮使用文獻(xiàn)[18]提出的基于RGB顏色特征聚類算法,對訓(xùn)練圖像和視頻幀進(jìn)行基于顏色特征的聚類,定義4個聚類中心對彩色圖像進(jìn)行迭代聚類,將圖像每個像素的R、G和B的值都分成4×4區(qū)域,統(tǒng)計直方圖顏色信息,并對比測試圖像與訓(xùn)練幀間顏色直方圖的歐氏距離進(jìn)行關(guān)鍵信息提取。

特征向量比較法 使用PCA(Principal Component Analysis)算法對本文算法中提取的4 324維特征向量(顏色直方圖、SIFT、GIST和HOG2x2)進(jìn)行降維處理,然后直接計算測試圖像與視頻幀特征空間的KNN(k-Nearest Neighbor)距離,不采用任何分類函數(shù)構(gòu)建分類器,設(shè)定k=4,提取距離較小的視頻幀作為視頻關(guān)鍵信息。

基于有向無環(huán)圖的支持向量機(jī)分類算法(Directed Acyclic Graph and Support Vector Machine, DAG-SVM)的線性分類法 在獲取用戶對視頻的興趣語義后,使用Platt等[19]提出的分類算法,針對NS個興趣語義構(gòu)造NS(NS-1)個分類器(節(jié)點(diǎn)),所有分類器構(gòu)成兩面有向無環(huán)圖,當(dāng)對測試幀進(jìn)行分類時,從頂部根節(jié)點(diǎn)開始逐層細(xì)分直到底部葉子節(jié)點(diǎn),每一段視頻導(dǎo)入后將根據(jù)分類結(jié)果對視頻幀進(jìn)行標(biāo)記提取。

表4展示了不同關(guān)鍵幀提取方法與本文方法的mAP對比,圖5給出不同算法運(yùn)行時間。

表4 不同關(guān)鍵幀提取方法的mAP結(jié)果對比 %Tab. 4 Comparison of mAP results by different keyframe extraction methods %

對比DAG-SVM算法和本文方法結(jié)果可以看出,同樣使用基于支持向量機(jī)(Support Vector Machine, SVM)分類的基本思想,本文方法mAP與DAG-SVM相比提高了82.9%,這是由于DAG-SVM僅使用單圖像集訓(xùn)練語義模型,沒有考慮同一語義有多種近似描述,無法全面獲取全部語義信息;顏色直方圖對比和特征向量比較法采用蠻力遷移的方式,計算過程中將測試視頻幀的每一項特征值與對應(yīng)訓(xùn)練圖像進(jìn)行對比,耗費(fèi)大量時間,準(zhǔn)確度較差;對于游泳、跳水等內(nèi)容顏色分布單一、主色調(diào)明顯的視頻,顏色直方圖對比算法能有較好表現(xiàn)。

圖5 本文方法與傳統(tǒng)關(guān)鍵幀提取方法的運(yùn)行耗時對比Fig. 5 Comparison of runtime between the proposed method and traditional keyframe extraction methods

4)與遷移學(xué)習(xí)方法對比。

在模型訓(xùn)練階段本文使用了遷移學(xué)習(xí)的算法思想,下面將本文方法與下列不同類別的遷移學(xué)習(xí)算法進(jìn)行對比:

子空間配準(zhǔn)(Domain Adaptation using Subspace Alignment,DA-SA)算法[20]將測試幀與訓(xùn)練圖像看作不同空間上的特征集合,采用構(gòu)建特征子空間的方式連接兩個空間中不同特征,從而對測試幀與訓(xùn)練圖像進(jìn)行相似度比較。

GFK(Geodesic Flow Kernel)核函數(shù)法[21]將源域(訓(xùn)練圖像集)和目標(biāo)域(測試幀集合)的數(shù)據(jù)在Grassmann流形空間標(biāo)記并連接,通過核函數(shù)最大限度地擬合不同域間的差異,得到與源域數(shù)據(jù)最相近的目標(biāo)域視頻提取結(jié)果。

表5展示了不同種特征遷移方法與本文方法的mAP結(jié)果對比,圖6給出不同算法運(yùn)行時間。由提取結(jié)果可看出DA-SA算法和GFK算法在最后結(jié)果上表現(xiàn)相似,由于足球視頻多采用航拍方式,畫面中物體較小,在圖像歸一化中易將關(guān)鍵信息忽略[22],因此該類視頻mAP僅有0.23和0.24。

表5 不同遷移學(xué)習(xí)算法的mAP結(jié)果對比 %Tab. 5 mAP results of different transfer learning methods %

4 結(jié)語

本文提出了一種基于用戶興趣的視頻關(guān)鍵幀提取框架,根據(jù)用戶興趣的不同使用網(wǎng)絡(luò)圖像提供的視覺知識對同一段視頻提取相應(yīng)關(guān)鍵幀。在這個框架下,通過使用同一語義多個近義詞在互聯(lián)網(wǎng)圖像搜索引擎中進(jìn)行檢索,將所得到的圖像集劃分為不同的組。根據(jù)不同圖像組與視頻之間的相關(guān)性,通過一種聯(lián)合優(yōu)化學(xué)習(xí)的方法,自動學(xué)習(xí)各組的權(quán)重,從而獲得關(guān)于用戶興趣語義模型,進(jìn)一步指導(dǎo)視頻關(guān)鍵幀提取。實(shí)驗(yàn)結(jié)果表明,本文方法不僅能提取高質(zhì)量的視頻關(guān)鍵信息,并且通過用戶自主選擇能更加合理有效地針對用戶興趣得出結(jié)果,提高視頻用戶對視頻瀏覽的效率。

圖6 本文算法與不同遷移學(xué)習(xí)方法的運(yùn)行耗時對比Fig. 6 Comparison of runtime between the proposed method and different transfer learning methods

References)

[1] WOLF W H. Key frame selection by motion analysis[C]// Proceedings of the 1996 IEEE Conference on Acoustics, Speech, and Signal Processing. Washington, DC: IEEE Computer Society, 1996: 1228-1231.

[2] ZHANG H, WU J, ZHONG D, et al. An integrated system for content-based video retrieval and browsing[J]. Pattern Recognition, 1997, 30(4): 643-658.

[3] LU Z, GRAUMAN K. Story-driven summarization for egocentric video[C]// Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2013: 2714-2721.

[4] YAO T, MEI T, NGO C, et al. Annotation for free: video tagging by mining user search behavior[C]// Proceedings of the 21st ACM International Conference on Multimedia. New York: ACM, 2013: 977-986.

[5] EL SAYAD I, MARTINET J, URRUTY T, et al.A semantically significant visual representation for social image retrieval[C]// Proceedings of the 2011 IEEE International Conference on Multimedia and Expo. Washington, DC: IEEE Computer Society, 2011: 1-6.

[6] 王晗,吳心筱,賈云得. 使用異構(gòu)互聯(lián)網(wǎng)圖像組的視頻標(biāo)注[J]. 計算機(jī)學(xué)報,2013,36(10):2062-2069.(WANG H, WU X X, JIA Y D. Video annotation by using heterogeneous multiple image groups on the Web[J].Chinese Journal of Computers, 2013,36(10): 2062-2069.)

[7] 王晗. 基于遷移學(xué)習(xí)的視頻標(biāo)注方法[D]. 北京:北京理工大學(xué), 2014.(WANG H. Video annotation based on transfer learning[D]. Beijing: Beijing Institute of Technology, 2014.)

[8] WANG H, WU X. Finding event videos via image search engine[C]// Proceedings of the 2015 IEEE International Conference on Data Mining Workshop. Washington, DC: IEEE Computer Society, 2015: 1221-1228.

[9] WANG H, WU X, JIA Y. Video Annotation via image groups from the Web[J]. IEEE Transactions on Multimedia, 2014, 16(5): 1282-1291.

[10] WANG H, SONG H, WU X, et al. Video annotation by incremental learning from grouped heterogeneous sources[C]// Proceedings of the 12th Asian Conference on Computer Vision. Berlin: Springer, 2014: 493-507.

[11] 余春艷,翁子林.音頻情感感知與視頻精彩片段提取[J].計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報, 2015, 27(10): 1890-1899.(YU C Y, WENG Z L. Audio emotion perception and video highlight extraction[J].Journal of Computer Aided Design and Computer Graphics,2015,27(10):1890-1899.)

[12] ZHANG K, CHAO W, SHA F, et al. Summary transfer: exemplar-based subset selection for video summarization[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 1059-1067.

[13] YAO T, MEI T, RUI Y. Highlight detection with pairwise deep ranking for first-person video summarization[C]// Proceedings 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 982-990.

[14] LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110.

[15] HOIEM D,EFROS A, HEBERT M. Recovering surface layout from an image[J]. International Journal of Computer Vision, 2007,75(1): 151-172.

[16] OLIVA A, TORRALBA A. Modeling the shape of the scene: a holistic representation of the spatial envelope[J]. International Journal of Computer Vision, 2001, 42(3): 145-175.

[17] SWAIN M J, BALLARD D H. Indexing via color histograms[C]// Proceedings of the 3rd International Conference on Computer Vision. Piscataway, NJ: IEEE, 1990: 390-393.

[18] MEI T, TANG L, TANG J, et al. Near-lossless semantic video summarization and its applications to video analysis[J]. ACM Transactions on Multimedia Computing, Communications, and Applications, 2013, 9(3): Article No. 16.

[19] PLATT J C, CRISTIANINI N, SHAWE-TAYLOR J. Large margin DAGs for multiclass classification[J]. Advances in Neural Information Processing Systems, 2000, 12(3): 547-553.

[20] FERNANDO B, HABRARD A, SEBBAN M, et al. Unsupervised visual domain adaptation using subspace alignment[C]// Proceedings of the 2013 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2013: 2960-2967.

[21] GRAUMAN K. Geodesic flow kernel for unsupervised domain adaptation[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 2066-2073.

[22] MENG J, WANG H, YUAN J, et al. From keyframes to key objects: video summarization by representative object proposal selection[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 1039-1048.

This work is partially supported by the Fundamental Research Funds for the Central Universities (2015ZCQ-XX).

YUHuangyue, born in 1996. Her research interests include digital image processing, video retrieval.

WANGHan, born in 1986, Ph. D., lecturer. Her research interests include video image retrieval, machine learning.

GUOMengting, born in 1996. Her research interests include image processing, image retrieval.

Videokeyframeextractionbasedonusers’interests

YU Huangyue, WANG Han*, GUO Mengting

(CollegeofInformationScienceandTechnology,BeijingForestryUniversity,Beijing100083,China)

At present, the video key information extraction technology mainly focuses on the extraction of key frames according to the characteristics of video low-level, and ignores the semantic information related to users’ interests. Semantic modeling of video requires a large number of marked video training samples, which is time consuming and laborious. To alleviate this problem, a large amount of Internet image data was used to construct a semantic model based on users’ interests, which was rich in content and covered a large amount of event information. However, the images obtained from the Internet were diversed and often accompanied by image noise, the final extraction of video would be greatly affected by brute force migration. The synonym-weight model was used to measure the differences of the semantically similar image groups on the Internet, and these image groups were used to construct a semantic model. The weight of each image group in knowledge migration was determined by the weight value. The experimental results on several challenging video datasets demonstrate that semantic modeling based on users’ interests combined with weights is more comprehensive and accurate, so as to effectively guide the video key frame extraction.

video retrieval; keyframe extraction; video analysis; knowledge transfer

2017- 05- 16;

2017- 06- 26。

中央高校基本科研業(yè)務(wù)費(fèi)專項資金資助項目(2015ZCQ- XX)。

俞璜悅(1996—),女,江西南昌人,主要研究方向:數(shù)字圖像處理、視頻檢索; 王晗(1986—),女,湖南長沙人,講師,博士,主要研究方向:視頻圖像檢索、機(jī)器學(xué)習(xí); 郭夢婷(1996—),女,北京人,主要研究方向:圖像處理、圖像檢索。

1001- 9081(2017)11- 3139- 06

10.11772/j.issn.1001- 9081.2017.11.3139

(*通信作者電子郵箱wanghan@bjfu.edu.cn)

TP391.41

A

猜你喜歡
語義用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
語言與語義
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
認(rèn)知范疇模糊與語義模糊
主站蜘蛛池模板: 精品一区二区三区视频免费观看| 美女被躁出白浆视频播放| 亚洲国产精品无码久久一线| 精品撒尿视频一区二区三区| 国产在线一二三区| 欧美日韩午夜| 亚洲黄色激情网站| 欧美亚洲网| 动漫精品啪啪一区二区三区| 国产精品美女在线| 欧美日本不卡| 亚洲人成人伊人成综合网无码| 狠狠v日韩v欧美v| 中文成人在线| 亚洲大学生视频在线播放 | 国产精品无码作爱| 亚洲综合欧美在线一区在线播放| 亚洲无线国产观看| 中文字幕2区| av在线无码浏览| 狠狠操夜夜爽| 91人人妻人人做人人爽男同| 色成人亚洲| 免费人成黄页在线观看国产| 无码一区18禁| 911亚洲精品| 久久国产精品波多野结衣| 亚洲精品无码成人片在线观看 | 精品91自产拍在线| 国产一二视频| 免费观看无遮挡www的小视频| 特级欧美视频aaaaaa| 国产人碰人摸人爱免费视频| 亚洲婷婷丁香| 91在线一9|永久视频在线| 日本在线视频免费| 亚洲一区第一页| 亚洲精品国偷自产在线91正片| 国产理论精品| 污污网站在线观看| 国产69精品久久久久孕妇大杂乱 | 色综合热无码热国产| 天天色综合4| 国产在线98福利播放视频免费| 亚洲男人天堂久久| 97成人在线观看| 日韩一二三区视频精品| 91久久精品国产| 亚洲精品福利网站| 午夜在线不卡| 国产肉感大码AV无码| 欧美人与牲动交a欧美精品| 午夜视频www| 人与鲁专区| 亚洲国产成人麻豆精品| 亚洲自偷自拍另类小说| 日韩欧美视频第一区在线观看| 九色视频在线免费观看| 免费无码一区二区| 国产一区二区三区在线观看免费| 欧美一道本| 日韩av手机在线| 亚洲免费毛片| 亚洲精品va| 免费不卡视频| 国内精品九九久久久精品| 久久99蜜桃精品久久久久小说| 国产欧美另类| 国产97视频在线观看| 在线免费不卡视频| 亚洲成人网在线观看| 国产精品自在自线免费观看| 亚洲无码日韩一区| 亚洲人免费视频| 亚洲综合在线最大成人| 亚洲成人精品在线| 99久久国产精品无码| 亚洲天堂网视频| 中文字幕精品一区二区三区视频| 国产丝袜91| 国产成人综合日韩精品无码不卡| 中文一区二区视频|