一旦視頻搜索取得關(guān)鍵性的突破,更大的市場(chǎng)應(yīng)用也將會(huì)接踵而來(lái)。
什么是互聯(lián)網(wǎng)上最火爆的詞匯?答案不一而足,但“視頻”一定是其中之一。隨著攝像手機(jī)、DV等個(gè)人視頻設(shè)備的普及,以及互聯(lián)網(wǎng)寬帶的應(yīng)用,越來(lái)越多的視頻內(nèi)容走向互聯(lián)網(wǎng)。視頻搜索的應(yīng)用已經(jīng)被提到一個(gè)日程,但目前市場(chǎng)上的產(chǎn)品還并不能讓人完全滿意。怎么能做到精確的搜索?如何快速了解視頻結(jié)果內(nèi)容?視頻廣告還有更佳的策略嗎?未來(lái)的視頻搜索將為你一一揭曉這些答案。

找到被忽略的“貓”
即使是一段時(shí)長(zhǎng)僅為五分鐘的視頻,也可能包含著諸多內(nèi)容,比如,山水場(chǎng)景、人物對(duì)話,甚至還有一只臥在角落里的貓。如果這段視頻的主題跟這只貓毫無(wú)相干,那么它肯定不會(huì)被人工編輯在這個(gè)視頻文件的名稱及說(shuō)明當(dāng)中。也就是說(shuō),在以文字為索引的視頻搜索引擎中,是不可能搜到這只貓的。當(dāng)然,很多類似的細(xì)節(jié)信息也都被“遺忘”了。
為了解決視頻說(shuō)明內(nèi)容有限、不夠全面的問(wèn)題,一些搜索引擎中還使用了語(yǔ)音識(shí)別技術(shù),即把視頻中的人物對(duì)話識(shí)別為文字,并通過(guò)這段文字信息建立索引。但是語(yǔ)音與視頻的內(nèi)容常常有很大的差距,仍舊無(wú)法找到這只“不會(huì)說(shuō)話”的貓。也就是說(shuō),有很多非音頻的信息會(huì)被遺漏。
與文字和圖片相比,視頻作為一個(gè)圖文、聲音集合的時(shí)間序列,對(duì)搜索技術(shù)的要求更高。在目前的市場(chǎng)上,大部分視頻搜索引擎所采用的幾乎都是文本索引方式。那么,有沒(méi)有更好的方法,讓我們能夠搜索到更多的細(xì)節(jié)呢?微軟亞洲研究院(MSRA)研究員華先勝,介紹了一種能夠真正“搜索到視頻里面去”的索引方式。
這種基于“內(nèi)容”的索引方式,會(huì)首先教搜索引擎“認(rèn)識(shí)”一只貓的形象,并把其“翻譯”為文本,以此建立索引。這樣,當(dāng)某個(gè)視頻文件內(nèi)出現(xiàn)貓時(shí),它便能夠自動(dòng)識(shí)別。與此類似的,想要搜索一場(chǎng)體育比賽中的某個(gè)環(huán)節(jié),也可以輕松實(shí)現(xiàn)。比如,如果要搜索棒球比賽中的“投球”(pitch view)動(dòng)作,即把“球從投球區(qū)投給擊球手”的一幕,通常視頻的文字不會(huì)細(xì)致到描述這一動(dòng)作,而通過(guò)這種內(nèi)容索引的方式則可以準(zhǔn)確查到。
內(nèi)容索引作為文字索引的有效補(bǔ)充,可以使搜索引擎實(shí)現(xiàn)更為精確的查詢。而上述這些操作有個(gè)前提,即需要人為地設(shè)定一些訓(xùn)練數(shù)據(jù),讓搜索引擎進(jìn)行“學(xué)習(xí)”,也就是說(shuō),要讓其“知道”什么場(chǎng)景才是“投球”。據(jù)微軟的專家介紹,未來(lái)將可能完全脫離訓(xùn)練數(shù)據(jù),讓搜索引擎直接通過(guò)網(wǎng)絡(luò)進(jìn)行智能學(xué)習(xí)。
剪輯式呈現(xiàn)
當(dāng)你得到搜索引擎列出的一大堆雜亂無(wú)章的結(jié)果后,另一個(gè)問(wèn)題出現(xiàn)了:“究竟哪個(gè)才是我想要的?”在實(shí)現(xiàn)了精確的查找后,未來(lái)的視頻搜索引擎要做的另一件事情就是良好的呈現(xiàn)—要讓用戶快速地了解一段視頻完整的內(nèi)容。
現(xiàn)實(shí)中,你在使用視頻搜索時(shí)往往會(huì)碰到這樣的情況,明明搜索的是“足球(Soccer)”,但除了你想要的一些精彩比賽片段外,系統(tǒng)可能還列出了有周星馳的《少林足球》,甚至是“小貝”的娛樂(lè)視頻新聞。針對(duì)這種情況,微軟亞洲研究院在搜索結(jié)果中實(shí)現(xiàn)了類別細(xì)分的功能,可以按照時(shí)長(zhǎng)(duration)、類型(genre)、格式(format)等分類標(biāo)準(zhǔn)進(jìn)行過(guò)濾。每個(gè)標(biāo)準(zhǔn)下包含幾個(gè)細(xì)分的類別,比如,選擇“類型”后,可以按照“體育”、“電影”、“新聞”等類別細(xì)分。這樣一來(lái),雜亂的結(jié)果就變得清晰了。 
你可能還會(huì)遇到另一種情況,本來(lái)搜索的是“汽車”,但卻得到了五花八門的視頻結(jié)果略縮圖—因?yàn)槟壳笆袌?chǎng)上的視頻搜索引擎,還不能根據(jù)關(guān)鍵字實(shí)現(xiàn)動(dòng)態(tài)關(guān)聯(lián)。打個(gè)比方,如果你用“汽車”和“交通”兩個(gè)不同的關(guān)鍵字搜索到同一個(gè)視頻時(shí),看到的呈現(xiàn)結(jié)果是相同的,沒(méi)有任何變化。同時(shí),這一結(jié)果往往不能預(yù)覽,既看不到略縮圖畫面,又看不到視頻完整的信息,只能點(diǎn)擊進(jìn)去以流媒體窗口的形式邊下載邊觀看,但這必定要耗費(fèi)時(shí)間。
由于網(wǎng)上的很多視頻是基于HTTP協(xié)議的,這意味著每播放一次視頻,都要重新下載、從頭播放,即只能順序播放,無(wú)法實(shí)現(xiàn)跳轉(zhuǎn)。而MSRA目前有一項(xiàng)技術(shù)可以實(shí)現(xiàn)HTTP下的自由跳轉(zhuǎn)。
據(jù)華先勝介紹,視頻呈現(xiàn)中的關(guān)鍵點(diǎn)是視頻摘要技術(shù),目前MSRA共研究出了5種視頻搜索結(jié)果呈現(xiàn)方式,不僅能夠動(dòng)態(tài)定位到關(guān)鍵字所在的那一關(guān)鍵幀,而且能讓你在該頁(yè)面下進(jìn)行10秒~30秒的播放預(yù)覽。其中,有一種列表呈現(xiàn)方式,除了提供一個(gè)“動(dòng)態(tài)略縮圖”外,還像DVD的播前瀏覽功能那樣,把每個(gè)視頻分為可獨(dú)立播放的五個(gè)章節(jié)。這樣一來(lái),用戶就可以大致了解這個(gè)視頻文件的內(nèi)容了。而使用該技術(shù)所提供的可伸縮呈現(xiàn)方式,則可以實(shí)現(xiàn)個(gè)性化的片斷細(xì)分,比如,當(dāng)你選擇按“×4”方式呈現(xiàn)時(shí),原視頻即被分為32個(gè)剪輯片斷呈現(xiàn)出來(lái)。
這并不是全部。這種未來(lái)的搜索引擎還加入了Web2.0元素—用戶可以對(duì)一段視頻中的某(幾)段剪輯,建立個(gè)性化注釋標(biāo)簽(Tag),并可收藏及分享。這種功能將大幅改善現(xiàn)有視頻共享社區(qū)的用戶體驗(yàn)、增加用戶粘性。
改良版視頻廣告
“鏘鏘三人行,廣告之后見。”觀眾們總是很想知道,說(shuō)完這句話后,竇文濤和嘉賓們到底聊了些什么—電視臺(tái)是嚴(yán)格按照時(shí)間來(lái)插播廣告的,即當(dāng)節(jié)目播到一個(gè)固定的時(shí)間點(diǎn),就要插播廣告,而且其內(nèi)容是面向所有用戶的,不一定與節(jié)目直接相關(guān)。
互聯(lián)網(wǎng)為視頻廣告提供了更為靈活、個(gè)性化的條件。作為最主要的盈利手段,它將直接影響在線視頻的發(fā)展。但由于受到技術(shù)發(fā)展的限制,目前市場(chǎng)上的產(chǎn)品還只能做到在一段視頻的頭、尾位置插入廣告,無(wú)法做到與視頻內(nèi)容相匹配、智能插入。
為此,微軟正在研發(fā)一種結(jié)合搜索的視頻廣告平臺(tái),可以突破現(xiàn)有的按時(shí)間插入的廣告模式,從用戶體驗(yàn)和廣告主利益兩個(gè)角度出發(fā),實(shí)時(shí)地在一段視頻內(nèi)容中合適的位置處插播合適的廣告。此外,視頻廣告在環(huán)繞文字及場(chǎng)景替換方面也有待進(jìn)一步的研究。
未來(lái),仍有很多技術(shù)方向等待探索。比如,如何準(zhǔn)確地把視頻內(nèi)容映射到語(yǔ)意?怎樣在保證速度的前提下,處理大量的數(shù)據(jù)?對(duì)視頻搜索而言,關(guān)鍵字仍是惟一有效的查詢方式嗎?你也許將不再只是一個(gè)旁觀者和使用者,在Web2.0的時(shí)代,視頻搜索將依靠眾人的力量來(lái)貢獻(xiàn)數(shù)據(jù)—你將是點(diǎn)燃智能視頻搜索引擎的一份子。