999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

對比內(nèi)嵌字幕進(jìn)行視頻去重

2015-04-10 18:25:59蔣宗禮袁圓
計算技術(shù)與自動化 2015年1期

蔣宗禮 袁圓

摘 要:現(xiàn)有的視頻去重技術(shù)多樣,但字幕這一與視頻內(nèi)容能高度匹配的重要信息并未被考慮到其中。提出一種針對含內(nèi)嵌字幕視頻進(jìn)行去重的方法,并在三大視頻網(wǎng)頁中得到了該方法的再去重效果。首先將相應(yīng)網(wǎng)頁視頻中的字幕經(jīng)過OTC處理將其文檔化,再規(guī)范文檔,最后設(shè)定一個界值,對網(wǎng)頁進(jìn)行去重篩選。類比于網(wǎng)頁文本的去重方法,基于文本內(nèi)容的去重工作可以大大改善去重的效果,考慮到視頻中人物對話內(nèi)容的唯一性,我們可以根據(jù)視頻字幕內(nèi)容來進(jìn)行去重,從而得到更為精準(zhǔn)的視頻去重結(jié)果。

關(guān)鍵詞:網(wǎng)頁視頻;內(nèi)嵌字幕;去重;LCS

中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A

Abstract:Even there are many ways to remove duplicate web videos, the subtitleinfo which can highly matchas with the contents of video still cannot be taken into account to the removal process. This paper put forward a method by using contrast with embedded subtitles in video to delete the duplicate web videos, and presented the effect of reremove duplicates by this method in three big web video page.The subtitles in web video need documentation through OTC processing and specification document again,and set an boundary value through experiment, so that the duplicate web video can be filtrated. simihar to the duplicate removing method, in web page next this method can greatly improve the effect of duplicate removing,Considering the uniqueness of dialogue contents in the video,we can use the contents of the video subtitles to do duplicate removing,and to get more accurate video search results in search engine. The target of this study is duplicate removing work of the web video with hard subtitles, which is belong to webbased content to the duplicate removing study, used to remove the duplicate web video pages and improve the user experience.

Key words:web video; embedded subtitles; remove duplicate; LCS

1 引 言

在互聯(lián)網(wǎng)中,網(wǎng)頁內(nèi)容的大量重復(fù),對搜索引擎來說,這些重復(fù)使得用戶體驗太差,因此,需要“去重”[1]。

在以UGC(User Generated Content)業(yè)務(wù)為主的視頻網(wǎng)站中,每天都有大量的視頻被上傳[2]。用戶上傳的視頻有數(shù)量大、重復(fù)視頻多的特點,特別是一些熱點視頻會同時有多個用戶上傳。這樣 會導(dǎo)致搜索或者推薦結(jié)果中出現(xiàn)大量重復(fù)視頻。如何識別出這些相同內(nèi)容的視頻,為用戶提供更好的搜索和推薦體驗,是一個需要解決的問題。現(xiàn)在識別相同視頻的方法很多,通常的方法有:視頻文件md5值去重,每個視頻文件里都保存有一個md5值,可以認(rèn)為是這個視頻文件的基因;根據(jù)視頻的文本信息(指生成標(biāo)題、描述和標(biāo)簽等)進(jìn)行去重,用戶在上傳視頻時會生成標(biāo)題、描述和標(biāo)簽等文本信息,根據(jù)這些文本信息進(jìn)行相同視頻的去重;根據(jù)視頻時長進(jìn)行分類,在進(jìn)行相同視頻的去重的算法中可以先根據(jù)視頻時長對全量視頻進(jìn)行分類,然后根據(jù)視頻文本信息計算文本距離,在每個分類中應(yīng)用視頻文本信息距離進(jìn)行迭代就成為可能;根據(jù)圖像或者視頻內(nèi)容進(jìn)行去重(關(guān)鍵幀的圖像匹配),根據(jù)文本信息進(jìn)行去重的劣勢是過度依靠文本信息,而視頻內(nèi)容畢竟不能完全用文本來衡量。[3]如果一個視頻的文本信息過少的話,去重的結(jié)果是不可靠的,所以根本的解決問題的方法是依賴視頻內(nèi)容進(jìn)行去重,視頻本質(zhì)上是一幀一幀的圖像組成的,所以可以把這個問題簡化為關(guān)鍵幀的圖像匹配問題,著名UGC視頻網(wǎng)站Youtube就是采用了這種方法進(jìn)行視頻去重。或者干脆簡化一點,根據(jù)視頻的縮略圖進(jìn)行圖像匹配估計也會達(dá)到很好的效果[4]。

本文研究的對象是含有內(nèi)嵌字幕的視頻,具有內(nèi)嵌字幕文本信息這一重要因素,與視頻內(nèi)容具有高度匹配性,于是提出了一種基于內(nèi)嵌字幕的視頻去重途徑,屬于文本信息去重法。分別依據(jù)生成的標(biāo)題、生成的標(biāo)簽、描述,內(nèi)嵌字幕,對已有的搜索視頻結(jié)果進(jìn)行再次去重,觀察其再去重率效果。

2 去重標(biāo)準(zhǔn)設(shè)定

同一段視頻的字幕是根據(jù)視頻內(nèi)容而來,具有相同內(nèi)容視頻的內(nèi)嵌字幕,從理論上來說應(yīng)該完全一致,即去重標(biāo)準(zhǔn)應(yīng)定為100%。但是,由于提取內(nèi)嵌字幕時采用的是光學(xué)OTC的方法,在不同視頻分辨率的時候提取出來的內(nèi)嵌字幕有所偏差,即使是兩個相同內(nèi)容的視頻,提取出來的字幕也會不同,于是需要允許一定的偏差。

由圖可看出,基于內(nèi)嵌字幕的再去重明顯優(yōu)于基于文件標(biāo)題特征進(jìn)行再去重的方法,這是因為每一個視頻的內(nèi)嵌字幕都具有唯一性,而視頻的標(biāo)題、標(biāo)簽、描述是在視頻上傳時用戶可以隨意賦予的,故而并不一定與視頻內(nèi)容相符。

5 結(jié)束語

本文針對含有內(nèi)嵌字幕的視頻,提出一種基于內(nèi)嵌字幕內(nèi)容的去重算法。實驗表明,該方法去重較基于文件標(biāo)題特征的方法效果更佳。通過提取視頻網(wǎng)頁的內(nèi)嵌字幕,在去重過程中加入適用于本研究的動態(tài)LCS算法,由實驗結(jié)果可知,依據(jù)內(nèi)嵌字幕對網(wǎng)絡(luò)視頻去重確實較為精準(zhǔn),從而可大量節(jié)約結(jié)點存儲資源,采用此方法進(jìn)行視頻去重具有很大的現(xiàn)實意義。然而,本文并未對如何使大量人工標(biāo)注過程實現(xiàn)自動化進(jìn)行研究討論,可在今后的研究工作中進(jìn)一步研究實現(xiàn)。參考文獻(xiàn)

[1] 中國互聯(lián)網(wǎng)絡(luò)信息中心. 中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[R]. 2008年1月. 39-40頁.

[2] Ming Zhao;Yagnik,J.;Adam,H.;Bau,D. Large scale learning and recognition of faces inweb videos. Automatic Face & Gesture Recognition, 2008. FG '08[J].8th IEEE International Conference on DOI:10.1109/AFGR.2008.4813381. Publication Year: 2008, Page(s): 1-7.

[3] Xiao Wu;ChongWah Ngo;Hauptmann,A.G.;HungKhoon Tan. RealTime NearDuplicate Elimination for Web VideoSearch With Content and Context. Multimedia[J].IEEE Transactions on Volume:11,Issue: 2 DOI:10.1109/TMM.2008.2009673. Publication Year: 2009, Page(s): 196-207.

[4] Chengde Zhang;Xiao Wu;MeiLing Shyu;Qiang Peng. Adaptive association rule mining for web videoevent classification. Information Reuse and Integration (IRI)[J].2013 IEEE 14th International Conference on DOI:10.1109/IRI.2013.6642526. Publication Year: 2013, Page(s): 618-625.

[5] 于海英. 字符串相似度度量中LCS和GST算法比較[J].電子科技, 2011,24(3):101-103.

[6] 盛驟,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計[M].北京:高等教育出版社.2001年12月第3版:294-312.

[7] 王曉東. 計算機算法設(shè)計與分析[M]. 北京:電子工業(yè)出版社, 2001.

[8] Rubi, R.D.;Arockiam, L. Positional_LCS: A position based algorithm to find Longest Common Subsequence (LCS) in Sequence Database (SDB). Computational Intelligence & Computing Research (ICCIC)[J].2012 IEEE International Conference on DOI: 10.1109/ICCIC.2012.6510271. Publication Year: 2012, Page(s):1-4.

[9] Wei Liu, Ling Chen, Lingjun Zou. A parallel LCS algorithm for biosequences alignment. InfoScale '07: Proceedings of the 2nd international conference on Scalable information systems[J].Publisher:ICST (Institute for Computer Sciences, Social-Informatics and Telecommunications Engineering). June 2007.

[10]Heba AlShaek Salem, Maryam Nuser, Izzat Alsmadi. Similarity evaluation of DNA sequences based on nucleotides similarity[J].ICICS '12: Proceedings of the 3rd International Conference on Information and Communication Systems. Publisher: ACM. April 2012.

[11]申曉. 如何編程實現(xiàn)快速LCS算法[J].電腦編程技巧與維護(hù),2012,(11):91-92.

[12]胡婕,業(yè)寧,羅曉波,等. 多序列的近似LCS改進(jìn)算法[J].計算機工程,2011,37(2):166-168.

[13]Jeffrey E.F. 精通正則表達(dá)式,余晟,譯[M]. 北京:電子工業(yè)出版社,2007.

[14]郭牧怡,劉萍,譚健龍,等. 基于文件標(biāo)題特征的網(wǎng)絡(luò)視頻去重研究[J]. 計算機工程,2010,36(9):227-229.

主站蜘蛛池模板: 91www在线观看| 亚洲天堂视频在线播放| 五月天综合婷婷| 国产激情无码一区二区免费| 91成人在线免费视频| 亚洲欧美成aⅴ人在线观看 | 久热中文字幕在线| 国产午夜无码专区喷水| 国产不卡国语在线| 精品国产免费第一区二区三区日韩| 中文字幕欧美日韩高清| 女人18毛片水真多国产| 国产精品青青| 五月激情婷婷综合| 男女男精品视频| 日本人又色又爽的视频| 成年人福利视频| 国产玖玖视频| 日韩一区二区三免费高清| 国产福利小视频在线播放观看| 黄色网站不卡无码| 亚洲国产成人超福利久久精品| 97视频在线精品国自产拍| 日本国产精品| 欧美国产在线精品17p| 伊伊人成亚洲综合人网7777| 91精品免费高清在线| 中文字幕欧美日韩| 欧美色伊人| 国产高清又黄又嫩的免费视频网站| 99无码中文字幕视频| 日本成人不卡视频| 国产精品永久不卡免费视频| 亚洲热线99精品视频| 亚洲人成电影在线播放| 99久久精品国产精品亚洲| 在线精品亚洲一区二区古装| 不卡的在线视频免费观看| 国产免费黄| 欧美翘臀一区二区三区| 国产欧美日韩资源在线观看| 亚洲精品视频免费看| 2020极品精品国产| 91国内在线视频| 91九色国产在线| 国产丝袜啪啪| 久久黄色一级视频| 成人中文在线| 久久久成年黄色视频| 日韩不卡高清视频| 亚洲综合久久一本伊一区| 老司机久久精品视频| 中文无码伦av中文字幕| 亚洲欧洲综合| 制服丝袜 91视频| 亚洲免费毛片| 91麻豆精品国产高清在线| 中文字幕有乳无码| 国产最新无码专区在线| 欧美狠狠干| 99在线视频免费| 国产JIZzJIzz视频全部免费| 亚洲aaa视频| 九色在线观看视频| 另类专区亚洲| 亚洲人免费视频| 国产丝袜无码精品| 99偷拍视频精品一区二区| 国产色婷婷视频在线观看| 国产啪在线| 2020久久国产综合精品swag| 国产成人一二三| 国产精品无码AV片在线观看播放| 久久久91人妻无码精品蜜桃HD| 美女潮喷出白浆在线观看视频| 精品人妻系列无码专区久久| 亚洲福利网址| 91九色最新地址| 九九热精品视频在线| 精品乱码久久久久久久| 日日碰狠狠添天天爽| 欧美伦理一区|