999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

對比內嵌字幕進行視頻去重

2015-04-10 18:25:59蔣宗禮袁圓
計算技術與自動化 2015年1期

蔣宗禮 袁圓

摘 要:現有的視頻去重技術多樣,但字幕這一與視頻內容能高度匹配的重要信息并未被考慮到其中。提出一種針對含內嵌字幕視頻進行去重的方法,并在三大視頻網頁中得到了該方法的再去重效果。首先將相應網頁視頻中的字幕經過OTC處理將其文檔化,再規范文檔,最后設定一個界值,對網頁進行去重篩選。類比于網頁文本的去重方法,基于文本內容的去重工作可以大大改善去重的效果,考慮到視頻中人物對話內容的唯一性,我們可以根據視頻字幕內容來進行去重,從而得到更為精準的視頻去重結果。

關鍵詞:網頁視頻;內嵌字幕;去重;LCS

中圖分類號:TP391 文獻標識碼:A

Abstract:Even there are many ways to remove duplicate web videos, the subtitleinfo which can highly matchas with the contents of video still cannot be taken into account to the removal process. This paper put forward a method by using contrast with embedded subtitles in video to delete the duplicate web videos, and presented the effect of reremove duplicates by this method in three big web video page.The subtitles in web video need documentation through OTC processing and specification document again,and set an boundary value through experiment, so that the duplicate web video can be filtrated. simihar to the duplicate removing method, in web page next this method can greatly improve the effect of duplicate removing,Considering the uniqueness of dialogue contents in the video,we can use the contents of the video subtitles to do duplicate removing,and to get more accurate video search results in search engine. The target of this study is duplicate removing work of the web video with hard subtitles, which is belong to webbased content to the duplicate removing study, used to remove the duplicate web video pages and improve the user experience.

Key words:web video; embedded subtitles; remove duplicate; LCS

1 引 言

在互聯網中,網頁內容的大量重復,對搜索引擎來說,這些重復使得用戶體驗太差,因此,需要“去重”[1]。

在以UGC(User Generated Content)業務為主的視頻網站中,每天都有大量的視頻被上傳[2]。用戶上傳的視頻有數量大、重復視頻多的特點,特別是一些熱點視頻會同時有多個用戶上傳。這樣 會導致搜索或者推薦結果中出現大量重復視頻。如何識別出這些相同內容的視頻,為用戶提供更好的搜索和推薦體驗,是一個需要解決的問題。現在識別相同視頻的方法很多,通常的方法有:視頻文件md5值去重,每個視頻文件里都保存有一個md5值,可以認為是這個視頻文件的基因;根據視頻的文本信息(指生成標題、描述和標簽等)進行去重,用戶在上傳視頻時會生成標題、描述和標簽等文本信息,根據這些文本信息進行相同視頻的去重;根據視頻時長進行分類,在進行相同視頻的去重的算法中可以先根據視頻時長對全量視頻進行分類,然后根據視頻文本信息計算文本距離,在每個分類中應用視頻文本信息距離進行迭代就成為可能;根據圖像或者視頻內容進行去重(關鍵幀的圖像匹配),根據文本信息進行去重的劣勢是過度依靠文本信息,而視頻內容畢竟不能完全用文本來衡量。[3]如果一個視頻的文本信息過少的話,去重的結果是不可靠的,所以根本的解決問題的方法是依賴視頻內容進行去重,視頻本質上是一幀一幀的圖像組成的,所以可以把這個問題簡化為關鍵幀的圖像匹配問題,著名UGC視頻網站Youtube就是采用了這種方法進行視頻去重。或者干脆簡化一點,根據視頻的縮略圖進行圖像匹配估計也會達到很好的效果[4]。

本文研究的對象是含有內嵌字幕的視頻,具有內嵌字幕文本信息這一重要因素,與視頻內容具有高度匹配性,于是提出了一種基于內嵌字幕的視頻去重途徑,屬于文本信息去重法。分別依據生成的標題、生成的標簽、描述,內嵌字幕,對已有的搜索視頻結果進行再次去重,觀察其再去重率效果。

2 去重標準設定

同一段視頻的字幕是根據視頻內容而來,具有相同內容視頻的內嵌字幕,從理論上來說應該完全一致,即去重標準應定為100%。但是,由于提取內嵌字幕時采用的是光學OTC的方法,在不同視頻分辨率的時候提取出來的內嵌字幕有所偏差,即使是兩個相同內容的視頻,提取出來的字幕也會不同,于是需要允許一定的偏差。

由圖可看出,基于內嵌字幕的再去重明顯優于基于文件標題特征進行再去重的方法,這是因為每一個視頻的內嵌字幕都具有唯一性,而視頻的標題、標簽、描述是在視頻上傳時用戶可以隨意賦予的,故而并不一定與視頻內容相符。

5 結束語

本文針對含有內嵌字幕的視頻,提出一種基于內嵌字幕內容的去重算法。實驗表明,該方法去重較基于文件標題特征的方法效果更佳。通過提取視頻網頁的內嵌字幕,在去重過程中加入適用于本研究的動態LCS算法,由實驗結果可知,依據內嵌字幕對網絡視頻去重確實較為精準,從而可大量節約結點存儲資源,采用此方法進行視頻去重具有很大的現實意義。然而,本文并未對如何使大量人工標注過程實現自動化進行研究討論,可在今后的研究工作中進一步研究實現。參考文獻

[1] 中國互聯網絡信息中心. 中國互聯網絡發展狀況統計報告[R]. 2008年1月. 39-40頁.

[2] Ming Zhao;Yagnik,J.;Adam,H.;Bau,D. Large scale learning and recognition of faces inweb videos. Automatic Face & Gesture Recognition, 2008. FG '08[J].8th IEEE International Conference on DOI:10.1109/AFGR.2008.4813381. Publication Year: 2008, Page(s): 1-7.

[3] Xiao Wu;ChongWah Ngo;Hauptmann,A.G.;HungKhoon Tan. RealTime NearDuplicate Elimination for Web VideoSearch With Content and Context. Multimedia[J].IEEE Transactions on Volume:11,Issue: 2 DOI:10.1109/TMM.2008.2009673. Publication Year: 2009, Page(s): 196-207.

[4] Chengde Zhang;Xiao Wu;MeiLing Shyu;Qiang Peng. Adaptive association rule mining for web videoevent classification. Information Reuse and Integration (IRI)[J].2013 IEEE 14th International Conference on DOI:10.1109/IRI.2013.6642526. Publication Year: 2013, Page(s): 618-625.

[5] 于海英. 字符串相似度度量中LCS和GST算法比較[J].電子科技, 2011,24(3):101-103.

[6] 盛驟,謝式千,潘承毅.概率論與數理統計[M].北京:高等教育出版社.2001年12月第3版:294-312.

[7] 王曉東. 計算機算法設計與分析[M]. 北京:電子工業出版社, 2001.

[8] Rubi, R.D.;Arockiam, L. Positional_LCS: A position based algorithm to find Longest Common Subsequence (LCS) in Sequence Database (SDB). Computational Intelligence & Computing Research (ICCIC)[J].2012 IEEE International Conference on DOI: 10.1109/ICCIC.2012.6510271. Publication Year: 2012, Page(s):1-4.

[9] Wei Liu, Ling Chen, Lingjun Zou. A parallel LCS algorithm for biosequences alignment. InfoScale '07: Proceedings of the 2nd international conference on Scalable information systems[J].Publisher:ICST (Institute for Computer Sciences, Social-Informatics and Telecommunications Engineering). June 2007.

[10]Heba AlShaek Salem, Maryam Nuser, Izzat Alsmadi. Similarity evaluation of DNA sequences based on nucleotides similarity[J].ICICS '12: Proceedings of the 3rd International Conference on Information and Communication Systems. Publisher: ACM. April 2012.

[11]申曉. 如何編程實現快速LCS算法[J].電腦編程技巧與維護,2012,(11):91-92.

[12]胡婕,業寧,羅曉波,等. 多序列的近似LCS改進算法[J].計算機工程,2011,37(2):166-168.

[13]Jeffrey E.F. 精通正則表達式,余晟,譯[M]. 北京:電子工業出版社,2007.

[14]郭牧怡,劉萍,譚健龍,等. 基于文件標題特征的網絡視頻去重研究[J]. 計算機工程,2010,36(9):227-229.

主站蜘蛛池模板: 又爽又大又黄a级毛片在线视频 | 91在线一9|永久视频在线| 亚洲首页在线观看| 五月六月伊人狠狠丁香网| 欧美自慰一级看片免费| 少妇人妻无码首页| 91免费国产在线观看尤物| 精品福利视频导航| 91麻豆精品国产高清在线| 欧美成人一级| 最近最新中文字幕免费的一页| 无码福利视频| 国产精品区视频中文字幕| 欧美激情第一区| 久久99国产综合精品1| 亚洲精品免费网站| 2021无码专区人妻系列日韩| av午夜福利一片免费看| 欧美国产在线看| 色成人亚洲| 亚洲天堂首页| 国精品91人妻无码一区二区三区| 99久久精品久久久久久婷婷| 日韩精品高清自在线| 91亚洲精品第一| 亚洲精品视频网| 国产成人三级在线观看视频| 午夜福利网址| 国产成人一区免费观看| 亚洲精品大秀视频| 精品欧美视频| 亚洲欧美日韩中文字幕一区二区三区 | 91热爆在线| 91丝袜美腿高跟国产极品老师| 亚洲国产精品一区二区第一页免 | 亚洲欧洲日本在线| 精品国产成人a在线观看| 美臀人妻中出中文字幕在线| 日韩黄色在线| 狠狠亚洲五月天| 成人在线第一页| 欧美亚洲另类在线观看| 71pao成人国产永久免费视频| 91精品国产91久无码网站| 亚洲美女一区二区三区| 中文字幕日韩久久综合影院| 野花国产精品入口| 在线一级毛片| 亚洲中文字幕在线一区播放| 国产理论一区| 97视频免费看| 成人国产精品2021| 女人天堂av免费| 国产香蕉在线| 在线国产毛片| 久久99国产综合精品女同| 超碰色了色| 日本一区二区三区精品国产| 欧美高清视频一区二区三区| 精品久久人人爽人人玩人人妻| 国产国模一区二区三区四区| 四虎永久在线精品影院| 性欧美久久| 啪啪啪亚洲无码| 狠狠综合久久| 亚洲欧美日韩成人在线| 欧美精品亚洲精品日韩专区| 国产网友愉拍精品| 免费人成又黄又爽的视频网站| 91精品国产91久无码网站| 国产成人a在线观看视频| 亚洲成人一区二区三区| 久久久无码人妻精品无码| 亚洲第一成网站| 中文字幕在线欧美| 在线国产资源| 夜夜操狠狠操| 香蕉国产精品视频| 三级视频中文字幕| 国产日韩精品欧美一区灰| 国产毛片高清一级国语| 日本黄色a视频|