999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隱含語義分析的抖音短視頻語義檢測方法

2020-04-08 09:36:55趙楠范書國甄琢孟丹
科技資訊 2020年4期

趙楠 范書國 甄琢 孟丹

摘? 要:隨著短視頻關(guān)注度的不斷提高,抖音短視頻已經(jīng)成為當(dāng)前時代熱點。針對于短視頻、短文本,向量空間模型(VSM)表示方法存在高維度、同義多義問題,導(dǎo)致難以準(zhǔn)確度量文本相似度,該文提出了一種基于隱含語義分析的聚類方法,利用LSA將訓(xùn)練數(shù)據(jù)聚類成隱含語義主題,通過奇異值分解,將詞向量和文檔向量投射到一個低維空間,用層次聚類算法確定初始中心,然后聚類得到結(jié)果。結(jié)論表明,短視頻中的核心語義內(nèi)容被成功保留下來,運(yùn)用矩陣降維方法降低了計算量,冗余的相關(guān)性干擾得以解決,改變了視頻語義檢測的整體效果。

關(guān)鍵詞:隱含語義? 層次聚類? 奇異值分解? 矩陣降維

中圖分類號:TP391.4 ? ?文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2020)02(a)-0009-02

隨著互聯(lián)網(wǎng)用戶數(shù)量的不斷增長,網(wǎng)絡(luò)短視頻的數(shù)量也在與日俱增。因此,迫切地需要在數(shù)以萬計的短視頻中實現(xiàn)高速有效的檢索。視頻數(shù)據(jù)內(nèi)容包含復(fù)雜的含義,視頻數(shù)據(jù)之間也存在著內(nèi)在聯(lián)系。在視頻圖像中,圖片特征與特征之間、視頻片段與片段之間,視頻語義與語義之間都存在著關(guān)聯(lián)關(guān)系。通過這些關(guān)聯(lián)關(guān)系,語義檢測的計算成本可以得到減少,提高搜索的質(zhì)量。視頻語義之間的相關(guān)性有很重要的作用,視頻語義內(nèi)容之間會出現(xiàn)同義和多義等問題,這就是由于對視頻語義的相關(guān)性忽略而引起的,會導(dǎo)致一系列缺陷。現(xiàn)在對視頻語義相關(guān)性的關(guān)注度和重視度不足,為此,需要深入學(xué)習(xí)和研究視頻語義相關(guān)性方面的知識和課題,讓相關(guān)性發(fā)揮重要作用,同時解決一系列不利的問題。該文通過LSA(隱含語義分析)方法的理論指導(dǎo),改進(jìn)和豐富了抖音短視頻內(nèi)容檢測中視頻的主要數(shù)據(jù)特點,建立了根據(jù)視頻語義內(nèi)容創(chuàng)造的視頻文檔矩陣,說明了短視頻的視頻結(jié)構(gòu)和相關(guān)性分析內(nèi)容。

1? 視頻隱含語義關(guān)聯(lián)性分析方法

1.1 LSA基本思想

LSA的基本思想是認(rèn)為詞匯和詞匯之間存在著一定的關(guān)聯(lián)關(guān)系,文檔和文檔之間也存在著一定的關(guān)聯(lián)關(guān)系,它們之間存在一種隱含式的文本語義結(jié)構(gòu),奇異值分解由詞語統(tǒng)計頻統(tǒng)向量構(gòu)成的文檔集合矩陣進(jìn)行,再經(jīng)過降維處理得到的語義結(jié)構(gòu),解決了因為視頻語義相關(guān)性而引起的同義和多義等問題,而它的核心語義信息都成功保存下來,對為未來檢測相似語義的目標(biāo)文件,查詢文件之間的相似程度有著重要作用。視頻目標(biāo)和視頻對象的典型特征之間的相關(guān)性關(guān)系可以用來反映該短視頻的具體語義內(nèi)容,視頻典型特征和相關(guān)性關(guān)系通過聚類會得到不同類別的信息,與視頻的語義內(nèi)容密不可分。相對于視頻語義數(shù)據(jù)來說,沒有明顯的文本、文檔內(nèi)容,也沒有廣闊的語言內(nèi)容空間,直接復(fù)制LSA的處理方法是不能實現(xiàn)的。所以,該文針對這個問題提出了解決視頻語義建模的一個辦法:將短視頻分成許多幀,短視頻中的每一幀圖像都可以對應(yīng)短文本中的每一個文件、文檔,從而建立視頻文檔集合矩陣。對視頻語義內(nèi)容中的典型特征進(jìn)行細(xì)分,分類后的每一部分可以對應(yīng)文件文檔以一個基礎(chǔ)詞匯,建立起視頻特征詞典。通過這兩點,再對短視頻進(jìn)行進(jìn)一步的擴(kuò)展,當(dāng)擴(kuò)展數(shù)據(jù)庫的容量時,可以將中等大小的短視頻文件映射到文件文檔向量。

1.2 視頻特征字典的建立

當(dāng)開始創(chuàng)建視頻特征詞典的時候,應(yīng)該對過去曾經(jīng)用過的典型特征,通過K-means算法生成H個聚類,H個聚類應(yīng)該對應(yīng)H維的向量。我們也可以將視頻特征詞典的規(guī)模大小程度用H來表示。原因是K-means算法的基本屬性就是如此,它可以對聚類結(jié)果的規(guī)模大小加以調(diào)整控制,因此,可以合理地使用這個特點,可以根據(jù)實際情況不斷地調(diào)整特征詞典的規(guī)模大小。可以根據(jù)實際需求創(chuàng)建一系列視頻特征字典,用來應(yīng)對不同層面的、不同類別的典型特征,接下來既可以單獨(dú)運(yùn)行,也可以聯(lián)合起來對這類特征詞典進(jìn)行合理應(yīng)用,從而滿足不同層面上的需求。

1.3 視頻文檔集合矩陣的建立

當(dāng)開始創(chuàng)建視頻文檔集合矩陣的時候,如果將短視頻分割成一系列幀,每幀圖像分別對應(yīng)著文件文檔的每一個文件,因為短視頻文件中的幀數(shù)龐大,就會導(dǎo)致文檔集合矩陣范圍龐大,會極大地降低計算的速率。所以,再進(jìn)行建立視頻文檔集合矩陣操作前,需要對短視頻實行預(yù)處理操作,將關(guān)鍵幀從短視頻文件中分離出來,用關(guān)鍵幀充當(dāng)文檔的基礎(chǔ)單元,目的是為了減少矩陣的范圍,從而增加可行性。短視頻被分割成一系列片段,形成一系列關(guān)鍵幀,每一個關(guān)鍵幀都擁有該片段最重要的內(nèi)容,這一系列關(guān)鍵幀組合成這個視頻片段。細(xì)分到每一個關(guān)鍵幀,還要繼續(xù)將它割裂成不同片段,為了方便進(jìn)行隱含語義分析操作,每個片段都應(yīng)該占用相同區(qū)域大小。接下來,視頻特征詞典將要作為前提條件,提取出每個分割片段的典型特征,綜合到一起,進(jìn)行頻率數(shù)字統(tǒng)計,然后綜合所有片段的統(tǒng)計結(jié)果,形成一個對應(yīng)這個關(guān)鍵幀的視頻文檔,從而也可以得出短視頻的視頻文檔矩陣。

這種操作方法主要是通過分割關(guān)鍵幀來實現(xiàn)的,再用K-means算法進(jìn)行輔助,最終綜合統(tǒng)計關(guān)鍵幀的視頻文檔,可以極大地體現(xiàn)出典型特征在視頻語義分析中的重要作用,可以方便突出視頻的結(jié)構(gòu)特點,了解視頻的數(shù)據(jù)內(nèi)容。

2? 基于隱含語義分析的抖音短視頻語義檢測方法

該文對抖音短視頻進(jìn)行隱含語義分析建模,選取熱度較高的短視頻,選取其短文本,進(jìn)行奇異值分解,檢索出該段文本的隱含語義信息。然后通過聚類算法來檢索抖音短視頻。為了解決向量空間模型對于詞項匹配不足的問題,該文采用隱含語義分析建模的方法,首先,選取熱度較高的短視頻,對它進(jìn)行奇異值分解,將文件文檔對應(yīng)到隱含于一空間,對其隱含語義信息進(jìn)行挖掘。

抖音短視頻的獲取我們采用網(wǎng)絡(luò)爬蟲技術(shù)對短視頻進(jìn)行抓取。采用Fiddler進(jìn)行手機(jī)抖音APP的抓包,安裝Fiddler后,進(jìn)行數(shù)據(jù)的配置。在手機(jī)無線連接代理中填寫電腦的IP地址和Fiddler代理的端口,安裝證書,就可以進(jìn)行抖音短視頻的抓包,然后可以對爬取的用戶信息數(shù)據(jù)進(jìn)行預(yù)處理,并存入數(shù)據(jù)庫。通過爬蟲獲取的數(shù)據(jù)不可以直接接收進(jìn)行操作使用,需要加工處理,逐步實現(xiàn)數(shù)據(jù)清洗操作,減少數(shù)據(jù)中存在著錯誤或異常(偏離期望值)的數(shù)據(jù)。抖音短視頻的用戶通常是清理活躍數(shù)較低的垃圾用戶來達(dá)成數(shù)據(jù)預(yù)處理操作的,以便為接下來的聚類算法打好基礎(chǔ)。

首先對短文本數(shù)據(jù)進(jìn)行初次聚類,應(yīng)用Single-pass算法,每一條視頻文本都是唯一的,它也對應(yīng)著唯一的特征向量,每個文本之間的特征向量需要進(jìn)行相似度的計算,得出關(guān)聯(lián)關(guān)系較高的就會被歸類到一個簇里。這次聚類是對短視頻文件進(jìn)行初次聚類,得到同一個簇。接下來就是第二次聚類,第二次聚類的目的是要將簇進(jìn)行合并,最終才能得到話題集。

3? 結(jié)語

該文提出的基于隱含語義分析的語義檢測方法,在現(xiàn)實的視頻語義檢測應(yīng)用中,需要繼續(xù)保留視頻文本結(jié)構(gòu)中的典型語義特征,信息冗余帶來的困擾得以解除,視頻語義的檢測內(nèi)容得到了提高,適合當(dāng)前的網(wǎng)絡(luò)短視頻環(huán)境。采用了二級聚類算法,在一定程度上提高了發(fā)現(xiàn)效率和準(zhǔn)確率,但包含的信息還有待完善。下一步重點:評估發(fā)布的視頻內(nèi)容的權(quán)威性,細(xì)分用戶角色,發(fā)現(xiàn)語義主題檢測的準(zhǔn)確率。

參考文獻(xiàn)

[1] 馬雯雯,魏文晗,鄧一貴.基于隱含語義分析的微博話題發(fā)現(xiàn)方法[J].計算機(jī)工程與應(yīng)用,2014,50(1):96-100.

[2] 王曉巖.微博客熱點話題發(fā)現(xiàn)與跟蹤技術(shù)及系統(tǒng)[D].中國科學(xué)院大學(xué),2013.

[3] 孫曰昕.面向微博的熱點話題發(fā)現(xiàn)與追蹤研究[D].西北師范大學(xué),2014.

[4] 陳志雄,朱向莊.基于內(nèi)容評價與超鏈分析的主題爬蟲策略[J].輕工科技,2011,27(3):66-67.

[5] 何躍,帥馬戀,馮韻.中文微博熱點話題挖掘[J].統(tǒng)計與信息論壇,2014,29(6):86-90.

[6] 鄭斐然,苗奪謙,張志飛,等.一種中文微博新聞話題檢測的方法[J].計算機(jī)科學(xué),2012,39(1):138-141.

[7] He H,Chen B,Xu W,et a1.Short text feature extraction and clustering for web topic mining[A].Third Internationl Conference on Semantics,Knowledge and Gird(SKG 2007)[C].2007.

主站蜘蛛池模板: 久久久四虎成人永久免费网站| 国产色婷婷视频在线观看| 老司机午夜精品视频你懂的| 97精品伊人久久大香线蕉| 日本高清免费不卡视频| 欧美午夜理伦三级在线观看| 99热这里只有精品免费国产| 中文字幕在线看视频一区二区三区| 999精品视频在线| 亚洲大尺码专区影院| 精品在线免费播放| 伊人久综合| 国产AV无码专区亚洲A∨毛片| 一本大道香蕉久中文在线播放| 露脸一二三区国语对白| 亚洲日韩欧美在线观看| 国产成人做受免费视频| 啪啪永久免费av| 久久这里只有精品8| 欧美成人区| 国产高清在线精品一区二区三区| 亚洲娇小与黑人巨大交| 国产丝袜91| 国产精品美人久久久久久AV| 国产主播福利在线观看| 亚洲色无码专线精品观看| 国内精品一区二区在线观看| 久久久久人妻一区精品色奶水| 亚欧成人无码AV在线播放| 亚洲欧美精品在线| 亚洲av无码成人专区| 精品一区二区三区自慰喷水| 国产亚洲精品资源在线26u| 日韩无码黄色| 国产成人无码综合亚洲日韩不卡| 国产99视频在线| 国产人妖视频一区在线观看| 亚洲成A人V欧美综合天堂| 东京热高清无码精品| 国产微拍一区二区三区四区| 自拍偷拍欧美日韩| 日韩中文欧美| 中文字幕在线观| a天堂视频| 制服丝袜国产精品| 日韩在线视频网| 久久99国产综合精品1| 一级毛片在线免费视频| 国产经典三级在线| 国产成人无码AV在线播放动漫| 久久久亚洲色| 亚洲精品在线观看91| 亚洲国产亚洲综合在线尤物| 欧美精品v欧洲精品| 黄色网址手机国内免费在线观看| 亚洲天堂精品视频| 日韩国产综合精选| 亚洲视频一区在线| 自偷自拍三级全三级视频| 在线欧美日韩| 天天综合亚洲| 国产成人三级在线观看视频| 狠狠v日韩v欧美v| 中文字幕资源站| 欧美日韩一区二区在线免费观看| 国产成人精品18| 中文字幕在线不卡视频| 国产日韩欧美精品区性色| 四虎永久免费地址| a毛片免费观看| 91麻豆精品视频| 四虎永久在线精品国产免费| 欧美成人看片一区二区三区 | 天天操天天噜| 伊人激情久久综合中文字幕| 热这里只有精品国产热门精品| 97在线免费| 91成人在线免费观看| 国产不卡国语在线| 日本人妻一区二区三区不卡影院| 国产精品女主播| 亚洲欧洲免费视频|