999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本語義分類的廣播電視自動化分類系統(tǒng)設(shè)計

2023-03-07 10:00:22賀曉琳
電視技術(shù) 2023年1期
關(guān)鍵詞:廣播電視語義分類

賀曉琳

(河南工業(yè)和信息化職業(yè)學(xué)院,河南 焦作 454000)

0 引 言

廣播電視節(jié)目的分類工作對于任何一種數(shù)字化的廣播電視內(nèi)容管理系統(tǒng)而言都是一項必備的功能。而在實際的廣播電視節(jié)目分類操作中,系統(tǒng)往往是通過廣播電視節(jié)目的文本內(nèi)容介紹進(jìn)行類別的劃分。隨著廣播電視節(jié)目朝著多樣化的方向發(fā)展,針對廣播電視節(jié)目的介紹也逐漸變得復(fù)雜化和多維化。這使得采用傳統(tǒng)廣播電視分類模型的系統(tǒng)往往會出現(xiàn)對廣播電視內(nèi)容介紹特征提取單一進(jìn)而導(dǎo)致廣播電視內(nèi)容分類精確度不理想等問題。

因此,本文針對傳統(tǒng)廣播電視自動分類系統(tǒng)存在的內(nèi)容特征提取單一、內(nèi)容分類精確度不理想的問題,提出了一種基于文本語義的混合多層分類模型。該改進(jìn)的模型以廣播電視節(jié)目介紹的文本內(nèi)容為分類依據(jù),通過引入TextRank算法來完成對廣播電視文本介紹內(nèi)容的關(guān)鍵語義特征詞提取,進(jìn)而通過BM25算法對冗余的特征語義詞進(jìn)行降維,最終通過FastText模型處理,完成對廣播電視節(jié)目的自動化分類工作。

1 相關(guān)技術(shù)介紹

1.1 TextRank算法

TextRank算法是一種基于圖的用于文本語義關(guān)鍵詞提取和排序的算法[1]。該算法由Google公司通過對PageRank算法進(jìn)行優(yōu)化而來。算法的核心是通過利用目標(biāo)文檔中不同詞組間的語義信息來完成對關(guān)鍵詞的提取工作,因此該算法可以對目標(biāo)文本內(nèi)容進(jìn)行語義關(guān)鍵詞按照重要程度排序,進(jìn)而完成對關(guān)鍵語義短語的抽取工作。

TextRank算法的設(shè)計思想在于將目標(biāo)文檔解析為擁有大量詞的網(wǎng)絡(luò)結(jié)構(gòu)[2],而詞與詞之間的語義聯(lián)系通過網(wǎng)絡(luò)中的鏈接方式進(jìn)行表示。該算法的計算方式如式(1)所示:

式中:S(Vi)表示目標(biāo)文檔中句子Vi的權(quán)重值,d代表阻尼系數(shù),其默認(rèn)值大小為0.85,Wji表示不同的兩個目標(biāo)短語Vi與Vj的相似度,S(Vi)代表上次迭代出句子Vj的權(quán)重值,In(Vi)表示句子Vi的前驅(qū)集合,而Out(Vi)表示句子Vj的后繼節(jié)點集合,右側(cè)中的求和表示每個相鄰句子對目標(biāo)句子的貢獻(xiàn)程度。

1.2 BM25算法

BM25算法是一種用于計算關(guān)鍵查詢詞相對于目標(biāo)文檔或者文件相關(guān)性評分的算法,最早用于計算機(jī)信息檢索領(lǐng)域,其主要思想是對給定查詢的關(guān)鍵詞進(jìn)行語素解析,進(jìn)而生成相對應(yīng)的語素詞,之后對于每個給定的目標(biāo)文檔,計算不同語素詞與文檔之間的相關(guān)性的大小,最后通過將關(guān)鍵詞相對于目標(biāo)文檔的相關(guān)性評分按照權(quán)重進(jìn)行求和,從而獲得查詢關(guān)鍵詞與文檔的相關(guān)性得分[3]。通過對不同關(guān)鍵詞同文檔之間的相關(guān)性評分進(jìn)行排序,進(jìn)而獲得較為精確的、能夠代表當(dāng)前文檔類型的核心語義詞。該算法的一般性公式如式(2)所示。

式中:Q表示查詢的語義關(guān)鍵詞,qi表示對Q進(jìn)行解析之后所獲取到的一個語素,d表示目標(biāo)的文檔集,Wi表示語素qi的權(quán)重值,R(qi,d)表示語素qi與文檔d的相關(guān)性評分值。

1.3 FastText模型

FastText是有美國FaceBook公司開發(fā)的一種詞向量與文本分類的工具[4]。由于該模型在表征學(xué)習(xí)和文本分類方面具備極強(qiáng)的高效性,因此在帶有監(jiān)督的文本分類的問題場景下有著廣泛的應(yīng)用。FastText的模型架構(gòu)如圖1所示。從模型圖中可以看出,F(xiàn)astText主要由輸入層、隱含層和輸出層構(gòu)成,其中輸入量為經(jīng)向量表示的多個單詞,輸出的結(jié)果為一個特定的目標(biāo)類別,而隱含層則是對多個詞向量的疊加平局值。

圖1 FastText模型架構(gòu)

從模型圖可以看出,從輸入層到輸出層,主要是通過將目標(biāo)文檔標(biāo)識為一個由詞構(gòu)成的集合網(wǎng)絡(luò),進(jìn)而疊加構(gòu)成目標(biāo)文檔中所有詞的向量,對疊加的值求平均值,來獲得表征文檔類型的向量,而在隱藏層輸出類型到輸出層過程中使用softmax線性分類器,用以提升分類的整體效率。

2 基于文本語義分類的廣播電視內(nèi)容自動分類模型

2.1 模型架構(gòu)設(shè)計

由于廣播電視分類的主要方式是通過對廣播電視內(nèi)容的文本介紹進(jìn)行關(guān)鍵詞提取進(jìn)而以關(guān)鍵詞為基礎(chǔ)來對廣播電視的類型進(jìn)行類別劃分,而傳統(tǒng)的分類方式往往只是通過提取內(nèi)容介紹文本的關(guān)鍵詞來對廣播電視內(nèi)容類型進(jìn)行直接劃分,而未對這些關(guān)鍵詞所代表的文檔語義關(guān)聯(lián)性進(jìn)行判定,因此傳統(tǒng)廣播電視在內(nèi)容介紹的特征關(guān)鍵詞提取上顯得過于單一,進(jìn)而影響廣播電視最終的分類準(zhǔn)確性[5]。對此,本文通過借助FastText模型在文本分類上的快速準(zhǔn)確的優(yōu)勢,以TextRank算法作為語義特征關(guān)鍵詞的提取與排序的基礎(chǔ),通過BM25算法進(jìn)行語義特征降維,來去除冗余無用的特征向量,提升最終分類效果的準(zhǔn)確性。本文提出的基于文本語義分類的廣播電視內(nèi)容自動分類模型架構(gòu)如圖2所示。

圖2 基于文本語義分類的廣播電視內(nèi)容自動分類模型架構(gòu)

2.2 流程分析

由于廣播電視節(jié)目的分類依據(jù)是對內(nèi)容文本的關(guān)鍵詞類別判定,因此準(zhǔn)確的關(guān)鍵詞提取是類別判定正確與否的關(guān)鍵性因素。而針對關(guān)鍵詞的判定僅僅從其自身所表達(dá)的表層信息上很難對文本內(nèi)容做出準(zhǔn)確判定,因此就需要深入挖掘關(guān)鍵詞所表達(dá)的深入語義信息與目標(biāo)文本之間的相關(guān)性大小。

在確定目標(biāo)分類文本的前提下,使用TextRank算法對目標(biāo)文本的關(guān)鍵子句進(jìn)行提取。由于該算法主要應(yīng)用于無監(jiān)督學(xué)習(xí)狀態(tài),因此在提取關(guān)鍵詞過程中不需要進(jìn)行過多的額外訓(xùn)練。通過將目標(biāo)文本內(nèi)容看成詞的網(wǎng)絡(luò)集合并且通過不斷地迭代,來計算核心關(guān)鍵字的權(quán)重值,對關(guān)鍵子句排序,最后將分值排序靠前的子句或者關(guān)鍵詞抽取出來,作為語義特征關(guān)鍵字冗余處理的輸入值進(jìn)行保存。

考慮到針對廣播電視內(nèi)容文本語義關(guān)鍵詞的初步提取往往會出現(xiàn)相關(guān)性不強(qiáng)的冗余特征值,因此本文通過BM25算法對輸入的關(guān)鍵詞從語義層面計算其與目標(biāo)文檔的相關(guān)性,并將排序后相關(guān)性較低的關(guān)鍵詞進(jìn)行去除,以提升語義特征關(guān)鍵詞的準(zhǔn)確性[6]。

最終的分類過程使用已經(jīng)提前訓(xùn)練好的TextFast模型進(jìn)行。通過該模型處理最終獲得語義關(guān)鍵詞所對應(yīng)類型的概率,最后選擇概率最大的值所對應(yīng)的類型,作為廣播電視所對應(yīng)的類別,完成最終的分類工作。

3 實驗環(huán)境搭建與測試

3.1 實驗環(huán)境的搭建

本文搭建的實驗環(huán)境硬件配置為:Intel Core i5-10300H的CPU,1 TB硬盤,32 GB RAM,運(yùn)行的系統(tǒng)環(huán)境為Windows 10 X64專業(yè)版,使用Python3.8版本作為編程語言進(jìn)行實驗環(huán)境架構(gòu)的構(gòu)建。

3.2 評價指標(biāo)

由于本文針對廣播電視分類系統(tǒng)的改進(jìn)主要是在分類準(zhǔn)確性上進(jìn)行的改善,因此本次實驗將采用分類準(zhǔn)確率作為核心數(shù)據(jù)進(jìn)行比較,分類準(zhǔn)確率ACC的計算方式如式(3)所示:

式中:TP表示實際為正且被準(zhǔn)確分類的樣本數(shù)量,TN表示實際為負(fù)且被正確分類的樣本數(shù)量,F(xiàn)P表示實際為負(fù)而被錯誤分類的樣本數(shù)量,F(xiàn)N表示實際為正而被錯誤分類的樣本數(shù)量。

3.3 實驗方式與結(jié)果分析

本文采用的數(shù)據(jù)為廣播迷網(wǎng)站的多媒體數(shù)據(jù)集。該數(shù)據(jù)集包含了25 480條廣播電視內(nèi)容介紹信息,平均每個條目的內(nèi)容介紹為328個字符。數(shù)據(jù)測試的方式采用單純FastText的傳統(tǒng)廣播電視分類模型和改進(jìn)后的混合多層分類模型,來對數(shù)據(jù)分類的準(zhǔn)確性進(jìn)行對比實驗,結(jié)果如圖3所示。從實驗結(jié)果可以看出,隨著測試數(shù)據(jù)條目的不斷增加,改進(jìn)后的廣播電視分類的準(zhǔn)確率在不斷提升,而同量級的測試數(shù)據(jù)下,改進(jìn)后方式的分類準(zhǔn)確率較改進(jìn)前平均提升7.2%左右。

圖3 實驗結(jié)果

4 結(jié) 語

本文針對傳統(tǒng)廣播電視分類系統(tǒng)由于內(nèi)容特征提取單一所導(dǎo)致分類準(zhǔn)確率不理想的問題,提出構(gòu)建基于文本語義分類的廣播電視分類模型,通過借助FastText模型在文本分類上的快速準(zhǔn)確的優(yōu)勢,以TextRank算法提取的語義關(guān)鍵字為基礎(chǔ),結(jié)合BM25算法進(jìn)行文檔語義相關(guān)性計算,最后通過實驗對提出的基于文本語義分類模型進(jìn)行仿真。實驗結(jié)果表明,改進(jìn)后的方式能夠有效提升廣播電視分類系統(tǒng)的分類準(zhǔn)確性。

猜你喜歡
廣播電視語義分類
分類算一算
語言與語義
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
周六廣播電視
周日廣播電視
周五廣播電視
周三廣播電視
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
主站蜘蛛池模板: 国产黑丝视频在线观看| 日韩毛片在线播放| 亚洲精品无码在线播放网站| yjizz国产在线视频网| 亚洲综合色区在线播放2019| 亚洲AV无码久久精品色欲 | 日韩美毛片| 国产在线视频欧美亚综合| 99在线视频精品| 亚洲一区色| 国产精品护士| 无码电影在线观看| 97在线免费视频| 亚洲国产成人麻豆精品| 狠狠色成人综合首页| 亚洲精品无码人妻无码| 亚洲人人视频| 久草热视频在线| 久久免费视频播放| 亚洲人成人伊人成综合网无码| 国产主播一区二区三区| 婷婷色中文| 欧美伦理一区| 漂亮人妻被中出中文字幕久久| 国产极品美女在线观看| 91丝袜美腿高跟国产极品老师| 国产一级片网址| 国产91久久久久久| 亚洲无码高清视频在线观看| 国产精品福利一区二区久久| 国产精品精品视频| 四虎成人精品在永久免费| 精品伊人久久久久7777人| 国产91导航| 99色亚洲国产精品11p| 国产精品高清国产三级囯产AV| 依依成人精品无v国产| a级毛片视频免费观看| 中文无码影院| 国产在线无码一区二区三区| 国产精品久久久久久久伊一| 熟妇丰满人妻av无码区| 久久久噜噜噜| 亚洲综合香蕉| 91最新精品视频发布页| 黄片一区二区三区| 国产乱人免费视频| 亚洲欧美日韩中文字幕一区二区三区| 中文字幕中文字字幕码一二区| 国模私拍一区二区| 激情国产精品一区| 日本五区在线不卡精品| 四虎永久在线精品国产免费 | 国产真实乱子伦精品视手机观看| 国产毛片片精品天天看视频| 在线免费亚洲无码视频| 伊人成人在线视频| 亚洲人成网7777777国产| 米奇精品一区二区三区| 国产真实乱了在线播放| 激情六月丁香婷婷| 日本一本正道综合久久dvd| 四虎永久在线| 99爱视频精品免视看| 国产精品一线天| 亚洲一区二区日韩欧美gif| 91高清在线视频| 欧美福利在线观看| 国产欧美日韩18| 亚洲色图欧美视频| 无码aⅴ精品一区二区三区| 中文字幕永久在线看| 被公侵犯人妻少妇一区二区三区 | 精品久久综合1区2区3区激情| 色综合久久综合网| 免费又爽又刺激高潮网址| 欧美日韩91| 欧美一级色视频| 毛片免费试看| 亚洲精品自产拍在线观看APP| 欧美一级在线看| 亚洲日韩精品伊甸|