999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于ETL 和SVM 的融媒體平臺(tái)數(shù)據(jù)采集與分析技術(shù)研究

2021-08-15 11:36:44李菊文
電子設(shè)計(jì)工程 2021年15期
關(guān)鍵詞:模型

李菊文

(西安職業(yè)技術(shù)學(xué)院,陜西西安 710077)

移動(dòng)互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展以及智能終端設(shè)備的普及,使得微博、抖音等社交軟件逐漸成為人們看新聞的新途徑,并出現(xiàn)大量的自媒體[1-3]。隨著數(shù)字文明的到來,媒體的融合是應(yīng)對(duì)自媒體與時(shí)代所帶來挑戰(zhàn)的最佳選擇[4-5]。融媒體在此背景下逐步形成,其既有電視、廣播、報(bào)紙等傳統(tǒng)媒體的特點(diǎn),又補(bǔ)充了這三者的短板,實(shí)現(xiàn)了在內(nèi)容、宣傳途徑等方面的全面整合[6]。融媒體的出現(xiàn)使傳統(tǒng)媒介的邊界變得模糊,其影響力超過了以往任何一種媒介[7-8]。

融媒體通常為“網(wǎng)+端+新媒體+市場端口連接”,即由4 部分構(gòu)成,以實(shí)現(xiàn)多終端的交互平臺(tái)。然而多個(gè)終端系統(tǒng)均有適用于自身的技術(shù)平臺(tái),數(shù)據(jù)不但彼此獨(dú)立,數(shù)據(jù)口徑也各不相同[9-11]。為了實(shí)現(xiàn)全新的傳播格局,各個(gè)終端系統(tǒng)要實(shí)現(xiàn)數(shù)據(jù)共享和流通。實(shí)現(xiàn)數(shù)據(jù)精準(zhǔn)推送、滿足用戶個(gè)性化需求,是當(dāng)前融媒體增強(qiáng)用戶粘性與忠誠度的重要手段之一。而對(duì)于識(shí)別用戶的需求,近年來不少學(xué)者提出了研究方案,其中機(jī)器學(xué)習(xí)是廣泛應(yīng)用的算法之一[12-16]。

在機(jī)器學(xué)習(xí)中,支持向量機(jī)是一種監(jiān)督學(xué)習(xí)的方法,被用于實(shí)現(xiàn)分類及回歸分析。文中使用支持向量機(jī)構(gòu)建融媒體數(shù)據(jù)分析模型,并針對(duì)樣本數(shù)量較多與多個(gè)優(yōu)化目標(biāo)這兩種情況進(jìn)行改進(jìn)。對(duì)于融媒體平臺(tái)用戶喜好的識(shí)別,則需要大量的數(shù)據(jù)作為支持向量機(jī)模型的訓(xùn)練樣本。文中使用ELT 技術(shù)將融媒體中各個(gè)社交軟件、媒體平臺(tái)的數(shù)據(jù)匯總,以實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一管理與分析。構(gòu)建數(shù)據(jù)中心,實(shí)現(xiàn)所有業(yè)務(wù)的數(shù)據(jù)化,提升數(shù)據(jù)價(jià)值。

1 融媒體平臺(tái)數(shù)據(jù)采集與分析

如何使融媒體平臺(tái)發(fā)揮最大的宣傳效果與影響力是一個(gè)重要的目標(biāo),在實(shí)現(xiàn)這一目標(biāo)的過程中,需要處理各個(gè)社交軟件平臺(tái)的數(shù)據(jù)。使用先進(jìn)的信息化技術(shù)高效地收集海量數(shù)據(jù),并挖掘數(shù)據(jù)背后的信息成為融媒體平臺(tái)的工作重點(diǎn)之一。

文中的融媒體平臺(tái)數(shù)據(jù)采集與分析技術(shù),主要基于ELT 技術(shù)和支持向量機(jī)技術(shù),通過構(gòu)建數(shù)據(jù)中心來實(shí)現(xiàn)各個(gè)社交軟件、媒體平臺(tái)數(shù)據(jù)沉淀、數(shù)據(jù)匯聚及數(shù)據(jù)共享,具體框架如圖1 所示。建立數(shù)據(jù)中心可以幫助融媒體高效管理各個(gè)平臺(tái)的數(shù)據(jù)。而創(chuàng)建高效、穩(wěn)定的數(shù)據(jù)中心的關(guān)鍵技術(shù)為數(shù)據(jù)的抽取、轉(zhuǎn)換、加載,即ELT 技術(shù)。數(shù)據(jù)的分析與挖掘則采用了機(jī)器學(xué)習(xí)中的支持向量機(jī)技術(shù)。

圖1 融媒體平臺(tái)數(shù)據(jù)采集與分析結(jié)構(gòu)框架

由于融媒體涉及多個(gè)傳播媒體、社交軟件平臺(tái),多平臺(tái)數(shù)據(jù)管理和共享是影響融媒體工作效率的關(guān)鍵。與ELT 技術(shù)相比,文中采用的ETL 技術(shù)將所有應(yīng)用使用的數(shù)據(jù)儲(chǔ)存在HBase 中。當(dāng)不同的應(yīng)用根據(jù)相關(guān)模型的需求篩選得到所需的數(shù)據(jù)子集,并完成相應(yīng)的特征提取和模型計(jì)算,從而降低對(duì)源端的依賴與訪問頻次,且對(duì)于機(jī)器學(xué)習(xí)算法具有良好的兼容性。

2 數(shù)據(jù)采集與分析算法

2.1 基于ELT技術(shù)的數(shù)據(jù)中心

融媒體平臺(tái)的數(shù)據(jù)中心主要分為數(shù)據(jù)模型及ETL 兩個(gè)部分,其關(guān)鍵部件是數(shù)據(jù)倉庫和數(shù)據(jù)集市。圖2 展示了數(shù)據(jù)中心的數(shù)據(jù)流模型,由此模型可以確定各個(gè)數(shù)據(jù)流的邏輯關(guān)系。數(shù)據(jù)集市具有較少的數(shù)據(jù)量,通過收集實(shí)時(shí)決策所需的各項(xiàng)數(shù)據(jù)來完成在線業(yè)務(wù)的處理。無論是數(shù)據(jù)倉庫還是OLTP系統(tǒng),均可以迅速創(chuàng)建出新的數(shù)據(jù)集市。

圖2 數(shù)據(jù)中心的數(shù)據(jù)流模型

對(duì)于ELT 技術(shù)而言,元數(shù)據(jù)的設(shè)計(jì)至關(guān)重要,影響著整個(gè)系統(tǒng)的性能。元數(shù)據(jù)的主要功能為對(duì)資源數(shù)據(jù)進(jìn)行描述,同時(shí)定義數(shù)據(jù)之間的業(yè)務(wù)邏輯關(guān)系。數(shù)據(jù)在ELT 過程中所涉及數(shù)據(jù)源、數(shù)據(jù)項(xiàng)及數(shù)據(jù)格式的映射、轉(zhuǎn)換等操作定義,均由元數(shù)據(jù)來完成。針對(duì)融媒體平臺(tái)的數(shù)據(jù)處理,元數(shù)據(jù)定義主要包含以下幾條:

1)對(duì)于ELT 過程中的每一個(gè)源數(shù)據(jù)的屬性及格式進(jìn)行描述;

2)明確定義對(duì)數(shù)據(jù)實(shí)施的各項(xiàng)規(guī)則和所使用的技術(shù)、方法;

3)數(shù)據(jù)ELT 過程的路徑定義、數(shù)據(jù)中心熱備份的轉(zhuǎn)存等操作定義。

其中,元數(shù)據(jù)由四部分組成:靜態(tài)元數(shù)據(jù)模型、行為元數(shù)據(jù)模型、關(guān)系元數(shù)據(jù)模型及實(shí)例元數(shù)據(jù)模型。在融媒體數(shù)據(jù)ETL 過程中,核心元模型被定義為對(duì)象的靜態(tài)元數(shù)據(jù)模型;將變更等操作行為的元數(shù)據(jù)定義成行為元數(shù)據(jù)模型;關(guān)系元數(shù)據(jù)描述了不同元數(shù)據(jù)之間的邏輯關(guān)系;被應(yīng)用于實(shí)例的元數(shù)據(jù)則被稱為實(shí)例元數(shù)據(jù)。

傳統(tǒng)方法中,不同系統(tǒng)之間的信息管理方式為點(diǎn)對(duì)點(diǎn)方式,考慮到不同媒體平臺(tái)、社交軟件所采用的數(shù)據(jù)模型之間的差異性,在所建立的數(shù)據(jù)中心之間進(jìn)行數(shù)據(jù)共享存在眾多障礙。當(dāng)有N個(gè)子系統(tǒng)需要進(jìn)行數(shù)據(jù)交換時(shí),接口程序?yàn)镹(N-1)/2。一旦N的取值超過5,接口程序的個(gè)數(shù)將顯著增加系統(tǒng)維護(hù)的困難。為了降低接口程序數(shù)量,以及避免因子系統(tǒng)的改變引發(fā)的數(shù)據(jù)結(jié)構(gòu)變化。文中采用“星型”結(jié)構(gòu)的數(shù)據(jù)中心模式,具體如圖3 所示。當(dāng)數(shù)據(jù)中心需要各個(gè)子系統(tǒng)將數(shù)據(jù)匯總時(shí),采用“多對(duì)一”的模式;而當(dāng)數(shù)據(jù)中心需要將數(shù)據(jù)分發(fā)給各個(gè)子系統(tǒng)時(shí),采用“一對(duì)多”模式。

圖3 “星型”結(jié)構(gòu)的數(shù)據(jù)中心模式結(jié)構(gòu)示意圖

文中采用基于Python 語言的可視化數(shù)據(jù)轉(zhuǎn)換設(shè)計(jì)器來解決不同數(shù)據(jù)來源、格式的數(shù)據(jù)整合問題,具體過程如圖4 所示。由于融媒體平臺(tái)數(shù)量級(jí)別較大,為了提高ELT 效率,所有數(shù)據(jù)在進(jìn)入到ELT 系統(tǒng)后,均由EXF 文件轉(zhuǎn)換為Flat Text 文件格式。同時(shí)為了提高數(shù)據(jù)傳輸速度,采用Push 和Pull 方式以降低對(duì)源系統(tǒng)的影響。Push 是指在源系統(tǒng)上將新增的數(shù)據(jù)按照事先設(shè)定的格式,通過FTP 或復(fù)制的方式傳遞給ETL 程序;Pull 是指通過DRDA 或ODBC 數(shù)據(jù)庫協(xié)議直接訪問源數(shù)據(jù)庫獲得數(shù)據(jù)。

圖4 面向融媒體的ELT系統(tǒng)結(jié)構(gòu)示意圖

2.2 基于進(jìn)化多目標(biāo)優(yōu)化的SVM選擇算法

支持向量機(jī)(SVM)是機(jī)器學(xué)習(xí)中被廣泛使用的分類器。隨著用于訓(xùn)練的實(shí)例樣本數(shù)量的增多,其訓(xùn)練復(fù)雜度呈指數(shù)型增長,嚴(yán)重影響支持向量機(jī)的分類效率。因此,需要對(duì)實(shí)例樣本進(jìn)行選擇來降低樣本數(shù)量。實(shí)例樣本選擇是機(jī)器學(xué)習(xí)中一項(xiàng)重要的數(shù)據(jù)預(yù)處理技術(shù),其目的是從原始實(shí)例樣本數(shù)據(jù)集合中挑選出合適的子集,并利用該子集訓(xùn)練出與利用原始樣本數(shù)據(jù)集合訓(xùn)練出的精度相似或更高的分類器模型。

融媒體每天在不同平臺(tái)上產(chǎn)生的數(shù)據(jù),暗含著用戶對(duì)各類新聞、實(shí)時(shí)的關(guān)注程度及看法。這些大規(guī)模的數(shù)據(jù)預(yù)處理,通常需要兼顧壓縮率及分類精度。此外,算法的計(jì)算效率也是評(píng)價(jià)算法的重要指標(biāo)。

文中將聚類代理評(píng)價(jià)與支持向量機(jī)結(jié)合,來構(gòu)建基于聚類代理評(píng)價(jià)的SVM 實(shí)例選擇算法。主要思想為將所有樣本實(shí)例數(shù)據(jù)聚類初始化,然后在進(jìn)化的過程中對(duì)種群所有個(gè)體進(jìn)行編碼聚類。根據(jù)代理評(píng)價(jià)結(jié)果來選擇進(jìn)行SVM 評(píng)價(jià)的個(gè)體,最終實(shí)現(xiàn)分類。

在上述過程中,采用歐式距離作為兩個(gè)子代相似性的評(píng)價(jià)指標(biāo),根據(jù)歐式距離的大小將各個(gè)子代劃分為不同的簇,聚類過程如圖5 所示。在種群所有個(gè)體均進(jìn)行編碼聚類后,子代個(gè)體的排序須通過父代個(gè)體適應(yīng)度數(shù)值之和的加權(quán)來計(jì)算得到,具體如式(1)所示。

圖5 基于編碼聚類的代理評(píng)價(jià)示意圖

其中,Sij表示第i個(gè)個(gè)體與第j個(gè)個(gè)體編碼后的距離;ρk為第k個(gè)簇中父代個(gè)體的數(shù)量;wj為調(diào)節(jié)因子。為了避免子代個(gè)體壓縮率過低,在NSGA-2二進(jìn)制編碼的變異策略中采用不對(duì)稱變異策略,即設(shè)定將個(gè)體從1 變異為0 的概率大于從0 變異為1 的概率。

3 測試與驗(yàn)證

為了驗(yàn)證文中所述方案的有效性與可行性,分別針對(duì)ETL 性能和數(shù)據(jù)分析能力進(jìn)行測試,ETL 性能的測試采用Informatic Power Center 平臺(tái)。通過事先設(shè)定好的程序來實(shí)現(xiàn)業(yè)務(wù)邏輯所需要的抽取、清洗及轉(zhuǎn)化操作,測試過程中所使用的軟硬件配置,如表1 所示。測試過程中,對(duì)融媒體平臺(tái)進(jìn)行了共200名使用者同時(shí)訪問的壓力測試,測試持續(xù)了10 min,邏輯響應(yīng)時(shí)間如圖6 所示。當(dāng)系統(tǒng)訪問并發(fā)量逐漸增加時(shí),ELT 響應(yīng)時(shí)間也逐步增加。如圖7 所示,在訪問并發(fā)量達(dá)到滿負(fù)荷時(shí),運(yùn)行時(shí)間保持平穩(wěn),維持在較小的數(shù)值范圍內(nèi),響應(yīng)速度也在一定數(shù)值內(nèi)波動(dòng)。

表1 ETL性能測試軟硬件配置表

圖6 ETL邏輯響應(yīng)時(shí)間

圖7 ETL邏輯響應(yīng)速度

針對(duì)數(shù)據(jù)分析和多目標(biāo)優(yōu)化的驗(yàn)證,文中采用4 個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集隨機(jī)分成5 份。其中4 份用于訓(xùn)練SVM 模型,其余1 份用于驗(yàn)證測試模型。每個(gè)數(shù)據(jù)集的各項(xiàng)信息,如表2 所示。文中使用ParetoTSS 算法作為對(duì)照組進(jìn)行驗(yàn)證,實(shí)驗(yàn)組合對(duì)照組均使用相同的軟硬件配置和數(shù)據(jù)集。精度對(duì)比結(jié)果,如圖8 所示。由圖8 可知,文中所述SVM 算法在進(jìn)行實(shí)例選擇后,4 個(gè)數(shù)據(jù)集的分類精度均比ParetoTSS 算法高,平均分類精度為78.5%,這表明文中所述方案的有效性。值得注意的是,數(shù)據(jù)集1 和數(shù)據(jù)集3 的分類精度明顯高于數(shù)據(jù)集2 與數(shù)據(jù)集4。這是由于數(shù)據(jù)集1 與數(shù)據(jù)集3 的實(shí)例個(gè)數(shù)和特征數(shù)較高,經(jīng)過實(shí)例選擇后的樣本數(shù)據(jù)特征更加完整、全面。

圖8 實(shí)驗(yàn)組與對(duì)照組對(duì)分類精度對(duì)比結(jié)果

表2 樣本數(shù)據(jù)集明細(xì)表

4 結(jié)束語

文中基于ELT 技術(shù)與SVM 算法開展了融媒體平臺(tái)數(shù)據(jù)采集和分析的研究。針對(duì)現(xiàn)階段融媒體平臺(tái)在建設(shè)時(shí)所面臨的多終端數(shù)據(jù)接口、數(shù)據(jù)分析技術(shù)不統(tǒng)一的問題,文中通過構(gòu)建數(shù)據(jù)中心,將多終端、多平臺(tái)的數(shù)據(jù)整合到一起儲(chǔ)存管理;利用ELT 技術(shù)進(jìn)行各平臺(tái)、終端的各項(xiàng)數(shù)據(jù)匯聚;利用機(jī)器學(xué)習(xí)中的SVM 算法對(duì)融媒體平臺(tái)數(shù)據(jù)進(jìn)行特征提取和分類,并通過實(shí)例選擇來降低樣本數(shù)量從而提高SVM 模型運(yùn)行時(shí)間。經(jīng)測試,文中所提算法對(duì)數(shù)據(jù)采集、高用戶訪問據(jù)有較高的穩(wěn)定性。且與其他算法相比,具有較高的分類精度,證明了文中方案的有效性。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 久久一色本道亚洲| 成人在线观看不卡| 97人人做人人爽香蕉精品| 午夜高清国产拍精品| 在线高清亚洲精品二区| 国产一区二区精品高清在线观看| 色哟哟国产成人精品| 福利小视频在线播放| 欧美激情综合一区二区| 国产精品第5页| 久久久久亚洲AV成人人电影软件 | 日韩AV无码免费一二三区 | 国产精品嫩草影院视频| 中文字幕自拍偷拍| 午夜久久影院| 国产电话自拍伊人| 亚洲无线一二三四区男男| 伊人久综合| 欧美色视频日本| 日本久久久久久免费网络| 丁香婷婷激情网| 欧洲亚洲欧美国产日本高清| 亚洲精品国产成人7777| 国产成人h在线观看网站站| 国产又粗又爽视频| 国产福利影院在线观看| 欧美成人一级| 婷婷色婷婷| 欧美一区二区三区国产精品| 少妇极品熟妇人妻专区视频| 极品国产一区二区三区| 中文精品久久久久国产网址 | 国产毛片基地| 99精品免费欧美成人小视频| 亚洲啪啪网| 在线视频亚洲色图| 欧美成人午夜影院| 久久综合九九亚洲一区| 午夜精品久久久久久久无码软件 | 亚洲中文字幕国产av| 美女无遮挡被啪啪到高潮免费| 一区二区欧美日韩高清免费| 在线观看免费国产| 亚洲中文字幕久久无码精品A| 精品福利视频网| 91 九色视频丝袜| 欧美影院久久| 亚洲日韩精品无码专区| 日本三区视频| 国产精品主播| 香蕉视频在线观看www| 波多野结衣在线一区二区| 91精品情国产情侣高潮对白蜜| 国产精品99r8在线观看| 欧美激情二区三区| 噜噜噜久久| 久久99国产综合精品女同| 91免费国产高清观看| 国产午夜精品一区二区三区软件| 国产成本人片免费a∨短片| 91尤物国产尤物福利在线| 日韩精品免费在线视频| 成人a免费α片在线视频网站| 日a本亚洲中文在线观看| 欧美日韩国产在线观看一区二区三区| 99热国产在线精品99| 91人妻日韩人妻无码专区精品| 久久精品中文无码资源站| 久久精品国产免费观看频道| 99人体免费视频| 超级碰免费视频91| 黄色成年视频| 日韩欧美在线观看| 波多野结衣第一页| 欧美成人免费| 香蕉视频国产精品人| www.youjizz.com久久| 久久综合丝袜长腿丝袜| 国产在线小视频| 白浆免费视频国产精品视频| 国产欧美日本在线观看| 国产成人a在线观看视频|