李菊文
(西安職業(yè)技術(shù)學(xué)院,陜西西安 710077)
移動(dòng)互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展以及智能終端設(shè)備的普及,使得微博、抖音等社交軟件逐漸成為人們看新聞的新途徑,并出現(xiàn)大量的自媒體[1-3]。隨著數(shù)字文明的到來,媒體的融合是應(yīng)對(duì)自媒體與時(shí)代所帶來挑戰(zhàn)的最佳選擇[4-5]。融媒體在此背景下逐步形成,其既有電視、廣播、報(bào)紙等傳統(tǒng)媒體的特點(diǎn),又補(bǔ)充了這三者的短板,實(shí)現(xiàn)了在內(nèi)容、宣傳途徑等方面的全面整合[6]。融媒體的出現(xiàn)使傳統(tǒng)媒介的邊界變得模糊,其影響力超過了以往任何一種媒介[7-8]。
融媒體通常為“網(wǎng)+端+新媒體+市場端口連接”,即由4 部分構(gòu)成,以實(shí)現(xiàn)多終端的交互平臺(tái)。然而多個(gè)終端系統(tǒng)均有適用于自身的技術(shù)平臺(tái),數(shù)據(jù)不但彼此獨(dú)立,數(shù)據(jù)口徑也各不相同[9-11]。為了實(shí)現(xiàn)全新的傳播格局,各個(gè)終端系統(tǒng)要實(shí)現(xiàn)數(shù)據(jù)共享和流通。實(shí)現(xiàn)數(shù)據(jù)精準(zhǔn)推送、滿足用戶個(gè)性化需求,是當(dāng)前融媒體增強(qiáng)用戶粘性與忠誠度的重要手段之一。而對(duì)于識(shí)別用戶的需求,近年來不少學(xué)者提出了研究方案,其中機(jī)器學(xué)習(xí)是廣泛應(yīng)用的算法之一[12-16]。
在機(jī)器學(xué)習(xí)中,支持向量機(jī)是一種監(jiān)督學(xué)習(xí)的方法,被用于實(shí)現(xiàn)分類及回歸分析。文中使用支持向量機(jī)構(gòu)建融媒體數(shù)據(jù)分析模型,并針對(duì)樣本數(shù)量較多與多個(gè)優(yōu)化目標(biāo)這兩種情況進(jìn)行改進(jìn)。對(duì)于融媒體平臺(tái)用戶喜好的識(shí)別,則需要大量的數(shù)據(jù)作為支持向量機(jī)模型的訓(xùn)練樣本。文中使用ELT 技術(shù)將融媒體中各個(gè)社交軟件、媒體平臺(tái)的數(shù)據(jù)匯總,以實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一管理與分析。構(gòu)建數(shù)據(jù)中心,實(shí)現(xiàn)所有業(yè)務(wù)的數(shù)據(jù)化,提升數(shù)據(jù)價(jià)值。
如何使融媒體平臺(tái)發(fā)揮最大的宣傳效果與影響力是一個(gè)重要的目標(biāo),在實(shí)現(xiàn)這一目標(biāo)的過程中,需要處理各個(gè)社交軟件平臺(tái)的數(shù)據(jù)。使用先進(jìn)的信息化技術(shù)高效地收集海量數(shù)據(jù),并挖掘數(shù)據(jù)背后的信息成為融媒體平臺(tái)的工作重點(diǎn)之一。
文中的融媒體平臺(tái)數(shù)據(jù)采集與分析技術(shù),主要基于ELT 技術(shù)和支持向量機(jī)技術(shù),通過構(gòu)建數(shù)據(jù)中心來實(shí)現(xiàn)各個(gè)社交軟件、媒體平臺(tái)數(shù)據(jù)沉淀、數(shù)據(jù)匯聚及數(shù)據(jù)共享,具體框架如圖1 所示。建立數(shù)據(jù)中心可以幫助融媒體高效管理各個(gè)平臺(tái)的數(shù)據(jù)。而創(chuàng)建高效、穩(wěn)定的數(shù)據(jù)中心的關(guān)鍵技術(shù)為數(shù)據(jù)的抽取、轉(zhuǎn)換、加載,即ELT 技術(shù)。數(shù)據(jù)的分析與挖掘則采用了機(jī)器學(xué)習(xí)中的支持向量機(jī)技術(shù)。

圖1 融媒體平臺(tái)數(shù)據(jù)采集與分析結(jié)構(gòu)框架
由于融媒體涉及多個(gè)傳播媒體、社交軟件平臺(tái),多平臺(tái)數(shù)據(jù)管理和共享是影響融媒體工作效率的關(guān)鍵。與ELT 技術(shù)相比,文中采用的ETL 技術(shù)將所有應(yīng)用使用的數(shù)據(jù)儲(chǔ)存在HBase 中。當(dāng)不同的應(yīng)用根據(jù)相關(guān)模型的需求篩選得到所需的數(shù)據(jù)子集,并完成相應(yīng)的特征提取和模型計(jì)算,從而降低對(duì)源端的依賴與訪問頻次,且對(duì)于機(jī)器學(xué)習(xí)算法具有良好的兼容性。
融媒體平臺(tái)的數(shù)據(jù)中心主要分為數(shù)據(jù)模型及ETL 兩個(gè)部分,其關(guān)鍵部件是數(shù)據(jù)倉庫和數(shù)據(jù)集市。圖2 展示了數(shù)據(jù)中心的數(shù)據(jù)流模型,由此模型可以確定各個(gè)數(shù)據(jù)流的邏輯關(guān)系。數(shù)據(jù)集市具有較少的數(shù)據(jù)量,通過收集實(shí)時(shí)決策所需的各項(xiàng)數(shù)據(jù)來完成在線業(yè)務(wù)的處理。無論是數(shù)據(jù)倉庫還是OLTP系統(tǒng),均可以迅速創(chuàng)建出新的數(shù)據(jù)集市。

圖2 數(shù)據(jù)中心的數(shù)據(jù)流模型
對(duì)于ELT 技術(shù)而言,元數(shù)據(jù)的設(shè)計(jì)至關(guān)重要,影響著整個(gè)系統(tǒng)的性能。元數(shù)據(jù)的主要功能為對(duì)資源數(shù)據(jù)進(jìn)行描述,同時(shí)定義數(shù)據(jù)之間的業(yè)務(wù)邏輯關(guān)系。數(shù)據(jù)在ELT 過程中所涉及數(shù)據(jù)源、數(shù)據(jù)項(xiàng)及數(shù)據(jù)格式的映射、轉(zhuǎn)換等操作定義,均由元數(shù)據(jù)來完成。針對(duì)融媒體平臺(tái)的數(shù)據(jù)處理,元數(shù)據(jù)定義主要包含以下幾條:
1)對(duì)于ELT 過程中的每一個(gè)源數(shù)據(jù)的屬性及格式進(jìn)行描述;
2)明確定義對(duì)數(shù)據(jù)實(shí)施的各項(xiàng)規(guī)則和所使用的技術(shù)、方法;
3)數(shù)據(jù)ELT 過程的路徑定義、數(shù)據(jù)中心熱備份的轉(zhuǎn)存等操作定義。
其中,元數(shù)據(jù)由四部分組成:靜態(tài)元數(shù)據(jù)模型、行為元數(shù)據(jù)模型、關(guān)系元數(shù)據(jù)模型及實(shí)例元數(shù)據(jù)模型。在融媒體數(shù)據(jù)ETL 過程中,核心元模型被定義為對(duì)象的靜態(tài)元數(shù)據(jù)模型;將變更等操作行為的元數(shù)據(jù)定義成行為元數(shù)據(jù)模型;關(guān)系元數(shù)據(jù)描述了不同元數(shù)據(jù)之間的邏輯關(guān)系;被應(yīng)用于實(shí)例的元數(shù)據(jù)則被稱為實(shí)例元數(shù)據(jù)。
傳統(tǒng)方法中,不同系統(tǒng)之間的信息管理方式為點(diǎn)對(duì)點(diǎn)方式,考慮到不同媒體平臺(tái)、社交軟件所采用的數(shù)據(jù)模型之間的差異性,在所建立的數(shù)據(jù)中心之間進(jìn)行數(shù)據(jù)共享存在眾多障礙。當(dāng)有N個(gè)子系統(tǒng)需要進(jìn)行數(shù)據(jù)交換時(shí),接口程序?yàn)镹(N-1)/2。一旦N的取值超過5,接口程序的個(gè)數(shù)將顯著增加系統(tǒng)維護(hù)的困難。為了降低接口程序數(shù)量,以及避免因子系統(tǒng)的改變引發(fā)的數(shù)據(jù)結(jié)構(gòu)變化。文中采用“星型”結(jié)構(gòu)的數(shù)據(jù)中心模式,具體如圖3 所示。當(dāng)數(shù)據(jù)中心需要各個(gè)子系統(tǒng)將數(shù)據(jù)匯總時(shí),采用“多對(duì)一”的模式;而當(dāng)數(shù)據(jù)中心需要將數(shù)據(jù)分發(fā)給各個(gè)子系統(tǒng)時(shí),采用“一對(duì)多”模式。

圖3 “星型”結(jié)構(gòu)的數(shù)據(jù)中心模式結(jié)構(gòu)示意圖
文中采用基于Python 語言的可視化數(shù)據(jù)轉(zhuǎn)換設(shè)計(jì)器來解決不同數(shù)據(jù)來源、格式的數(shù)據(jù)整合問題,具體過程如圖4 所示。由于融媒體平臺(tái)數(shù)量級(jí)別較大,為了提高ELT 效率,所有數(shù)據(jù)在進(jìn)入到ELT 系統(tǒng)后,均由EXF 文件轉(zhuǎn)換為Flat Text 文件格式。同時(shí)為了提高數(shù)據(jù)傳輸速度,采用Push 和Pull 方式以降低對(duì)源系統(tǒng)的影響。Push 是指在源系統(tǒng)上將新增的數(shù)據(jù)按照事先設(shè)定的格式,通過FTP 或復(fù)制的方式傳遞給ETL 程序;Pull 是指通過DRDA 或ODBC 數(shù)據(jù)庫協(xié)議直接訪問源數(shù)據(jù)庫獲得數(shù)據(jù)。

圖4 面向融媒體的ELT系統(tǒng)結(jié)構(gòu)示意圖
支持向量機(jī)(SVM)是機(jī)器學(xué)習(xí)中被廣泛使用的分類器。隨著用于訓(xùn)練的實(shí)例樣本數(shù)量的增多,其訓(xùn)練復(fù)雜度呈指數(shù)型增長,嚴(yán)重影響支持向量機(jī)的分類效率。因此,需要對(duì)實(shí)例樣本進(jìn)行選擇來降低樣本數(shù)量。實(shí)例樣本選擇是機(jī)器學(xué)習(xí)中一項(xiàng)重要的數(shù)據(jù)預(yù)處理技術(shù),其目的是從原始實(shí)例樣本數(shù)據(jù)集合中挑選出合適的子集,并利用該子集訓(xùn)練出與利用原始樣本數(shù)據(jù)集合訓(xùn)練出的精度相似或更高的分類器模型。
融媒體每天在不同平臺(tái)上產(chǎn)生的數(shù)據(jù),暗含著用戶對(duì)各類新聞、實(shí)時(shí)的關(guān)注程度及看法。這些大規(guī)模的數(shù)據(jù)預(yù)處理,通常需要兼顧壓縮率及分類精度。此外,算法的計(jì)算效率也是評(píng)價(jià)算法的重要指標(biāo)。
文中將聚類代理評(píng)價(jià)與支持向量機(jī)結(jié)合,來構(gòu)建基于聚類代理評(píng)價(jià)的SVM 實(shí)例選擇算法。主要思想為將所有樣本實(shí)例數(shù)據(jù)聚類初始化,然后在進(jìn)化的過程中對(duì)種群所有個(gè)體進(jìn)行編碼聚類。根據(jù)代理評(píng)價(jià)結(jié)果來選擇進(jìn)行SVM 評(píng)價(jià)的個(gè)體,最終實(shí)現(xiàn)分類。
在上述過程中,采用歐式距離作為兩個(gè)子代相似性的評(píng)價(jià)指標(biāo),根據(jù)歐式距離的大小將各個(gè)子代劃分為不同的簇,聚類過程如圖5 所示。在種群所有個(gè)體均進(jìn)行編碼聚類后,子代個(gè)體的排序須通過父代個(gè)體適應(yīng)度數(shù)值之和的加權(quán)來計(jì)算得到,具體如式(1)所示。

圖5 基于編碼聚類的代理評(píng)價(jià)示意圖

其中,Sij表示第i個(gè)個(gè)體與第j個(gè)個(gè)體編碼后的距離;ρk為第k個(gè)簇中父代個(gè)體的數(shù)量;wj為調(diào)節(jié)因子。為了避免子代個(gè)體壓縮率過低,在NSGA-2二進(jìn)制編碼的變異策略中采用不對(duì)稱變異策略,即設(shè)定將個(gè)體從1 變異為0 的概率大于從0 變異為1 的概率。
為了驗(yàn)證文中所述方案的有效性與可行性,分別針對(duì)ETL 性能和數(shù)據(jù)分析能力進(jìn)行測試,ETL 性能的測試采用Informatic Power Center 平臺(tái)。通過事先設(shè)定好的程序來實(shí)現(xiàn)業(yè)務(wù)邏輯所需要的抽取、清洗及轉(zhuǎn)化操作,測試過程中所使用的軟硬件配置,如表1 所示。測試過程中,對(duì)融媒體平臺(tái)進(jìn)行了共200名使用者同時(shí)訪問的壓力測試,測試持續(xù)了10 min,邏輯響應(yīng)時(shí)間如圖6 所示。當(dāng)系統(tǒng)訪問并發(fā)量逐漸增加時(shí),ELT 響應(yīng)時(shí)間也逐步增加。如圖7 所示,在訪問并發(fā)量達(dá)到滿負(fù)荷時(shí),運(yùn)行時(shí)間保持平穩(wěn),維持在較小的數(shù)值范圍內(nèi),響應(yīng)速度也在一定數(shù)值內(nèi)波動(dòng)。

表1 ETL性能測試軟硬件配置表

圖6 ETL邏輯響應(yīng)時(shí)間

圖7 ETL邏輯響應(yīng)速度
針對(duì)數(shù)據(jù)分析和多目標(biāo)優(yōu)化的驗(yàn)證,文中采用4 個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集隨機(jī)分成5 份。其中4 份用于訓(xùn)練SVM 模型,其余1 份用于驗(yàn)證測試模型。每個(gè)數(shù)據(jù)集的各項(xiàng)信息,如表2 所示。文中使用ParetoTSS 算法作為對(duì)照組進(jìn)行驗(yàn)證,實(shí)驗(yàn)組合對(duì)照組均使用相同的軟硬件配置和數(shù)據(jù)集。精度對(duì)比結(jié)果,如圖8 所示。由圖8 可知,文中所述SVM 算法在進(jìn)行實(shí)例選擇后,4 個(gè)數(shù)據(jù)集的分類精度均比ParetoTSS 算法高,平均分類精度為78.5%,這表明文中所述方案的有效性。值得注意的是,數(shù)據(jù)集1 和數(shù)據(jù)集3 的分類精度明顯高于數(shù)據(jù)集2 與數(shù)據(jù)集4。這是由于數(shù)據(jù)集1 與數(shù)據(jù)集3 的實(shí)例個(gè)數(shù)和特征數(shù)較高,經(jīng)過實(shí)例選擇后的樣本數(shù)據(jù)特征更加完整、全面。

圖8 實(shí)驗(yàn)組與對(duì)照組對(duì)分類精度對(duì)比結(jié)果

表2 樣本數(shù)據(jù)集明細(xì)表
文中基于ELT 技術(shù)與SVM 算法開展了融媒體平臺(tái)數(shù)據(jù)采集和分析的研究。針對(duì)現(xiàn)階段融媒體平臺(tái)在建設(shè)時(shí)所面臨的多終端數(shù)據(jù)接口、數(shù)據(jù)分析技術(shù)不統(tǒng)一的問題,文中通過構(gòu)建數(shù)據(jù)中心,將多終端、多平臺(tái)的數(shù)據(jù)整合到一起儲(chǔ)存管理;利用ELT 技術(shù)進(jìn)行各平臺(tái)、終端的各項(xiàng)數(shù)據(jù)匯聚;利用機(jī)器學(xué)習(xí)中的SVM 算法對(duì)融媒體平臺(tái)數(shù)據(jù)進(jìn)行特征提取和分類,并通過實(shí)例選擇來降低樣本數(shù)量從而提高SVM 模型運(yùn)行時(shí)間。經(jīng)測試,文中所提算法對(duì)數(shù)據(jù)采集、高用戶訪問據(jù)有較高的穩(wěn)定性。且與其他算法相比,具有較高的分類精度,證明了文中方案的有效性。