基于ETL 和SVM 的融媒體平臺數據采集與分析技術研究

2021-08-15 11:36:44李菊文

電子設計工程 2021年15期

關鍵詞：模型

李菊文

（西安職業技術學院，陜西西安 710077）

移動互聯網技術的迅速發展以及智能終端設備的普及，使得微博、抖音等社交軟件逐漸成為人們看新聞的新途徑，并出現大量的自媒體[1-3]。隨著數字文明的到來，媒體的融合是應對自媒體與時代所帶來挑戰的最佳選擇[4-5]。融媒體在此背景下逐步形成，其既有電視、廣播、報紙等傳統媒體的特點，又補充了這三者的短板，實現了在內容、宣傳途徑等方面的全面整合[6]。融媒體的出現使傳統媒介的邊界變得模糊，其影響力超過了以往任何一種媒介[7-8]。

融媒體通常為“網+端+新媒體+市場端口連接”，即由4 部分構成，以實現多終端的交互平臺。然而多個終端系統均有適用于自身的技術平臺，數據不但彼此獨立，數據口徑也各不相同[9-11]。為了實現全新的傳播格局，各個終端系統要實現數據共享和流通。實現數據精準推送、滿足用戶個性化需求，是當前融媒體增強用戶粘性與忠誠度的重要手段之一。而對于識別用戶的需求，近年來不少學者提出了研究方案，其中機器學習是廣泛應用的算法之一[12-16]。

在機器學習中，支持向量機是一種監督學習的方法，被用于實現分類及回歸分析。文中使用支持向量機構建融媒體數據分析模型，并針對樣本數量較多與多個優化目標這兩種情況進行改進。對于融媒體平臺用戶喜好的識別，則需要大量的數據作為支持向量機模型的訓練樣本。文中使用ELT 技術將融媒體中各個社交軟件、媒體平臺的數據匯總，以實現數據的統一管理與分析。構建數據中心，實現所有業務的數據化，提升數據價值。

1 融媒體平臺數據采集與分析

如何使融媒體平臺發揮最大的宣傳效果與影響力是一個重要的目標，在實現這一目標的過程中，需要處理各個社交軟件平臺的數據。使用先進的信息化技術高效地收集海量數據，并挖掘數據背后的信息成為融媒體平臺的工作重點之一。

文中的融媒體平臺數據采集與分析技術，主要基于ELT 技術和支持向量機技術，通過構建數據中心來實現各個社交軟件、媒體平臺數據沉淀、數據匯聚及數據共享，具體框架如圖1 所示。建立數據中心可以幫助融媒體高效管理各個平臺的數據。而創建高效、穩定的數據中心的關鍵技術為數據的抽取、轉換、加載，即ELT 技術。數據的分析與挖掘則采用了機器學習中的支持向量機技術。

圖1 融媒體平臺數據采集與分析結構框架

由于融媒體涉及多個傳播媒體、社交軟件平臺，多平臺數據管理和共享是影響融媒體工作效率的關鍵。與ELT 技術相比，文中采用的ETL 技術將所有應用使用的數據儲存在HBase 中。當不同的應用根據相關模型的需求篩選得到所需的數據子集，并完成相應的特征提取和模型計算，從而降低對源端的依賴與訪問頻次，且對于機器學習算法具有良好的兼容性。

2 數據采集與分析算法

2.1 基于ELT技術的數據中心

融媒體平臺的數據中心主要分為數據模型及ETL 兩個部分，其關鍵部件是數據倉庫和數據集市。圖2 展示了數據中心的數據流模型，由此模型可以確定各個數據流的邏輯關系。數據集市具有較少的數據量，通過收集實時決策所需的各項數據來完成在線業務的處理。無論是數據倉庫還是OLTP系統，均可以迅速創建出新的數據集市。

圖2 數據中心的數據流模型

對于ELT 技術而言，元數據的設計至關重要，影響著整個系統的性能。元數據的主要功能為對資源數據進行描述，同時定義數據之間的業務邏輯關系。數據在ELT 過程中所涉及數據源、數據項及數據格式的映射、轉換等操作定義，均由元數據來完成。針對融媒體平臺的數據處理，元數據定義主要包含以下幾條：

1）對于ELT 過程中的每一個源數據的屬性及格式進行描述；

2）明確定義對數據實施的各項規則和所使用的技術、方法；

3）數據ELT 過程的路徑定義、數據中心熱備份的轉存等操作定義。

其中，元數據由四部分組成：靜態元數據模型、行為元數據模型、關系元數據模型及實例元數據模型。在融媒體數據ETL 過程中，核心元模型被定義為對象的靜態元數據模型；將變更等操作行為的元數據定義成行為元數據模型；關系元數據描述了不同元數據之間的邏輯關系；被應用于實例的元數據則被稱為實例元數據。

傳統方法中，不同系統之間的信息管理方式為點對點方式，考慮到不同媒體平臺、社交軟件所采用的數據模型之間的差異性，在所建立的數據中心之間進行數據共享存在眾多障礙。當有N個子系統需要進行數據交換時，接口程序為N(N-1)/2。一旦N的取值超過5，接口程序的個數將顯著增加系統維護的困難。為了降低接口程序數量，以及避免因子系統的改變引發的數據結構變化。文中采用“星型”結構的數據中心模式，具體如圖3 所示。當數據中心需要各個子系統將數據匯總時，采用“多對一”的模式；而當數據中心需要將數據分發給各個子系統時，采用“一對多”模式。

圖3 “星型”結構的數據中心模式結構示意圖

文中采用基于Python 語言的可視化數據轉換設計器來解決不同數據來源、格式的數據整合問題，具體過程如圖4 所示。由于融媒體平臺數量級別較大，為了提高ELT 效率，所有數據在進入到ELT 系統后，均由EXF 文件轉換為Flat Text 文件格式。同時為了提高數據傳輸速度，采用Push 和Pull 方式以降低對源系統的影響。Push 是指在源系統上將新增的數據按照事先設定的格式，通過FTP 或復制的方式傳遞給ETL 程序；Pull 是指通過DRDA 或ODBC 數據庫協議直接訪問源數據庫獲得數據。

圖4 面向融媒體的ELT系統結構示意圖

2.2 基于進化多目標優化的SVM選擇算法

支持向量機（SVM）是機器學習中被廣泛使用的分類器。隨著用于訓練的實例樣本數量的增多，其訓練復雜度呈指數型增長，嚴重影響支持向量機的分類效率。因此，需要對實例樣本進行選擇來降低樣本數量。實例樣本選擇是機器學習中一項重要的數據預處理技術，其目的是從原始實例樣本數據集合中挑選出合適的子集，并利用該子集訓練出與利用原始樣本數據集合訓練出的精度相似或更高的分類器模型。

融媒體每天在不同平臺上產生的數據，暗含著用戶對各類新聞、實時的關注程度及看法。這些大規模的數據預處理，通常需要兼顧壓縮率及分類精度。此外，算法的計算效率也是評價算法的重要指標。

文中將聚類代理評價與支持向量機結合，來構建基于聚類代理評價的SVM 實例選擇算法。主要思想為將所有樣本實例數據聚類初始化，然后在進化的過程中對種群所有個體進行編碼聚類。根據代理評價結果來選擇進行SVM 評價的個體，最終實現分類。

在上述過程中，采用歐式距離作為兩個子代相似性的評價指標，根據歐式距離的大小將各個子代劃分為不同的簇，聚類過程如圖5 所示。在種群所有個體均進行編碼聚類后，子代個體的排序須通過父代個體適應度數值之和的加權來計算得到，具體如式（1）所示。

圖5 基于編碼聚類的代理評價示意圖

其中，Sij表示第i個個體與第j個個體編碼后的距離；ρk為第k個簇中父代個體的數量；wj為調節因子。為了避免子代個體壓縮率過低，在NSGA-2二進制編碼的變異策略中采用不對稱變異策略，即設定將個體從1 變異為0 的概率大于從0 變異為1 的概率。

3 測試與驗證

為了驗證文中所述方案的有效性與可行性，分別針對ETL 性能和數據分析能力進行測試，ETL 性能的測試采用Informatic Power Center 平臺。通過事先設定好的程序來實現業務邏輯所需要的抽取、清洗及轉化操作，測試過程中所使用的軟硬件配置，如表1 所示。測試過程中，對融媒體平臺進行了共200名使用者同時訪問的壓力測試，測試持續了10 min，邏輯響應時間如圖6 所示。當系統訪問并發量逐漸增加時，ELT 響應時間也逐步增加。如圖7 所示，在訪問并發量達到滿負荷時，運行時間保持平穩，維持在較小的數值范圍內，響應速度也在一定數值內波動。

表1 ETL性能測試軟硬件配置表

圖6 ETL邏輯響應時間

圖7 ETL邏輯響應速度

針對數據分析和多目標優化的驗證，文中采用4 個數據集，每個數據集隨機分成5 份。其中4 份用于訓練SVM 模型，其余1 份用于驗證測試模型。每個數據集的各項信息，如表2 所示。文中使用ParetoTSS 算法作為對照組進行驗證，實驗組合對照組均使用相同的軟硬件配置和數據集。精度對比結果，如圖8 所示。由圖8 可知，文中所述SVM 算法在進行實例選擇后，4 個數據集的分類精度均比ParetoTSS 算法高，平均分類精度為78.5%，這表明文中所述方案的有效性。值得注意的是，數據集1 和數據集3 的分類精度明顯高于數據集2 與數據集4。這是由于數據集1 與數據集3 的實例個數和特征數較高，經過實例選擇后的樣本數據特征更加完整、全面。

圖8 實驗組與對照組對分類精度對比結果

表2 樣本數據集明細表

4 結束語

文中基于ELT 技術與SVM 算法開展了融媒體平臺數據采集和分析的研究。針對現階段融媒體平臺在建設時所面臨的多終端數據接口、數據分析技術不統一的問題，文中通過構建數據中心，將多終端、多平臺的數據整合到一起儲存管理；利用ELT 技術進行各平臺、終端的各項數據匯聚；利用機器學習中的SVM 算法對融媒體平臺數據進行特征提取和分類，并通過實例選擇來降低樣本數量從而提高SVM 模型運行時間。經測試，文中所提算法對數據采集、高用戶訪問據有較高的穩定性。且與其他算法相比，具有較高的分類精度，證明了文中方案的有效性。