章艷華,楊 碩,柳 超
(江蘇電子信息職業學院商學院,江蘇 淮安 223003)
當前教育裝備輿情分析相關信息化系統研究并不成熟,多采用傳統方案,如問卷調查等,使得數據源不足,數據量和數據內容較為局限。
網絡輿情分析主要側重于事件的監測與分析,包括網絡輿情觀點、情緒的挖掘以及網絡集群行為的監測分析[1-2],而分析與監測報告主要偏重于統計分析[3-4]。近年來,蘭月新等[5]研究了大數據背景下網絡輿情的主體交互機制,張鵬高等[6]進行了基于大數據的教育輿情監控與分析,王丹丹等[7]構建了新媒體和大數據背景下的多校區高校網絡輿情體系,SUN等[8]基于網絡數據分析了教育輿情中的知識圖譜。上述研究取得一定成效,但直觀度和跨媒體的融合度還不夠。
自然語言處理NLP是一門交叉學科,集語言學、計算機科學、統計為一體,是機器翻譯、語音助手、推薦系統等領域得到蓬勃發展的重要核心[9]。隨著計算機算力的不斷提升,NLP研究者們開始關注深度學習的可行性,2017年谷歌發布基于注意力機制的并行計算模型Transformers[10],同時解決年卷積神經網絡不適用于長文本及循環神經網絡無法并行計算的困擾,為NLP乃至于整個深度學習領域帶來了巨大突破。2019年,谷歌推出的深度雙向Transformer模型的預訓練模型BERT刷新了業界多項記錄。
對于BERT預訓練模型,本文介紹了一種教育裝備輿情分析決策系統。該系統主要是通過采集來自微博、論壇、專業網站的輿情數據,通過BERT算法完成大數據分析,提供決策支持。本文的研究目標是將多種類海量數據源中進行抓取、清洗、梳理并存儲,進而克服教育裝備產業輿情管理涉及面廣、問題復雜度高的問題。
BERT預訓練模型由輸入層、編碼層和輸出層3部分組成。谷歌提供了2款模型,分別為12層transformer、12層Attention Heads、768個隱層單元以及1.1億參數的base模型和24層transformer、16層Attention Heads、1 024個隱層單元以及3.4億參數的large模型,具體如表1所示。

表1 2款BERT模型結構對比
其中,輸入層完成將輸入文本轉換為詞向量的工作,將3類特征相加:Token Embedding(詞特征嵌入)、Segment Embedding(句級特征嵌入)、Position Embedding(位置特征)。
BERT輸入層如圖1所示。BERT使用Transformer結構的編碼器作為模型編碼層,其同時具有RNN提取長距離依賴關系的能力和CNN并行計算的能力。這2種能力主要是得益于Transformer-encoder中的self-attention結構,在計算當前詞的時候同時利用了它上下文的詞,使其能提取詞之間長距離依賴關系;由于每個詞的計算都是獨立不互相依賴,所以可以同時并行計算所有詞的特征。

圖1 BERT輸入層
BERT預訓練的時候使用2大任務進行迭代訓練,根據不同任務輸出也不同。2大任務包括:①典型的掩碼學習模型(Mask Learning Mode,簡稱MLM)。隨機遮擋15%的輸入數據,通過上下文預測遮蓋詞。通過迭代訓練,模型將學習到遮擋詞的語法特征、句法特征及上下文特征,提取了豐富的詞特征。其中,在選擇Mask的15%的詞當中,以80%的概率直接遮擋掉這個詞,以10%的概率采用任意詞替換法,這種方式將增強BERT模型的魯棒性。②句子連貫性判斷(Next Sentence Prediction,簡稱NSP),對輸入的可能相關或無關的兩句話進行迭代訓練,學習句子間的關系。
通過上面2種方法,BERT首次將無監督的預訓練和有監督的微調這一模式推廣到更深層的雙向結構中,再加上超大規模的語料訓練集,BERT擁有了極高的魯棒性,提高了BERT在下游任務中的效率,給自然語言處理領域帶來了里程碑式的提升。
本系統以信息抽取技術為核心,針對無法快速全面獲取信息的問題,設計了數據采集模塊和數據分析模塊。借助Web信息抽取、大數據語義分析等技術,實現互聯網海量多樣性數據融合,利用BERT算法模型實現輿情數據挖掘,幫助用戶快速獲取豐富且準確的信息。系統總體框架如圖2所示。

圖2 輿情分析系統總體框架圖
其中,數據采集處理模塊主要是根據教育裝備產業集群和全供應鏈的實際需要,提供基于Spark集群技術的大數據 ETL(Extract Transform Load,抽取、轉換、加載)技術的數據服務。對于與教育裝備相關的外部Web環境,提供相關的數據指標抽取、存儲轉換和分析處理服務。采用Web信息抽取以及基于信息熵的核心信息提取關鍵技術,是教育裝備行業的創新,為教育裝備企業能夠提供準確優質的行業數據信息提供了良好保證。
數據分析模塊主要實現從互聯網環境的響應信息源中抓取輿情信息,實現數據清洗并除存儲,最終基于NLP算法模型實現輿情分析并提供決策信息。
大數據和人工智能算法是本系統研發的理論基礎。系統根據教育裝備產業集群和全供應鏈的實際需要,從互聯網環境的響應信息源抓取輿情信息,預處理后完成結構化存儲,為自然語言處理算法模型的訓練、調優及最終上線提供重要支撐。
本系統所涉及的輿情分析主要是基于教育裝備產業集群的網絡數據模式以及決策需求。系統總體工作流程如圖3所示。

圖3 系統總體工作流程
從圖3中可以看出,系統工作流程主要包含以下核心步驟。
步驟1:網絡數據采集及存儲。系統抓取互聯網新聞、論壇、博客等輿情信息,清洗并結構化存儲至系統數據庫中,通過輿情搜索引擎對海量的輿情數據進行高效檢索。
步驟2:輿情分析。對采集處理并存儲的數據,進行自然語言算法模型的訓練調優,為后續決策系統提供對應預測結果的輸出。
步驟3:輿情發布。根據業務需求,為用戶輸出可視化的決策信息,幫助用戶完成輿情分析決策。
綜合整體工作流程,系統涉及的子模塊包括:①Web數據抽取模塊。就selenium網絡爬蟲技術以及Spark Streaming技術進行網絡數據抽取。②數據轉換模塊。使用Spark RDD技術進行數據轉換。③數據存儲和加載模塊。使用Spark SQL技術進行數據的存儲和加載。④數據檢索查詢模塊。使用Spark SQL和正則化匹配技術完成數據的檢索和查找。⑤數據錄入模塊。設計GUI交互界面,完成相應的數據手動輸入和數據導入功能。⑥分類決策模塊。使用支持向量機技術實現分類分析。⑦聚類決策模塊。使用層次聚類技術實現聚類分析。⑧回歸預測模塊。使用深度神經網絡技術實現回歸預測分析。⑨大數據可視化系統。使用PCA算法實現降維,并且使用分類和聚類技術將數據區別化展示。⑩平臺管理系統。提供平臺整體角色配置管理、日志管理等。
數據分析模塊的核心是自然語言算法模型,對數據采集模塊獲取的輿情數據進行訓練調優,不斷優化,建立文本的數據挖掘模型,從而實現智能決策所需要的分類、聚類以及回歸預測分析算法功能,方便用戶的決策。數據分析流程如圖4所示。

圖4 數據分析流程
數據分析模塊的回歸預測分析部分選用是谷歌公司在2019年提出的一種基于Transformer的雙向語言模型BERT預訓練模型。由于該模型與傳統淺層神經網絡模型在文本特征方式上不同,使得BERT非常適合遷移學習,將預訓練模型應用于下游任務之中,該模型在命名實體識別、詞性標注、情感分類和智能問答等方面都曾一度取得前所未有的效果。BERT的非線性表征向量可以有效解決“一詞多義”問題,并行運算的能力可以極大提升訓練和預測效率,經受過海量語料庫訓練的BERT將以極高的魯棒性適應本項目輿情分析需求。
此外,數據分析系統提供了功能和模塊:①詞庫配置功能。對常用詞、褒義詞和貶義詞庫進行配置,方便對文本的分析。②分詞模塊。使用前向后向最大匹配算法對文本進行分詞,然后根據常用詞庫去除無意義的常用詞匯。③詞頻統計模塊。使用該模塊可以對分詞以后的結果進行詞頻統計,得出不同詞匯出現的詞頻,得到詞匯和詞頻的鍵值對,方便進一步的分析。④數據管理模塊。通過該模塊可以對文本處理的中間數據進行管理,包括數據的增刪、復制、刪除和移動等操作。
本文基于PyTorch Transformers模型庫構建BERT網絡模型,對來自網絡新聞、公眾號、博客、論壇、微博的輿情數據進行分析。本文基于優化庫torch.optim通過lr_scheduler對學習率進行優化,最終以0.000 01作為模型學習率,實現Adam優化器,最終達到預測AUC值81.48%。
本文介紹了一種教育裝備領域多源輿情數據融合分析系統。系統通過抓取海量的網絡數據,對數據自動進行動態糾偏及實施校準,并搭建了面向用戶的多維度數據存儲與智能管理中心,通過動態融合多源數據并深度挖掘數據關聯特征,構建了教育裝備領域多源輿情數據融合分析平體系。在此基礎上,分別從多源數據的智能采集、數據預處理過程、數據融合分析過程提供動態交互的輔助決策分析服務,并對云平臺的架構需求進行設計,以提供快速實施系統的各類風險預警及快速處置,從而全面搭建了多源數據融合的輿情數據融合分析系統。系統構建了多目標導向的輿情數據融合分析體系,通過分析教育裝備產業導向和用戶服務需求導向下輿情數據融合分析過程中的各類影響因素,研究多種因素共同作用下用戶滿意度的動態演變規律。