邊陸, 林少波, 郭棟, 代素敏, 韓飛飛, 程鵬
(北京中電飛華通信有限公司,北京 100700)
“工業4.0”利用最新的信息技術促進了企業的協同發展,使企業內部的各個系統信息互聯,推動了企業的橫向集成和縱向集成[1-2]。在數據處理分析研究中:文獻[3]針對工業生產過程中出現的多源異構問題,提出了基于XML文檔技術的異構數據轉換集成方法,將異構數據轉換為文檔實現數據源的有效集成;文獻[4]利用Hadoop大數據框架建立了數據分析的分布式平臺,實現了企業業務信息的互通互聯和資源共享;文獻[5]應用了Spark大數據處理技術,優化了數據查詢速率,通過并行化計算完成圖像數據的快速檢索;文獻[6]提出了一種端到端的實體關系抽取模型,使用詞序關系和語法樹結構完成信息抽取,加快了數據處理過程中信息抽取的效率。當前研究中,對于有高噪聲、強冗余的高維數據的處理效果較差,在數據分析和組織過程中計算量過大且復雜程度較高,在有效分離數據類別的同時,無法保證相同特性的數據聚集。

(1)
式中,U、V表示兩個系統中業務數據的非負矩陣,n表示樣本數量,d表示特征數量。將業務數據集分解為U、V兩個矩陣,U=[u1,u2,…,un]表示權重向量矩陣,V=[v1,v2,…,vn]表示基向量矩陣。基向量矩陣V為一個r維的向量空間R,R中的點可表示為原始數據集中的向量,經過矩陣分解后忽略了數據的高維幾何結構。為了保留業務數據的部分高維特征,在矩陣分解中引入局部正則化,根據目標函數提出相應的優化方案。局部約束非負矩陣算法的降維流程如圖1所示。

圖1 局部約束非負矩陣算法的降維流程
本研究對降維過程中算法的稀疏度進行了控制,算法的稀疏度可表示為
(2)
式中,n表示數據集中向量的維度,xi表示業務數據集中的樣本。通過調整正則化參數使矩陣分解模型更加穩定,避免出現過擬合的情況,模型的損失函數可表示為
(3)
式中,Y表示模型輸出的數據,X表示輸入的原始數據,β表示模型系數,α表示常數參數[9]。對于企業信息系統中n個d維的樣本X=[x1,x2,…,xn],在高維空間的損失函數為φ,通過求解模型的權重系統,將數據集從高維映射到低維后重構系數不變,低維空間中n個r維樣本V=[v1,v2,…,vn]的損失函數[10]可表示為
(4)
式中,W表示重構系數,I表示單位矩陣,G表示映射關系。在矩陣分解過程中需要保持穩定的同時控制稀疏性,在低維空間中保留原始數據高維的結構,得到的目標函數可表示為
(5)
企業系統中智能搜索、自動問答和信息推薦等應用需要從文本數據中提取多個實體之間的關系,形成相關的知識圖譜,在深度學習中構建復雜的知識庫。本研究基于預訓練模型建立關系抽取模型,在解決關系分類任務時定義了編碼器模型。
系統數據庫中,x=[x0,x1,…,xn]表示詞語序列,x0=[CLS]為特殊的開始標記,xn=[SEP]為結束標記。數據序列中,s1=(i,j)、s2=(k,l)為一對整數,關系語句用三元組r=(x,s1,s2)表示,s1、s2表示實體區間,關系語句中的第一個實體用[xi,…,xj-1]表示,第二個實體用[xk,…,xl-1]表示。通過關系表示函數映射到向量hr,向量hr為s1、s2之間的詞語序列關系。本研究關系表示模型的結構如圖2所示。

圖2 關系表示模型結構
模型輸入的關系語句詞語序列為
(6)

在關系抽取任務中的有監督關系抽取中,給定有關系描述r和預測關系的類型t,固定的關系類型字典設為T,當t=0時表示關系語句匯總的實體之間的缺乏關系。在有監督任務中設定一個新的分類層,可表示為
W∈Rk*H
(7)
其中,k表示業務數據關系類型的數量,H表示關系標識的大小。在關系抽取任務中對于關系描述r對應的詞序列,經過編碼器訓練后得到隱藏層輸出向量,再經過線性歸一化后得到固定長度的向量hr。通過預先學習得到關系類別表示,關系語句表示和關系類別為Softmax得到的關系分類。
在FS關系抽取中,利用查詢關系語句對數據序列中的一組候選關系語句進行排序和匹配,在數據集匯中給定K組有N個被標記的關系語句Sk={(r0,t0),…,(rN,tN)},其中ti∈{1,…,K}。對于少樣本任務關系,對待查詢的關系語句的數據序列,經過transformer編碼器訓練得到固定長度的向量hr。對于候選關系語句可以進行相同的操作,得到關系表示向量,并將待查詢語句和候選語句作為向量點積,Softmax查詢語句和候選關系語句作為向量點積的相似度進行關系分類。
盡管我國生態文明建設已經取得一些積極的成效,但依然面臨不少問題與挑戰,既面臨生態環境保護與治理方面的難題,也需要應對體制機制方面的障礙。
數據分析是體現企業各類業務數據價值的過程,對于不同來源和不同結構的數據,數據分析方法可分為結構化數據分析、文檔數據分析、多媒體數據分析、Web數據分析等,最大限度地發揮數據價值。系統能夠選擇特定的數據源對數據維度進行加工處理,根據用戶需求選擇數據字段、數據量限制、排列方式等,根據數據屬性創建數據集,通過屬性編輯控制模塊顯示內容。數據分析系統架構如圖3所示。

圖3 數據分析系統架構
本研究數據分析系統的數據處理模式可分為流處理和批處理,流處理針對企業中實時的應用場景,批處理適用于對時延要求不高的場景,將業務數據收集起來作為一個整體進行處理。系統應用了Hadoop開源分布式框架進行大數據處理和分析,具有較高的可靠性和可拓展性,通過將存儲和計算分布到大量的集群上,增加了系統的存儲容量和計算效率。系統應用深度學習算法模型完成數據的預處理,改善數據質量并提高數據分析的效率,能夠提取目標實體完成信息抽取任務。算法模型基于數據特征對系統中的高維業務數據進行降維處理,通過提取業務數據之間的關聯結構,形成新的數據特征,構建原始數據的低維表現形式,減少數據分析過程中計算的數據量,同時不影響原始數據集特征。進行降維處理的同時減少了原始業務數據集中的噪聲干擾,消除了原始數據之間的相關性。
實驗采用數據庫服務器、計算機、交換機、路由器等設備建立實驗測試環境,并將HBase、Flume、Kafaka等組件集成到計算機數據分析平臺上,操作系統為Ubuntu 16.04。在實驗計算機上安裝ZooKeeper,并配置系統的環境變量,對Hadoop和Hbase進行集群監控。實驗測試環境架構如圖4所示。

圖4 實驗測試環境架構
通過VMware軟件創建3臺虛擬機,操作系統為CentOS 7,將虛擬機分別命名為FXdata 1、FXdata 2、FXdata 3,并設定為固定IP。虛擬機的設置信息如表1所示。實驗環境中硬件設備配置參數如表2所示。

表1 虛擬機的設置信息

表2 設備配置參數
完成實驗環境中設備的配置后,建立數據分析實驗的數據集,如表3所示。

表3 實驗數據集
進行數據降維分類實驗時,首先設定模型參數θ的范圍為0.1~1.0,間隔為0.1,主要參數λ1、λ2、λ3的取值范圍設置為λ={0.001,0.01,0.1,1,10,100,1000}。文獻[3]系統和文獻[4]系統中的數據分類算法作為對照實驗。實驗數據集的維度設定為0~100,得到3種算法在數據集上的分類精度,如圖5所示。

圖5 數據集分類精度
由圖5可知不同算法在不同數據維度下的分類精度,隨著數據維度的增加,算法的識別率逐漸提高。在數據維度低于10時,只有文獻[3]系統的識別率在0.2以下,文獻[4]系統的分類精度為0.72,文獻[3]系統的分類精度不超過0.8,文獻[4]系統的分類精度為0.86。本研究系統在數據降維分類中具有較好的分類精度,數據維度低至10時,系統的分類精度達到0.48,數據維度增加到50時,分類精度增長到0.9左右,數據維度越高,原始數據中保留的信息就越多,數據維度超過70后,系統的識別率基本保持穩定,分類精度最高達到0.97,在數據維度較高時算法的特征提取性能高于其他系統算法。
在表3實驗數據集下,抽取文本中包含的所有時間關系實體,利用序列標注進行關系抽取,每個數據集樣本數據設定為50個,LSTM模型作為對比實驗,得到在數據集中提取出的正確樣本條數如圖6所示。具體數據如表4所示。

表4 正確樣本數

圖6 關系抽取結果
根據對關系抽取結果分析可得出,單獨的LSTM模型訓練學習效果較差,對實驗數據序列中實體和方向與本研究關系抽取模型相比仍有一定的差距,導致提取出的正確樣本數量較少,學習能力有待提高。其中,在數據集4和數據集7中提取出35個正確樣本,在數據集5提取出的樣本數最高,達到39個,在數據集6中得到的結果不超過20個。
本研究關系抽取模型提取出的正確樣本條數較多,能夠根據特征在數據集中找出對應的語句,在信息標注中不依賴其他特征成分,關系抽取的效果較高。在數據集4、數據集5和數據集7中提取到的樣本數量都超過40個,最高可達到47個。
本研究建立數據分析系統處理多源異構大數據,基于大數據框架完成數據的分布式存儲和計算,數據計算框架中使用了改進型深度學習算法模型,對高維復雜的數據進行降維處理,并構建預訓練的關系表示模型完成關系抽取任務,從非結構的數據序列中提取實體與實體之間的信息,并結合抽取的實體信息進行判別,將關系語句映射到固定長度的向量上。本研究在數據分析方面的分析方法較為單一,對于半結構化數據或其他類型數據的處理沒有進行深度的研究,還需對其他數據分析方法進行深入分析,完善數據分析系統的功能應用。