數字研發系統中非結構化數據的融合方法研究

2021-11-05 07:47:56國網福建省電力有限公司信息通信分公司陳嚴紓林彧茜蔡宇翔方略斌

電子世界 2021年17期

關鍵詞：分類

國網福建省電力有限公司信息通信分公司陳嚴紓林彧茜蔡宇翔方略斌

福建億榕信息技術有限公司盧偉龍蔡映紅

生活中有很多文檔數據都是以圖像的方式儲存在網絡系統中，而如何將這些非結構化的圖像數據轉換成結構化內容是實際發展的重難點。本文研究選用了改進后的區域卷積神經網絡，也就是Faster- CNN結構的深度學習網絡模型，并利用投影計算算法對數字研發系統中非結構化的文檔圖像實施版面內容進行自動分類和定位，并針對識別、獲取轉換非結構化文檔圖像當中的表格，最終得到非結構化數據的融合方法。

1 非結構化的文檔版面

1.1 二值化和降噪

對非結構化的文檔圖像而言，其是由前景因素與背景因素兩部分構成，而二值化的根本目的在于利用計算圖像當中包含的像素值，將一副圖像轉變為只存在黑白兩種像素點的圖像，以此提取圖像當中的前景因素。此時，所對應二值化的變化函數公式為：

其中，T代表閾值，同樣也是計算二值化最重要的一步。除此之外，也有其他方法進行處理，例如全局閾值法、局域閾值法以及自適應閾值法等。本文研究所選閾值法，設非結構化文檔圖片是I（x，y），圖像大小是W×H，分割前景圖像和背景圖像之間的閾值為T，前景像素點數量和整體圖像的像素點數量之間的比例為η0，而背景像素點數量和整體圖像的像素點數量之間的比例是η1，且圖像的總體灰度數值為λ，前景背景的灰度數值為λ0，背景像素的灰度數值為λ1。對比圖像當中的灰度值和閾值可知，低于獲取閾值的像素點數量是a，超過閾值的像素點數量是a，方差可以記作ω。

而在降噪中，一般會利用不同類型的低通濾波器清除圖像當中的高頻，促使圖像在一定意義上變得更加模糊，最終達成降噪的目標。在實際操作中，最常見的降噪方法有很多種，例如中值濾波、均值濾波等。本文研究以均值濾波為例，在實際操作過程中就是利用一個具備歸一化特點的卷積框在模版窗口覆蓋范圍內所有像素之間獲取的平均數值取代原有圖像中的像素點灰度值。假設處理圖像I（x，y），圖像當中某點噪聲坐標為（x0，y0），灰度數值是g（xn，yn）。運用大小是a×a的卷積框實施降噪，其中灰度值的計算公式為：

1.2 投影算法

將表格圖像按照豎直方向劃分成五分高度相等的矩形，可以用Ri來表示，其中i=0，1，2，3，4，且高度都是Htable/ 5，寬度是Wtable。根據投影計算得到的數值，將其放在水平投影數組中，且N=5，那么其中所包含的所有元素sp[i]的數值就是Ri，且i=0，1，2，3，4，這也代表全部前景像素的總數。

2 運用Faster R- CNN分析文檔特征

Faster R- CNN作為定位非結構化文檔中各類結構的有效手段，在目標檢測算法操作中，Faster R- CNN是相對運算速度更快和精度更高的一種應用算法。從實際角度來看，Faster R- CNN有效整合了Region Proposal Network（RPN）網絡和Faster R- CNN網絡，并由此構建了網絡結構，相對應的損失函數公式為：

其中，Ncls運用ni-batch size對256對分類損失函數Lcls實施標準化處理，具體可以表示為：

且Nreg利用錨點數量為2400個對回歸損失函數Lreg實施標準化處理，具體公式為：

其中，R函數是指：

3 提取與識別

為了確保表格可以被快速轉換為Excel格式的文檔，從而對其中包含的內容實施可編輯操作，而后對識別表格進行分類操作，且利用更為精準的圖像算法進行輔助操作，再對不同類型表格在圖像處理層面進行科學處理，進而降低轉換的錯誤率。在對表格識別分類時，最重要的是明確表格的明顯特征，并利用加工處理達成實驗目標。在本文研究中，按照現階段大部分表格的表現形式，并按照表格的基本線性特點分離處理表格，例如，全線表格、純橫線表格、色彩相間的表格、無限表格等。通過利用HSV通道，正確區分相同色系下不同類顏色，并根據通道的明度數值進行研究。

4 結果分析

針對非結構文檔版面的豎直和水平兩種方向，有效結合投影計算和深度學習網絡Faster R- CNN的操作方式，幫助整體系統利用最少的計算方式，對圖片、表格以及文字的位置進行準確定位和分類。一方面為了便于后續計算分析，需要先對非結構文檔實施預處理，從而促使其可以轉化成可操作的圖片，運用Python代碼當中的Java接口轉換文檔，這種方法在應用期間并不會出現多余的文件占據系統內存；另一方面可以減少轉換和計算時間，能充分處理容量龐大的文檔系統。

結合Faster R- CNN識別得到的結果分析，真實數值和預測數值之間的關系如圖1所示。

圖1 關系圖

通過觀察圖1可以發現，在loU數值接近1的情況下，本文研究數字研發系統的預測結果更接近于真實數值。在Faster R- CNN網絡訓練，利用自主構建的數據，在標記中完成訓練。以3000張圖片為例，按照6：1的概率隨機分配到訓練集和測試集中，并統計分析圖片當中包含的文本、表格等數據量，而后完成訓練驗證。

在研究分析中，如果預測數據和真實數據的交并比閾值是0.7，在完成30000次迭代訓練之后，m AP的指數是71.3，且損失函數非常接近于0.01。

觀察圖1發現，在完成訓練之后的非結構化文檔圖片的識別結果，綠色邊框代表文字內容，黃色邊框代表表格內容，再對比實驗數據內容后發現，實際識別結果非常有效，且沒有出現過于嚴重的錯誤情況，和其他算法相比，分類的準確性雖然不高，但整體結果的滿意度非常高。

在本文概述實驗中，準確識別并轉換出的文檔形式圖片的表格樣本數量是100張，實際轉換率可以達到92%，相比同類文獻識別概率分析可知，其他所選方法的準確識別率只有86.97%。由此可知，針對非結構化數據的文字、圖片以及表格等進行全面分類和定位，并統一分析其中的識別數值和轉換概率，不僅能發現其中存在的問題，而且可以為后續實驗分析和探索提供更多依據。

結語：綜上所述，在分析數字研發系統中非結構化數據融合方法時，利用Faster R- CNN和圖像算法有效結合餓的方式對其進行全面分析，能在準確定位和識別的基礎上，完成版面分析工作。需要注意的是，因為Faster R- CNN算法對數據集的要求過低，且不需要利用過于繁瑣的圖像算法進行操作，所以可以能充分保障文檔圖片當中定位分類的有效性和精確性。同時，根據識別分類所獲取的信息，對橫縱線不完善的表格進行優化，以此完成所有單元格的切分儲存，并按照Excel格式進行內容重新構建。另外，本文利用圖像算法和Faster R- CNN進行表格識別，可以提升實際識別效率，并對表格分類進行逐一細化，而后優化不同類型表格的算法識別處理工作。