999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數字研發系統中非結構化數據的融合方法研究

2021-11-05 07:47:56國網福建省電力有限公司信息通信分公司陳嚴紓林彧茜蔡宇翔方略斌
電子世界 2021年17期
關鍵詞:分類

國網福建省電力有限公司信息通信分公司 陳嚴紓 林彧茜 蔡宇翔 方略斌

福建億榕信息技術有限公司 盧偉龍 蔡映紅

生活中有很多文檔數據都是以圖像的方式儲存在網絡系統中,而如何將這些非結構化的圖像數據轉換成結構化內容是實際發展的重難點。本文研究選用了改進后的區域卷積神經網絡,也就是Faster- CNN結構的深度學習網絡模型,并利用投影計算算法對數字研發系統中非結構化的文檔圖像實施版面內容進行自動分類和定位,并針對識別、獲取轉換非結構化文檔圖像當中的表格,最終得到非結構化數據的融合方法。

1 非結構化的文檔版面

1.1 二值化和降噪

對非結構化的文檔圖像而言,其是由前景因素與背景因素兩部分構成,而二值化的根本目的在于利用計算圖像當中包含的像素值,將一副圖像轉變為只存在黑白兩種像素點的圖像,以此提取圖像當中的前景因素。此時,所對應二值化的變化函數公式為:

其中,T代表閾值,同樣也是計算二值化最重要的一步。除此之外,也有其他方法進行處理,例如全局閾值法、局域閾值法以及自適應閾值法等。本文研究所選閾值法,設非結構化文檔圖片是I(x,y),圖像大小是W×H,分割前景圖像和背景圖像之間的閾值為T,前景像素點數量和整體圖像的像素點數量之間的比例為η0,而背景像素點數量和整體圖像的像素點數量之間的比例是η1,且圖像的總體灰度數值為λ,前景背景的灰度數值為λ0,背景像素的灰度數值為λ1。對比圖像當中的灰度值和閾值可知,低于獲取閾值的像素點數量是a,超過閾值的像素點數量是a,方差可以記作ω。

而在降噪中,一般會利用不同類型的低通濾波器清除圖像當中的高頻,促使圖像在一定意義上變得更加模糊,最終達成降噪的目標。在實際操作中,最常見的降噪方法有很多種,例如中值濾波、均值濾波等。本文研究以均值濾波為例,在實際操作過程中就是利用一個具備歸一化特點的卷積框在模版窗口覆蓋范圍內所有像素之間獲取的平均數值取代原有圖像中的像素點灰度值。假設處理圖像I(x,y),圖像當中某點噪聲坐標為(x0,y0),灰度數值是g(xn,yn)。運用大小是a×a的卷積框實施降噪,其中灰度值的計算公式為:

1.2 投影算法

將表格圖像按照豎直方向劃分成五分高度相等的矩形,可以用Ri來表示,其中i=0,1,2,3,4,且高度都是Htable/ 5,寬度是Wtable。根據投影計算得到的數值,將其放在水平投影數組中,且N=5,那么其中所包含的所有元素sp[i]的數值就是Ri,且i=0,1,2,3,4,這也代表全部前景像素的總數。

2 運用Faster R- CNN分析文檔特征

Faster R- CNN作為定位非結構化文檔中各類結構的有效手段,在目標檢測算法操作中,Faster R- CNN是相對運算速度更快和精度更高的一種應用算法。從實際角度來看,Faster R- CNN有效整合了Region Proposal Network(RPN)網絡和Faster R- CNN網絡,并由此構建了網絡結構,相對應的損失函數公式為:

其中,Ncls運用ni-batch size對256對分類損失函數Lcls實施標準化處理,具體可以表示為:

且Nreg利用錨點數量為2400個對回歸損失函數Lreg實施標準化處理,具體公式為:

其中,R函數是指:

3 提取與識別

為了確保表格可以被快速轉換為Excel格式的文檔,從而對其中包含的內容實施可編輯操作,而后對識別表格進行分類操作,且利用更為精準的圖像算法進行輔助操作,再對不同類型表格在圖像處理層面進行科學處理,進而降低轉換的錯誤率。在對表格識別分類時,最重要的是明確表格的明顯特征,并利用加工處理達成實驗目標。在本文研究中,按照現階段大部分表格的表現形式,并按照表格的基本線性特點分離處理表格,例如,全線表格、純橫線表格、色彩相間的表格、無限表格等。通過利用HSV通道,正確區分相同色系下不同類顏色,并根據通道的明度數值進行研究。

4 結果分析

針對非結構文檔版面的豎直和水平兩種方向,有效結合投影計算和深度學習網絡Faster R- CNN的操作方式,幫助整體系統利用最少的計算方式,對圖片、表格以及文字的位置進行準確定位和分類。一方面為了便于后續計算分析,需要先對非結構文檔實施預處理,從而促使其可以轉化成可操作的圖片,運用Python代碼當中的Java接口轉換文檔,這種方法在應用期間并不會出現多余的文件占據系統內存;另一方面可以減少轉換和計算時間,能充分處理容量龐大的文檔系統。

結合Faster R- CNN識別得到的結果分析,真實數值和預測數值之間的關系如圖1所示。

圖1 關系圖

通過觀察圖1可以發現,在loU數值接近1的情況下,本文研究數字研發系統的預測結果更接近于真實數值。在Faster R- CNN網絡訓練,利用自主構建的數據,在標記中完成訓練。以3000張圖片為例,按照6:1的概率隨機分配到訓練集和測試集中,并統計分析圖片當中包含的文本、表格等數據量,而后完成訓練驗證。

在研究分析中,如果預測數據和真實數據的交并比閾值是0.7,在完成30000次迭代訓練之后,m AP的指數是71.3,且損失函數非常接近于0.01。

觀察圖1發現,在完成訓練之后的非結構化文檔圖片的識別結果,綠色邊框代表文字內容,黃色邊框代表表格內容,再對比實驗數據內容后發現,實際識別結果非常有效,且沒有出現過于嚴重的錯誤情況,和其他算法相比,分類的準確性雖然不高,但整體結果的滿意度非常高。

在本文概述實驗中,準確識別并轉換出的文檔形式圖片的表格樣本數量是100張,實際轉換率可以達到92%,相比同類文獻識別概率分析可知,其他所選方法的準確識別率只有86.97%。由此可知,針對非結構化數據的文字、圖片以及表格等進行全面分類和定位,并統一分析其中的識別數值和轉換概率,不僅能發現其中存在的問題,而且可以為后續實驗分析和探索提供更多依據。

結語:綜上所述,在分析數字研發系統中非結構化數據融合方法時,利用Faster R- CNN和圖像算法有效結合餓的方式對其進行全面分析,能在準確定位和識別的基礎上,完成版面分析工作。需要注意的是,因為Faster R- CNN算法對數據集的要求過低,且不需要利用過于繁瑣的圖像算法進行操作,所以可以能充分保障文檔圖片當中定位分類的有效性和精確性。同時,根據識別分類所獲取的信息,對橫縱線不完善的表格進行優化,以此完成所有單元格的切分儲存,并按照Excel格式進行內容重新構建。另外,本文利用圖像算法和Faster R- CNN進行表格識別,可以提升實際識別效率,并對表格分類進行逐一細化,而后優化不同類型表格的算法識別處理工作。

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 狠狠干欧美| 久久亚洲国产最新网站| 国产免费自拍视频| 成人福利视频网| 国产精品对白刺激| 精品日韩亚洲欧美高清a| 中文字幕在线观| 青青青草国产| 无码一区18禁| 一本二本三本不卡无码| 国产色网站| 亚洲成人在线网| 欧美精品啪啪一区二区三区| 久久久受www免费人成| 一本色道久久88综合日韩精品| 欧美日本在线| 欧洲日本亚洲中文字幕| 国产精品无码AV片在线观看播放| 日韩在线影院| 91精品国产福利| 久视频免费精品6| 中日无码在线观看| 亚洲美女久久| 91小视频在线观看免费版高清| 久久国产精品麻豆系列| 91精品网站| 激情无码字幕综合| 中文字幕欧美日韩| 精品一区二区三区波多野结衣| 欧美中出一区二区| 国产精品漂亮美女在线观看| 国产九九精品视频| 国产打屁股免费区网站| 精品视频福利| 亚洲人成人无码www| 亚洲中文在线视频| 91极品美女高潮叫床在线观看| 久久精品这里只有精99品| 青草视频在线观看国产| 精品伊人久久大香线蕉网站| 黄色网站在线观看无码| 国产第四页| 亚洲色图欧美激情| 日韩专区欧美| 国产香蕉在线视频| 成人va亚洲va欧美天堂| 国产香蕉在线视频| 99久久99视频| 日本亚洲欧美在线| 激情综合婷婷丁香五月尤物| 91美女视频在线| 国产在线观看高清不卡| 宅男噜噜噜66国产在线观看| 伊人色婷婷| 在线国产91| 国产欧美日韩另类| 亚洲AV成人一区国产精品| 不卡无码h在线观看| 九色免费视频| 国产高清在线观看91精品| 国产一区二区三区精品欧美日韩| 久久精品国产精品青草app| 亚洲欧美另类日本| 国产青榴视频| 婷婷激情五月网| 黄色a一级视频| 国产一级无码不卡视频| 国产成人麻豆精品| 色偷偷一区二区三区| 日本在线亚洲| 嫩草国产在线| 久久综合国产乱子免费| 亚洲一欧洲中文字幕在线| 久久香蕉国产线看观| 日本一区二区不卡视频| 天天色天天操综合网| 欧美一区二区三区不卡免费| 午夜久久影院| 国产精品99在线观看| 国产美女自慰在线观看| 国产黄在线免费观看| 亚洲美女AV免费一区|