999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數字研發系統中非結構化數據的融合方法研究

2021-11-05 07:47:56國網福建省電力有限公司信息通信分公司陳嚴紓林彧茜蔡宇翔方略斌
電子世界 2021年17期
關鍵詞:分類

國網福建省電力有限公司信息通信分公司 陳嚴紓 林彧茜 蔡宇翔 方略斌

福建億榕信息技術有限公司 盧偉龍 蔡映紅

生活中有很多文檔數據都是以圖像的方式儲存在網絡系統中,而如何將這些非結構化的圖像數據轉換成結構化內容是實際發展的重難點。本文研究選用了改進后的區域卷積神經網絡,也就是Faster- CNN結構的深度學習網絡模型,并利用投影計算算法對數字研發系統中非結構化的文檔圖像實施版面內容進行自動分類和定位,并針對識別、獲取轉換非結構化文檔圖像當中的表格,最終得到非結構化數據的融合方法。

1 非結構化的文檔版面

1.1 二值化和降噪

對非結構化的文檔圖像而言,其是由前景因素與背景因素兩部分構成,而二值化的根本目的在于利用計算圖像當中包含的像素值,將一副圖像轉變為只存在黑白兩種像素點的圖像,以此提取圖像當中的前景因素。此時,所對應二值化的變化函數公式為:

其中,T代表閾值,同樣也是計算二值化最重要的一步。除此之外,也有其他方法進行處理,例如全局閾值法、局域閾值法以及自適應閾值法等。本文研究所選閾值法,設非結構化文檔圖片是I(x,y),圖像大小是W×H,分割前景圖像和背景圖像之間的閾值為T,前景像素點數量和整體圖像的像素點數量之間的比例為η0,而背景像素點數量和整體圖像的像素點數量之間的比例是η1,且圖像的總體灰度數值為λ,前景背景的灰度數值為λ0,背景像素的灰度數值為λ1。對比圖像當中的灰度值和閾值可知,低于獲取閾值的像素點數量是a,超過閾值的像素點數量是a,方差可以記作ω。

而在降噪中,一般會利用不同類型的低通濾波器清除圖像當中的高頻,促使圖像在一定意義上變得更加模糊,最終達成降噪的目標。在實際操作中,最常見的降噪方法有很多種,例如中值濾波、均值濾波等。本文研究以均值濾波為例,在實際操作過程中就是利用一個具備歸一化特點的卷積框在模版窗口覆蓋范圍內所有像素之間獲取的平均數值取代原有圖像中的像素點灰度值。假設處理圖像I(x,y),圖像當中某點噪聲坐標為(x0,y0),灰度數值是g(xn,yn)。運用大小是a×a的卷積框實施降噪,其中灰度值的計算公式為:

1.2 投影算法

將表格圖像按照豎直方向劃分成五分高度相等的矩形,可以用Ri來表示,其中i=0,1,2,3,4,且高度都是Htable/ 5,寬度是Wtable。根據投影計算得到的數值,將其放在水平投影數組中,且N=5,那么其中所包含的所有元素sp[i]的數值就是Ri,且i=0,1,2,3,4,這也代表全部前景像素的總數。

2 運用Faster R- CNN分析文檔特征

Faster R- CNN作為定位非結構化文檔中各類結構的有效手段,在目標檢測算法操作中,Faster R- CNN是相對運算速度更快和精度更高的一種應用算法。從實際角度來看,Faster R- CNN有效整合了Region Proposal Network(RPN)網絡和Faster R- CNN網絡,并由此構建了網絡結構,相對應的損失函數公式為:

其中,Ncls運用ni-batch size對256對分類損失函數Lcls實施標準化處理,具體可以表示為:

且Nreg利用錨點數量為2400個對回歸損失函數Lreg實施標準化處理,具體公式為:

其中,R函數是指:

3 提取與識別

為了確保表格可以被快速轉換為Excel格式的文檔,從而對其中包含的內容實施可編輯操作,而后對識別表格進行分類操作,且利用更為精準的圖像算法進行輔助操作,再對不同類型表格在圖像處理層面進行科學處理,進而降低轉換的錯誤率。在對表格識別分類時,最重要的是明確表格的明顯特征,并利用加工處理達成實驗目標。在本文研究中,按照現階段大部分表格的表現形式,并按照表格的基本線性特點分離處理表格,例如,全線表格、純橫線表格、色彩相間的表格、無限表格等。通過利用HSV通道,正確區分相同色系下不同類顏色,并根據通道的明度數值進行研究。

4 結果分析

針對非結構文檔版面的豎直和水平兩種方向,有效結合投影計算和深度學習網絡Faster R- CNN的操作方式,幫助整體系統利用最少的計算方式,對圖片、表格以及文字的位置進行準確定位和分類。一方面為了便于后續計算分析,需要先對非結構文檔實施預處理,從而促使其可以轉化成可操作的圖片,運用Python代碼當中的Java接口轉換文檔,這種方法在應用期間并不會出現多余的文件占據系統內存;另一方面可以減少轉換和計算時間,能充分處理容量龐大的文檔系統。

結合Faster R- CNN識別得到的結果分析,真實數值和預測數值之間的關系如圖1所示。

圖1 關系圖

通過觀察圖1可以發現,在loU數值接近1的情況下,本文研究數字研發系統的預測結果更接近于真實數值。在Faster R- CNN網絡訓練,利用自主構建的數據,在標記中完成訓練。以3000張圖片為例,按照6:1的概率隨機分配到訓練集和測試集中,并統計分析圖片當中包含的文本、表格等數據量,而后完成訓練驗證。

在研究分析中,如果預測數據和真實數據的交并比閾值是0.7,在完成30000次迭代訓練之后,m AP的指數是71.3,且損失函數非常接近于0.01。

觀察圖1發現,在完成訓練之后的非結構化文檔圖片的識別結果,綠色邊框代表文字內容,黃色邊框代表表格內容,再對比實驗數據內容后發現,實際識別結果非常有效,且沒有出現過于嚴重的錯誤情況,和其他算法相比,分類的準確性雖然不高,但整體結果的滿意度非常高。

在本文概述實驗中,準確識別并轉換出的文檔形式圖片的表格樣本數量是100張,實際轉換率可以達到92%,相比同類文獻識別概率分析可知,其他所選方法的準確識別率只有86.97%。由此可知,針對非結構化數據的文字、圖片以及表格等進行全面分類和定位,并統一分析其中的識別數值和轉換概率,不僅能發現其中存在的問題,而且可以為后續實驗分析和探索提供更多依據。

結語:綜上所述,在分析數字研發系統中非結構化數據融合方法時,利用Faster R- CNN和圖像算法有效結合餓的方式對其進行全面分析,能在準確定位和識別的基礎上,完成版面分析工作。需要注意的是,因為Faster R- CNN算法對數據集的要求過低,且不需要利用過于繁瑣的圖像算法進行操作,所以可以能充分保障文檔圖片當中定位分類的有效性和精確性。同時,根據識別分類所獲取的信息,對橫縱線不完善的表格進行優化,以此完成所有單元格的切分儲存,并按照Excel格式進行內容重新構建。另外,本文利用圖像算法和Faster R- CNN進行表格識別,可以提升實際識別效率,并對表格分類進行逐一細化,而后優化不同類型表格的算法識別處理工作。

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 国产微拍一区| 欧美午夜小视频| 粉嫩国产白浆在线观看| 国产Av无码精品色午夜| 亚洲av综合网| 成年片色大黄全免费网站久久| 国产主播在线一区| 97视频精品全国在线观看| 在线播放国产一区| 人人91人人澡人人妻人人爽| 亚洲成av人无码综合在线观看| 真实国产精品vr专区| 亚洲无码电影| 国产福利微拍精品一区二区| 国产超碰一区二区三区| 无码福利日韩神码福利片| 91精品情国产情侣高潮对白蜜| 91破解版在线亚洲| 在线观看精品国产入口| 色婷婷久久| 亚洲自拍另类| 特级aaaaaaaaa毛片免费视频| 国产一区二区三区视频| 九九热视频在线免费观看| 亚洲天堂免费| 欧美日韩在线亚洲国产人| 久久亚洲AⅤ无码精品午夜麻豆| 久久96热在精品国产高清| 久久精品国产一区二区小说| 在线看片国产| 国产精品丝袜在线| 99精品久久精品| 国产伦精品一区二区三区视频优播| 国产亚洲欧美在线中文bt天堂| 亚洲第一精品福利| 久青草免费在线视频| 婷婷丁香在线观看| 国内精品久久人妻无码大片高| 亚洲伊人久久精品影院| 国产精品久久精品| 黄色网站在线观看无码| 国产青青草视频| 五月天在线网站| 无码aaa视频| 玖玖免费视频在线观看| 国产亚卅精品无码| 中文字幕无码制服中字| 亚洲精品无码日韩国产不卡| 国产流白浆视频| 欧美日韩北条麻妃一区二区| 又污又黄又无遮挡网站| 尤物特级无码毛片免费| 日韩AV手机在线观看蜜芽| 亚洲一区二区三区国产精品 | a毛片免费观看| 国产综合另类小说色区色噜噜 | 色婷婷亚洲十月十月色天| 亚洲国产中文精品va在线播放| 国产微拍精品| 亚洲中文字幕国产av| 亚洲av无码久久无遮挡| 一区二区欧美日韩高清免费| 超级碰免费视频91| 婷婷五月在线视频| 亚洲美女一区二区三区| 亚洲一区网站| 色精品视频| 久久99国产乱子伦精品免| 亚洲AV一二三区无码AV蜜桃| 国产在线观看第二页| 999精品在线视频| 香蕉eeww99国产在线观看| 2020精品极品国产色在线观看 | 不卡国产视频第一页| 免费国产高清精品一区在线| 美女国产在线| 亚洲 成人国产| JIZZ亚洲国产| www.99在线观看| 国内视频精品| 国产成人精品高清不卡在线| 在线免费无码视频|