999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的多重文檔結構識別方法研究

2021-11-10 05:27:10徐一鳴潘偉民
電子設計工程 2021年21期
關鍵詞:特征結構

徐一鳴,潘偉民

(新疆師范大學計算機科學技術學院,新疆烏魯木齊830001)

隨著信息技術的快速發展與信息系統的廣泛使用,越來越多的人以更加開放的格式文檔轉向數字化存檔,便于文檔的上傳與讀取[1-2]。文檔結構正向多語言、圖片文字混合排版,手寫、純印刷和手寫印刷混排等多重文檔模式的發展,增加了文檔結構識別的難度[3-4]。

為進一步提高多重文檔結構識別的精準度及效率,文中提出了一種基于深度學習的多重文檔結構識別方法。通過自編碼器來構建多層文檔學習網絡,使用多層神經網絡提取多重文檔特征、特征學習與次抽樣。通過多重文檔的特征屬性,將上述特征轉至文檔空間庫內,明確該文檔結構的構成內容,繼而完成對多重文檔結構識別。

1 多重文檔結構識別方法設計

1.1 文檔框架范圍判定

憑借布拉格公式拆分文檔結構,文檔框架范圍λB可表示為:

式(1)中,ndff代表范圍文字邊界超出率,Λ 代表辨識周期。在文檔框架外出現頁碼、頁眉和頁腳標識時[5],文檔框架的ndff與Λ 對應進行調整轉變,進而引發文檔框架判定的偏移誤差[3]。文檔框架范圍和頁碼與頁眉頁腳的關聯如式(2)所示。

式(2)中,λB代表框架內文檔框架界定偏移,ε代表頁碼轉變率,Δθ代表頁眉頁腳位置偏差,a與ξ分別代表文檔框架范圍的膨脹系數與縮減系數[6-7],Pe代表文檔框架范圍的有效判定系數,,其中,P11與P12代表彈性判定系數,v代表選取范圍長寬配置比。當彈性范圍小于紙張慣性范圍時[8-10],文檔框架的形變公式能夠簡化為:

式(3)中,ω與Xs分別代表添加在彈性范圍中的劃分頻次與彈性劃分幅度,t表示調制幅度,ωn代表自由度范圍內的固有劃分頻次,As代表輸入彈性系數后的劃分幅度,β代表范圍劃分偏移相位。經過對光柵周界震動傳感器反射的波長偏移量進行測量,就能夠完成對外界震動頻率的感知。

1.2 基于自動編碼器的文檔特征表達

自編碼器是一種典型的無監督特征學習方法,其結構包括輸入層、編碼層與輸出層[11-12]。擬定輸入值與輸出值為不同狀態,編碼器出現的結果可表達為:

式(4)中,f(x)代表非線性文檔特征激活函數,通常叫做邏輯函數,W為網絡的初始化權重,bh代表隱藏層偏權值。邏輯函數f(x)如式(5)所示。

式(5)中,z表示修正收斂速度。利用解碼器函數g(h)重組隱藏層數據,其表示式如式(6)所示。

式(6)中,Sg代表單元特征激活函數,通常為線性函數或sigmoid 函數,θ表示超參數,bv表示可見層的偏置。自動編碼的訓練過程就是探索擬定數據集里超參數θ的最小化重組誤差。重組誤差能夠通過式(7)表示:

式(7)中,L代表文檔結構判定誤差函數,δ代表隱藏層變量,ε表示循環誤差值。一般可以利用平方誤差函數表示誤差重組后輸出值的文檔特征,通過式(8)能夠表示為:

式(8)中,h(xi)代表預測的第i個特征值,yi代表實際的第i個特征值。在現實使用的流程內,憑借堆疊多層的自動編碼器,可以讓文檔結構特征出現一種多層的表示,進而得到最符合期望的特征表達。

1.3 基于卷積神經網絡的文檔二維結構識別

人工神經網絡即卷積神經網絡,主要用于識別文檔的二維結構[13]。經過以上敘述得知,該網絡的所有層均是由多種二維文檔平面構成的,所有層都存在較多的獨立神經元,這種神經元分別被稱之為復雜元與簡單元。即通過S元所聚集的面就是S面,S面聚集的層則是S層,C元、C面、C層同樣與此關聯。其S層即指特征提取層,網絡的計算層都是利用多種特征所反射而成,每一種特征所反射的平面,其神經元權值都是一樣的。模型C層即憑借卷積層的神經元所構建的網絡層,S層即憑借次抽樣層的神經元所構建的網絡層。在卷積層內,可以利用上一層的文檔結構特征和學習的卷積核,但卷積架構通過激活函數后輸出構建該層特征。每一種輸出的特征都可以和上一層的特征進行卷積構建。通常來說,卷積層如式(9)所示。

式(9)中,l為文檔結構層的總量,k為卷積核,j為輸入選擇文檔特征值,b為每一種輸出偏置值[14-15]。憑借次抽樣層對輸入的文檔進行抽樣操作處理,假設輸入特征為n種,那么通過次抽樣層后特征的數量即為n。次抽樣層的表達式為:

式(10)中,down(·) 代表次抽樣函數,β為特征修正參數,xlj-1為抽樣層參數。主要是利用對輸入特征的n×n尺寸進行求和,所以輸出長度是輸入長度的1n。

基于上述文檔特征的計算,關于文檔的卷積神經網絡訓練流程具有兩個步驟。

1.4 多重文檔結構識別

因多重文檔中包含多種變量,因此針對存在n種變量的多元函數Q=Q(x1,x2,…,xn),擬定Q在整體定義域內連續且可導[16],使Q0=Q(x10,x20,…,xn0),那么把Q=Q(x1,x2,…,xn)在Q0的同一領域里擴展同時剔除高階項,可得:

式(11)中,v代表識別輸出層的權值,wij代表識別輸入層的權值,bj代表中間層的輸出值。值得考慮的是,Q0取[ ]0,1 中的隨機常數,Q0只能挑選存在代表性的多重文檔結構樣本,這樣才可以確保模型的精準性與可信度。

針對具體問題,xi、Δxi、Q0、v與w都是已知的,所以可以推算出文本特征:

代入化簡得:

如果S=0,那么Q=Q0。

如果S≠0,那么就存在如式(14)與式(15)的兩種狀況:

在F(Q)=SQ2+(1-S)Q-Q0時,討論F(Q)=0 時解的存在狀況。

在現實使用中,Q0能夠取[0,1] 內的隨機常數,所以:

F(Q)滿足:

通過式(16)與式(17)能夠看出,F(Q)=0 在[0,1]中一定存在實數解,F(Q)=0 曲線的對稱軸是,分區間討論:1)S<-1 時,0 <Q1<1,此時唯一的解是式(17);2)-1 <S<0 時,Q1>1 此時唯一的解是式(16);3)S>1 時,0 <Q1<1,此時唯一的解是式(18);4)0 <S<1 時,只考慮[0,1] 區間內的情況,所以唯一解為式(14)。通過上述可知,式(14)存在多重文檔特征識別實數解表達式:

2 實驗證明

實驗環境為Intel(R)Core(TM)2Quad2.66 GHz CPU,3.50 GB 內存的PC 機。該文實驗通過Matlab(2019a)仿真平臺來驗證所提方法的有效性。為確保實驗的真實有效性,需要定義多重文檔結構,并歸一化處理實驗樣本,獲得準確的結構向量。

完成算法訓練后,再向仿真系統內輸入包括圖片、手寫字、電腦鍵入字,以及包含英語、中文的400篇碩士學位論文。對比標準的識別結構特征與利用該文方法識別的結果,并在仿真平臺輸出識別結果[17]。由于多重文檔結構特征項較多,所以選取具有代表性8 項作為識別項目,包括圖片、手寫字體、計算機鍵入字體、中文、英文、正文、關鍵詞、標題對應的特征與正文相同。上述標準文檔框架范圍權重與文檔范圍提取閾值如表1所示。

表1 標準數值設定

該文方法識別實驗結果如表2所示。

由表2實驗數據可知,對上述8 項的識別率均高于94%,準確識別文檔數量多于360 篇,對文檔框架范圍權重的設定相同,對文檔范圍提取閾值均不超過標準值的0.05,說明該文方法在多重文檔識別中具有較高的準確性與效率。

表2 多重文檔結構識別結果

3 結 論

針對多重文檔結構識別時出現的識別效率慢與識別精準度低的問題,提出了一種基于深度學習的多重文檔結構識別方法。利用自編碼器來構建多層網絡,并調整訓練參數,使用多層神經網絡對多重文檔進行特征提取、特征學習與次抽樣[18],估算現實輸出和對應的期望輸出的差值,利用多元函數識別文檔結構。實驗證明,該文方法在多重文檔結構識別上具有識別效率較快和識別精準度較高的優點。

猜你喜歡
特征結構
抓住特征巧觀察
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
新型平衡塊結構的應用
模具制造(2019年3期)2019-06-06 02:10:54
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
論《日出》的結構
創新治理結構促進中小企業持續成長
現代企業(2015年9期)2015-02-28 18:56:50
主站蜘蛛池模板: 九九热视频精品在线| 亚洲成人高清无码| 天堂亚洲网| 99精品视频九九精品| 手机看片1024久久精品你懂的| 国产亚洲精| 广东一级毛片| 国产精品美女在线| 久久精品无码一区二区国产区| 国产一区二区色淫影院| 激情综合五月网| 国内精品视频在线| 色婷婷亚洲综合五月| 久久公开视频| 噜噜噜久久| 国产鲁鲁视频在线观看| 成人在线亚洲| 亚洲毛片在线看| 一区二区偷拍美女撒尿视频| 九九九国产| 色婷婷成人网| 亚洲欧美不卡| 91麻豆久久久| 欧美日韩国产一级| 国产在线精品人成导航| 女人爽到高潮免费视频大全| 91麻豆国产在线| 色哟哟国产精品| 亚洲一级毛片| 中国一级毛片免费观看| 日本一区高清| 国产精品久久久久久影院| 亚洲国产无码有码| 波多野结衣国产精品| 欧美视频在线播放观看免费福利资源| 日韩视频福利| 五月天在线网站| 亚洲AV色香蕉一区二区| 久久久久青草线综合超碰| 99久久免费精品特色大片| 国产美女无遮挡免费视频网站| av在线手机播放| 日韩av无码DVD| 久久semm亚洲国产| 久久性视频| 2022国产91精品久久久久久| 四虎精品黑人视频| 国产成人毛片| 最新亚洲人成无码网站欣赏网| 狠狠干欧美| 亚洲成人77777| 国产精品福利导航| 一级毛片无毒不卡直接观看 | 国产99在线| 三级毛片在线播放| 91热爆在线| 天天爽免费视频| 夜夜操国产| 999在线免费视频| 国模在线视频一区二区三区| 波多野结衣久久高清免费| 精品国产毛片| 国产va免费精品| 国内精品视频区在线2021| 拍国产真实乱人偷精品| 欧美精品亚洲二区| 手机精品视频在线观看免费| 亚洲中文字幕国产av| 国产女同自拍视频| 国产AV毛片| 久久天天躁狠狠躁夜夜2020一| 手机在线免费不卡一区二| 亚洲成肉网| 亚洲永久免费网站| 999国产精品永久免费视频精品久久| 国产美女一级毛片| 天天综合亚洲| 日韩欧美视频第一区在线观看| 九色视频在线免费观看| 亚洲欧美日韩中文字幕一区二区三区| 免费激情网站| 毛片最新网址|