999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的Word文檔數據識別系統的設計與實現

2022-04-02 01:25:37曹湘華
電腦知識與技術 2022年33期
關鍵詞:機器學習系統

曹湘華

摘要:傳統Word文檔數據識別系統識別精度一般較低,面對數據量龐大的Word文檔數據時,系統響應時間較長,無法采用統一的識別方法完成數據識別,制約文檔數據的信息化、高效化發展。針對此問題在傳統Word文檔數據識別系統的基礎上,引入機器學習原理,實現了新的Word文檔數據識別系統設計。系統硬件采用C/S架構,為各個硬件的穩定運行提供環境保障。軟件通過提取與預處理Word文檔數據,放大文檔數據信息;采用穿線法,識別文檔數據特征;利用機器學習原理,設計系統Word文檔數據識別模塊。應用結果表明,基于機器學習的Word文檔數據識別系統,其文檔數據識別結果的準確率均在96.58%以上,識別結果誤報率均小于0.34%,具有較高的可行性。

關鍵詞:機器學習;文檔;Word;數據;識別;系統

中圖分類號:TP303? ? ? 文獻標識碼:A

文章編號:1009-3044(2022)33-0017-02

Word文檔數據識別系統作為信息化社會發展背景下處理海量文檔數據的方式之一,對提升數據處理、錄入、存儲的效率具有重要意義[1]。Word文檔數據識別系統與傳統的文檔數據人工處理方式相比,極大程度地減少了數據處理的人力資源消耗,將紙質文檔信息轉換為電子數據信息,上傳至識別系統。系統通過信息化、智能化的運行方式,對數據進行識別、錄入、處理與存儲,降低了數據錄入與識別的錯誤率[2]。現階段,我國在Word文檔數據識別系統方面的研究逐漸接近成熟,然而,其中仍然存在一定的不足,主要體現在針對數據量較龐大的Word文檔數據,系統識別響應的時間較長,無法采用統一的識別方式完成數據識別,且文檔數據識別結果的準確率較低[3]。機器學習技術能夠有效地改善這一問題,通過靜態分析與動態分析相結合的方式,對識別系統的運行特征進行全方位的分析與學習,提高系統運行的準確率與完備性[4]。

基于此,本文在傳統Word文檔數據識別系統的基礎上,引入機器學習原理,實現了新的Word文檔數據識別系統設計,為促進Word文檔數據識別的信息化、智能化發展作出貢獻。

1 識別系統硬件設計

本文設計的基于機器學習的Word文檔數據識別系統采用C/S硬件架構,在運行過程中,能夠為系統內其他硬件提供穩定高效的運行環境。系統硬件接口采用I/O接口方式,主要負責為系統中各個硬件提供電源、輸入系統外部觸發信號以及控制硬件輸出[5]。接口采用RT36型號的千兆以太網接口,分別將網線兩端插入接口。系統的網絡交換機采用S Series系列的交換機,端口為48×10/100/1000BASE-T RJ45, 8×10G SFP+,交換容量為256Gbps,PoE標準協議采用IEEE 802.3af/at,為了保證識別系統運行的效率,設置網絡交換機的最小延時為2.2μs,最大延時為64.69μs,包轉發率為192 Mpps。為了提升系統文檔數據識別、傳輸與接收的速度,本文采用芯片型號為Intel X710-BM2的英特爾網卡,其端口為雙光口,與系統主機的接口為PCIe 3.0×8類型,在系統內的布線類型為SFP+光模塊/DAC/AOC,支持系統VT-c連通性。

2 識別系統軟件設計

2.1 Word文檔數據提取與預處理

為了更好地識別Word文檔數據,本文首先對Word文檔數據進行提取與預處理。由于文檔數據量龐大,將Word文檔數據轉換為圖像存儲的形式,輸入系統中,利用系統的自動掃描功能,掃描圖像中存儲的Word文檔數據[6]。將轉換后的Word文檔數據存儲圖像進行增強處理,提高圖像的灰度級范圍與對比度,使圖像中存儲的數據信息更加清晰。采用伽馬變換的增強方法,增強圖像對比度,增強處理公式為:

[m=arγ,γ∈0,1]

其中,[a]表示圖像低灰度值;[r]表示原始圖像的灰度級;[γ]表示伽馬參數。通過上述公式,對系統中輸入的Word文檔數據存儲圖像進行增強預處理,增強圖像的灰度部分細節,放大文檔數據信息,為后續系統的高效識別提供基礎保障。

2.2 穿線法識別文檔數據特征

對上述Word文檔數據進行提取與預處理后,系統采用穿線法,對Word文檔數據的自身特征進行識別,識別流程如圖1所示。

如圖1所示,穿線法識別流程為:系統通過自動查找的方式,獲取文檔數據的單個數字輪廓;設置三條線,將數字輪廓進行均分處理;根據數字輪廓的相交方式,確定各個數字輪廓之間的交點個數;選取兩條線將所有Word文檔數據平均劃分為左右兩個部分,利用第三條線穿過左右兩個部分所有的數字輪廓,根據線與數字輪廓交點的個數,獲取對應的Word文檔數據特征。

2.3 基于機器學習設計文檔數據識別模塊

在文檔數據特征識別結束后,采用機器學習技術,設計系統中Word文檔數據識別模塊。文檔數據識別模塊作為系統中的核心模塊,對系統識別結果的準確率具有直接影響[7]。通過機器學習技術,識別系統中輸入的文檔數據通道類型,利用模塊端口的子檢測識別模塊,過濾大量非Word文檔數據,提高數據的有效負載識別精度。

利用模塊中機器學習模塊的深度挖掘功能,對各個數據通道類型進行細致劃分,劃分為文字消息數據、文件傳輸數據與文檔數據三個類型。其中,文字消息數據主要通過系統中的傳輸窗口,基于UDP協議進行數據的傳輸與上傳;文件傳輸數據作為客戶端傳輸文檔數據的通道,在上傳與傳輸過程中具有較高的加密性;文檔數據為上述兩種數據的總和,綜合性較強,且數據量龐大。通過系統識別模塊,識別出各個通道類型的數據上傳方式,檢測數據端口的特征與有效負載長度,結合機器學習原理,建立機器學習識別模型,識別Word文檔數據的數量、初始窗口長度、數據屬性等信息。

綜上所述為本文提出的基于機器學習的Word文檔數據識別系統的整體設計流程,分別從系統硬件與軟件兩個方面進行了設計,實現了Word文檔數據高效識別的目標。

3 系統測試

為了驗證本文設計的基于機器學習的Word文檔數據識別系統的有效性,進行了相關的實驗測試。按照上述系統硬件與軟件設計內容與要求,建立文檔數據識別系統,在此基礎上,對系統測試的開發環境進行搭建。本次測試操作的開發環境由AMD Athlon(tm) II X2 215 Processor 型號的CPU、GCC 4.4型號的編譯器、15×800MHz, 1×2400MHz型號的CPU主頻、VIM+CTags+Tlist的編輯工具共同組成,其中,硬盤大小為250G,內存為16G,網卡包括千兆網卡、4個串行接口與2個光纖接口。先采用黑盒測試方法,對系統文檔數據識別模塊的功能進行測試,測試流程如圖2所示。

如圖2所示,文檔數據識別模塊功能測試流程為:在識別系統內輸入Word文檔數據,在系統端口對數據進行預處理;根據文檔數據的有效負載長度,選取系統運行協議;采用Gtalk文字流處理方式,對文檔數據進行處理;基于機器學習模型,對文檔數據進行檢測識別,判斷識別文檔數據的有效負載長度是否大于0,若大于0,則輸出數據識別結果,完成識別流程;若數據有效負載長度小于0,則返回并重復上述步驟,直至文檔數據的有效負載長度大于0為止。根據系統文檔數據識別模塊檢測識別的結果,判斷該模塊的運行狀況。

系統功能模塊測試完畢后,再采用白盒測試的方法,對系統的性能進行測試分析。選取系統性能測試使用的數據集,為了保證測試結果的客觀性與準確性,本次測試使用NIMS的公開數據集作為性能測試數據集,其中包括Word文檔數據368024條,非Word文檔數據531672條。由于原數據集的數據量龐大,不利于系統測試操作,因此,本次測試從NIMS數據集中,隨機抽取15000條Word文檔數據和15000條非Word文檔數據,共同組成訓練數據集,然后從剩余的NIMS數據集中,隨機選取5000條Word文檔數據組成測試數據集,對測試數據集進行標號處理,分別標記為1、2、3、4、5,測試數據集Word文檔數據分布如表1所示。

為了驗證文檔數據識別系統性能的可行性,本次測試采用對比分析方法,將本文設計的基于機器學習的文檔數據識別系統,與傳統的基于OCR技術的文檔數據識別系統進行對比,分別使用兩種系統對相同Word文檔數據的訓練數據集進行訓練,在此基礎上,對5個Word文檔數據的測試數據集進行數據識別測試,對比兩種系統識別結果的準確率,如表2所示。

根據表2的對比結果,在兩種文檔數據識別系統中,本文設計的基于機器學習的文檔數據識別系統,其在不同測試數據集中,文檔數據識別結果的準確率均在96.58%以上,識別結果誤報率均小于0.34%,與傳統識別系統相比,數據識別結果的準確率更高且誤報率更低,說明本文系統在Word文檔數據識別上的效果更佳、更具有優勢。

4 結束語

綜上所述,為了改善傳統Word文檔數據識別系統識別精度較低且海量文檔數據下系統識別速率較慢的情況,本文在傳統數據識別系統的基礎上,引入機器學習理念,實現了新的Word文檔數據識別系統設計。應用結果證明,該系統有效地提升了文檔數據識別結果的準確率,降低了系統識別的誤報率,對海量文檔數據處理的信息化、高效化發展具有重要意義。

參考文獻:

[1] 李洪波,廖詳剛,陳立.基于機器學習One-stage目標檢測算法的塑料自動識別系統[J].塑料科技,2020,48(12):86-89.

[2] 楊思怡,付相祥,吳曉華,等.Tesseract-OCR的文檔掃描識別系統[J].電子世界,2021(20):98-100.

[3] 吳麗華,龍海俠,馮建平.智能機器的認知學習機理及計算模型研究[J].電子技術與軟件工程,2021(21):106-109.

[4] 徐琳宏,丁堃,林原,等.基于機器學習算法的引文情感自動識別研究——以自然語言處理領域為例[J].現代情報,2020,40(1):35-40,48.

[5] 殷倩倩,申鑫欣,夏祎.大數據背景下機器學習在數據挖掘中的應用[J].數字技術與應用,2022,40(5):21-23.

[6] 肖治鴻,韓曄彤,鄒永攀.基于多源數據和邏輯推理的行為識別技術研究[J].計算機科學,2022,49(S1):397-406.

[7] 于楚凡,郭大亮,張秋霞,等.基于大數據挖掘的發電系統異常數據識別系統設計[J].電子設計工程,2022,30(6):131-135.

【通聯編輯:張薇】

猜你喜歡
機器學習系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統
半沸制皂系統(下)
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
基于支持向量機的金融數據分析研究
主站蜘蛛池模板: 日本草草视频在线观看| 国产主播一区二区三区| 91www在线观看| 亚洲国产精品久久久久秋霞影院| 国产成人无码综合亚洲日韩不卡| 九九视频免费在线观看| 国产美女久久久久不卡| 最新亚洲人成网站在线观看| 亚洲成人精品| 亚洲无码高清视频在线观看| 成·人免费午夜无码视频在线观看| 中文字幕免费播放| 国产成人免费高清AⅤ| 日韩精品久久久久久久电影蜜臀| 538国产在线| 97久久精品人人| 国产尤物在线播放| 亚洲成人黄色在线| 国产成人喷潮在线观看| 国产白浆视频| 亚洲视频欧美不卡| 欧美精品1区2区| 欧美综合一区二区三区| 国产精品xxx| 亚洲中文字幕在线一区播放| 九九精品在线观看| 一级毛片高清| 国产精品人莉莉成在线播放| 四虎免费视频网站| 国产一区亚洲一区| 国产精品自在拍首页视频8 | 亚洲黄色片免费看| 亚洲国产精品一区二区高清无码久久| 色哟哟国产成人精品| 免费看a级毛片| 视频二区中文无码| 国产成人亚洲精品色欲AV | 欧美日韩国产在线播放| 最新精品久久精品| 亚欧成人无码AV在线播放| 内射人妻无套中出无码| 2022国产无码在线| 久久国语对白| 亚洲视频欧美不卡| 在线观看无码av免费不卡网站| 狠狠亚洲婷婷综合色香| 伊人无码视屏| 久久综合干| 亚洲精品无码av中文字幕| 国产一二三区在线| 曰韩免费无码AV一区二区| 国产精欧美一区二区三区| 国产丝袜丝视频在线观看| 青青草一区| 99久久国产综合精品女同| 日韩免费中文字幕| 99re66精品视频在线观看| 国产精品九九视频| 国产97视频在线观看| 青青青草国产| 黄色成年视频| 91精品国产丝袜| 日韩精品免费一线在线观看| 成人精品视频一区二区在线 | 日韩午夜片| 国产一区二区三区夜色| 国产亚洲高清视频| 久久亚洲精少妇毛片午夜无码| 无码一区二区波多野结衣播放搜索| 99久久精品国产自免费| 欧美在线视频a| 亚洲欧洲天堂色AV| 欧美日韩亚洲国产主播第一区| a在线观看免费| 亚洲最大在线观看| 日韩123欧美字幕| 国产十八禁在线观看免费| 婷婷色狠狠干| 国产无遮挡裸体免费视频| 日本AⅤ精品一区二区三区日| 一级毛片高清| 狼友视频国产精品首页|