999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

供應(yīng)商投標(biāo)文件關(guān)鍵信息數(shù)據(jù)自動(dòng)提取方法

2024-04-11 15:02:51袁建邸智鄭子辰賈家琛
中國(guó)管理信息化 2024年1期

袁建 邸智 鄭子辰 賈家琛

[摘 要]本論文研究智能招投標(biāo)系統(tǒng)中針對(duì)供應(yīng)商投標(biāo)PDF電子文檔的信息提取技術(shù)。研究?jī)?nèi)容包括PDF文本信息提取和表格提取中的表格結(jié)構(gòu)還原和數(shù)據(jù)對(duì)齊問題。通過設(shè)計(jì)并實(shí)現(xiàn)相關(guān)功能和算法,包括軟件架構(gòu)、內(nèi)容解析器類算法、文本提取模型和表格提取模型,實(shí)現(xiàn)了自動(dòng)識(shí)別和提取關(guān)鍵信息并保存到數(shù)據(jù)庫(kù)中。此外,將OCR技術(shù)與信息提取技術(shù)相結(jié)合,解決了掃描PDF文件的識(shí)別和提取問題,提高了文本和表格信息的完整性和準(zhǔn)確性。本論文的研究成果對(duì)于存檔歷史投標(biāo)文件的快速處理和專家評(píng)標(biāo)過程中的信息提取具有重要意義,為智能招投標(biāo)系統(tǒng)的進(jìn)一步發(fā)展提供了支持。

[關(guān)鍵詞]智能招投標(biāo)系統(tǒng);供應(yīng)商投標(biāo);PDF電子文檔;信息提取技術(shù);非結(jié)構(gòu)化文檔

0? ? ?引 言

智能招投標(biāo)系統(tǒng)在運(yùn)行期間積累了數(shù)萬份歷史投標(biāo)電子文檔,主要以PDF等非結(jié)構(gòu)化形式存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中。這些文件中包含了大量有價(jià)值信息,由于非結(jié)構(gòu)化文檔的局限性,無法直接對(duì)其進(jìn)行分析及應(yīng)用,需要先進(jìn)行結(jié)構(gòu)化處理,從中提取關(guān)鍵信息數(shù)據(jù)。

供應(yīng)商投標(biāo)文件分為商務(wù)文檔、技術(shù)文檔和價(jià)格文檔。結(jié)構(gòu)化處理主要從文檔中提取供應(yīng)商基礎(chǔ)信息、財(cái)務(wù)、業(yè)績(jī)及詳細(xì)報(bào)價(jià)等數(shù)據(jù)。投標(biāo)文件動(dòng)輒成百上千頁(yè),這些信息數(shù)據(jù)又以不同形式存在于段落、表格、圖像中,研究投標(biāo)文件關(guān)鍵信息快速定位和提取,對(duì)存檔歷史投標(biāo)文件批量快速處理及專家評(píng)標(biāo)過程中及時(shí)過濾出有效信息數(shù)據(jù)均具有重要現(xiàn)實(shí)意義。

1? ? ?緒 論

1.1? ?研究背景

智招系統(tǒng)中供應(yīng)商投標(biāo)文檔主要為PDF文件,PDF(Portable Document Format,便攜式文檔格式)是由Adobe Systems于20世紀(jì)末開發(fā)的用于文件交換的一種文件格式,在設(shè)計(jì)之初主要是為了能夠在多個(gè)設(shè)備中進(jìn)行相同格式的渲染,并沒有針對(duì)一般數(shù)字文檔的表格、段落等格式進(jìn)行特別的設(shè)計(jì),這導(dǎo)致一份PDF文檔內(nèi)部并沒有包含版面上的物理結(jié)構(gòu)和內(nèi)容的邏輯結(jié)構(gòu),只是單純的線條與文字的集合,因此識(shí)別和提取PDF中復(fù)雜的文本、表格數(shù)據(jù)面臨不小的挑戰(zhàn)。

1.2? ?研究現(xiàn)狀

許多學(xué)者對(duì)通用PDF文件信息數(shù)據(jù)提取進(jìn)行了一些研究。趙婉婧等人[1]提出一種基于PDF版式特征的文獻(xiàn)篇章結(jié)構(gòu)細(xì)粒度自動(dòng)抽取方法,根據(jù)章節(jié)標(biāo)題的坐標(biāo)定位,將正文內(nèi)容以段落為最小顆粒度自動(dòng)匹配至所屬標(biāo)題的下級(jí)位置,最終實(shí)現(xiàn)文檔全文結(jié)構(gòu)的細(xì)粒度抽取和重組。王淼等人[2]提出了一種文本相似度算法基本步驟和文檔整體相似度加權(quán)平均方法,但該研究只進(jìn)行了文本處理,無法處理存在掃描頁(yè)的文件,而在實(shí)際投標(biāo)文件中存在大量的掃描版內(nèi)容。

針對(duì)PDF中的表格數(shù)據(jù),唐銳等人[3]分析有關(guān) PDF表格抽取技術(shù)的學(xué)術(shù)文獻(xiàn),總結(jié)出PDF表格抽取的三種思路,從算法構(gòu)建的特征的角度對(duì)主要的表格抽取算法進(jìn)行分類,并分析算法各自的特點(diǎn)和優(yōu)劣。

田翠華等人[4]針對(duì)PDF中不同表格的結(jié)構(gòu)設(shè)計(jì)算法,識(shí)別表格內(nèi)的文字信息與表格結(jié)構(gòu),將得到的表格結(jié)構(gòu)還原至Word與Excel文檔中,文字信息同樣復(fù)原至對(duì)應(yīng)單元格內(nèi)。

針對(duì)PDF中的圖像數(shù)據(jù),陳毅鏵等人[5]針對(duì)文檔圖像查重、以圖搜索文檔等應(yīng)用對(duì)于文檔圖像提取的需求,歸納和總結(jié)PDF文檔圖像的提取方法,從文件結(jié)構(gòu)出發(fā),定位并提取出圖像數(shù)據(jù),然后將數(shù)據(jù)保存成指定格式的圖像。

1.3? ?研究?jī)?nèi)容

本論文主要研究針對(duì)供應(yīng)商投標(biāo)PDF電子文檔,根據(jù)關(guān)鍵信息特征進(jìn)行PDF文本信息提取、表格信息提取,OCR輔助文本表格信息提取及數(shù)據(jù)整合等相關(guān)技術(shù)。

首先,對(duì)以上內(nèi)容中所涉及的技術(shù)關(guān)鍵點(diǎn)進(jìn)行歸納總結(jié),并針對(duì)PDF文本關(guān)鍵信息提取,表格提取時(shí)表格結(jié)構(gòu)的還原和數(shù)據(jù)對(duì)齊等問題提出解決方案。

其次,對(duì)涉及的相關(guān)功能及算法進(jìn)行了詳細(xì)設(shè)計(jì)以及實(shí)現(xiàn)。包括設(shè)計(jì)并實(shí)現(xiàn)軟件架構(gòu)、算法等。針對(duì)實(shí)際需求目標(biāo),設(shè)計(jì)了內(nèi)容解析器類算法,以及基于該算法的文本提取模型和表格提取模型。提取模型能夠自動(dòng)識(shí)別并提取文件中的關(guān)鍵文本信息,表格提取模型能夠自動(dòng)識(shí)別提取關(guān)鍵表格,并自動(dòng)以結(jié)構(gòu)化格式保存到相應(yīng)數(shù)據(jù)庫(kù)中。

最后,針對(duì)PDF文檔中的掃描圖像,將OCR技術(shù)與現(xiàn)有的PDF文檔信息提取技術(shù)相結(jié)合,實(shí)現(xiàn)了掃描PDF文件的識(shí)別和提取。掃描PDF文件在提取過程中會(huì)遇到文字識(shí)別效率低下、錯(cuò)誤率高的問題,并且難以格式化處理。針對(duì)以上問題,本文采用OCR技術(shù)輔助文本表格信息提取,設(shè)計(jì)并實(shí)現(xiàn)了表格OCR提取轉(zhuǎn)化算法和表格合并組合算法,同時(shí)還實(shí)現(xiàn)了文本信息缺省值補(bǔ)充等功能,提高了文本、表格信息的完整度和精確性。

整體流程如圖1所示。

1.4? ?研究目的

對(duì)智能招投標(biāo)系統(tǒng)中的歷史投標(biāo)PDF電子文檔進(jìn)行結(jié)構(gòu)化處理,提取挖掘原文件中的關(guān)鍵信息。通過模型和算法的設(shè)計(jì)和實(shí)現(xiàn),達(dá)到快速定位和提取投標(biāo)文件中的關(guān)鍵信息數(shù)據(jù),提高存檔歷史投標(biāo)文件的處理效率及信息數(shù)據(jù)提取準(zhǔn)確性的目的。

2.1? ?PDF文本信息提取模型設(shè)計(jì)

PDF文本信息提取模型主要包含以下三個(gè)方面的解決方案:PDF文本轉(zhuǎn)換、關(guān)鍵信息提取和文本信息自動(dòng)入庫(kù)。整體流程如圖2所示。

首先,pdfplumber調(diào)用open函數(shù)讀取PDF文件,

然后選取文件的pages對(duì)象,再調(diào)用page的extract_text()方法(或者OCR方法)提取文檔中的文字。隨后,程序會(huì)首先判斷每一頁(yè)的原始文本中是否存在關(guān)鍵信息,若存在則進(jìn)一步進(jìn)行提取,否則無需提取。其次,針對(duì)不同類別的關(guān)鍵信息,程序也會(huì)有不同的提取策略。

對(duì)于日期、編號(hào)等主要以數(shù)字字母等簡(jiǎn)單字符組合的文本,程序采用正則匹配法,事先編寫正則規(guī)則,然后對(duì)文本直接進(jìn)行正則匹配提取匹配到的關(guān)鍵信息。例如營(yíng)業(yè)執(zhí)照號(hào)碼,采用的正則規(guī)則是"[93]1[0-9]{2}[0-9A-Za-z]{14}"。

對(duì)于姓名、名稱等主要以漢字組合的文本信息,程序采用關(guān)鍵詞匹配法,即搜索文本中是否存在關(guān)鍵詞信息。在發(fā)現(xiàn)關(guān)鍵詞的情況下,程序會(huì)獲取關(guān)鍵詞附近的文本,并認(rèn)為之中大概率存在關(guān)鍵信息。然后程序?qū)笳哌M(jìn)行進(jìn)一步處理,包括分詞、去除停用詞等一系列操作,最終依據(jù)預(yù)設(shè)的提取策略提取需要的詞作為關(guān)鍵信息。

最終,程序會(huì)將提取到的關(guān)鍵詞和關(guān)鍵信息先保存在列表之中,然后在數(shù)據(jù)庫(kù)中根據(jù)關(guān)鍵詞建立數(shù)據(jù)庫(kù)字段,關(guān)鍵信息則作為數(shù)據(jù)庫(kù)值和對(duì)應(yīng)的數(shù)據(jù)庫(kù)字段直接建立匹配關(guān)系。最后按照該匹配關(guān)系將列表存儲(chǔ)到數(shù)據(jù)庫(kù)中。

2.2? ?PDF表格信息提取模型設(shè)計(jì)

PDF表格提取模型主要包含以下三個(gè)方面的解決方案:PDF表格提取、表格簡(jiǎn)化和表格自動(dòng)入庫(kù)。整體流程如圖3所示。

與PDF文本信息提取過程類似,程序會(huì)根據(jù)事先設(shè)定好的關(guān)鍵詞進(jìn)行判斷當(dāng)前頁(yè)面中是否存在關(guān)鍵表格,若存在則進(jìn)行表格提取。Pdfplumber使用page對(duì)象的extract_tables()方法進(jìn)行表格提取,但是此時(shí)提取出來的表格不是標(biāo)準(zhǔn)表格,在經(jīng)過提取單元格、分離子表、拆分合并單元格、提取表頭并化簡(jiǎn)、合并跨頁(yè)表、轉(zhuǎn)置、重新封裝等一系列操作之后,才能化為標(biāo)準(zhǔn)表格。

(1)提取單元格:extract_tables()方法可以識(shí)別單元格分隔符進(jìn)行單元格的識(shí)別和抽取,得到結(jié)構(gòu)為“表->行->單元格“的列表形式。

(2)分離子表:pdfplumber提取到的單元格包含x0、x1、top、bottom等位置信息而不包含文字信息,因此程序會(huì)將頁(yè)面上的文字信息依據(jù)絕對(duì)坐標(biāo)轉(zhuǎn)化為相對(duì)位置關(guān)系,然后根據(jù)從左到右,從上到下的順序重新表格排序

(3)拆分合并單元格:重新排序的單元格對(duì)象并沒有表格的基本特征,因此需要根據(jù)表格位置對(duì)其進(jìn)行劃分,將屬于同一個(gè)表格的單元格劃分在同一個(gè)表格容器中。

(4)提取表頭并化簡(jiǎn):程序假定表格的第一行非空行或第一列非空列為表頭,因此提取表頭時(shí)候只需要對(duì)第二行和第三行以及第二列和第三列的數(shù)據(jù)進(jìn)行相似度比較,即可判斷表格是以橫向還是縱向排列。

(5)合并跨頁(yè)表:若判斷表格是否跨頁(yè),則需要判斷前后表格的列數(shù)和寬度是否相同以及后頁(yè)表頭是否存在。然后將屬于跨頁(yè)表格的列表進(jìn)行合并。

(6)轉(zhuǎn)置:商業(yè)表格通常來說第一列或者第一行為年份數(shù)據(jù),為了保持?jǐn)?shù)據(jù)庫(kù)中表格結(jié)構(gòu)的一致性,需要將第一行為年份數(shù)據(jù)的表格轉(zhuǎn)置。做法為利用zip()函數(shù)將列表轉(zhuǎn)置。

2.3? ?軟件架構(gòu)及算法設(shè)計(jì)

本軟件設(shè)計(jì)了三層架構(gòu),分別是展示層架構(gòu),邏輯層架構(gòu)和數(shù)據(jù)層架構(gòu)。系統(tǒng)架構(gòu)如圖4所示。

2.3.1? ?展示層

展示層主要用于展示數(shù)據(jù)和顯示處理結(jié)果,提供用戶交互界面。該軟件主要采用Flask框架實(shí)現(xiàn),利用瀏覽器訪問鏈接:端口提供主體界面。利用Flask控件和HTML文件展示PDF文件信息、關(guān)鍵文本信息、關(guān)鍵表格的輸出結(jié)果,還能根據(jù)用戶需要選擇目標(biāo)PDF文件進(jìn)行解析。

2.3.2? ?邏輯層

邏輯層主要包括實(shí)現(xiàn)各個(gè)功能模塊中定義的各個(gè)功能,接收展示層傳來的目標(biāo)PDF文件地址,解析并將結(jié)果傳遞給展示層和數(shù)據(jù)層,起到連接的作用。在本軟件中,邏輯層主要是通過Python語言編寫以及使用多個(gè)Python依賴包輔助完成,實(shí)現(xiàn)PDF關(guān)鍵信息提取從開始到入庫(kù)的全部算法流程。除此以外,邏輯層還負(fù)責(zé)HTML文件的維護(hù)和生成,為展示層提供后臺(tái)支持。

2.3.3? ?數(shù)據(jù)層

數(shù)據(jù)層主要是數(shù)據(jù)長(zhǎng)久化保存以及向展示層和邏輯層提供數(shù)據(jù)支持,包括待處理的PDF文件和處理后的MySQL數(shù)據(jù)庫(kù)文件。每一個(gè)PDF文件會(huì)在MySQL的表中生成一個(gè)唯一ID,用于在不同數(shù)據(jù)庫(kù)中索引。處理完成的PDF文件會(huì)在數(shù)據(jù)庫(kù)中得到記錄,同時(shí)會(huì)標(biāo)明對(duì)應(yīng)的包含的表格和字段。

2.4? ?算法設(shè)計(jì)

軟件算法主要包括提取關(guān)鍵文本信息算法和提取關(guān)鍵表格算法。

2.4.1? ?算法1

算法1為關(guān)鍵文本信息提取算法,其中使用的正則匹配法為事先編寫的正則匹配規(guī)則去匹配整體文本。例如日期則正則編碼為u"[0-9]{4}[ ]*[年][ ]*[01]?[0-9][ ]*[月][ ]*[0123]?[0-9][ ]*[日]",

可以精確匹配日期信息。而對(duì)于例如名稱這種關(guān)鍵信息,除了使用正則編碼“[名稱]”以外,還需要通過收集關(guān)鍵詞附近的文字,采用Python中文分詞組件jieba后,去除例如“是”“的”等冗余中文連接詞和事先確定的詞語后將剩余詞匯連接便可以得到關(guān)鍵信息。具體的算法流程如下。

算法1:關(guān)鍵文本信息提取算法。

輸入:PDF文件地址并用pdfplumber處理得到pages對(duì)象。

輸出:將處理過的文本信息通過SQL語言存入數(shù)據(jù)庫(kù)。

①使用extract_text()方法得到page的文本信息,以列表形式表示;

②(可選)將該頁(yè)page通過fizt.get_pixmap()得到該頁(yè)的圖像格式文件,對(duì)圖像進(jìn)行灰度化、二值化和邊緣提取處理,利用霍夫變換計(jì)算圖像直線斜率而后進(jìn)行傾斜校正;

③(可選)對(duì)圖像文件使用OCR技術(shù)獲取圖像上的文字及其位置信息,處理后與②中列表信息格式相同,然后與②中得到信息合并;

④通過正則匹配法判斷該頁(yè)文本信息中是否含有關(guān)鍵信息;

⑤如果有,則將關(guān)鍵信息附近文本收集并采用中文分詞,清理掉不需要的文字之后獲取關(guān)鍵文本;反之則返回②并選擇下一頁(yè);

⑥將處理過的文本以{關(guān)鍵詞:關(guān)鍵信息}形式為鍵值對(duì)保存在字典中,然后返回②并選擇下一頁(yè)直到處理完成所有頁(yè)。

2.4.2? ?算法2

算法2為基于pdfplumber的關(guān)鍵表格信息提取算法。本算法在pdfplumber的基礎(chǔ)上解決了部分pdfplumber處理過程中遇到的問題,包括但不限于數(shù)據(jù)清洗、子表清理、合并跨頁(yè)表等方法,其中通過關(guān)鍵詞判斷是否為關(guān)鍵表格使用了算法1的部分步驟,而④至⑦步則為方法的具體操作步驟。具體的算法流程如下。

算法2:基于pdfplumber的關(guān)鍵表格信息提取算法。

輸入:PDF文件地址并用pdfplumber處理得到pages對(duì)象。

輸出:將表格內(nèi)容通過SQL語言存入數(shù)據(jù)庫(kù)。

①使用算法1的②至⑤步驟判斷該頁(yè)是否存在表格標(biāo)題,是否是關(guān)鍵表格;

②如果有,使用算法1的步驟⑥獲取表名,使用extract_tables()方法提取table,并提取到單元格信息;

③數(shù)據(jù)清理,重新創(chuàng)建一個(gè)列表,然后將table按照行順序置入列表內(nèi),并為空白單元格添加空值以保證表格每行的維度相同;

④子表清理,遍歷列表獲取列數(shù)最多的行列數(shù),若其他行列數(shù)少于該行,則認(rèn)為是子表,然后根據(jù)位置信息判斷子表單元格與主表單元格的對(duì)應(yīng)關(guān)系,然后通過對(duì)應(yīng)關(guān)系擴(kuò)展改行使得函數(shù)保持一致;

⑤合并跨頁(yè)表,通過extract_tables()方法提取下一頁(yè)的表格并選擇第一個(gè)表格,若表格的第一行與前一頁(yè)最后一個(gè)表格的最后一行列數(shù)相同,且不包含表頭關(guān)鍵詞,則對(duì)后表進(jìn)行④至⑤步處理并與原表數(shù)據(jù)合并;

⑥判斷轉(zhuǎn)置,選擇table[0]作為表頭,如果表頭中文本為年份信息,則將列表轉(zhuǎn)置。

2.4.3? ?算法3

算法3為基于OCR的關(guān)鍵表格信息提取算法。利用腐蝕膨脹算法獲取圖像橫、縱線,從而獲取單元格坐標(biāo)信息。利用角點(diǎn)檢測(cè)方法判斷表格邊界位置以及表格數(shù)量。由于OCR只能提取文本信息,因此提取成表格形式難度較大。但是通過借助圖像處理方法得到的位置信息去判斷文本之間的相互關(guān)系,包括行、列的歸屬判斷和單元格因?yàn)閾Q行導(dǎo)致文字分開的情況,可以與OCR技術(shù)形成有效互補(bǔ)。而利用OCR判斷位置信息處理完成后,文本將被重新以表格形式排列,之后使用算法2的步驟處理。具體的算法流程如下。

算法3:基于OCR的關(guān)鍵表格信息提取算法。

輸入:輸入PDF文件地址并讀取,遍歷頁(yè)并使用fizt.get_pixmap()得到該頁(yè)的圖像格式文件。

輸出:根據(jù)算法2步驟④至⑧處理剩余表格文本信息。

①圖像處理,對(duì)圖片進(jìn)行灰度化、二值化和邊緣提取處理,利用霍夫變換計(jì)算圖像直線斜率而后進(jìn)行傾斜校正;

②使用Harries角點(diǎn)檢測(cè)方法提取圖像中的角點(diǎn)作為表格的邊界角點(diǎn),并根據(jù)①中獲得的直線信息獲取表格邊界,然后分離圖像中可能存在的多個(gè)表格并處理非表格部分信息;

③單元格提取,使用圖像腐蝕膨脹技術(shù)提取表格橫、縱直線,直線相交形成區(qū)域?yàn)閱卧駞^(qū)域,獲取坐標(biāo)(x_l,x_h,y_l,y_h);

④使用OCR技術(shù)提取每個(gè)單元格的文本信息;

⑤計(jì)算每個(gè)單元格中心點(diǎn)坐標(biāo)x=(x_l+x_h)/2,

y=(y_l+y_h)/2,若兩個(gè)單元格中心點(diǎn)橫坐標(biāo)相同,則認(rèn)為屬于同一列,若縱坐標(biāo)相同,則屬于同一行;

⑥獲取表頭信息,根據(jù)中心點(diǎn)坐標(biāo)信息,獲取第一列或者第一行的文字,根據(jù)算法2步驟⑥判斷表頭并確認(rèn)是否轉(zhuǎn)置。

3? ? ?實(shí)驗(yàn)分析

3.1? ?實(shí)驗(yàn)與開發(fā)環(huán)境

本次實(shí)驗(yàn)所涉及的軟件和硬件信息如表1所示。

3.2? ?實(shí)驗(yàn)數(shù)據(jù)

本系統(tǒng)對(duì)100多份商業(yè)PDF文檔進(jìn)行內(nèi)容提取。從內(nèi)容上,分為文本提取和表格提取;從形式上,分為直接提取與OCR輔助提取。本文選取了大小不同的PDF文檔,并有針對(duì)性地選取帶有表格內(nèi)容的PDF文件以供測(cè)試。其中,對(duì)于文本提取的準(zhǔn)確率計(jì)算如下:

其中i為文本提取關(guān)鍵詞,count()表示滿足條件的文檔數(shù)量。

對(duì)于表格提取準(zhǔn)確率計(jì)算如下:

其中t為對(duì)應(yīng)某個(gè)表格中的某個(gè)單元格,count()表示滿足條件的單元格數(shù)量,該式計(jì)算單個(gè)表格提取的準(zhǔn)確率,對(duì)于整個(gè)文檔,則計(jì)算表格的準(zhǔn)確率的均值作為比較標(biāo)準(zhǔn)。

3.3? ?軟件測(cè)試與分析

軟件通過對(duì)多組不同的測(cè)試數(shù)據(jù)進(jìn)行測(cè)試,分別對(duì)軟件提取PDF文件所用時(shí)間進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果如表2所示。

其中,OCR使用情況包含三種,分別為未使用OCR方法、僅使用OCR方法和輔助使用OCR方法,輔助使用指的是若常規(guī)方法未有效提取出文本關(guān)鍵詞或表格關(guān)鍵信息,則使用OCR方法提取,否則則不使用。

從表2可以看出,文檔數(shù)據(jù)信息提取所用時(shí)間與文檔大小相關(guān)性較低,與OCR是否使用相關(guān)性較大,在不使用OCR技術(shù)的情況下,提取能在10s內(nèi)完成,符合基本要求,但在僅使用OCR的情況下,提取數(shù)據(jù)所用時(shí)間超過100s,明顯不符合要求。在輔助使用OCR的情況下,提取速度相比只使用OCR的情況要快。

本系統(tǒng)還對(duì)多組不同的測(cè)試數(shù)據(jù)進(jìn)行準(zhǔn)確率計(jì)算,計(jì)算結(jié)果如表3所示。

根據(jù)表3數(shù)據(jù)可知,僅使用OCR技術(shù)不能很好地提高準(zhǔn)確率,這與PDF文件的清晰度、圖片的污染程度、模型本身的識(shí)別準(zhǔn)確率均相關(guān)。而OCR與基礎(chǔ)方法配合使用能夠明顯提高準(zhǔn)確率。在輔助使用OCR的情況下,提取的準(zhǔn)確率約為99%,符合性能指標(biāo)要求。

綜上所述,未使用OCR情況下提取數(shù)據(jù)很快,但是準(zhǔn)確率有所降低。輔助使用OCR情況下準(zhǔn)確率最高,提取速度也基本滿足要求。但是僅使用OCR情況下提取數(shù)據(jù)的速度和準(zhǔn)確率均不符合要求,因此本軟件應(yīng)該采用輔助使用OCR的方式運(yùn)行。

3.4? ?軟件功能操作與實(shí)現(xiàn)

對(duì)于待提取PDF文件,將其文件路徑輸入至程序中便可自動(dòng)提取,如圖5(a)所示,在Web端可以顯示文本提取得到的關(guān)鍵詞和關(guān)鍵信息,以及表格提取得到的表格。

對(duì)于掃描文件,如圖5(b)所示,軟件還會(huì)顯示分割之后得到的表格圖片。

4? ? ?結(jié)束語

本文設(shè)計(jì)并實(shí)現(xiàn)了PDF文件的商業(yè)信息數(shù)據(jù)提取整合軟件,該軟件借助pdfplumber和OCR方法實(shí)現(xiàn)了PDF文本數(shù)據(jù)和表格數(shù)據(jù)的提取。實(shí)驗(yàn)證明,采用本文設(shè)計(jì)的軟件提取PDF文本和表格數(shù)據(jù)有較快的速度和較高的準(zhǔn)確率,在實(shí)際操作過程中,建議采用以pdfplumber為主,OCR方法輔助的形式進(jìn)行信息提取。

由于本文的研究目標(biāo)具有較強(qiáng)針對(duì)性,對(duì)其他類型的PDF文件關(guān)注較少,對(duì)PDF文件中的圖像或符號(hào)信息也有所忽略,在后續(xù)的研究中將對(duì)這些內(nèi)容做進(jìn)一步的研究。

主要參考文獻(xiàn)

[1]趙婉婧,劉敏娟,劉洪冰,等.基于PDF版式特征的文獻(xiàn)篇章結(jié)構(gòu)細(xì)粒度抽取方法研究[J].農(nóng)業(yè)圖書情報(bào)學(xué)報(bào),2021,33(9):93-103.

[2]王淼,朱宇龍,馬博,等.基于文本挖掘技術(shù)的電力企業(yè)招投標(biāo)智能審計(jì)探索與實(shí)踐[J].中國(guó)管理信息化,2020,23(14):81-84.

[3]唐銳,鄧建新,葉志興,等.PDF文件的表格抽取研究綜述[J].計(jì)算機(jī)應(yīng)用與軟件,2021,38(7):1-7,22.

[4]田翠華,張一平,胡志鋼,等.PDF文檔表格信息的識(shí)別與提取[J].廈門理工學(xué)院學(xué)報(bào),2020,28(3):70-76.

[5]陳毅鏵,張瀚勻.面向Word和PDF文檔的圖像提取軟件

[J].信息技術(shù),2023,47(4):8-12,17.

[收稿日期]2023-07-13

[作者簡(jiǎn)介]袁建(1980— ),內(nèi)蒙古呼和浩特人,碩士,高級(jí)工程師,主要研究方向:大數(shù)據(jù)、區(qū)塊鏈。

主站蜘蛛池模板: 久久99精品久久久久纯品| 久久成人18免费| 成人无码一区二区三区视频在线观看 | 亚洲色图另类| 日本在线免费网站| 女人18毛片久久| 深夜福利视频一区二区| 福利国产微拍广场一区视频在线 | 99偷拍视频精品一区二区| 国产精品视频999| 亚欧乱色视频网站大全| 久草中文网| 国产AV毛片| 色欲国产一区二区日韩欧美| 波多野结衣国产精品| 国产成人高清精品免费软件| 中文字幕在线欧美| 国产在线视频二区| 国产福利在线观看精品| 美女视频黄又黄又免费高清| 91青青草视频| 激情影院内射美女| 国产亚洲精品无码专| 91福利国产成人精品导航| 日本欧美午夜| 一区二区三区高清视频国产女人| 久久成人国产精品免费软件| 中文成人在线| 激情综合图区| 欧美在线天堂| 天天摸天天操免费播放小视频| 四虎精品国产AV二区| 国产传媒一区二区三区四区五区| 91久久偷偷做嫩草影院精品| 69视频国产| 91久久偷偷做嫩草影院电| 欲色天天综合网| 中国精品自拍| 77777亚洲午夜久久多人| 亚洲av日韩av制服丝袜| 无套av在线| 岛国精品一区免费视频在线观看| 天天躁狠狠躁| 国产人成网线在线播放va| 国产第二十一页| 亚洲人人视频| 午夜福利亚洲精品| 幺女国产一级毛片| 免费国产在线精品一区| 亚洲精品午夜天堂网页| 一级毛片不卡片免费观看| 五月婷婷欧美| 亚洲色欲色欲www在线观看| 国产精品污视频| 三上悠亚在线精品二区| 狠狠五月天中文字幕| 日韩在线成年视频人网站观看| 白丝美女办公室高潮喷水视频| 乱系列中文字幕在线视频| 在线观看91香蕉国产免费| 伊人婷婷色香五月综合缴缴情| 午夜成人在线视频| 无码高潮喷水专区久久| 久久久久亚洲精品成人网| 黄网站欧美内射| 国产超碰一区二区三区| 欧美在线黄| 精品久久久久久成人AV| av在线手机播放| 91在线播放免费不卡无毒| 无码AV日韩一二三区| 精品夜恋影院亚洲欧洲| 亚洲欧美在线综合图区| 欧美色综合网站| 福利国产在线| 午夜不卡福利| 国产欧美日韩另类| 久久国产av麻豆| 欧美啪啪一区| 国产精品欧美激情| 欧美激情网址| 欧美高清视频一区二区三区|