


收稿日期:2023-08-31
DOI:10.19850/j.cnki.2096-4706.2024.07.005
摘? 要:文章分析討論了半結構化信息管理技術的發(fā)展狀況和應用情況,在梳理和總結半結構化文本信息抽取載體類型、內容和技術方法的基礎上,設計了科創(chuàng)項目信息提取系統(tǒng)。該系統(tǒng)數據源以科研院所/創(chuàng)業(yè)團隊提供的商業(yè)策劃書為主,采用B/S架構,以基礎設置、數據層、應用層和用戶層四層邏輯構架為基礎,通過業(yè)務邏輯后臺、文件解析模塊、項目關鍵信息抽取服務三大功能模塊,實現對科創(chuàng)項目策劃書文本數據采集、關鍵信息提取、數據存儲以及數據服務的高效管理。實踐結果表明,該系統(tǒng)功能達到了預期設計目標,運行穩(wěn)定、高效。
關鍵詞:半結構化信息;科創(chuàng)項目;信息提取系統(tǒng)
中圖分類號:TP311? 文獻標識碼:A? 文章編號:2096-4706(2024)07-0019-06
Design of Information Extraction System for Science and Technology Innovation Projects
BAI Bin
(Shanghai Yunju Shuchuang Network Technology Co., Ltd., Shanghai? 201401, China)
Abstract: This paper analyzes and discusses the development and application of semi-structured information management technology. Based on sorting and summarizing the types, contents, and technical methods of semi-structured text information extraction carriers, an information extraction system for science and technology innovation project is designed. The data source of this system is mainly business proposals provided by research institutes/entrepreneurial teams, using a B/S architecture. It is based on a four layer logical framework of basic settings, data layer, application layer, and user layer. Through three functional modules: business logic backend, file parsing module, and project key information extraction service, it achieves efficient management of text data collection, key information extraction, data storage, and data services for science and technology innovation project proposals. The practical results show that the system function has achieved the expected design goals, it operates stably and efficiently.
Keywords: semi-structured information; science and technology innovation project; information extraction system
0? 引? 言
科技成果轉化的關鍵在于“精準對接”,其核心在于識別科技成果的核心亮點,進而從海量數據中快速、準確的檢索到匹配需要的資源。傳統(tǒng)的做法主要依靠人力完成,效率低且效果不可靠。利用人工智能技術對項目文檔中關鍵詞信息抓取、整理、關聯(lián)挖掘出有效信息,并以可視化的方式直觀展示,可以大幅提高科技成果和企業(yè)需求匹配效率。
1? 現狀分析
從科創(chuàng)項目策劃書文本數據構成上看,主要是以半結構化信息為主,結構化信息只占了其中很小的一部分,如何有效提取大量的以半結構化化信息為主的科創(chuàng)項目信息,在此基礎上提煉出對項目決策有輔助作用的知識,已成為當前科創(chuàng)項目信息處理的一個熱點。本文通過對前人在面向半結構化文本信息抽取載體類型、內容和技術方法方面的研究進展進行了梳理和總結,從而為更好地實現以半結構化文本為主的科創(chuàng)項目文本關鍵信息的提取提供思路。
在半結構化文本抽取載體類型研究方面,按半結構化文本資源的表達形式將信息抽取的載體類型劃分為科技文獻和網絡文獻[1]。其中,在科技文獻方面,丁君軍等人[2]對學術期刊中的屬性描述進行了情感信息和數量關系的分析,并對學術概念屬性抽取系統(tǒng)進行設計和實現。劉一寧等人[3]提出了一種學術定義抽取系統(tǒng),通過使用語法規(guī)則和詞頻統(tǒng)計的方法實現信息抽取目的。在網絡文獻方面,Shah等人[4]設計了一種從包含自由文本和語義標記Web中檢索文檔的方法,并發(fā)現通過結合索引和語義標記提高檢索效率的目的。Tang等人[5]討論了在ArnetMiner系統(tǒng)中的關鍵問題,針對在學術社會網絡中實現對專家信息的抽取并挖掘。
在半結構化文本抽取內容研究方面,Pollak等人[6]通過使用形態(tài)語法、自動術語識別和語義標注技術,提出了針對領域語料中抽取定義候選集的工作流,定義抽取工作能夠被重復使用并可轉化為其他語言類型。Ferneda等人[7]以法律文書為載體,研究了法律定義詞匯特定的規(guī)范性規(guī)則,利用規(guī)模樣本訓練了SVM分類器,并在一個測試語料中對該方法進行了評價。王雪芬等人[8]針對專家信息庫來源單一等問題,結合專家?guī)熘腥宋飳傩缘奶攸c,提出了基于社會網絡的專家檢索技術方案。
在半結構化文本抽取技術方法研究方面,Califf [9]提出采用一種模式匹配規(guī)則對文本信息進行抽取。Ciravegna等人[10]通過利用LearningPinocchio工具包對規(guī)則進行學習,實現了對以簡歷為樣本的半結構化文本信息進行抽取。黎偉健等人[11]采用大數據思維研究了半結構化數據的文本挖掘方法,總結出針對較大規(guī)模文本量的分析過程,為海量文本的數據提取方法提供了參考。周法國等人[12]基于內在認知機理的知識發(fā)現理論,探討了半結構化信息抽取中的關鍵技術,如機器學習技術、篇章分析與理解技術等,對非結構化信息實體識別、關系識別都有涉及。張博[13]對比各個統(tǒng)計模型后,采用一種優(yōu)化后的方法對各類半結構化文本的關鍵信息進行抽取,結合領域知識庫對抽取結果進行二次抽取,抽取結構準確性得到了有效提高。
2? 系統(tǒng)功能需求分析
科創(chuàng)項目信息服務系統(tǒng)的數據源主要來自科研院所/創(chuàng)業(yè)團隊提供的項目策劃書文本信息,其系統(tǒng)功能需求主要從數據配置管理、項目文本數據采集、項目文本信息提取、項目數據存儲、項目數據服務、系統(tǒng)維護以及用戶管理幾個方面進行分析:
1)數據配置管理??蓪崿F對項目文本關鍵詞字段參數增、刪、改、查及導入導出功能。
2)項目文本數據采集??蓪崿F對圖片和文字性PDF格式的項目文件進行數據采集功能。
3)項目文本信息提取。根據配置字段內容,可實現對項目文本文件關鍵信息進行提取,并能對文本提取后的關鍵信息進行瀏覽、編輯、入庫。
4)項目數據存儲。包括數據庫結構設計和實現,提取信息入庫,數據增、刪、改、查及數據的導入和導出功能。
5)項目數據服務。包括門戶界面、項目檢索、項目策劃書內容詳情查看、項目策劃書關鍵信息提取后的文檔查看、校訂、檢索與對比、批量導出、項目人員權限管理等模塊。
6)系統(tǒng)維護(系統(tǒng)設置)。包括用戶信息、系統(tǒng)日志、軟件升級等。
7)用戶管理。包括超級管理員、用戶、數據維護人員等類型用戶的注冊、登錄、密碼和角色管理。
3? 系統(tǒng)設計
3.1? 系統(tǒng)設計概述
系統(tǒng)采用以瀏覽器和服務器架構模式的B/S架構,用戶通過NGINX代理訪問前端頁面,同時所產生的數據請求交互通過NGINX反向代理后臺業(yè)務服務完成對存儲于MySQL、Redis、Minio等永久化數據進行交互。后臺業(yè)務服務主要通過Java環(huán)境運行,其中項目抽取部分則依賴項目抽取服務,先將PPT和PPT形式的PDF文件轉換為文本信息,在對文本信息進行處理。系統(tǒng)體系架構圖如圖1所示。
3.2? 系統(tǒng)構架設計
系統(tǒng)構架圖如圖2所示,從邏輯結構上系統(tǒng)結構主要分為基礎設施、數據層、應用層和用戶層,其中,基礎設施層主要包括網絡、服務器、存儲、存儲設備等硬件條件是系統(tǒng)運行的基礎保證。數據層是用戶存儲系統(tǒng)的數據,系統(tǒng)數據有多種類型,包括項目數據庫、用戶數據庫、日志數據庫、文件數據庫。其中文件數據庫是用戶存儲項目原始文件。應用層根據系統(tǒng)需求可分為應用層和服務層。服務層介于數據層和業(yè)務應用層,為業(yè)務應用層提供支持,包括文件解析服務、文本解析服務、自然語言處理服務、關鍵信息抽取服務及關鍵詞邏輯表達式解析服務,從物理結構上將服務層劃分為PDF解析模塊及項目信息抽取模塊;業(yè)務應用層是指具體的業(yè)務應用系統(tǒng)功能模塊,包括文件上傳、項目管理、項目分享及評價、項目推薦及對比、用戶權限管理、關鍵字段管理、導出報告、版本存檔,該部分從物理結構劃分到業(yè)務邏輯后臺。用戶層為用戶提供使用系統(tǒng)的入口,主要通過瀏覽器進行訪問,包括用戶登錄及統(tǒng)一認證服務。
3.3? 主要功能模塊
在上述系統(tǒng)構架設計基礎上,將系統(tǒng)應用層從物理結構上劃分為業(yè)務邏輯后臺、文件解析模塊、項目關鍵信息抽取服務模塊,功能模塊組件圖如圖3所示。
3.3.1? 業(yè)務邏輯后臺
業(yè)務邏輯后臺模塊主要包括文檔上傳、項目管理、項目分享及評價、項目推薦及對比、用戶權限管理、關鍵字段管理、導出報告、版本存檔等子模塊,各個子模塊之間相對獨立。
業(yè)務邏輯后臺基于Java語言進行開發(fā),主要使用Spring Boot框架,搭配使用MyBatis Plus、Spring Data Redis框架對數據庫進行操作。其中文檔上傳中的各文檔數據主要存儲在Minio文件存儲系統(tǒng)中。
3.3.2? 文檔解析模塊
文檔解析模塊基于Python語言進行開發(fā),主要基于PDFPlumber提供對PPT形式的PDF進行解析??刹檎襊DF文本字符、矩陣、行的詳細信息。該模塊主要提供對PPT形式的PDF進行解析的API接口,將PDF中的文本解析提取進行返回,以便后續(xù)關鍵信息抽取模塊的使用。
3.3.3? 項目關鍵信息抽取模塊
項目關鍵信息抽取模塊主要包括對文件的文本解析、對解析后的文本進行分詞處理、對預定義的關鍵字段及自定義的關鍵詞邏輯表達式的關鍵字段信息進行抽取。
抽取模塊主要采用NLP及其基礎處理(分詞、詞性標記、命名實體識別)、文本分類(深度神經網絡;簡單關鍵字規(guī)則)、基于語義特征的文本抽?。ㄕZ法、詞性、命名識體識別結果)、基于規(guī)則的文本檢索(雙向關鍵字復合搜索算法)。
抽取過程中,首先對文本進行預處理包括分句、大小寫轉換,符號統(tǒng)一等,最終獲取句子級別的文本。通過BERT-LSTM-CRF多任務自然語義處理(NLP)基礎模型對句子進行分詞、詞性標記、命名實體識別。其次,通過設計觸發(fā)詞,基于詞性標記、命名實體識別結果,并輔助以距離約束設計抽取模型分析句子中不同分詞之間的潛在聯(lián)系,對目標關鍵字進行抽取,獲取詞級別和句子級別結果。同時,為滿足不同關鍵字搜索需求,借助基于雙向關鍵字復合搜索算法、文本分類算法,識別特定目標關鍵字的句子級別結果。隨后,基于文本分類對頁面標題進行頁面類型檢測,對頁面內抽取結果進行約束過濾,并對部分缺失字段結果使用頁面級別結果進行填充。最后,進行抽取結果去重、清洗。
3.4? 用戶界面設計
3.4.1? 項目管理頁面設計
圖4為項目管理列表頁,表單中包括項目名稱、創(chuàng)建人、創(chuàng)建時間及加入對比/詳情/分享/刪除操作。通過頁面快速查找項目,并在頁面中提供上傳項目文件入口,支持對項目的導出、分享及對比,為查看項目詳情提供入口。
3.4.2? 項目關鍵字段管理頁面
通過導航【關鍵字段管理】菜單,可以進入關鍵字段管理頁面,如圖5所示,可通過輸入關鍵字段名稱中的關鍵字對關鍵字段進行檢索,并可通過選擇關鍵字段類別進行過濾。
3.4.3? 項目詳情頁面
圖6為項目詳情頁,包括項目文件解析后的文本及抽取后的內容,可對項目進行詳細操作,包括項目抽取后結果導出word版本文件、項目對比操作等,具體如圖7和圖8所示。
3.4.4? 日志管理頁面
圖9為日志管理系統(tǒng)頁面,統(tǒng)計報表為每日上傳或解析項目文件數量的統(tǒng)計,包括賬號、操作類型、操作對象、操作時間、操作狀態(tài)。
4? 結? 論
本文根據項目策劃書的文本特點,對信息抽取系統(tǒng)設計需求進行了簡要分析,以基礎設置、數據層、應用層和用戶層四層邏輯構架為基礎,設計了以業(yè)務邏輯后臺、文件解析模塊、項目關鍵信息抽取服務三大功能模塊的科創(chuàng)項目信息抽取系統(tǒng)。該系統(tǒng)有效解決了傳統(tǒng)依靠外部行業(yè)專家或通過密集的人力、且效率低且效果不可靠的做法。通過對項目文檔中關鍵詞信息抓取、整理、關聯(lián)挖掘出有效信息,并以可視化的方式直觀展示,大幅提高科技成果和企業(yè)需求匹配效率。
參考文獻:
[1] 丁玉飛,王曰芬,劉衛(wèi)江.面向半結構化文本的知識抽取研究 [J].情報理論與實踐,2015,38(3):101-106.
[2] 丁君軍,鄭彥寧,化柏林.基于規(guī)則的學術概念屬性抽取 [J].情報理論與實踐,2011,34(12):10-14+33.
[3] 劉一寧,鄭彥寧,化柏林.學術定義抽取系統(tǒng)實現及實驗分析 [J].情報理論與實踐,2011,34(12):15-19.
[4] SHAH U,FININ T,JOSHI A,et al. Information Retrieval on the Semantic web [C]//Proceedings of the Eleventh International Conference on Information and Knowledge Management,2002:461-468.https://dl.acm.org/doi/10.1145/584792.584868.
[5] TANG J,ZHANG J,YAO L M,et al. Arne Miner: Extraction and Mining of Academic Social Networks [C]//Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(SIGKDD),2008:990-998.https://dl.acm.org/doi/10.1145/1401890.1402008.
[6] POLLAK S,VAVPETIC A,LAVRAC N,et al. NLP Workflow for On-line Definition Extraction from English and Slovene Text Corpora [EB/OL].[2023-08-06].http://www.oegai.at/konvens2012/proceedings/10_pollak12o/10_pollak12o.pdf.
[7] FERNEDA E,DOPRADO H A,BATISTA A H,et al. Extracting definitions from Brazilian legal texts [C]//International Conference on Computational Science and Its Applications,2012(4):631-646.
[8] 王雪芬,王曰芬.專家?guī)熘械膶<覚z索技術研究 [J].情報理論與實踐,2011,34(2):96-99.
[9] CALIFF M E. Relational Learning Techniques for Natural Language Information Extraction [C]//Relational learning techniques for natural language information extraction.ACM Digital Library:The University of Texas at Austin,1997:1-200.
[10] CIRAVEGNA F,LAVELLI A. Learning Pinocchio: Adaptive Information Extraction for Real world Applications [J].Natural Language Engineering,2004,10(2):145-165.
[11] 黎偉健,胡斌,李威,等.大數據視角下的非結構化文本挖掘分析方法 [J].新媒體研究,2021,7(8):8-10+52.
[12] 周法國,王映龍,楊炳儒,等.非結構化信息抽取關鍵技術研究探討 [J].計算機工程與應用,2009,45(14)1-6+21.
[13] 張博.基于領域知識庫的簡歷信息抽取系統(tǒng)的設計與實現 [D].北京:北京郵電大學,2018.
作者簡介:柏斌(1990—),男,漢族,湖南永州人,項目總監(jiān),研究方向:信息系統(tǒng)軟件開發(fā)與應用。