
關鍵詞:自然語言處理,術語標準化,結構化數據庫,Drools規則引擎
0 引言
術語是特定領域中由特定語言的語言單位表示的一般概念的指稱[1]。術語和定義屬于標準文獻的規范性要素,這一要素用來界定為理解文件中某些術語所必需的定義,由引導語和術語條目構成[2]。通過精確界定概念,篩選或確立最恰當的術語,標準文獻能有效減少術語的多義和同義現象,從而避免在信息交流過程中產生歧義和誤解。在信息化時代,標準文獻作為科技知識傳播的關鍵媒介,其術語和定義的準確理解和使用對于各行業的順暢運行至關重要。使用科學的術語不僅能統一不同標準用語的定義,而且有助于優化標準及標準體系結構,提高標準文獻的可讀性。此外,它還能提高產業協同效率、促進信息共享及數據流通性,從而推動行業標準化和規范化發展等。基于結構化處理方法的術語和定義研究與應用,在增強術語信息的可追溯性與處理一致性方面具有顯著優勢。本文提出的方法提升了自動化術語處理的精度,支撐了知識的積累和創新,為術語智能化分析和數據挖掘奠定基礎。
當前,標準文獻的發布和存儲形式以PDF格式或紙質版為主,這種非結構化的文檔形態導致機器可讀性受限,進而導致標準文獻標引和檢索面臨諸多問題。術語和定義嵌入在標準文獻中,尚未形成獨立的標準術語數據庫。已有部分學者致力于國際標準術語識別技術的研究,并探索基于標準文獻的知識圖譜構建方法[3]。在專業領域術語數據庫的建設方面,亦取得顯著進展,如航天術語電子詞典[4]和國際標準的護理術語數據庫[5]的開發。然而,針對國內術語和定義的結構化處理方法的研究,以及覆蓋廣泛領域標準文獻的綜合性術語庫的開發仍不完善,這一領域仍需進一步深入研究與探索。
本文提出了一種面向標準文獻術語和定義結構化處理方法,旨在解決術語信息提取、規范化處理及高效存儲與檢索等技術問題。
1 方法
1.1 標準文獻術語和定義結構化處理方法框架
標準文獻術語和定義結構化處理方法框架如圖1所示。
1.2 標準文獻預處理
標準文獻的預處理是結構化處理的基礎步驟。首先,借助數字化掃描技術將紙質文獻轉為電子資源,并構建與計算機系統之間的數據采集與共享接口,以獲取標準電子文檔。其中,需優化掃描圖像的文本質量、圖像尺寸,以滿足光學字符識別(OCR)處理的要求。隨后,利用OCR技術解析電子文檔,提取版面特征數據及文字內容等,最終生成格式清晰、可編輯的標準矢量文檔。
1.3 全文索引構建
為實現標準矢量文檔的高效檢索,需構建全文索引并將其存儲于預設的標準全文存儲器中。當檢測到相同標準號的文檔時,系統自動替換舊索引,并記錄更新日志,主要包括刪除舊索引和重新索引新文檔的時間、文檔標識等元數據信息。這一機制確保了標準文獻的動態更新與索引的同步一致性。
1.4 標準共性結構要素提取
從標準矢量文檔中提取共性結構要素信息,為后續術語信息處理提供結構化的數據支持。
1.5 標準元素存儲器維護
預設的標準元素存儲器用于存儲共性結構要素,標準全文存儲器中的標準文檔與標準元素存儲器中的共性結構要素保持映射關系。當標準全文存儲器中的標準文檔出現變動時,存儲器中的對應要素將同步刷新。
1.6 術語信息提取與存儲
將標準元素存儲器中的術語信息遷移至標準術語存儲器。該標準術語存儲器包含字段名稱與數據類型,用于存儲術語及其英文表述及定義內容,并明確它們之間的關聯性及其在數據結構中的對應關系。
1.7 術語數據庫構建與管理
通過形式化方法構建術語規范化約束集并部署至Drools規則引擎。該約束集涵蓋雙語命名范式、結構格式規范、語義一致性準則及概念定義精確度等維度。此外,為術語名稱設置唯一性索引,并構建數據索引與關聯關系,以提升存儲和檢索效率。數據通過CSV文件導入Drools,借助規則引擎的推理能力實現術語的自動化清洗、轉換和驗證,最終形成完整的術語治理閉環系統。
2 應用
2.1 標準制定與修訂的術語支持
在標準研究與編寫進程中,標準術語的精確運用是確保信息傳遞準確性的核心。當前,標準制定者主要借助文本檢索手段獲取標準數據,缺乏獨立且便捷的術語查詢工具。標準術語庫的構建將為標準編寫工作提供便捷的參考,簡化工作流程,提升標準研制的效率與質量。此外,術語庫中的概念體系能夠明晰標準化工作的優先級,助力領域內標準化工作的系統化和計劃性推進。
2.2 現有標準術語質量的分析與優化
術語庫的構建不僅能夠有效保障數據的準確性,還可針對術語的冗余性、不一致性、多義性和歧義性展開深入分析。通過融合語料庫技術與自然語言處理工具,可對術語的多義性和歧義性深入分析,優化術語的翻譯質量并提升術語管理的效率。此外,可建立術語動態更新機制,及時納入新興術語、淘汰陳舊術語,確保術語庫的時效性和權威性。這些措施將顯著提升術語庫的服務質量,推動學術交流和知識傳播。
2.3 促進科學技術交流與發展
術語是科技工作者開展學術交流的載體。隨著科技發展,學科間的交叉融合愈發深化,術語的跨學科使用成為普遍現象。各行業所涵蓋的學科范圍不斷拓展,不同科技領域間共享的概念日益增多。構建標準術語庫,能有效規范統一術語使用,促進學科間的有效溝通,加速知識的傳播和創新進程。
2.4 國際交流、生產和貿易的術語標準化
標準化術語是國際交流、生產和貿易中規避誤解的核心要素。術語理解的差異可能導致生產者和消費者基于各自利益作出不同解讀,進而引發貿易壁壘或經濟糾紛。統一的術語概念是國際交流中不可或缺的工具,能消除語言和文化差異帶來的障礙,推動全球范圍內的合作與交流。
3 結論
構建術語數據庫是推動標準文獻數字化轉型的關鍵環節。本文提出的基于標準術語結構化處理方法,通過實踐研究與分析,驗證了其在提高標準文獻術語信息處理效率和準確性方面的有效性。具體而言,該方法運用OCR技術對紙質標準文件進行數字化處理,并結合規則引擎對術語進行標準化處理,解決了現有技術中術語信息獲取效率低下的問題,同時降低了因術語不統一而產生的溝通障礙和信息失真風險。此外,通過構建標準化的基礎術語庫,該方法增強了術語信息的可追溯性,保障了術語標準化的一致處理,提高了自動化術語處理的準確性,推動了知識的積累和創新,為術語智能化分析和數據挖掘提供了可靠的數據基礎。未來研究將聚焦于優化術語對齊算法、開發深度學習模型以提高消歧準確性、實現術語庫動態更新以及可視化工具開發等,從而進一步促進知識整合與行業標準化進程。