






摘 要:地質知識圖譜是一種將地質學領域的知識結構化的新型智能化工具。本文針對上海地質資料應用中存在的問題,基于地質檔案數據庫,探究如何構建一種適用于地質學領域的知識圖譜及應用框架。首先本文介紹了知識圖譜的發展歷程及相關技術,然后提出了地質知識圖譜的構建框架,并詳細說明了其實現方法。最后,通過實驗驗證了地質知識圖譜的可行性及應用途徑,并給出了下一步改進方向。
關鍵詞:檔案數據;結構化知識;地質知識圖譜;圖數據庫
中圖分類號:P208 文獻標志碼:A 文章編號:2095-1329(2023)02-0148-05
上海市地質資料館是上海地區地質檔案專業館藏機構, 開展信息化建設至今近25 年,建立起包含3.8 萬余檔數字化地質成果資料和85 萬余個鉆孔的地質檔案數據庫,并且依托地質資料信息共享服務平臺,向全社會提供地質資料信息服務[1]。
地質檔案數據庫包含大量的數字化地質資料,包括地質報告、地質圖、地質數據表、地質樣品分析等。這些資料中蘊含著大量的結構化知識,但這些知識大多是以非結構化的方式存在的,需要花費大量時間和精力進行整理和提取。
近年來,知識圖譜技術的發展為地質檔案領域的知識處理提供了新思路。知識圖譜是一種基于本體論的結構化知識表示方法,能夠將非結構化的文本信息轉化為機器可讀的結構化知識,并提供自然語言查詢接口。知識圖譜的應用已經涵蓋了諸多領域,如自然語言處理(NLP)、智能搜索、語義分析等。知識圖譜在應用到實際場景過程中, 需要解決諸如自然語言理解、實體識別和關系抽取等問題。2018 年以來,在自然語言處理領域,遷移學習如ELMO、Open-GPT、BERT[2] 等模型的應用,使得對特定的任務,只需少量數據和計算,就可得到較好的結果。將遷移學習模型應用于知識圖譜構建,既減少了知識圖譜建模工作量,也大幅提升工作質量。
國內外已有很多著名的知識圖譜, 如百度知識圖譜是一個包含了豐富中文知識的知識庫,支持中文語境下的語義搜索、智能問答等應用;谷歌Knowledge Graph(知識圖譜)通過從多個來源搜集、整合和展示結構化的知識,為用戶提供更豐富、更深入的搜索結果,支持語義搜索和相關信息的展示。學術領域的如復旦大學知識圖譜[3]、微軟Academic Knowledge Graph(學術知識圖譜)等,支持學術研究和學術資源的查詢和探索。知識圖譜在大型語言模型(LLM) 領域也有應用,百度“文心一言”采用包括5500 億事實的知識圖譜等作為訓練數據;OpenAIGPT 模型本身雖然沒有內置的獨立知識圖譜, 但可結合外部領域特定的知識圖譜,提高GPT 模型生成文本的專業性和準確性。
1 地質資料知識圖譜實現框架
1.1 地質資料特點分析
上海市地質資料館已基本建成地質檔案圖文數據庫及鉆孔屬性數據庫,圖文數據庫主要包括文字報告、圖件、標準規范、圖書論文等內容,鉆孔數據庫則是地質報告及巖土工程勘察報告中所附的鉆孔屬性數據,經錄入后形成數據庫。上述地質資料具有以下特點:
(1)信息化程度較高
館藏資料已全部實現了數字化,包括所有存檔資料的圖文數據,保存格式一般為文本、柵格數據及原始矢量數據,圖文數據屬于非結構化或半結構化數據。上海市地質資料館還將附于各類報告的鉆孔,經標準化及格式轉換后,建立起地質鉆孔屬性數據庫,這部分數據為結構化數據。鉆孔屬性數據帶有三維空間信息,包括地理坐標、埋藏深度等,并且通過館藏檔案號,與圖文數據庫實現了關聯。這些關聯性為知識圖譜構建提供便利,同時也為其質量評估提供可信的依據[4]。
(2)語義特征復雜
地質報告涉及多個地質專業內容,包括基礎地質、水文地質、工程地質、環境地質、物化探、海洋地質、礦產地質等等,對同一地質現象的表述方法存在差異;館藏資料覆蓋近百年歷史,不同時代兩份資料,其地質工作標準、方法體系、研究程度等關鍵要素迥異,專業術語含義等發生變遷,給知識抽取帶來一定困難。
(3)數據異構多樣
資料中既包括大量的原始數據、圖表,也包括對原始數據和圖表進行分析研判后形成的成果。地質檔案數據除了海量圖文信息外,還包括通過種類繁多的地質調查勘探方法獲取的各類專業數據。專業數據結構復雜,一般需要專業軟件才能解讀,這給數據管理和挖掘造成困難。此外,由于地質本身的不確定性,缺少統一的標準,不同研究者成果對表現形式往往不一樣,成果形式也具有多樣性特征。
1.2 地質知識圖譜構建框架設計
本文將以上海地質檔案數據為基礎,針對館藏資料特點,從城市開發建設中應用較多的巖土工程勘察報告入手,構建領域本體,并對圖文數據進行預處理,利用BiLSTMCRF模型,進行實體抽取、關系抽取,再與鉆孔屬性數據庫生成RDF 數據融合,形成一致的RDF。取得的RDF 數據經評估后,構建地質資料領域的知識圖譜[5]。圖1 為本文地質知識圖譜構建流程圖。
(1)數據獲取及預處理
地質檔案數據分為結構化數據和非結構化數據,對于結構化的鉆孔屬性數據庫,其數據項之間存在明確的關系名稱和對應關系,可用W3C 推薦的映射語言R2RML(RDB2RDF),將其轉化為RDF。對于非結構化文本數據需要進行預處理,一般以句號為分隔符,對報告進行語句分割斷句,采用人工去重、對齊、刪除噪音數據等方式進行清洗。采用基于字典的方法進行分詞,并給詞語標注詞類標簽。利用標注工具對文本文件進行標注,將標注結果存入語料庫。
(2)信息抽取
建立領域本體,通過對地質資料報告中出現的地質術語或詞匯、地質實體關系及相關屬性,進行概念化與形式化的規范說明,以此刻畫地質領域的標準化、規范化、被認可的知識。根據領域本體的規則,在預訓練語言模型基礎上,利用BiLSTM+CRF 模型,對實體識別模型進行訓練,在訓練過程中進行動態評估并進行調整,從而完成更多文檔資料的實體信息抽取與關系抽取。
(3)知識融合
將從非結構化數據中抽取的信息與從結構化數據轉換的信息進行融合,經實體消歧和屬性融合,屬性值融合的主要任務是將從多個數據源中抽取得到的不同屬性值進行融合,得到最優的屬性值結果。
(4)知識加工與更新
從其中抽取本體,經質量評估后,更新到知識圖譜中。
2 地質知識圖譜技術應用及實現
館藏資料中巖土工程勘察報告占大部分比例,這部分資料由工程建設單位匯交而來,其涉及專業內容,包括工程地質、水文地質等。巖土工程勘察報告是地質資料信息共享服務平臺對外提供服務最多的部分,主要面向工程建設領域,同時報告中的地質信息也為其他地質研究者提供有益的借鑒。本文主要以勘察報告數據為例,兼顧其他類別地質報告的特點,提出地質知識圖譜構建的技術方法。
2.1 數據預處理及語料庫構建
通過對館藏檔案數據的分析,地質檔案數據具有語義復雜、異構多樣的特點,需要對數據進行集成分析和管理,建立數據轉換的通用規則模板,通過規則轉化及人工交互標注等方法,進行數據預處理,為模型訓練準備語料庫。
首先建立地質檔案數據空間集,數據空間集采用Neo4j 圖數據庫進行管理,主要包括元數據、關聯數據及內容數據等。建立數據空間集,目的是實現異構數據集成管理,降低數據格式影響,確立數據關聯關系,保障數據可溯源,檔案數據空間集管理構架如圖2 所示。
采用目前應用較廣的分詞工具Jieba,首先基于通用詞典庫,對所有報告文本進行分詞和詞性標注,并濾去停用詞,然后采用詞頻統計方法,按不同地質報告專業,對結果進行統計,計算TF-IDF 權重得分,對得分排名在1/3 的詞匯,進行分詞正確性判斷的人工干預后,結果遷移納入自建詞典庫,為再次分詞時使用。
最后,利用序列文本標注工具doccano,人機交互方式對文本數據進行標注,標注數據導出后,可直接作為語料庫,作為模型訓練集及測試集(圖3)。也可自編程序,對其格式(JSONL) 進行轉換,將其轉化為JSON 或BIO 格式。圖4 則給出同一則語料的兩種表現形式。
2.2 地質領域本體構建
在傳統的本體構建框架里, 本體概念包括類別(classes)、子類(subclasses)、實例(instance)、特性(Property)、屬性(slots)等,本文在此基礎上,通過對地質檔案涉及的實體進行統計分析后,將地質領域內的實體劃分為業務、對象、活動、數據四個一級本體。業務是指為實現地質活動進行的策劃和管理,主要包括項目、管理、評價等子類。對象是現實世界存在的客觀物質現象,在地質業務領域,主要指研究對象,如各種地質現象及背后的原因,包括空間范圍、巖土體、地下水、礦產資源等。活動是指為開展地質現象研究和探索而人為發起的動作,包括調查、鉆探、測試等。數據則是對前述三類本體的真實記錄,它本身也作為一類本體,存在于領域本體中。
根據經典的本體構建七步法,本文分別對本體各級業務活動描述及概念進行梳理,定義概念的屬性及關系。地質領域概念間除了包括4 類基本關系,即部分與整體關系(part-of)、繼承關系(kind-of)、實例關系(instance-of)、屬性關系(attribute-of),本文還自定義了5 類擴展關系。如表1 所示。
最后使用protégé 本體構建工具建立領域本體,采用OWL 格式進行保存。本文建立的本體還需要在使用過程不斷優化并擴展,使其更好符合地質領域知識表示要求。
2.3 模型訓練及三元組抽取
文中關系三元組抽取主要限定于地質文本的句子級關系抽取。抽取方法是將實體識別和關系抽取作為兩個獨立子任務,分別對模型進行訓練。實體識別任務即根據設定實體類型庫,以及句子中所有分詞(span) 的集合S={ s1, s2, … ,sn},對于每個分詞si ∈ S,預測實體類型fe(si) ∈ 是否成立,實體識別任務的輸出是Fe={(si,e): si ∈ S , e ∈ }。關系抽取任務則根據設定的關系類型庫,根據S 中的分詞所有組合(si, sj): si, sj ∈ S,預測關系類型fr(si, sj) ∈ 是否成立,關系抽取任務的輸出是Fr={(si, sj, r): si, sj ∈ S , r ∈ }。
實體識別模型首先將輸入的語句逐字轉換為向量編碼;然后采用基于BERT 的預訓練語言模型,獲取上下文信息后轉換為詞向量he(si),向量中包括字(token) 向量的起始、終止位置及分詞長度等信息;接著將詞向量he(si)輸入雙向長短期記憶網絡模型(BiLSTM) 層,進行特征抽取及擬合,預測實體類型的概率分布;最后接入條件隨機場(CRF) 層,學習命名實體和標簽的轉移規則,進一步提升預測的準確度。
關系抽取模型則將主體- 客體對(si, sj) 作為輸入來預測關系,首先在句子文本末尾插入標注,標明主、客體位置及實體類型,若同一個句子有多組實體對,經分別標注后,按順序在文本末尾插入,如圖5 所示。文本標注的位置ID 與主體、客體位置ID 一致。將拼接后的文本向量化后輸入,模型引入注意力機制,以獲得更多上下文的信息。在自注意力層,原始文本不與標注token 進行attention,以提高計算效率,最后將每組實體對的標記進行拼接并傳入前饋神經網絡,預測實體關系。
2.4 地質知識圖譜構建
館藏數字化地質資料,經過實體識別、關系抽取及屬性融合后,形成了地質領域內實體和實體關系的知識庫,知識庫以結構化的形式描述客觀世界的概念、實體及實體間的關系[5],采用圖數據庫作為存儲引擎,可以實現靈活的數據模型設計模式,只需增加模式定義,局部調整圖數據,即完成數據模型更新,另外圖數據庫提供高效的關聯查詢,使數據查詢更為便捷和高效。
本文選用應用較廣的主流圖數據庫之一Neo4j 作為領域知識圖譜存儲數據庫,將獲取的命名實體如項目及承擔單位、地理位置、巖土體地質特性等實體及關系數據,導入Neo4j 圖數據庫,將實現地質知識圖譜可視化表達,如圖6 所示。圖中彩色的圓是節點,表示實體,顏色相同的節點實體類型一致, 不同顏色的節點之間的連線代表實體與實體之間的關系,節點- 連線- 節點與地質實體三元組建立起對應關系;某些實體的評價指標,如巖土體描述、物理力學性質、場地地下水腐蝕性評價、砂土振動液化評價等,則存放于相關實體節點的屬性字段中,從而館藏地質資料領域的知識圖譜就建立起來了。
Neo4j 使用Cypher 語言來對圖數據對象進行創建(create)、讀取(read)、更新(update) 和刪除(delete) 等操作,操作簡單,功能強大,查詢快速,返回結果精準,結構清晰,改善了用戶體驗,提升地質資料信息服務水平。
3 研究結果及下一步改進方向
通過對上海地質檔案數據的分析和處理,我們成功構建了一份包含上海地區地質實體和關系的地質知識圖譜。該地質知識圖譜包含了上海地區的地質構造、地層地貌、巖土體特征等方面的信息,可以為服務城市建設和地質學研究提供支持。
然而,當前的地質知識圖譜仍然存在一些問題。首先,地質實體的識別和分類存在一定的誤差率,需要進一步提高準確性。其次,地質實體之間的關系抽取和建模需要更加精細化和細致化,以適應地學研究的需要。最后,需要進一步完善地質知識圖譜的查詢和推薦功能,以提高用戶的使用體驗。下一步的改進方向主要包括:地質實體識別和分類的精度提高。可以采用更先進的深度學習模型,如大型語言模型(LLM)——GPT 等,提高地質實體的識別和分類精度。
地質知識圖譜查詢和推薦功能的完善。可以采用自然語言處理技術,實現更加智能化的查詢和推薦功能。
4 結論
本研究基于上海地區地質檔案數據庫構建了一份地質知識圖譜,并對其實現方法和下一步改進方向進行了探討。地質知識圖譜的構建可以為地質學研究和社會化服務提供支持,有望成為地質學領域的重要工具。
然而,當前的地質知識圖譜仍需要進一步完善和改進。隨著深度學習和自然語言處理等技術的不斷發展,地質知識圖譜的準確性和實用性將得到進一步提升。期望未來的研究能夠進一步完善地質知識圖譜的構建和應用,為服務城市建設和地質學研究做出更大的貢獻。
參考文獻(References)
[1] 楊麗君, 嚴學新, 王軍. 上海地質資料信息共享服務平臺及其運
維模式[J]. 上海國土資源,2020,41(2):88-92.
YANG L J, YAN X X, WANG J. Operation and maintenance mode
of the Shanghai geological data information sharing platform[J].
Shanghai Land amp; Resources, 2020,41(2):88-92.
[2] DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-training of
deep bidirectional transformers for language understanding [C]//
Proceedings of the 2019 Conference of the North American Chapter
of the Association for Computational Linguistics: Human Language
Technologies (Vol.1). 2019: 4171-4186.
[3] 文必龍, 薛廣有. 面向油藏地質領域的知識圖譜構建研究[J].
計算機技術與發展,2021,31(12):204-210.
WEN B L, XUE G Y. Research on knowledge graph construction
in reservoir geology[J]. Computer Technology and Development,
2021,31(12):204-210.
[4] 湯華英. 軟土地區工程地質模型可靠性評估與應用——以上海
為例[J]. 上海國土資源,2020,41(2):93-96.
TANG H Y. Reliability estimation and application of engineering
geological model in the soft clay area of Shanghai[J]. Shanghai
Land amp; Resources, 2020,41(2):93-96.
[5] 劉燁宸, 李華昱. 領域知識圖譜研究綜述[J]. 計算機系統應
用,2020,29(6):1-12.
LIU Y C, LI H Y. Survey on domain knowledge graph research[J].
Computer Systems amp; Applications, 2020,29(6):1-12.
[6] 王晴, 黃進, 劉鑫, 等. 成果地質資料知識圖譜構建與可視化[J].
計算機系統應用,2022,31(8):140-145.
WANG Q, HUANG J, LIU X, et al. Construction and visualization
of knowledge graph of geological report[J]. Computer Systems amp;
Applications, 2022,31(8):140-145.
[7] DAI D, XIAO X Y, LYU Y J, et al. Joint extration of entities and
overlapping relations using position-attentive sequence labeling[C]
// Proceedings of the 33rd AAAI Conference on Artificial
Intelligence (AAAI-19). 2019: 6300-6308.
[8] WEI Z P, SU J L, WANG Y, et al. A novel cascade binary tagging
framework for relational triple extraction[C] // Proceedings of
the 58th Annual Meeting of the Association for Computational
Linguistics. 2020: 1476-1488.