基于依存句法規則的信息技術項目圖譜構建

2024-01-18 00:00:00林木束哲李童心王維平

系統工程與電子技術 2024年12期

關鍵詞：依存分析；信息技術；項目管理；知識圖譜；文本挖掘；知識抽取

中圖分類號：Ｅ９２文獻標志碼：Ａ DOI：１０．１２３０５／ｊ．ｉｓｓｎ．１００１５０６Ｘ．２０２４．１２．１６

０引言

在信息技術項目管理過程中，大量的文本數據被產生和存儲，對這些數據進行深入分析和挖掘是提高組織對信息技術體系發展管理和規劃水平的關鍵。由于信息技術領域技術更新迭代快、信息資源密度高，對于該領域科技項目的管理和決策特別強調組織內部的統籌協作和知識共享［１３］。傳統上，建立適當的信息技術體系結構，是協調組織內部協作和知識共享的一種常用手段［４６］。信息技術體系結構可以為組織重大決策提供支持，對信息技術發展可能存在的缺陷和重大機遇提供早期預警信號，并且為根據可能的機會和威脅做出政策調整提供了可能性。

信息技術體系結構強調自上而下地建立一整套業務框架，例如開放式架構框架（ＴｈｅＯｐｅｎＧｒｏｕｐＡｒｃｈｉｔｅｃｔｕｒｅＦｒａｍｅｗｏｒｋ，ＴＯＧＡＦ）［７］、美國聯邦政府體系架構（ＦｅｄｅｒａｌＥｎｔｅｒｐｒｉｓｅＡｒｃｈｉｔｅｃｔｕｒｅ，ＦＥＡ）［８］等。受限于當時的技術手段，這些業務管理框架中鮮有關于自動化構建的方法，這也導致其構建的成本過于高昂，實現過程的人力和時間成本與信息技術的快速發展不匹配。隨著語義技術的發展，研究人員對如何應用語義技術增強信息技術體系結構的管理和應用投入大量的研究［９１１］。近年來，知識圖譜作為一種新興的知識表示和管理方法，逐漸受到項目知識管理領域研究的重視［１２１３］。利用知識圖譜技術對信息技術領域相關知識進行挖掘和分析［１４］，可以幫助企業或組織更好地理解其信息技術領域的體系結構，加快信息技術的開發和部署速度，同時保證整體的信息技術投資效益和風險控制水平，將有助于推進信息技術領域自下而上的管理和發展。

知識圖譜是一種語義網絡，通過圖形結構展示關鍵信息，用于描述現實世界中的實體、概念及其關系。知識抽取是構建知識圖譜的基礎，主要指從非結構化和半結構化的文本數據中提取出實體、關系和屬性等關鍵信息，這些信息是構建知識圖譜所必須的。因此，知識抽取在知識圖譜構建中具有非常重要的作用和地位，只有經過準確、有效的文本信息抽取，這些信息才能轉化為機器可理解和處理的形式，并生成可靠的知識圖譜。同時，知識抽取也是知識圖譜自動化構建的關鍵技術之一，可自動從文本數據中發現、提取和組織知識，提高知識的獲取和利用效率。然而，在垂直領域知識圖譜構建過程中，知識圖譜的自動化構建依然面臨許多挑戰。首先是垂直領域的數據量有限，與通用領域相比，垂直領域的知識抽取需要的先驗知識無法從通用領域數據中獲取，通用領域訓練的模型并不適合垂直領域知識圖譜構建。其二是領域專業性強，不同的垂直領域具有不同的專業詞匯、概念、術語等，需要進行專門的處理和抽取。作為一種手段，依存分析［１５１６］能夠提供文本的句法和語義信息，可為知識圖譜自動化構建提供相關的語義結構信息［１７１９］。

本文提出一種面向英文信息技術項目文本的基于依存句法規則的知識抽取和知識圖譜構建方法。該方法以非結構化文本數據作為抽取對象，通過依存分析建立文本信息的依存句法結構，構建實體之間的上下位關系，從而在語法結構的基礎上實現知識圖譜的自動化構建。針對信息技術項目的領域特點，本文構建了一種集成元模型的概念參考模型（ｍｅｔａｍｏｄｅｌｉｎｔｅｇｒａｔｉｏｎｃｏｎｃｅｐｔｕａｌｒｅｆｅｒｅｎｃｅ，ＭＩ-ＣＲＭ），以描述該領域文本中的各類型專業知識，并利用帶有超邊的圖結構描述實體之間的多元關系。最后，通過案例實驗驗證了本文所提算法的有效性。

１基于依存句法規則的知識抽取

知識抽取，也被稱為命名實體識別（ｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇ-ｎｉｚａｔｉｏｎ，ＮＥＲ），是指運用自然語言處理技術從自然語言中抽取實體和關系的過程。知識抽取包括多種方法，例如字典查找、基于統計的語言處理，以及機器學習等方法。

依存分析是實體抽取和關系抽取中常用的一種方法，又稱依存句法分析，是指通過分析句子的語法結構，找出相關詞語及其關系類型的過程。依存分析假設語句通常由二元非對稱的單詞關系組成，稱為依存關系。每種關系有一個頭部和一個修飾頭部的依賴項，并根據頭部和依賴項之間的依賴關系性質進行標記。

本文提出的基于依存分析的實體抽取和上下位關系抽取方法如圖１所示，包括以下３個主要步驟。

步驟１構建依存句法結構與實體擴展

首先，在對句子進行分詞后，得到句子的詞元，并以詞元作為節點構建原始文本的依存句法結構。接下來，根據詞元的詞性選擇詞性為名詞的單詞或詞組作為候選中心詞，通過一系列規則對這些候選中心詞進行擴展。對于每個候選中心詞，通過匹配依存句法結構和擴展規則集，判斷其是否可以進行擴展，并將擴展后的實體作為候選實體。

步驟２候選實體融合

考慮到擴展后的實體可能存在交叉，需要對其進行融合和重組。本文采用線段排序算法對擴展后的實體進行融合處理，根據實體在原文中的位置得到實體的起點和終點，通過該算法可以得到無交叉、重復的實體信息。

步驟３上下位關系生成

在過濾和重組后的實體集合上重構原始文本的語法依存結構樹，得到實體及其上下位關系；通過人工檢查生成的實體及其上下位關系，選擇是否需要添加新的實體擴展規則，滿足要求的實體將通過一個實體關系解析器來生成資源描述框架（ｒｅｓｏｕｒｃｅｄｅｓｃｒｉｐｔｉｏｎｆｒａｍｅｗｏｒｋ，ＲＤＦ）格式的三元組。

依存分析是自然語言處理的經典任務，傳統方法主要采用基于轉移的思路，通過在部分解析樹上使用“移進—規約”算法計算概率分布并遞歸地預測每個單詞的依存關系。近年來，基于深度神經網路的方法在依存分析中得到了廣泛應用。文獻［２０］提出使用雙仿射注意力機制計算單詞的依賴詞及其依賴關系的表示，從而可以在深度神經網絡進行并行計算和預測每對單詞之間的依存關系。文獻［２１］結合預訓練語言模型，在雙仿射注意力機制的基礎上進一步提升了依存分析的關系預測精度。在工業界，許多自然語言處理工具庫，如ｓｐａＣｙ、ｎｌｔｋ、ｃｏｒｅｎｌｐ和ＨａｎＬＰ等都提供了依存分析的接口以供方便使用。為了兼顧運行速度，這些工具庫大多采用傳統的基于轉移的方法，在預測準確率上有一定損失。為了方便說明文本的方法，本文使用ｓｐａＣｙ作為示例性工具對文本進行處理。

１．１依存結構定義與實體擴展

定義一組基于依存分析的依存句法結構參數，用于對抽取的實體進行擴展，如表１所示。首先，通過分詞處理得到若干詞元。對每個詞元，通過依存結構參數來判斷該詞是否為候選詞。由于信息技術項目文本包含大量的技術名詞和詞組，這里主要選擇名詞和名詞性詞組作為候選詞。

對于每個候選詞，采用一系列規則組合來判斷是否需要進行實體擴展。在需要擴展時，以該候選詞為中心，向前或向后尋找擴展后的詞組邊界。規則組合由多個簡單規則組成，簡單規則包括以下幾種類型。

（１）關系規則。該規則通過表１中的ｉｊ和ｊｋ參數定義，描述當前詞與上級詞或上上級詞的語法依賴關系。例如，圖１中的“ｗｉｔｈ”通過“ｐｒｅｐ”關系指向“ｐｒｏｖｉｄｅｓ”，表明其是上級詞的介詞；而“ｐｒｏｖｉｄｅｓ”通過“ｎｓｕｂｊ”關系指向“Ｔｈｉｓｐｒｏｊｅｃｔ”，表明其上級詞是名詞性主語。通過關系規則可以判斷詞元在句子中的語法成分，表２列舉了部分依賴關系的含義。

（２）詞性規則。該規則通過表１中的ｉｉ、ｊｊ和ｋｋ參數定義，描述當前詞、上級詞和上上級詞的詞性。常用的詞性定義如表２所示。

（３）位置規則。該規則通過表１中的犻、犼和犽參數定義，記錄當前詞、上級詞和上上級詞在句子中的位置，每個句子的詞元從０開始編號。通過位置規則可以判斷詞元在句子中的位置以及詞元間的距離。

（４）特殊規則。該規則用于定義一些特定的詞組或固定搭配，例如“ｉｓ＿ｏｆ”規則用于提取介詞為ｏｆ的詞組。設計這一類別規則的原因是有時對提取的實體有一些特定的需求，需要設計一些針對性比較強的規則。

規則組合使用上述４種簡單規則的組合來判斷實體是否需要進行擴展，以及如何擴展。每一項規則組合用于提取具有特定語法結構的實體。為了解決規則之間的沖突問題，對每一項規則組合賦予一定的優先級，從０開始，數值越大，優先級越低，當實體同時滿足多項規則組合時，將按照優先級最高的規則組合進行擴展。使用規則優先級為規則集為進一步擴充提供了靈活性。當創建一個新的規則組合時，只需要調整其優先級即可。

１．２候選實體融合

在提取到實體后，需要進行擴展和融合，如圖２所示。對于相鄰的和有交叉的實體，需要將其擴展，并進一步使其融合，以得到不重復和不存在交叉的實體。

１．３上下位關系生成

根據融合實體之間的語法依存關系來確定其在句子中的上下位關系。根據依存分析的定義，任何詞元都可以通過有限次依存關系與句子的根詞ＲＯＯＴ建立聯系。而對于融合實體，可以使用ｓｐａＣｙ提供的接口獲取該實體的中心詞ＲＯＯＴ，并以中心詞作為詞元來復現上下位關系。這樣，不論是單個詞元，還是融合后實體，都可以通過依存關系來建立其到根詞的距離關系。

如圖３所示，以兩個詞元之間的單步依存關系作為一跳，將每個詞元與根詞建立聯系所需的跳數記為ｈｏｐｓ，并以ｈｏｐｓ作為判斷上下位關系的依據。其中，ｈｏｐｓ值為１代表該中心詞只需通過一次依存關系即可到達根詞。同時，規定每個句子的根詞的ｈｏｐｓ值為０，句子的主語ｈｏｐｓ值為－１，而其他實體的ｈｏｐｓ值則由其中心詞到根詞的距離所決定。實體的ｈｏｐｓ值越小，表示該實體與根詞的語法距離越近，而ｈｏｐｓ值越大，則表示語法距離越遠。為了計算實體中心詞的ｈｏｐｓ值，首先將其初始化為０，每經過一跳則增加１。需要注意的是，若兩個詞元之間在語法上是并列關系，其所處的語法上下位關系應屬于同一層。因此，算法在判斷每一跳的依存關系時，需要額外判斷是否為并列關系（表２中的ｃｏｎｊ），若是，則ｈｏｐｓ值無需遞增。

１．４三元組生成

根據第１．３節得到的實體間的上下位關系生成形如＜ｓｕｂｊｅｃｔ，ｐｒｅｄｉｃａｔｅ，ｏｂｊｅｃｔ＞的三元組，具體步驟如算法２所示。

首先，根據ｈｏｐｓ確定實體的上下位關系，以參數ｌｅｖｅｌ表示。主語的ｌｅｖｅｌ為０，其他實體根據語法距離依次遞增編號，同一層級的實體ｌｅｖｅｌ相同。

然后，對于實體列表E中的元素，從ｌｅｖｅｌ１開始創建三元組。擴展實體列表犈中的每個實體犲犻都被賦予一個獨一無二的標識符ｕｒｉ。若實體的ｌｅｖｅｌ為１，則以項目名稱作為頭實體；對于ｌｅｖｅｌ大于１的實體，則按照其上下位關系依次構建三元組，每個實體以其上位實體e_{ｕｐｐｅｒ}作為頭實體，并使用該實體的根詞的ｈｅａｄ作為三元組的謂詞。

２多元關系知識圖譜構建

在信息技術項目文本中，抽取的實體之間通常存在復雜的多元關系，而非簡單的二元關系。二元關系指僅存在于兩個實體之間的關系。傳統的三元組形式能以簡潔的語言形式來建模二元關系，但對于多元關系，這種方法面臨著各種挑戰。例如，某項目Ａ研究某項關鍵技術Ｂ，該技術可用于解決問題Ｃ，這里的３個實體構成了一組多元關系。傳統的三元組形式只能描述Ａ、Ｂ和Ｃ之間的兩兩關系，而難以描述〈Ａ→Ｂ〉→Ｃ這樣的多元關系。

知識圖譜的多元關系建模問題近年來越來越受到重視。針對知識圖譜的多元關系建模問題，目前通常有以下幾種處理方式：① 使用屬性圖模型［２２２３］進行建模。② 引入超圖模型［２４２６］，利用超圖模型來處理多元關系。在超圖模型中，實體和關系被視為節點，其關系被視為超邊。因此，多元關系可以直接表示為超邊。③ 使用命名圖［２７２９］。命名圖是一種基于ＲＤＦ的可命名的圖形結構，也被稱為四元組，通過向三元組中添加斷言擴展ＲＤＦ的語法和語義，將三元組擴充為四元組〈ｓｕｂｊｅｃｔ，ｐｒｅｄｉｃａｔｅ，ｏｂｊｅｃｔ，ｇｒａｐｈ〉，為ＲＤＦ三元組增加一個可以描述上下文或主題的斷言屬性。以上方法在知識圖譜構建和應用方面各有側重，需要根據具體問題選擇不同的方法。

本文注重對信息技術項目文本進行挖掘和知識圖譜構建。為此，本文考慮利用基于超圖中的超邊來建模已經抽取的知識實體。在超圖中，超邊［３０］是連接多個頂點的一條邊。與傳統的二元邊不同，超邊可以連接任意數量的頂點（包括兩個頂點）。超邊可以用于表示大量的非二元關系，從而捕捉到復雜的結構和關系。同時，為了清晰地表達信息技術項目文本中抽取出的各種實體，本文采用了多架構元模型來建立知識圖譜的本體。

２．１基于多架構元模型的知識本體構建

在信息技術項目文本中，實體與實體之間存在多種關系類型。為了更好地建模這些關系，需要設計一個層次分明、分類合理的本體。基于信息技術項目本身的領域知識特點，國際上通常采用企業架構來進行概念建模和描述［３１３３］。常用的企業架構框架如ＦＥＡ體系架構、ＴＯＧＡＦ體系架構和美國國防部架構框架（ＤｅｐａｒｔｍｅｎｔｏｆＤｅｆｅｎｓｅＡｒｃｈｉｔｅｃｔｕｒｅＦｒａｍｅｗｏｒｋ，ＤｏＤＡＦ）［３４］，都是基于元模型提供對現實世界中事物的抽象描述。這些元模型利用類似于本體的結構定義了事物的抽象概念及事物與事物之間的關系。

在本文中，通過參考多種架構的元模型，結合自上而下和自底向上的方法構建了ＭＩ-ＣＲＭ。該本體中的抽象概念取自多種企業架構元模型，并且被劃分為４個概念組，分別是方法／手段域、組織域、能力域和使命域。ＭＩ-ＣＲＭ使用概念組為本體提供一個分類參考，用于從多種架構的元模型中選擇與其具有相近內涵的本體概念并組合在一起，這樣可以從一個最簡單的結構開始構建本體。同時，為了盡可能地減少本體結構的復雜性，通過嚴格定義概念之間的關系來對概念進行歸并，如圖４所示。設計ＭＩ-ＣＲＭ的目標是最小化擴展本體的需求。當ＭＩ-ＣＲＭ無法提供符合相應概念的本體時，首先檢查新概念是否可以用上述７種謂詞連接到相應的概念類型上，并在原有概念的基礎上添加歸并概念。通過ｈａｓ＿ｔｙｐｅ謂詞引入與實體相關的定制概念類型，而不是生成新的概念，以確保知識圖譜最大限度地向后兼容。

２．２以超邊作為載體的知識超圖構建

第２．１節構建了ＭＩ-ＣＲＭ本體，可以對實體之間簡單的二元關系進行建模。這里，基于超邊作為載體，使用ＲＤＦ架構（ＲＤＦｓｃｈｅｍａ，ＲＤＦＳ）規范來構建實體間的多元關系。在ＲＤＦＳ規范框架下，一個三元組的謂詞可以作為另一個三元組的主語出現。通過將謂詞實例化，并引入一個超邊將其進一步連接到其他實體，可以有效地解決多元關系建模問題。參考文獻［２４］和文獻［３５］的方法將基于依存分析提供的上下位關系建立知識超圖。

（１）基于超邊的知識超圖構建。首先，在已有ＭＩＣＲＭ本體的基本圖結構基礎上進一步定義超圖。在傳統圖結構中，每條邊只能連接兩個實體節點，表示為三元組〈ｓｕｂｊｅｃｔ，ｅｄｇｅ，ｏｂｊｅｃｔ〉。而在超圖中，引入新的超邊，可以連接實體節點和一條邊，表示為三元組〈ｅｄｇｅ，ｈｙｐｅｒｅｄｇｅ，ｏｂｊｅｃｔ〉。在關系抽取環節，根據實體及其上下位關系對識別出的謂詞進行判斷，如果符合相應的規則，那么在抽取時將其標注為超邊并保存與其連接的相關實體及謂詞。

（２）基于超邊的ＲＤＦＳ圖數據生成。這一階段將來自同一句子的三元組轉換為含有超邊的ＲＤＦＳ圖，對于需要改寫的三元組，通過一個超邊解析器來自動地生成ＲＦＤＳ三元組。超邊解析器首先判斷一條邊的頭實體的類型，如果連接的是邊，則首先把這條邊實例化，然后建立三元組。例如，假設一個三元組是〈ｅｄｇｅ，ｈｙｐｅｒｅｄｇｅ，ｏｂｊｅｃｔ〉，那么首先邊ｅｄｇｅ會被實例化為ｅｄｇｅ１，即〈ｅｄｇｅ１，ｔｙｐｅＯｆ，ｅｄｇｅ〉，然后向數據中添加新的三元組〈ｅｄｇｅ１，ｈｙｐｅｒｅｄｇｅ，ｏｂｊｅｃｔ〉以取代〈ｅｄｇｅ，ｈｙｐｅｒｅｄｇｅ，ｏｂｊｅｃｔ〉。

舉例來說，對于類似于“ＡｓｕｐｐｏｒｔＢｂｙｐｒｏｖｉｄｉｎｇＣ”這樣的句法結構，通過依存分析可以得到３個實體之間的上下位關系為（ｌｅｖｅｌＡ＝０，ｌｅｖｅｌＢ＝１，ｌｅｖｅｌＣ＝２）。因此，可以建立以下三元組：〈Ａ，ｓｕｐｐｏｒｔ，Ｂ〉，〈ｓｕｐｐｏｒｔ，ｂｙＰｒｏｖｉｄｉｎｇ，Ｃ〉。顯然，三元組〈ｓｕｐｐｏｒｔ，ｂｙＰｒｏｖｉｄｉｎｇ，Ｃ〉的頭實體是〈Ａ，ｓｕｐｐｏｒｔ，Ｂ〉的邊，需要進行實例化。由于ＲＤＦ格式允許使用ｕｒｉ表示任何資源，因此只需要賦予ｓｕｐｐｏｒｔ一個獨一無二的ｕｒｉ即可實現實例化，這樣三元組就可以改寫為〈Ａ，ｓｕｐｐｏｒｔ１，Ｂ〉，〈ｓｕｐｐｏｒｔ１，ｂｙＰｒｏｖｉｄｉｎｇ，Ｃ〉，〈ｓｕｐｐｏｒｔ１，ｔｙｐｅＯｆ，ｓｕｐｐｏｒｔ〉。

３實驗與案例分析

在實驗部分，以項目文本為例進行案例研究。實驗收集了信息科技項目的立項申報摘要文本作為知識抽取和關聯的數據源。為了說明所提出的方法，首先演示了知識抽取的過程，并給出一個具體的例子。隨后，利用上下位關系構建該例子的知識超圖。最后，使用ＳＰＡＲＱＬ查詢語句對生成的知識圖譜進行查詢，通過返回的結果判斷圖譜生成的正確性。

３．１知識抽取實驗及分析

本節給出知識抽取部分的實驗與分析，例如以下取自某航空信息系統項目的文本：“Ｔｈｉｓｐｒｏｊｅｃｔｐｒｏｖｉｄｅｓｔｈｅａｎａｌｙｓｔｗｉｔｈｔｈｅａｂｉｌｉｔｙｔｏｒａｐｉｄｌｙｆｉｎｄａｎｄｆｕｓｅｍｕｌｔｉｐｌｅｉｎｔｅｌｌｉｇｅｎｃｅｓｏｕｒｃｅｓｏｆｂａｔｔｌｅｓｐａｃｅｉｎｆｏｒｍａｔｉｏｎｆｏｒｉｍｐｒｏｖｅｄｓｉｔｕａｔｉｏｎａｌａｗａｒｅｎｅｓｓ，ａｎｄｔｏｂｅｔｔｅｒｄｅｔｅｃｔａｎｄｆｉｎｄａｎｏｍａｌｉｅｓ”。根據表１中定義的依存結構，通過文本處理得到其依存句法結構，如表３所示。

表３中最后一列列出了每個實體符合的規則編號，按照規則，標記為－１的實體不會作為候選詞。對于同時符合多個規則的實體，根據規則優先級來確定其擴展的具體原則。例如，“ａｎｏｍａｌｉｅｓ”同時符合編號為６和２０的規則，而規則６的優先級高于規則２０的優先級，因此該實體將按照規則６進行擴展。

根據規則設計，算法將按照不同的方向對實體進行擴展。例如，表３中“ｂａｔｔｌｅｓｐａｃｅｉｎｆｏｒｍａｔｉｏｎ”對應的規則優先級為２，該規則將向前尋找到“ｍｕｌｔｉｐｌｅｉｎｔｅｌｌｉｇｅｎｃｅｓｏｕｒｃｅｓ”并將其作為擴展邊界，從而提取出“ｍｕｌｔｉｐｌｅｉｎｔｅｌｌｉｇｅｎｃｅｓｏｕｒｃｅｓｏｆｂａｔｔｌｅｓｐａｃｅｉｎｆｏｒｍａｔｉｏｎ”并將其作為新的實體。這一步提取的初始實體如表４所示。

表４給出了提取的７個實體在句子中的位置參數，通過位置參數可以判斷出提取的實體是否存在鄰接或交叉。根據算法１，將存在鄰接或交叉的實體進行融合，得到的實體如表５所示。表５還列出了每個實體的中心詞ＲＯＯＴ，以及中心詞與句子根詞ＲＯＯＴ的距離，將根據其距離來確定該實體在句子中的上下位關系。

３．２知識圖譜構建及查詢

在知識圖譜構建環節，將根據上下位關系構建具有超邊的超圖。以實體“ｂｅｔｔｅｒｄｅｔｅｃｔａｎｄｆｉｎｄａｎｏｍａｌｉｅｓ”為例，根據算法２，將生成以下三元組：〈Ｔｈｉｓｐｒｏｊｅｃｔｓ，ｐｒｏｖｉｄｅ，ｔｈｅａｎａｌｙｓｔ〉〈ｔｈｅａｎａｌｙｓｔ，ｗｉｔｈ，ｔｈｅａｂｉｌｉｔｙ〉〈ｔｈｅａｂｉｌｉｔｙ，ｔｏ，ｂｅｔｔｅｒｄｅｔｅｃｔａｎｄｆｉｎｄａｎｏｍａｌｉｅｓ〉。３個三元組頭實體的上下位關系依次為０、１、２，這里引入“ｐｒｏｖｉｄｅＷｉｔｈ”超邊，并讓其連接到實例化后的邊“ｐｒｏｖｉｄｅ１”上，構建以下新的三元組：〈Ｔｈｉｓｐｒｏｊｅｃｔｓ，ｐｒｏｖｉｄｅ１，ｔｈｅａｎａｌｙｓｔ〉〈ｐｒｏｖｉｄｅ１，ｐｒｏｖｉｄｅＷｉｔｈ，ｔｈｅａｂｉｌｉｔｙ〉〈ｔｈｅａｂｉｌｉｔｙ，ｔｏ，ｂｅｔｔｅｒｄｅｔｅｃｔａｎｄｆｉｎｄａｎｏｍａｌｉｅｓ〉。最后，依據第２．２節的方法生成ｔｔｌ格式的ＲＤＦＳ文件。將超邊“ｐｒｏｖｉｄｅＷｉｔｈ”定義為ＲＤＦ的屬性，而邊“ｐｒｏｖｉｄｅ１”則被定義為一類標記為ｒｅｌａｔｉｏｎ的實體。這樣，實例化后的邊與其他實體使用不同的本體概念（使用ｏｎｔｏ定義），可以在查詢中對其進行區別。

４結束語

本文面向英文信息技術項目文本提出了一種基于依存句法規則的知識抽取和知識圖譜構建方法。這種基于句法結構和規則模板的知識抽取方法不需要大量的數據訓練模型，尤其適合于在沒有預先訓練模型的前提下提取特定領域的專業知識。基于該方法，在獲取一定數量的實體和關系后，結合監督學習和半監督學習方法，訓練適合于該領域特色的抽取模型，可以進一步提高知識圖譜自動化構建水平。此外，針對信息技術項目的領域特點，本文構建了ＭＩＣＲＭ，該本體結構具有較好的可擴展性和向后兼容性，案例實驗結果表明，使用該本體結合ＲＤＦ的多元關系建模，可以豐富查詢結果的語義。接下來，將在該本體結構的基礎上研究如何結合語義理解、自動化地生成新的本體概念以及本體融合，進一步提高知識圖譜構建的自動化程度。

作者簡介

林木（１９８３—），男，工程師，博士研究生，主要研究方向為自然語言處理、戰略管理與數字化決策。

束哲（１９８９—），男，助理研究員，博士，主要研究方向為體系工程與體系仿真。

李童心（１９９５—），女，博士研究生，主要研究方向為戰略管理評估、知識圖譜表示學習。

王維平（１９６３—），男，教授，博士研究生導師，博士，主要研究方向為裝備體系論證與仿真評估。