








關鍵詞:依存分析;信息技術;項目管理;知識圖譜;文本挖掘;知識抽取
中圖分類號:E92 文獻標志碼:A DOI:10.12305/j.issn.1001506X.2024.12.16
0引言
在信息技術項目管理過程中,大量的文本數據被產生和存儲,對這些數據進行深入分析和挖掘是提高組織對信息技術體系發展管理和規劃水平的關鍵。由于信息技術領域技術更新迭代快、信息資源密度高,對于該領域科技項目的管理和決策特別強調組織內部的統籌協作和知識共享[13]。傳統上,建立適當的信息技術體系結構,是協調組織內部協作和知識共享的一種常用手段[46]。信息技術體系結構可以為組織重大決策提供支持,對信息技術發展可能存在的缺陷和重大機遇提供早期預警信號,并且為根據可能的機會和威脅做出政策調整提供了可能性。
信息技術體系結構強調自上而下地建立一整套業務框架,例如開放式架構框架(The Open Group ArchitectureFramework,TOGAF)[7]、美國聯邦政府體系架構(FederalEnterpriseArchitecture,FEA)[8]等。受限于當時的技術手段,這些業務管理框架中鮮有關于自動化構建的方法,這也導致其構建的成本過于高昂,實現過程的人力和時間成本與信息技術的快速發展不匹配。隨著語義技術的發展,研究人員對如何應用語義技術增強信息技術體系結構的管理和應用投入大量的研究[911]。近年來,知識圖譜作為一種新興的知識表示和管理方法,逐漸受到項目知識管理領域研究的重視[1213]。利用知識圖譜技術對信息技術領域相關知識進行挖掘和分析[14],可以幫助企業或組織更好地理解其信息技術領域的體系結構,加快信息技術的開發和部署速度,同時保證整體的信息技術投資效益和風險控制水平,將有助于推進信息技術領域自下而上的管理和發展。
知識圖譜是一種語義網絡,通過圖形結構展示關鍵信息,用于描述現實世界中的實體、概念及其關系。知識抽取是構建知識圖譜的基礎,主要指從非結構化和半結構化的文本數據中提取出實體、關系和屬性等關鍵信息,這些信息是構建知識圖譜所必須的。因此,知識抽取在知識圖譜構建中具有非常重要的作用和地位,只有經過準確、有效的文本信息抽取,這些信息才能轉化為機器可理解和處理的形式,并生成可靠的知識圖譜。同時,知識抽取也是知識圖譜自動化構建的關鍵技術之一,可自動從文本數據中發現、提取和組織知識,提高知識的獲取和利用效率。然而,在垂直領域知識圖譜構建過程中,知識圖譜的自動化構建依然面臨許多挑戰。首先是垂直領域的數據量有限,與通用領域相比,垂直領域的知識抽取需要的先驗知識無法從通用領域數據中獲取,通用領域訓練的模型并不適合垂直領域知識圖譜構建。其二是領域專業性強,不同的垂直領域具有不同的專業詞匯、概念、術語等,需要進行專門的處理和抽取。作為一種手段,依存分析[1516]能夠提供文本的句法和語義信息,可為知識圖譜自動化構建提供相關的語義結構信息[1719]。
本文提出一種面向英文信息技術項目文本的基于依存句法規則的知識抽取和知識圖譜構建方法。該方法以非結構化文本數據作為抽取對象,通過依存分析建立文本信息的依存句法結構,構建實體之間的上下位關系,從而在語法結構的基礎上實現知識圖譜的自動化構建。針對信息技術項目的領域特點,本文構建了一種集成元模型的概念參考模型(metamodelintegrationconceptualreference,MI-CRM),以描述該領域文本中的各類型專業知識,并利用帶有超邊的圖結構描述實體之間的多元關系。最后,通過案例實驗驗證了本文所提算法的有效性。
1基于依存句法規則的知識抽取
知識抽取,也被稱為命名實體識別(namedentityrecog-nization,NER),是指運用自然語言處理技術從自然語言中抽取實體和關系的過程。知識抽取包括多種方法,例如字典查找、基于統計的語言處理,以及機器學習等方法。
依存分析是實體抽取和關系抽取中常用的一種方法,又稱依存句法分析,是指通過分析句子的語法結構,找出相關詞語及其關系類型的過程。依存分析假設語句通常由二元非對稱的單詞關系組成,稱為依存關系。每種關系有一個頭部和一個修飾頭部的依賴項,并根據頭部和依賴項之間的依賴關系性質進行標記。
本文提出的基于依存分析的實體抽取和上下位關系抽取方法如圖1所示,包括以下3個主要步驟。
步驟1 構建依存句法結構與實體擴展
首先,在對句子進行分詞后,得到句子的詞元,并以詞元作為節點構建原始文本的依存句法結構。接下來,根據詞元的詞性選擇詞性為名詞的單詞或詞組作為候選中心詞,通過一系列規則對這些候選中心詞進行擴展。對于每個候選中心詞,通過匹配依存句法結構和擴展規則集,判斷其是否可以進行擴展,并將擴展后的實體作為候選實體。
步驟2 候選實體融合
考慮到擴展后的實體可能存在交叉,需要對其進行融合和重組。本文采用線段排序算法對擴展后的實體進行融合處理,根據實體在原文中的位置得到實體的起點和終點,通過該算法可以得到無交叉、重復的實體信息。
步驟3 上下位關系生成
在過濾和重組后的實體集合上重構原始文本的語法依存結構樹,得到實體及其上下位關系;通過人工檢查生成的實體及其上下位關系,選擇是否需要添加新的實體擴展規則,滿足要求的實體將通過一個實體關系解析器來生成資源描述框架(resourcedescriptionframework,RDF)格式的三元組。
依存分析是自然語言處理的經典任務,傳統方法主要采用基于轉移的思路,通過在部分解析樹上使用“移進—規約”算法計算概率分布并遞歸地預測每個單詞的依存關系。近年來,基于深度神經網路的方法在依存分析中得到了廣泛應用。文獻[20]提出使用雙仿射注意力機制計算單詞的依賴詞及其依賴關系的表示,從而可以在深度神經網絡進行并行計算和預測每對單詞之間的依存關系。文獻[21]結合預訓練語言模型,在雙仿射注意力機制的基礎上進一步提升了依存分析的關系預測精度。在工業界,許多自然語言處理工具庫,如spaCy、nltk、corenlp和HanLP 等都提供了依存分析的接口以供方便使用。為了兼顧運行速度,這些工具庫大多采用傳統的基于轉移的方法,在預測準確率上有一定損失。為了方便說明文本的方法,本文使用spaCy作為示例性工具對文本進行處理。
1.1依存結構定義與實體擴展
定義一組基于依存分析的依存句法結構參數,用于對抽取的實體進行擴展,如表1所示。首先,通過分詞處理得到若干詞元。對每個詞元,通過依存結構參數來判斷該詞是否為候選詞。由于信息技術項目文本包含大量的技術名詞和詞組,這里主要選擇名詞和名詞性詞組作為候選詞。
對于每個候選詞,采用一系列規則組合來判斷是否需要進行實體擴展。在需要擴展時,以該候選詞為中心,向前或向后尋找擴展后的詞組邊界。規則組合由多個簡單規則組成,簡單規則包括以下幾種類型。
(1)關系規則。該規則通過表1 中的ij和jk 參數定義,描述當前詞與上級詞或上上級詞的語法依賴關系。例如,圖1中的“with”通過“prep”關系指向“provides”,表明其是上級詞的介詞;而“provides”通過“nsubj”關系指向“Thisproject”,表明其上級詞是名詞性主語。通過關系規則可以判斷詞元在句子中的語法成分,表2 列舉了部分依賴關系的含義。
(2)詞性規則。該規則通過表1中的ii、jj和kk參數定義,描述當前詞、上級詞和上上級詞的詞性。常用的詞性定義如表2所示。
(3)位置規則。該規則通過表1 中的犻、犼和犽參數定義,記錄當前詞、上級詞和上上級詞在句子中的位置,每個句子的詞元從0開始編號。通過位置規則可以判斷詞元在句子中的位置以及詞元間的距離。
(4)特殊規則。該規則用于定義一些特定的詞組或固定搭配,例如“is_of”規則用于提取介詞為of的詞組。設計這一類別規則的原因是有時對提取的實體有一些特定的需求,需要設計一些針對性比較強的規則。
規則組合使用上述4種簡單規則的組合來判斷實體是否需要進行擴展,以及如何擴展。每一項規則組合用于提取具有特定語法結構的實體。為了解決規則之間的沖突問題,對每一項規則組合賦予一定的優先級,從0開始,數值越大,優先級越低,當實體同時滿足多項規則組合時,將按照優先級最高的規則組合進行擴展。使用規則優先級為規則集為進一步擴充提供了靈活性。當創建一個新的規則組合時,只需要調整其優先級即可。
1.2候選實體融合
在提取到實體后,需要進行擴展和融合,如圖2所示。對于相鄰的和有交叉的實體,需要將其擴展,并進一步使其融合,以得到不重復和不存在交叉的實體。
1.3上下位關系生成
根據融合實體之間的語法依存關系來確定其在句子中的上下位關系。根據依存分析的定義,任何詞元都可以通過有限次依存關系與句子的根詞ROOT 建立聯系。而對于融合實體,可以使用spaCy提供的接口獲取該實體的中心詞ROOT,并以中心詞作為詞元來復現上下位關系。這樣,不論是單個詞元,還是融合后實體,都可以通過依存關系來建立其到根詞的距離關系。
如圖3所示,以兩個詞元之間的單步依存關系作為一跳,將每個詞元與根詞建立聯系所需的跳數記為hops,并以hops作為判斷上下位關系的依據。其中,hops值為1代表該中心詞只需通過一次依存關系即可到達根詞。同時,規定每個句子的根詞的hops值為0,句子的主語hops值為-1,而其他實體的hops值則由其中心詞到根詞的距離所決定。實體的hops值越小,表示該實體與根詞的語法距離越近,而hops值越大,則表示語法距離越遠。為了計算實體中心詞的hops值,首先將其初始化為0,每經過一跳則增加1。需要注意的是,若兩個詞元之間在語法上是并列關系,其所處的語法上下位關系應屬于同一層。因此,算法在判斷每一跳的依存關系時,需要額外判斷是否為并列關系(表2中的conj),若是,則hops值無需遞增。
1.4三元組生成
根據第1.3節得到的實體間的上下位關系生成形如<subject,predicate,object>的三元組,具體步驟如算法2所示。
首先,根據hops確定實體的上下位關系,以參數level表示。主語的level為0,其他實體根據語法距離依次遞增編號,同一層級的實體level相同。
然后,對于實體列表E中的元素,從level1 開始創建三元組。擴展實體列表犈中的每個實體犲犻都被賦予一個獨一無二的標識符uri。若實體的level為1,則以項目名稱作為頭實體;對于level大于1的實體,則按照其上下位關系依次構建三元組,每個實體以其上位實體eupper作為頭實體,并使用該實體的根詞的head作為三元組的謂詞。
2多元關系知識圖譜構建
在信息技術項目文本中,抽取的實體之間通常存在復雜的多元關系,而非簡單的二元關系。二元關系指僅存在于兩個實體之間的關系。傳統的三元組形式能以簡潔的語言形式來建模二元關系,但對于多元關系,這種方法面臨著各種挑戰。例如,某項目A 研究某項關鍵技術B,該技術可用于解決問題C,這里的3 個實體構成了一組多元關系。傳統的三元組形式只能描述A、B和C 之間的兩兩關系,而難以描述〈A→B〉→C這樣的多元關系。
知識圖譜的多元關系建模問題近年來越來越受到重視。針對知識圖譜的多元關系建模問題,目前通常有以下幾種處理方式:① 使用屬性圖模型[2223]進行建模。② 引入超圖模型[2426],利用超圖模型來處理多元關系。在超圖模型中,實體和關系被視為節點,其關系被視為超邊。因此,多元關系可以直接表示為超邊。③ 使用命名圖[2729]。命名圖是一種基于RDF的可命名的圖形結構,也被稱為四元組,通過向三元組中添加斷言擴展RDF 的語法和語義,將三元組擴充為四元組〈subject,predicate,object,graph〉,為RDF三元組增加一個可以描述上下文或主題的斷言屬性。以上方法在知識圖譜構建和應用方面各有側重,需要根據具體問題選擇不同的方法。
本文注重對信息技術項目文本進行挖掘和知識圖譜構建。為此,本文考慮利用基于超圖中的超邊來建模已經抽取的知識實體。在超圖中,超邊[30]是連接多個頂點的一條邊。與傳統的二元邊不同,超邊可以連接任意數量的頂點(包括兩個頂點)。超邊可以用于表示大量的非二元關系,從而捕捉到復雜的結構和關系。同時,為了清晰地表達信息技術項目文本中抽取出的各種實體,本文采用了多架構元模型來建立知識圖譜的本體。
2.1基于多架構元模型的知識本體構建
在信息技術項目文本中,實體與實體之間存在多種關系類型。為了更好地建模這些關系,需要設計一個層次分明、分類合理的本體。基于信息技術項目本身的領域知識特點,國際上通常采用企業架構來進行概念建模和描述[3133]。常用的企業架構框架如FEA 體系架構、TOGAF體系架構和美國國防部架構框架(DepartmentofDefenseArchitectureFramework,DoDAF)[34],都是基于元模型提供對現實世界中事物的抽象描述。這些元模型利用類似于本體的結構定義了事物的抽象概念及事物與事物之間的關系。
在本文中,通過參考多種架構的元模型,結合自上而下和自底向上的方法構建了MI-CRM。該本體中的抽象概念取自多種企業架構元模型,并且被劃分為4個概念組,分別是方法/手段域、組織域、能力域和使命域。MI-CRM 使用概念組為本體提供一個分類參考,用于從多種架構的元模型中選擇與其具有相近內涵的本體概念并組合在一起,這樣可以從一個最簡單的結構開始構建本體。同時,為了盡可能地減少本體結構的復雜性,通過嚴格定義概念之間的關系來對概念進行歸并,如圖4 所示。設計MI-CRM 的目標是最小化擴展本體的需求。當MI-CRM 無法提供符合相應概念的本體時,首先檢查新概念是否可以用上述7 種謂詞連接到相應的概念類型上,并在原有概念的基礎上添加歸并概念。通過has_type謂詞引入與實體相關的定制概念類型,而不是生成新的概念,以確保知識圖譜最大限度地向后兼容。
2.2以超邊作為載體的知識超圖構建
第2.1節構建了MI-CRM 本體,可以對實體之間簡單的二元關系進行建模。這里,基于超邊作為載體,使用RDF架構(RDFschema,RDFS)規范來構建實體間的多元關系。在RDFS規范框架下,一個三元組的謂詞可以作為另一個三元組的主語出現。通過將謂詞實例化,并引入一個超邊將其進一步連接到其他實體,可以有效地解決多元關系建模問題。參考文獻[24]和文獻[35]的方法將基于依存分析提供的上下位關系建立知識超圖。
(1)基于超邊的知識超圖構建。首先,在已有MICRM 本體的基本圖結構基礎上進一步定義超圖。在傳統圖結構中,每條邊只能連接兩個實體節點,表示為三元組〈subject,edge,object〉。而在超圖中,引入新的超邊,可以連接實體節點和一條邊,表示為三元組〈edge,hyperedge,object〉。在關系抽取環節,根據實體及其上下位關系對識別出的謂詞進行判斷,如果符合相應的規則,那么在抽取時將其標注為超邊并保存與其連接的相關實體及謂詞。
(2)基于超邊的RDFS圖數據生成。這一階段將來自同一句子的三元組轉換為含有超邊的RDFS 圖,對于需要改寫的三元組,通過一個超邊解析器來自動地生成RFDS三元組。超邊解析器首先判斷一條邊的頭實體的類型,如果連接的是邊,則首先把這條邊實例化,然后建立三元組。例如,假設一個三元組是〈edge,hyperedge,object〉,那么首先邊edge 會被實例化為edge1,即〈edge1,type Of,edge〉,然后向數據中添加新的三元組〈edge1,hyperedge,object〉以取代〈edge,hyperedge,object〉。
舉例來說,對于類似于“AsupportBbyprovidingC”這樣的句法結構,通過依存分析可以得到3 個實體之間的上下位關系為(levelA=0,levelB=1,levelC=2)。因此,可以建立以下三元組:〈A,support,B〉,〈support,byProviding,C〉。顯然,三元組〈support,byProviding,C〉的頭實體是〈A,support,B〉的邊,需要進行實例化。由于RDF格式允許使用uri表示任何資源,因此只需要賦予support一個獨一無二的uri即可實現實例化,這樣三元組就可以改寫為〈A,support1,B〉,〈support1,byProviding,C〉,〈support1,typeOf,support〉。
3實驗與案例分析
在實驗部分,以項目文本為例進行案例研究。實驗收集了信息科技項目的立項申報摘要文本作為知識抽取和關聯的數據源。為了說明所提出的方法,首先演示了知識抽取的過程,并給出一個具體的例子。隨后,利用上下位關系構建該例子的知識超圖。最后,使用SPARQL 查詢語句對生成的知識圖譜進行查詢,通過返回的結果判斷圖譜生成的正確性。
3.1知識抽取實驗及分析
本節給出知識抽取部分的實驗與分析,例如以下取自某航空信息系統項目的文本:“Thisprojectprovidestheanalystwiththeabilitytorapidlyfindandfusemultipleintelligencesourcesofbattlespaceinformationforimprovedsituationalawareness,andtobetterdetectandfindanomalies”。根據表1中定義的依存結構,通過文本處理得到其依存句法結構,如表3所示。
表3中最后一列列出了每個實體符合的規則編號,按照規則,標記為-1 的實體不會作為候選詞。對于同時符合多個規則的實體,根據規則優先級來確定其擴展的具體原則。例如,“anomalies”同時符合編號為6 和20 的規則,而規則6的優先級高于規則20的優先級,因此該實體將按照規則6進行擴展。
根據規則設計,算法將按照不同的方向對實體進行擴展。例如,表3中“battlespaceinformation”對應的規則優先級為2,該規則將向前尋找到“multipleintelligencesources”并將其作為擴展邊界,從而提取出“multipleintelligencesourcesofbattlespaceinformation”并將其作為新的實體。這一步提取的初始實體如表4所示。
表4給出了提取的7 個實體在句子中的位置參數,通過位置參數可以判斷出提取的實體是否存在鄰接或交叉。根據算法1,將存在鄰接或交叉的實體進行融合,得到的實體如表5所示。表5 還列出了每個實體的中心詞ROOT,以及中心詞與句子根詞ROOT 的距離,將根據其距離來確定該實體在句子中的上下位關系。
3.2知識圖譜構建及查詢
在知識圖譜構建環節,將根據上下位關系構建具有超邊的超圖。以實體“betterdetectandfindanomalies”為例,根據算法2,將生成以下三元組:〈Thisprojects,provide,theanalyst〉〈theanalyst,with,theability〉〈theability,to,betterdetectandfindanomalies〉。3個三元組頭實體的上下位關系依次為0、1、2,這里引入“provideWith”超邊,并讓其連接到實例化后的邊“provide1”上,構建以下新的三元組:〈Thisprojects,provide1,theanalyst〉〈provide1,provideWith,theability〉〈theability,to,betterdetectandfindanomalies〉。最后,依據第2.2節的方法生成ttl格式的RDFS文件。將超邊“provideWith”定義為RDF 的屬性,而邊“provide1”則被定義為一類標記為relation的實體。這樣,實例化后的邊與其他實體使用不同的本體概念(使用onto定義),可以在查詢中對其進行區別。
4結束語
本文面向英文信息技術項目文本提出了一種基于依存句法規則的知識抽取和知識圖譜構建方法。這種基于句法結構和規則模板的知識抽取方法不需要大量的數據訓練模型,尤其適合于在沒有預先訓練模型的前提下提取特定領域的專業知識。基于該方法,在獲取一定數量的實體和關系后,結合監督學習和半監督學習方法,訓練適合于該領域特色的抽取模型,可以進一步提高知識圖譜自動化構建水平。此外,針對信息技術項目的領域特點,本文構建了MICRM,該本體結構具有較好的可擴展性和向后兼容性,案例實驗結果表明,使用該本體結合RDF的多元關系建模,可以豐富查詢結果的語義。接下來,將在該本體結構的基礎上研究如何結合語義理解、自動化地生成新的本體概念以及本體融合,進一步提高知識圖譜構建的自動化程度。
作者簡介
林木(1983—),男,工程師,博士研究生,主要研究方向為自然語言處理、戰略管理與數字化決策。
束哲(1989—),男,助理研究員,博士,主要研究方向為體系工程與體系仿真。
李童心(1995—),女,博士研究生,主要研究方向為戰略管理評估、知識圖譜表示學習。
王維平(1963—),男,教授,博士研究生導師,博士,主要研究方向為裝備體系論證與仿真評估。