











摘" 要:隨著人工智能產業的高速發展,國家政策層面出臺了大量的人工智能產業政策,對此,文章提出了一種基于語義分析的人工智能政策知識圖譜構建方法。首先,根據語義角色標注和依存句法關系提取實體關系三元組;然后運用ChatGLM-6B大語言模型識別政策中的政策客體,用于知識篩選;再計算關系詞匯的余弦相似度對關系進行融合對齊,實現知識融合;最后,對實體關系查詢和政策信息服務兩個應用領域進行了探究。所構建的知識圖譜可以精準地向企業等用戶提供所需的政策信息,提高政策信息的利用效率。
關鍵詞:產業政策;知識圖譜;知識抽??;大語言模型
中圖分類號:TP391.1 文獻標識碼:A 文章編號:2096-4706(2024)23-0093-07
Research on the Knowledge Graph Construction of Industrial Policies for Artificial Intelligence
ZHAO Jinshi, SHEN Yongluo
(School of Information, Guangdong University of Finance and Economics, Guangzhou" 510320, China)
Abstract: With the rapid development of the Artificial Intelligence industry, a large number of industrial policies for Artificial Intelligence have been introduced at the national policy level. Therefore, this paper proposes a Knowledge Graph construction method of Artificial Intelligence policies based on semantic analysis. Firstly, it extracts entity relationship triples according to semantic role labeling and dependency syntactic relationship. Secondly, it uses the ChatGLM-6B Large Language Model to identify the policy objects in the policies for knowledge screening. Thirdly, it calculates the cosine similarity of the relationship vocabulary to fuse and align the relationship to achieve knowledge fusion. Finally, the two application fields of entity relationship query and policy information service are explored. The constructed Knowledge Graph can accurately provide the required policy information to enterprises and other users and improve the utilization efficiency of policy information.
Keywords: industrial policy; Knowledge Graph; knowledge extraction; Large Language Model
0" 引" 言
隨著人工智能產業的蓬勃發展,該領域正成為新一輪科技革命和產業變革的重要驅動力量。國家在人工智能產業政策方面全方位支持該領域的高速發展,從2017年國務院發布《新一代人工智能發展規劃》到現在,政府陸續出臺了多項政策。然而,由于政策文件往往分散在不同政府部門的網站上,用戶難以進行集中查詢和檢索,同時,政策文本存在信息量大、篇幅長的特點,傳統的政策檢索方式不利于用戶快速從政策中獲得重要信息。
知識圖譜是以具有知識表達屬性的三元組為基礎,通過融合多源異構數據,以具有語義關系的有向圖結構進一步描述客觀世界中的相關概念及其關系,從而形成關系清晰準確、內容翔實的結構化語義數據庫[1-2],國內外學者已經將知識圖譜運用到學術資源[3]、醫療保健[4]、故障診斷[5]等多個領域。關于知識圖譜在政策研究中的應用,部分學者以知識圖譜為工具,采用文獻計量法對政策進行研究,分析政策的發展脈絡和趨勢、預測政策熱點。例如,新冠疫情期間,霍朝光等構建新冠感染政策知識圖譜,用于政策公文歸檔、追溯法律淵源、監督政策焦點[6]。與之類似的,還有將知識圖譜應用于中國數字經濟發展政策研究[7]、“雙碳”政策理論脈絡和發展進路的研究[8]。從文獻計量的角度出發,可以在宏觀上把握政策的總體發展情況,然而無法有效滿足企業和公眾實時了解政策內容的需求,從而實現政策的“為民所擁,為民所用”?;诖耍糠謱W者開始將深入政策文本進行知識抽取,構建政策知識圖譜并開展應用研究,例如文旅融合政策[9]、創新創業政策[10]、養老產業政策[11]。隨著我國人工智能產業的飛速發展,人工智能產業政策知識圖譜既可以為企業在獲取政策信息、把握政策動向、享受政策優惠上提供幫助,可以為知識圖譜在政策領域的應用提供理論參考。
1" 知識圖譜構建流程
人工智能產業政策知識圖譜的構建流程主要包括模式層設計、數據收集與預處理、數據層設計、知識存儲與圖譜應用4個環節,知識圖譜的整體構建流程如圖1所示。
環節內容如下:
1)知識圖譜模式層設計。根據人工智能產業政策文本的特點,從政策文件和政策內容兩個層面考慮,設計知識圖譜的模式層。
2)數據收集與預處理。對收集的政策文本進行清洗,主要是去除已失效政策和政策中的無效內容。而后分句、分詞并存儲,得到政策語料庫,以便于后續工作。
3)知識圖譜數據層設計。數據層設計包含知識抽取、知識篩選和知識融合三個步驟。首先,利用Python正則表達式對政策文本中的關聯政策進行識別,再提出一種基于語義分析的三元組抽取規則,從政策文本中抽取實體關系三元組;再使用開源大語言模型ChatGLM-6B,提取政策中的政策客體,將得到的實體關系三元組與政策客體對比,篩選出涉及政策客體的實體關系三元組;最后訓練詞向量,根據余弦相似度對關系詞匯進行合并對齊。
4)知識存儲與圖譜應用。將處理后的數據存入Neo4j圖數據庫,形成人工智能產業政策知識圖譜,討論知識圖譜在可視化查詢、企業信息服務場景下的應用。
2" 知識圖譜模式層設計
結合文獻綜述的梳理分析及已有的人工智能產業政策文本,政策文件整體與其他政策之間存在著必然的關聯,政策文本內容中也包含著該政策自身的許多關鍵信息。因此,本文認為,人工智能產業的政策研究需要從政策文件和政策內容兩個層面考慮,才能更有效地管理政策文本。
2.1" 政策文件
從政策文件層面來看,政策存在演進的過程,一部政策的制定,必然與其他政策存在聯系,或是對上位政策的細化和延伸,或是對其他政策的銜接。
政策文件層面的實體主要為:政策文件、制定機關、關聯政策。制定機關與政策文件之間的關系為:發布。政策文件與關聯政策之間的關系有:依據、補充、引用。同時,政策標題實體還包含政策標題、效力位階、實施日期3個屬性。
2.2" 政策內容
深入到政策內容中,政策文本必然涉及許多實體,包含多個政策對象,本文將對政策文本進行語義分析,從中抽取實體關系三元組。實體對應政策句子中的名詞,實體之間的關系通常是以動詞為主的動作關系,例如“加強”“發展”,具體的實體關系三元組抽取流程將在下文詳細闡述。綜上所述,構建人工智能產業政策知識圖譜模式層如圖2所示。
3" 數據收集與預處理
3.1" 數據收集
行業知識圖譜強調知識的專業性,因此對于數據的質量有更高的要求,收集的政策既要盡可能全面,又要保證完整準確、與相關主題契合度高。本文選擇北大法寶數據庫作為數據源,從“人工智能”專題的國家層面政策之中進行篩選,著重選取與“人工智能”話題相關性強的政策,獲取的數據包含政策標題、時效性、效力位階、制定機關、實施日期和政策正文,政策文本原網頁如圖3所示。
3.2" 數據預處理
首先,對獲取到的政策正文,按照時效性對已經失效的政策予以剔除,并進一步采用Python正則表達式去除其中的序號(如“(一)”“12.”)、多余空格、換行符等無效內容,而后保存在同一個csv文件中。最終經過統計,共收集到有效政策393篇。其次,對規范后的政策文本進行分句操作,經過分句后,共得到政策句子46 245條。最后,需要對人工智能產業政策文本進行分詞操作,人工智能屬于新興產業,伴隨產業發展出現了一些專有名詞,本文將“語音識別”“計算機視覺”“專家系統”“增強學習”等247個專有名詞整理成用戶詞典,使用LTP工具,完成分詞任務。
4" 知識圖譜數據層設計
知識抽取是知識圖譜數據層構建過程中的一個重要流程,具體地,從非結構化的政策文本中抽取出需要的結構化數據,知識抽取包含實體抽取、實體屬性抽取和實體間關系抽取。在本章第一節的數據收集與預處理階段,政策標題、制定機關等部分數據已經為結構化數據,可以直接使用。
4.1" 關聯政策抽取
關聯政策的抽取,可以使用Python正則表達式。在觀察多篇政策文本后,可以得到如下規律:在政策文本中,在使用“《》”時,絕大部分是提及其他的政策;在關聯政策的標題中,會有“方案”“規劃”“辦法”“條例”等標志詞;政策全稱的字數通常不會太短,字數不會少于6個字,只有在重復提及某個政策使用簡稱時,字數才會少于6,例如“《條例》”“《綱要》”?;谶@些規律,提取的具體步驟可以設計為:首先識別文本中的“《》”,得到書名號之間的字符串;再檢測字符串中是否包含相關的標志詞;最后檢測字符串的長度,只保留字數大于等于6的字符串,再將最終保留下來的字符串作為關聯政策予以保存。
政策文件與關聯政策間的關系,在抽取完畢后,由人工進行判別,處理后的效果如圖4所示。
4.2" 實體關系三元組抽取
政策內容知識圖譜的構建主要是從政策文本中抽取實體關系三元組,政策文本中的實體和關系的數量種類多,無法按照先劃分實體關系類型在抽取三元組的方式進行。通過觀察多篇政策文本,可以發現,政策文本中的語句鮮明的特點:從句類上來看,陳述句占絕大多數;從句型上來看,語句中有相當一部分的無主句;此外政策文本簡潔凝練、用詞專業。因此本文提出一種基于語義分析的人工智能產業政策知識抽取方法,使用語義角色標注和依存句法分析的方式,設計相應的抽取規則,從文本中直接抽取實體關系三元組。
4.2.1" 語義角色標注
語義角色標注是以句子為單位,分析語句中“謂詞-論元”結構。具體地,語義角色標注就是要針對句子中的謂語,研究句子中其他各成分與謂語之間的關系,并以不同的標簽來描述關系的類型。其中,核心的語義角色有6種,標簽和具體含義如表1所示。
以“制造業企業提高信息化水平”為例,在該句子中,施事者是“制造業企業”,語義角色標簽為Arg0;受事者是“信息化水平”是受事者,語義角色標簽為Arg1。依據語義角色標注的結果,可以抽取“施事者-謂語-受事者”作為實體關系三元組,上述例子抽取后得到的結果為“(制造業企業,提高,信息化水平)”。
上文提到,在政策語句中,包含著相當一部分無主句,無主句是一種沒有主語但仍然可以清晰完整地表達句意的句子,政策中出現的部分無主句如表2所示。
從上述例子中可以看出,無主句是具有實際含義的,需要從中抽取實體關系三元組。無主句以動詞為核心,強調動作和事物發展,而不在于“誰”實施了這一動作,在政策中,可以將這類句子的主語直接理解為“有關部門”。因此在語義角色標注的結果中,只有受事者Arg1的標簽,而沒有施事者Arg0的標簽,考慮為無主句,在抽取實體關系三元組時,將頭實體統一命名為“有關部門”,上述例子最終的抽取結果如圖5所示。
此外,一些修飾謂語動詞的狀語會表達否定的含義,如果不考慮這些狀語,可能會完全反轉政策所要表達的意思。以“服務提供商不允許違規收集個人信息”為例,其中的“不”做狀語修飾謂語動詞“允許”,在不考慮狀語的情況下,得到的實體關系三元組會是“(服務提供商,允許,違規收集個人信息)”,這與政策所要傳達的意思完全相反。在政策中,表達否定的狀語主要有10種,分別為“不”“非”“沒”“沒有”“不用”“未”“別”“不必”“無須”和“勿”。如果在抽取三元組時,修飾核心動詞的狀語屬于以上10種詞語,則將其與動詞合并作為關系詞。
4.2.2" 依存句法分析
語義角色標注不一定能完整獲取到所有的實體關系三元組,需要基于依存句法分析的結果進行補充。依存句法分析是分析句子的語法結構,研究句子中各詞語之間的語法聯系,并以樹的形式表達。當一個句子的所有詞語的依存關系全部被分析以后,就可以得到該句子的一棵依存句法樹。以政策句子“國家重點研發計劃繼續推進高性能計算”為例,經過依存句法分析后,該句子的依存句法樹如圖6所示。
基于依存句法分析的抽取流程如下:
1)根據詞性標注的結果,對于標注為動詞的詞語,若在依存句法樹中,以它為根節點的子樹里同時存在主謂關系和動賓關系,首先根據主謂關系找到頭實體,再根據動賓關系找到尾實體,最后判斷核心動詞是否存在并列動詞,若存在,則將其與核心動詞合并抽取,最后形成由主語、核心動詞(+并列動詞)、賓語組成三元組。
2)子樹中出現主謂關系和介賓關系,則以介賓關系尋找尾實體。假若核心動詞同時存在動補結構,則需要將核心動詞與其補語合并抽取,最后形成由主語、核心動詞(+補語)、賓語構成的三元組。
3)當主語和賓語與其他詞語存在定中關系,則需要找到修飾主語或賓語的定語,對三元組的頭實體和尾實體進行擴展,以便讓三元組能描述更加準確的含義。
4)同樣,考慮修飾核心動詞的表達否定含義的狀語,將其與核心動詞合并作為關系詞。
4.3" 知識篩選
在對人工智能產業政策進行知識抽取后,會得到大量的實體關系三元組,但并非所有的三元組都有包含政策的重要信息,為保證后續人工智能產業政策知識圖譜的質量,需要對得到的三元組進行篩選。對于知識圖譜的使用者,其作為受政策影響的群體,主要關心政策發揮作用時所指向的對象,即政策客體。根據公共政策理論,政策客體包含特定的政策問題和目標群體,其中,政策問題是引起政府關注并采取行動的社會問題,目標群體是政策直接作用和影響的社會群體[12]。
從一篇政策文本上來看,其核心內容也總是圍繞著特定的政策問題和目標群體進行論述,提出具體的處理原則和行動方案。因此,保留涉及政策客體的三元組,可以最大程度過濾無價值的三元組,保留政策中的關鍵信息。
由于政策客體數量多,全部采用人工標注的方式效率很低。本文使用清華大學發布的開源大語言模型ChatGLM-6B[13-14]對政策文本中的政策客體進行識別并提取。目前,對于大語言模型,可以使用已經訓練好的預訓練模型,在不同的應用場景下,提供少量的數據用以微調,即可獲得良好的效果。本文先使用人工的方式提取了3 060條政策句子中的政策客體用于微調工作,微調所用數據的形式如圖7所示。將微調后的模型用于提取政策正文中的政策客體,對于每一篇政策,將實體關系三元組與該政策所包含的政策客體進行對比,若尾實體中涉及政策客體,則保留,否則,予以剔除。
4.4" 知識融合
在政策內容知識圖譜的構建過程中,經過知識抽取得到實體與實體間關系。由于關系的詞匯是從政策文本中直接提取的,部分關系雖然有不同的名稱,卻表達了相同的意思,例如“推動”和“推進”,“鼓勵”和“激勵”,“反映”和“反映出”等。因此,需要對表達意思相同的關系進行合并,消除冗余。
本文采用余弦相似度的方法完成實體間關系進行合并,以獲得更加簡潔、清晰的人工智能產業政策知識圖譜。在數據預處理階段,已經完成文本分詞工作,使用Gensim庫中Word2Vec方法訓練詞向量。最后計算不同關系詞匯之間的余弦相似度,其計算式如式(1)所示。
(1)
其中,S表示關系詞匯之間的相似程度,A和B表示關系詞匯的詞向量。余弦相似度越大,說明兩個詞語之間的差異越小,即兩個詞語越相似。借鑒已有的研究,將閾值設置在0.8時,融合效果最佳[15],關系合并后得到的部分結果如表4所示。
5" 知識圖譜應用研究
構建人工智能產業政策知識圖譜是將政策中的知識進行細粒度化的處理,其最終目的是實現對政策的可視化查詢和信息匹配,為企業等用戶了解政策提供幫助。本文采用Neo4j數據庫來存儲抽取的實體、屬性和關系。Neo4j是一個高性能的NoSQL圖形數據庫,它將結構化的數據存儲在圖上,因而具有強大的可視化能力,Neo4j也是目前使用最廣泛的圖數據庫[16]。Neo4j自帶Cypher語言,可以方便地實現對知識圖譜的創建、更新和可視化查詢。本文的實體、關系數量較多,因此將實體及其屬性、實體間關系按照一定的格式存儲在CSV文件中,使用Cypher語言中的LOAD CSV語句直接導入,最終得到人工智能產業政策知識圖譜。
5.1" 政策的實體關系查詢
Neo4j同樣可以使用Cypher語言查詢政策實體、實體屬性,并以可視化的方式展示實體間的關系,可以高效地獲取政策關鍵信息,也可以用于政策文獻研究,梳理政策之間關系、反映政策演進過程、預測政策熱點趨勢。例如,在知識圖譜中檢索某一篇政策,可以使用“match (m:政策文件)-[r:`包含`]-gt;(n) where m.標題 = “國務院關于印發新一代人工智能發展規劃的通知”" return m,r,n limit 20”語句查詢該政策中的實體關系三元組。由于節點數量過多,使用limit子句限制顯示節點的數量為20,查詢結果如圖8所示。查詢結果中,不同類型的實體以不同顏色的節點區分,節點之間的連線表示實體間的關系,鼠標單擊某一實體可以查看實體屬性信息,在查詢結果中可以清楚地獲悉到,國家超前布局人工智能的基礎研究,推動腦科學研究、軍民科技創新成果轉化、人機協同等領域,人工智能將作為經濟發展新引擎,最終實現社會生產力的整體躍升。
以語句“match (n:關聯政策)-[r]-gt;(m:政策文件) where m.標題 = “國務院關于印發新一代人工智能發展規劃的通知” return n”查詢該政策的被引用情況,查詢結果如圖9所示。結果顯示,有多篇科技部的回函以該政策為依據,這些回函均是支持地方建設國家新一代人工智能創新發展試驗區,說明該政策在發展人工智能產業的政策體系中具有重要的地位。
5.2" 企業的政策信息服務
信息服務是利用計算機和現代通信技術,對信息進行收集和處理,使之轉化為方便利用的形式并進行存儲,按需向用戶提供有價值的信息。近年來,信息服務也在朝著智能化、精細化的方向不斷發展。政策的扶持可以對企業的發展起到很大的幫助作用,而企業難以有合適的方法及時獲取到政策信息,結合知識圖譜的政策信息服務可以智能化、精細化地為企業提供政策信息服務。
政府部門或政策信息服務的提供商,可以提供的服務有:
1)政策信息查詢。企業根據自身的需要,以關鍵詞查詢或提問的方式獲取政策信息。
2)智能信息推薦。通過企業提供的各項信息,如公司性質、業務范圍、經營概況等,為企業繪制用戶畫像,進而實時地為企業客戶提供政策情報。同時,處于產業鏈當中一環的企業,對行業上下游的信息往往比較關注,知識圖譜可以充分發揮關聯關系挖掘的作用,向企業提供上下游的政策動向,從而幫助企業及早調整戰略規劃。
K公司是亞太地區知名的智能語音和人工智能上市企業,一直從事智能語音、計算機視覺、自然語言理解等核心技術研究,積極推動人工智能產品和行業應用落地。以該公司的智能語音和計算機視覺兩項業務為例,通過語句“MATCH (m)-[r:關系]-gt;(n:政策客體) WHERE n.政策客體 =~ ‘.*智能語音.*’ or n.政策客體 =~ ‘.*計算機視覺.*’ return m,r,n”,可以得到與智能語音、計算機視覺相關的政策信息,查詢結果如圖10所示。
6" 結" 論
本文提出一種人工智能產業政策知識圖譜的構建流程,內容主要分為以下三個部分:從政策文件和政策內容兩個層面考慮,設計了人工智能產業政策知識圖譜模式層;根據政策文本特點,設計了一套基于語義分析的三元組抽取方法,抽取政策文本中的實體關系三元組;借助大語言模型識別政策客體用于篩選實體關系三元組,計算關系詞向量之間的余弦相似度實現關系的合并對齊。將所有的實體、實體屬性和實體間關系導入Neo4j圖數據庫中,構建人工智能產業政策知識圖譜,并研究了知識圖譜在實體關系查詢和企業信息服務領域的應用,可以幫助企業更好地獲取所需的政策信息。由于人工智能產業政策還在持續新增,后續的研究中,將進一步研究如何實現對政策知識庫的動態更新,以實現更高效的政策分類管理和更精準的政策檢索。
參考文獻:
[1] 付雷杰,曹巖,白瑀,等.國內垂直領域知識圖譜發展現狀與展望 [J].計算機應用研究,2021,38(11):3201-3214.
[2] 于皓,張杰,吳明輝,等.領域知識圖譜快速構建和應用框架 [J].智能系統學報,2021,16(5):871-884.
[3] 秦玥.面向創業領域科技論文的知識圖譜構建與應用研究 [D].長春:吉林大學,2018.
[4] 劉東方,楊思帆.我國教師教育研究的熱點領域與知識基礎——基于2001年以來CSSCI學術論文的知識圖譜分析 [J].教育理論與實踐,2019,39(13):37-40.
[5] MURALI L,GOPAKUMAR G,VISWANATHAN D M,et al. Towards Electronic Health Record-based Medical Knowledge Graph Construction, Completion, and Applications: A Literature Study [J].Journal of Biomedical Informatics,2023,143:104403.
[6] 霍朝光,錢毅,祁天嬌.基于開放公文的新冠肺炎政策知識圖譜構建與分析 [J].檔案學通訊,2021(2):53-62.
[7] 師博,常青,張良悅.中國數字經濟發展的政策演進與理論研究脈絡 [J].技術經濟,2022,41(8):1-10.
[8] 周成.“雙碳”政策的知識圖譜、研究熱點與理論框架 [J].北京理工大學學報:社會科學版,2023,25(4):94-112.
[9] 董天宇.文旅融合政策知識圖譜的構建與應用 [D].大連:遼寧師范大學,2023.
[10] 劉科.基于知識圖譜的創新創業政策服務研究 [D].北京:北京交通大學,2021.
[11] 揣子昂,耿騫,潘慧瑤,等.產業政策知識圖譜的自動化構建 [J].情報工程,2022,8(3):28-51.
[12] 楊宏山.公共政策學 [M].北京:中國人民大學出版社,2020.
[13] DU Z X,QIAN Y J,LIU X,et al. GLM: General Language Model Pretraining with Autoregressive Blank Infilling [J/OL].arXiv:2103.10360 [cs.CL].(2021-03-18).https://arxiv.org/abs/2103.10360?context=cs.
[14] ZENG A H,LIU X,DU Z X,et al. GLM-130B: An Open Bilingual Pre-trained Model [J/OL].(2022-10-05).https://arxiv.org/abs/2210.02414.
[15] 劉勘,徐勤亞,於陸.面向營商環境的知識圖譜構建研究 [J].數據分析與知識發現,2022,6(4):82-96.
[16] 徐增林,盛泳潘,賀麗榮,等.知識圖譜技術綜述 [J].電子科技大學學報,2016,45(4):589-606.
作者簡介:趙晉世(2001—),男,漢族,湖南衡陽人,碩士在讀,研究方向:知識圖譜、自然語言處理、知識挖掘;沈永珞(1979—),男,漢族,湖北武漢人,副教授,博士,研究方向:自然語言處理、智能計算、智能系統設計與應用。