999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Neo4j 圖數(shù)據(jù)庫的產(chǎn)業(yè)政策知識圖譜構(gòu)建

2022-12-31 11:30:23于小涵舒暢
科海故事博覽 2022年33期
關(guān)鍵詞:文本

于小涵 韓 筱 舒暢

(濟南大學(xué),山東 濟南 250002)

1 前言

在信息技術(shù)革命的推動下,如何實現(xiàn)各種活動的電子化已然成為一種熱潮,電子政務(wù)也在這一背景下應(yīng)運而生。電子政務(wù)是政府順應(yīng)時代發(fā)展,利用信息網(wǎng)絡(luò)技術(shù)實現(xiàn)自我改革的一種舉措。政府通過這種方式對組織結(jié)構(gòu)和運作方式進行優(yōu)化,從而提高工作效率,為公眾提供更加便捷滿意的服務(wù)[1]。政府之間以及政府與公民、企業(yè)進行互動的過程中,往往會產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)與國民經(jīng)濟、公眾生活息息相關(guān)。在建設(shè)電子政務(wù)的過程中,政府部門會希望高效利用這些數(shù)據(jù),從中挖掘有效信息,但政務(wù)數(shù)據(jù)分散、缺乏深度分析的現(xiàn)象卻普遍存在[2]。政策文本作為政務(wù)數(shù)據(jù)的一種,是政府部門日常辦公處理的重要工具,具有傳達國家法規(guī)、條例和指導(dǎo)等信息的作用。但這些政策文本散布在各個政府網(wǎng)站,不利于政府部門之間的信息互通,也不便于公眾對政策內(nèi)容的全面掌握,而數(shù)據(jù)的整合分析、深度挖掘也很難在這種情況下開展。

知識圖譜等技術(shù)的發(fā)展,為政策文本的數(shù)據(jù)存儲、信息整合以及知識發(fā)現(xiàn)提供了重要支撐。知識圖譜的主要目的是描述各種實體和概念以及他們之間的關(guān)系,進而以圖網(wǎng)絡(luò)形態(tài)展現(xiàn)領(lǐng)域知識,甚至通過推理發(fā)現(xiàn)新的知識。構(gòu)建政策知識圖譜能夠?qū)⒄呶谋局写嬖诘拇笠?guī)模、碎片化的知識整合成以實體為基本單位的網(wǎng)絡(luò)結(jié)構(gòu),不僅能提高政府內(nèi)部對已有政策的管理效率、實現(xiàn)跨部門的知識發(fā)現(xiàn),還能為公眾提供更加智能方便的服務(wù)。

2 知識圖譜簡介

知識圖譜的研究起源于語義網(wǎng)絡(luò),這是一種通過相互連接的節(jié)點和邊來表達知識的模式[3]。其中節(jié)點表示對象、概念,邊表示節(jié)點之間的關(guān)系。語義網(wǎng)絡(luò)本質(zhì)上是一張數(shù)據(jù)構(gòu)成的網(wǎng)絡(luò),它以圖網(wǎng)絡(luò)的方式為用戶返回加工推理后的知識,知識圖譜則在此基礎(chǔ)上實現(xiàn)了規(guī)模更大、結(jié)構(gòu)更好、語義更豐富的智能化語義檢索。知識圖譜的基本組成單位是三元組,包含(主語,謂語,賓語)三個部分,在實際的圖網(wǎng)絡(luò)數(shù)據(jù)中通常表示成“實體-關(guān)系-實體”或“實體-屬性-屬性值”。

從覆蓋范圍來看,知識圖譜可分為通用知識圖譜與行業(yè)知識圖譜兩類[4]。通用知識圖譜涉及的知識范圍較為廣泛,以常識性知識為主,應(yīng)用于互聯(lián)網(wǎng)的搜索、推薦、問答等場景,如WordNet、FreeBase、百度知心等。行業(yè)知識圖譜面向特定領(lǐng)域,有嚴格與豐富的數(shù)據(jù)模式,對準確度要求更高,通常用于輔助分析及決策支持。目前行業(yè)知識圖譜已經(jīng)在很多領(lǐng)域得到了很好的應(yīng)用,典型的行業(yè)知識圖譜有中國旅游景點知識圖譜、中醫(yī)藥知識圖譜、UMLS 等。通用知識圖譜和行業(yè)知識圖譜并不是相互對立,而是相輔相成的一個關(guān)系,將通用知識圖譜的廣度和行業(yè)知識圖譜的深度融合在一起,可以形成更加完善的知識圖譜。

3 產(chǎn)業(yè)政策知識圖譜的構(gòu)建過程

知識圖譜的構(gòu)建一般可以分為自頂向下和自底向上兩種方式。自頂向下是先歸納總結(jié)出知識圖譜的邏輯架構(gòu),然后再依據(jù)這一架構(gòu)從高質(zhì)量數(shù)據(jù)中抽取實體和關(guān)系,加入知識圖譜中。自底向上則是先從真實數(shù)據(jù)中抽取實體和關(guān)系,而后歸納總結(jié)出知識圖譜。知識圖譜在邏輯上分為模式層和數(shù)據(jù)層,本文采用自頂向下的構(gòu)建方式,即先定義知識圖譜的模式層,然后建立數(shù)據(jù)層。

3.1 收集產(chǎn)業(yè)政策文本

本文以北大法寶法律法規(guī)數(shù)據(jù)庫和各級政府網(wǎng)站為政策文本的主要來源,搜索2009 年到2021 年內(nèi)與產(chǎn)業(yè)政策相關(guān)的各省法律規(guī)章,最終通過人工排查,下載并獲得產(chǎn)業(yè)政策總計2453 篇。政策文章均保存為“.txt”格式,并按照省份和年份放置在不同文件夾內(nèi),以便后續(xù)通過Python 進行批量文件處理,從中提取所需的知識三元組。

3.2 構(gòu)建知識圖譜的模式層

模式層是知識圖譜的概念模型和邏輯基礎(chǔ),是知識圖譜的核心,主要定義了實體、屬性、關(guān)系等知識類的層次。

實體是知識圖譜中最基本的元素,它可以是客觀世界中獨立存在的某個事物,如人、水果、家具等,也可以是抽象出來的某種概念,如善良、工作、成績等。本文基于政策文本的特征和對知識查詢的需求,定義了政策和關(guān)鍵詞兩種實體類型。其中,“政策”指代某篇政策文本,“關(guān)鍵詞”指代政策中具有關(guān)鍵作用揭示主題的詞語。

屬性是對實體的說明,通過描述實體的內(nèi)在信息來將其區(qū)分,如人的姓名、身高、年齡等。本文除了將省份和年份兩個基本特征作為政策文本的屬性外,還設(shè)置了政策情感偏好。政府會通過補貼、減稅、表彰等方式來激勵某個產(chǎn)業(yè)的發(fā)展,也會通過強調(diào)社會責(zé)任、環(huán)境保護等方式來進行制約。政府在不同的時代發(fā)展階段對于不同的產(chǎn)業(yè)往往會有不同的政策偏好,當(dāng)一篇政策對這兩個理念不偏不倚,同樣重視時,就認為該政策為“平衡型”;當(dāng)“激勵”的強調(diào)程度大于“責(zé)任”時,就認為是“激勵型”;反之則為“責(zé)任型”。

關(guān)系描述了實體之間客觀存在的關(guān)聯(lián),如“購買”描述了客戶和商品的關(guān)系。考慮到地方對中央宏觀政策的落實、政策的分階段發(fā)展等因素,一篇政策文本往往會引用其他政策作為依據(jù),因此本文構(gòu)建了政策實體之間的“引用”關(guān)系。此外,本文還構(gòu)建了政策和關(guān)鍵詞之間的“涉及”關(guān)系,從而能夠直觀地了解政策主題,間接關(guān)聯(lián)主題相近的政策。

3.3 構(gòu)建知識圖譜的數(shù)據(jù)層

數(shù)據(jù)層是在模式層所構(gòu)建的模型基礎(chǔ)上,以<實體,關(guān)系,實體>或<實體,屬性,屬性值>的事實三元組等知識為單位,將數(shù)據(jù)存儲在圖數(shù)據(jù)庫中,進而構(gòu)成大規(guī)模的實體關(guān)系網(wǎng)絡(luò),形成知識圖譜。構(gòu)建數(shù)據(jù)層的關(guān)鍵在于從繁雜的數(shù)據(jù)中抽取結(jié)構(gòu)化數(shù)據(jù),并組成事實三元組。以下將具體描述實體和屬性的抽取過程,對于關(guān)系的抽取在關(guān)鍵詞實體抽取和引文實體抽取時已經(jīng)完成,只需抽取時將關(guān)鍵詞與引文存儲在對應(yīng)的政策列表中即可。

本文對政策實體的抽取是指將所收集到的政策題名和正文中引用的政策名稱提取并存儲到excel 中。對于已收集的政策文本,因為在下載時已將題名作為文件名進行保存,只需通過Python 直接遍歷讀取所有文件名即可。對于正文中存在的引文,則需要使用Python中的“re”模塊,由正則表達式定位并提取“《》”中的文字。當(dāng)一篇政策被多次引用時,下文往往會用簡稱指代,例如“全面落實國務(wù)院批復(fù)的《山東新舊動能轉(zhuǎn)換綜合試驗區(qū)建設(shè)總體方案》(以下簡稱《方案》)確定的各項目標任務(wù)”該篇政策的下文將會使用《方案》來指代文中出現(xiàn)過的政策,因此在引文抽取時還需篩選掉《方案》《規(guī)劃》《決定》《意見》和《建議》。

本文通過Python 利用TF-IDF 算法,計算得到每篇政策文本權(quán)重最高的五個詞作為該政策的關(guān)鍵詞,以代表其主要內(nèi)容。TF-IDF 算法主要用于評估一個詞對一個語料庫中某一文件的重要程度,計算得到的詞語重要性與它在該文件中出現(xiàn)的次數(shù)成正比,與它在語料庫中出現(xiàn)的頻率成反比。如果一個詞在某個文件中出現(xiàn)的頻率很高,而在整個語料庫中頻率較低,即在其他文件中很少出現(xiàn),則認為這個詞對其所在文件有較好的代表性。

政策實體的發(fā)表年份和省份可通過Python 識別文件路徑直接抽取,政策情感偏好屬性則可采用自然語言處理中的情感分析法進行抽取,即對文本中帶有情感色彩的主觀性詞語進行歸納分析。本文借鑒黃魯成團隊[5]評估創(chuàng)新政策平衡態(tài)的方法,通過對比政策文本中激勵詞和責(zé)任詞的個數(shù)來衡量一篇政策的情感偏好,當(dāng)兩者個數(shù)相近時,認為是平衡型政策;當(dāng)激勵詞個數(shù)大于責(zé)任詞時,認為是激勵型政策;反之,則為責(zé)任型政策。計算每篇政策的激勵詞和責(zé)任詞個數(shù),需要先建立“激勵”詞庫和“責(zé)任”詞庫。通過政策文本和中文維基百科選取與“激勵”和“責(zé)任”相關(guān)的文本,利用Python 語言的jieba 包進行分詞處理后,人工篩選出能表征“激勵”和“責(zé)任”的詞匯,并分別保存作為相應(yīng)的詞庫。最終經(jīng)專家審議,選取重要性相當(dāng)、個數(shù)相等的兩組詞匯來分別表征“激勵”和“責(zé)任”。得到詞庫后即可利用Python 統(tǒng)計每篇政策中兩種情感詞的個數(shù),從而判斷其情感偏好。

抽取完構(gòu)建知識圖譜所需的三元組后,本文通過Python 驅(qū)動Neo4j 圖數(shù)據(jù)庫將數(shù)據(jù)從表結(jié)構(gòu)轉(zhuǎn)換成圖網(wǎng)絡(luò)進行存儲。最終構(gòu)建的知識圖譜共有8859 個政策節(jié)點,1290個關(guān)鍵詞節(jié)點。較大的深色節(jié)點表示政策實體,較小的淺色節(jié)點表示關(guān)鍵詞實體,點擊政策節(jié)點就可以看到該篇政策文本的發(fā)表年份、省份以及政策情感偏好。

4 產(chǎn)業(yè)政策知識圖譜的可視化查詢

Cypher 是Neo4j 的官方查詢語言,它具有豐富的表現(xiàn)力,能高效地查詢和更新圖數(shù)據(jù)。與關(guān)系數(shù)據(jù)庫中的SQL 類似,Cypher 是一種文本的聲明式查詢語言,它描述目標的性質(zhì),而非流程,不需要用算法來明確地指出每一步該怎么做。利用Cypher 語言可以對產(chǎn)業(yè)政策知識圖譜中的節(jié)點和關(guān)系進行查詢,并將查詢結(jié)果以圖網(wǎng)絡(luò)的形式呈現(xiàn)出來,便于用戶快速獲取想要了解的信息,發(fā)現(xiàn)事物之間的潛在聯(lián)系。

4.1 產(chǎn)業(yè)政策實體查詢

在產(chǎn)業(yè)政策知識圖譜中,用戶可以使用Cypher 語句的MATCH 子句查詢某篇政策的相關(guān)信息。例如,在Neo4j 的編輯器中輸入“MATCH (m:policy)-[r]->(n) WH ERE m.name='云南省人民政府辦公廳貫徹落實國務(wù)院辦公廳關(guān)于深化種業(yè)體制改革提高創(chuàng)新能力文件的實施意見' RETURN m,r,n;”由此即可得到與該政策實體直接相連的關(guān)系網(wǎng)絡(luò)。該政策主要涉及的關(guān)鍵詞有“農(nóng)作物、種子、育種、種質(zhì)、高等院校”,并且引用了《國務(wù)院辦公廳關(guān)于深化種業(yè)體制改革提高創(chuàng)新能力的意見》,點擊節(jié)點能夠看到該政策發(fā)布于2015 年,從屬于云南省,具有激勵型政策偏好。用戶還可以對某一關(guān)鍵詞進行查詢,查看涉及該關(guān)鍵詞的政策有哪些,以關(guān)鍵詞“減排”為例,在編輯器中輸入“MATCH(m:keywprd)-[r]->(n) WHERE m.name='減排' RETURN m,r,n;”就能返回與之相連的25 個政策節(jié)點。MATCH子句也支持模糊匹配,如檢索文本題名中包含“大數(shù)據(jù)”的政策實體,可在編輯器中輸入“MATCH (n:policy)WHERE n.name=~'.*大數(shù)據(jù).*' RETURN n;”。

4.2 產(chǎn)業(yè)政策引文查詢

與學(xué)術(shù)論文類似,政策文本中也存在大量的引用。對政策文本進行引文分析,查看它們之間的引用關(guān)系,對探究政策體系的演變過程,了解地方對中央政策的銜接落實等都具有一定的現(xiàn)實意義。相比于其他的數(shù)據(jù)存儲方式,圖數(shù)據(jù)庫能夠更加直觀地展現(xiàn)政策間的引用關(guān)系,便于用戶發(fā)現(xiàn)規(guī)律,對政策進行溯源分析。在政策知識圖譜的編輯器中輸入“MATCH (m)-[r:引用]->(n) RETURN m,r,n;”即可查看所有的引用關(guān)系圖譜。如果想要對某篇政策文本進行追溯,則指定政策節(jié)點的名稱即可,如“MATCH (c:policy{name: ”山東省人民政府關(guān)于印發(fā)山東省戰(zhàn)略性新興產(chǎn)業(yè)發(fā)展“十二五”規(guī)劃的通知"})-[r*0..]->(result) RETURN result;”,就能返回該篇政策的引用過程。

5 結(jié)語

本文參考已有文獻和政策文本的查詢需求,提出構(gòu)建產(chǎn)業(yè)政策知識圖譜的模式層框架,即定義政策和關(guān)鍵詞兩類實體,其中政策實體的屬性包含標題、政策偏好、發(fā)布年份和省份,實體間的關(guān)系有政策實體間的引用關(guān)系,以及政策和關(guān)鍵詞間的涉及關(guān)系。在此基礎(chǔ)上,本文通過Python 驅(qū)動Neo4j,利用收集的2453 篇政策文本建立知識圖譜的數(shù)據(jù)層,并進行可視化查詢。經(jīng)過產(chǎn)業(yè)政策實體查詢和引文查詢兩類實例驗證,結(jié)果表明本文提出的產(chǎn)業(yè)政策知識圖譜構(gòu)建方法能實現(xiàn)產(chǎn)業(yè)政策相關(guān)信息的快速查詢,發(fā)現(xiàn)主題相近的政策集群和政策間的引用脈絡(luò)。基于圖數(shù)據(jù)庫的產(chǎn)業(yè)政策知識圖譜在構(gòu)建數(shù)字政府、提高政務(wù)數(shù)據(jù)利用價值等方面具有廣闊的應(yīng)用前景。未來研究在不斷完善政策實體和實體關(guān)系的構(gòu)建基礎(chǔ)上,還可進一步實現(xiàn)基于產(chǎn)業(yè)政策知識圖譜的相關(guān)應(yīng)用,如面向公眾的在線智能問答等。

猜你喜歡
文本
文本聯(lián)讀學(xué)概括 細致觀察促寫作
重點:論述類文本閱讀
重點:實用類文本閱讀
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
作為“文本鏈”的元電影
在808DA上文本顯示的改善
“文化傳承與理解”離不開對具體文本的解讀與把握
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
從背景出發(fā)還是從文本出發(fā)
語文知識(2015年11期)2015-02-28 22:01:59
主站蜘蛛池模板: 自拍偷拍欧美日韩| 成人综合网址| 久久情精品国产品免费| 国产午夜小视频| 日本AⅤ精品一区二区三区日| 欧美一级在线看| 国产高清在线观看91精品| 99在线小视频| 日韩资源站| 热久久这里是精品6免费观看| 伊人成人在线视频| 国产手机在线小视频免费观看 | 无码专区第一页| 色屁屁一区二区三区视频国产| 欧美亚洲日韩中文| 日本三级欧美三级| 在线日韩一区二区| 欧美不卡视频在线观看| 日日噜噜夜夜狠狠视频| 亚洲av成人无码网站在线观看| 欧美亚洲国产精品久久蜜芽| 久久久成年黄色视频| 亚洲综合极品香蕉久久网| 国产免费观看av大片的网站| 久久永久免费人妻精品| 亚洲AV成人一区二区三区AV| 国产精品成人一区二区不卡| 国产成人乱码一区二区三区在线| 国产农村妇女精品一二区| 高清欧美性猛交XXXX黑人猛交 | 亚洲欧洲日韩久久狠狠爱| 无码'专区第一页| 亚洲人精品亚洲人成在线| 国产特一级毛片| 青草视频网站在线观看| 538国产视频| 色综合中文字幕| 亚洲色图欧美在线| 国产成人无码Av在线播放无广告| 国产区精品高清在线观看| 精品视频一区二区观看| 国内熟女少妇一线天| 在线中文字幕日韩| 成年看免费观看视频拍拍| 黑人巨大精品欧美一区二区区| 91蝌蚪视频在线观看| 亚洲成人福利网站| av在线手机播放| 亚洲精品无码人妻无码| 99精品视频播放| 福利在线不卡| 亚洲综合中文字幕国产精品欧美 | 国产国拍精品视频免费看| 欧美日韩另类在线| 色哟哟国产精品一区二区| 99热国产这里只有精品无卡顿"| 国产免费精彩视频| 亚洲女同一区二区| 亚洲美女视频一区| 欧美亚洲一二三区| 日韩免费无码人妻系列| 国产亚洲成AⅤ人片在线观看| 婷婷亚洲视频| 国产精品内射视频| AV不卡在线永久免费观看| 欧美午夜视频在线| 久久精品亚洲热综合一区二区| 91精品啪在线观看国产60岁| 2021国产精品自产拍在线| 国产精品专区第1页| 国产精品美女免费视频大全| 色首页AV在线| 亚洲中文字幕国产av| 国产精品高清国产三级囯产AV| 人妻中文字幕无码久久一区| 欧美视频在线观看第一页| 亚洲va视频| 国产高清在线精品一区二区三区 | 毛片免费网址| 日本福利视频网站| 国产高颜值露脸在线观看| 97在线免费视频|