999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自然語言處理技術在電網預案生成中的應用

2019-10-22 01:40:24許鑫
云南電力技術 2019年4期

許鑫

(云南電網有限責任公司玉溪供電局,云南 玉溪 653100)

0 前言

當前在地區電網系統中,檢修預案依然是通過人工編寫的方式產生的。將自然語言處理技術應用于電網預案文書的生成,替代人工操作,提高編寫預案的工作效率。自然語言處理技術可以從文本中提取信息,對信息進行分析處理,發現有用的知識。在智能電網的建設中,由于系統數據量太大,并且缺乏分析利用的方法,導致無法為決策提供有效的支持,不利于電網領域知識的發現和表示。基于本體語言的知識表示法在很多領域中得到廣泛的應用。將本體語言應用于電網領域知識表示,構建電網知識本體,有利于知識的提取和利用。目前本體的構建大部分采用人工方式完成,本體編輯工具減少了本體構建的難度[1]。

自然語言處理技術包括自然語言理解和自然語言生成,需要對語料庫進行學習。自然語言理解通過中文分詞,詞性標注,句法分析,語義分析,產生相關模型。自然語言生成通過內容規劃,句子規劃和表層實現,自動生成相關文書。主要有模板生成技術、Schema模式生成技術、RST短語規劃擴展技術和屬性特征生成技術[2]。利用人工智能自動生成預案,為停電檢修工作提供指導,再通過人工檢查進行修改,最終形成解決方案。這種將智能與人工相結合的方式,是十分必要和有意義的。

1 系統設計

提出了一種基于自然語言處理的電網預案自動生成的解決方案。系統的文書是電網停電調度應急處置預案,最終要求實現地區電網預案的自動生成。系統主要分為電網預案分析模塊、電網知識庫管理模塊和電網預案生成模塊。電網預案分析實現了對預案文本的分析和理解,是構建領域知識庫的基礎。電網知識庫管理實現了對預案數據的查詢和更新,為預案文本生成提供相關數據。電網預案生成實現了預案文本的自動生成,是系統的重要功能模塊。

電網預案系統總體結構如圖1所示。

圖1 電網預案系統總體結構

預案文書解析包括語義分析和語義推理兩個部分[3]。語義分析通過對文本進行詞法分析和句法分析,實現信息的自動抽取,生成淺層語義描述。語義推理通過規則的關聯映射,推理得到深層語義描述。系統獲取預案文本的語義知識,建立領域本體知識庫,支持電網應急檢修預案的構建。電網預案構建總體流程如圖2所示。

圖2 電網預案構建總體流程

1.1 電網預案分析模塊

電網預案分析模塊通過詞法分析、語法分析和語義分析實現實體關系的抽取。本體構建通常需要經過預處理、術語抽取、概念抽取、層次關系抽取、非層次關系抽取,最終形成本體。從文本中挖掘本體,進行語義角色標注,再由概念和核心動詞形成關系三元組[4]。對抽取到的實體關系三元組,使用本體構建工具生成本體模型,構建電網領域知識圖譜。

該模塊提供了對電網預案文書進行分析的功能,分析結果通過系統展現給用戶。電網預案文書具有特定的格式,每個句子中包括了一些關鍵信息,例如站點名稱和停電主變等。對文本進行語義標注、合并標注,得到關于站點、設備、時間等信息,生成淺層語義分析結果。

針對預案文書格式的特點進行關鍵信息的提取。對文本進行語段、語句的劃分,去除無關的信息,將文本轉換為有意義的單句。采用正則表達式和自定義詞典進行分詞,得到文本分詞結果。使用正則表達式匹配文本中的詞語,匹配成功則將其添加到自定義詞典。結合自定義詞典對文本進行分詞,達到了比較好的分詞效果。通過給詞語添加語義類別標簽,對預案文本內容進行抽象,發現本體概念之間的層次關系和非層次關系。其中上下位關系是用上位詞標注下位詞的語義類別,例如“變電站”的上位詞是“站點”,“主變”、“母線”的上位詞是“設備”。

通過建立結構化的本體和非結構化的知識之間的聯系,在領域本體的基礎上,形成完整的事件表達。根據檢修事件關鍵詞,形成關聯規則。通過關聯分析,形成實體概念關系,實現語義推理。電網預案語義推理流程如圖3所示。

圖3 電網預案語義推理流程

1.2 電網知識庫管理模塊

知識庫是人工智能和數據庫的結合,使基于知識的系統更加智能化。建立大量有代表性的語料庫,對語料庫進行加工,從中獲取所需的知識,挖掘其中的規律和特征,建立相應的模型。在知識庫中按照一定格式存儲自然語言理解模塊傳遞過來的知識表達[5]。知識庫管理模塊用來集中統一進行電網領域知識文檔的信息管理。

通過對語料庫的深入理解,對分析結果進行篩選,將數據保存到知識庫中,實現知識庫的查詢和更新。電網領域知識庫具有較好的層次結構、信息組織能力和知識表達能力,可以用來表達知識之間復雜的語義關系。電網領域本體包括概念、關系、屬性和實例等基本元素,可以有效地表達電網領域知識。電網領域本體的層次模型如圖4所示。

圖4 電網領域本體層次模型

對電網領域概念進行歸納總結,形成結構化的分類體系。抽取實體關系三元組,對獲取的本體概念關系進行篩選。使用protege本體開發工具構建電網領域本體。通過Jena從文件中讀取本體到模型,實現對本體模型的操作。對文本中的本體實例進行標注,實現語義推理的目的。

電網預案領域本體的建立,是預案文書語義分析的基礎。通過對本體構建技術的研究,完成電網領域知識庫的構建。系統利用語義模型,實現預案文書的自動生成,提高了預案生成的效率。

1.3 電網預案生成模塊

通過自然語言理解形成了文本的深層表達,自然語言生成應用文本結構模型和文本意義模型,實現文本表層表達。文本結構模型生成文本的主框架,文本意義模型主要確定文本的內容[6]。電網預案生成模塊獲取知識庫和輸入信息,基于生成規則和本體模型,利用模式生成技術,實現地區電網檢修預案的自動生成。

該模塊包含了電網預案生成的具體實現過程,基于電網領域知識庫提供的信息,自動生成電網預案文書。系統通過關聯分析實現語義推理,完成了預案文書的解析。預案文書解析完成之后,對信息進行加工和選擇,將獲取的知識存儲到知識庫中。預案生成是對獲取到的系統數據,通過關鍵詞匹配關聯規則,查找知識庫獲取語義知識,使用模式生成技術,生成相應的電網檢修預案。

系統采用自然語言生成體系結構來實現。自然語言生成體系結構包括內容規劃、句子規劃和表層實現三個部分。內容規劃根據所要生成文本的內容來確定文本的結構。由于電網預案的內容格式相對固定,可以采用Schema方法來進行內容規劃。經過內容規劃生成的語義信息還不是真正意義上的句子,必須對其進行整理。句子規劃的主要功能是對文本結構樹中的節點進行優化聚合操作,使得其結構更加合理。表層實現就是將句子規劃輸出的文本結構樹轉化成最終的文本。電網預案文本的句法變化有限,可以結合使用模板生成方法,生成符合規范的預案文書。

2 實現方案

電網預案分析模塊、電網知識庫管理模塊和電網預案生成模塊共同組成了整個電網預案系統。系統以預案文書生成為目標,指導文書理解的過程,知識庫將文書理解和生成連接起來。

實現檢修預案的自動生成,需要使用自然語言處理技術,對大量的歷史預案進行分析,抽取重要信息,從中發現和表示電網領域知識。系統將選取的部分檢修預案文書轉換成文本文件,采用HanLP自然語言處理包進行數據預處理,添加自定義詞典,實現分詞和詞性標注,結合句法分析和語義分析,添加語義標注,抽取關鍵詞和關鍵短語。使用Dependency Viewer可視化工具查看依存句法分析效果[7]?;诰浞ǚ治龊驼Z義分析結果,實現實體關系三元組的抽取,利用protege手工構建本體模型。

文書理解模塊將獲取到的信息轉化為語義知識表達,存儲在知識庫中,知識庫為文書生成模塊提供所需信息。通過對知識庫模塊提供的信息進行推理,人工提供必要的信息,傳遞給文書生成模塊。系統使用Schema模式生成技術,基于規則和本體模型,從知識庫中獲取相關數據,添加語法和語義信息,最終實現檢修預案文書的自動生成。

電網預案系統采用分層架構實現,分為表現層、業務邏輯層和數據訪問層。對系統功能模塊進行劃分,提高了模塊的內聚性,降低了模塊之間的耦合性,能夠更好地適應軟件需求的變化[8]。系統架構如圖5所示。

2.1 電網預案分析模塊的實現

電網預案分析模塊對預案數據進行分析,從中獲取實體概念關系,構建電網領域知識庫。該模塊主要包括信息提取和本體匹配。信息提取是從預案文書中提取有效信息。根據領域詞典進行詞語切分,參考領域本體實現語義標注,通過合并標注完成短語識別。在信息提取的基礎上,通過規則實現本體匹配,確定本體的實例,抽取實體和實體關系。

信息提取由詞法分析、語義標注、短語識別和關鍵詞識別部分組成。詞法分析是對文本進行分詞和詞性標注。語義標注是利用領域本體,給分詞添加語義類別標簽。短語識別是對語義標簽進行合并,形成新的短語。關鍵詞識別是從文本的動詞中識別出關鍵詞。本體匹配是將信息抽取的結果,結合關聯規則,對本體進行匹配。目的是將輸入信息和規則進行匹配,得出所需要的本體實例,最終將輸入信息填入到本體實例中[9]。

圖5 電網預案系統架構

2.2 電網知識庫管理模塊的實現

系統利用關聯規則和語義模型,通過詞法分析、句法分析和語義分析,獲取實體和實體關系,形成電網領域知識。實現從非結構化的文本中抽取結構化的領域知識,從而利用領域知識構建領域本體。電網知識庫管理模塊實現了對電網領域本體的查詢和更新操作,可以從中獲取實體和實體關系,得到結構化的領域知識。

該模塊包括本體構建、本體查詢和本體更新。本體構建是通過對電網預案進行分析,抽取語義關系,添加到知識庫中,實現領域本體的構建。本體查詢是從知識庫中獲取語義知識,查詢實體和實體之間的語義關系,將其作為文本生成的基本信息。本體更新是從預案文本中抽取新的語義關系,添加到知識庫中,實現領域知識庫的更新擴展。

2.3 電網預案生成模塊的實現

電網預案生成模塊建立在電網領域知識庫的基礎之上,通過系統輸入的數據,匹配關聯規則和語義模型,獲取領域本體知識。系統獲取電網預案相關數據,根據本體實例查詢知識庫獲取語義知識。通過本體查詢獲取相關的實體關系,使用自然語言生成技術,實現電網預案的自動生成。

預案文本生成是從句子生成、段落生成到文本生成的過程。通過內容規劃、句子規劃和表層實現,生成符合規范的電網預案文書。該模塊由結構生成、結構優化和文本實現三個部分組成。結構生成是根據文本內容來確定文本結構,使用Schema方法來描述文本結構,確定語句的結構和順序,生成文本結構樹。結構優化是根據規則對文本結構樹中的節點進行優化聚合操作,確定語義成分的位置,構造新的文本結構樹。通過添加句子的修飾成分,產生更加通順的句子。文本實現是對文本結構樹的內容進行線性輸出,將深層的語義信息轉化為表層的文本實現。

3 結束語

當前自然語言處理技術應用廣泛,在電網領域利用現有的語料庫,進行檢修預案文本的知識獲取,構建電網領域本體,形成領域知識圖譜,為電網系統的應用提供支持[10]。目前人工智能還處于初期發展水平,利用自然語言處理技術分析文本數據,提供解決方案和決策支持,再根據實際情況進行人工檢查修改,是一種有效可行的方法。

主站蜘蛛池模板: 国产精品免费入口视频| 国产免费福利网站| 69av免费视频| 91福利片| 中国一级特黄大片在线观看| 女高中生自慰污污网站| 强乱中文字幕在线播放不卡| 久久亚洲中文字幕精品一区| 无码'专区第一页| 四虎影视无码永久免费观看| 国产视频你懂得| 无码中文字幕精品推荐| 国产精品视频猛进猛出| 国产手机在线小视频免费观看| 国产极品嫩模在线观看91| 区国产精品搜索视频| 国产精品无码AⅤ在线观看播放| 午夜福利免费视频| 国产在线八区| 美女被操91视频| 青青草原国产| 又黄又爽视频好爽视频| 精品中文字幕一区在线| 中文字幕亚洲综久久2021| 无码高潮喷水专区久久| 亚洲第一成年网| 中文毛片无遮挡播放免费| 草草影院国产第一页| 精品午夜国产福利观看| AV色爱天堂网| 亚洲欧美精品在线| 亚洲精品另类| 网友自拍视频精品区| 国产v精品成人免费视频71pao | 国产免费观看av大片的网站| 久久国产黑丝袜视频| 视频二区欧美| 国产亚洲精| 免费毛片视频| 午夜啪啪福利| 99无码中文字幕视频| 国产一区二区三区日韩精品| 国产女人爽到高潮的免费视频 | 国产网站一区二区三区| 日韩黄色精品| 欧美国产日韩另类| 久久综合色视频| 国产91av在线| 91精品在线视频观看| 亚洲视频四区| 一级片免费网站| 天堂网国产| 国产福利小视频高清在线观看| 91久久精品日日躁夜夜躁欧美| 无码专区第一页| 亚洲区欧美区| 青青草原国产| 日韩在线欧美在线| 成人免费视频一区| 无码电影在线观看| 中文字幕永久在线观看| 国产成人亚洲日韩欧美电影| 久久婷婷六月| 国产视频资源在线观看| 国产流白浆视频| 色悠久久久久久久综合网伊人| 欧美精品导航| 国产精品任我爽爆在线播放6080| 亚洲首页在线观看| 无码AV日韩一二三区| 97视频在线精品国自产拍| 欧美激情成人网| 国产成人综合在线视频| 亚洲 成人国产| 成人午夜天| 久久综合干| 国产成人无码久久久久毛片| 九色91在线视频| 久久免费视频6| 欧美天堂在线| 亚洲精品自产拍在线观看APP| 国产欧美日韩精品综合在线|