999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

人工智能詞庫構建技術在貴州電網制度文檔語義解析中的應用研究

2019-09-10 07:22:44歐陽靜馮光璐舒彧李然黃莉雅
中國電氣工程學報 2019年29期
關鍵詞:智能化

歐陽靜 馮光璐 舒彧 李然 黃莉雅

摘? 要:本文從電網制度領域智能化文本解析角度出發,提出一種針對結構化、非結構化文本數據詞庫生成算法應用。該算法通過采集貴州電網制度數據,融合多種語義解析詞庫算法,實現對各種制度文檔詞庫的抽取,形成電網制度領域的基礎詞庫,同時實現新詞發現,為后期制度領域的信息化、智能化建設提供統一、可復用的詞庫數據支持,從而有效的提升數據利用率。

關鍵詞:詞庫;電網;智能化;語義解析

0引言

本文從電網制度文檔存儲方式和表現形式入手進行考察,提出一種基于結構化、非結構化文本數據構建語義詞庫的方法應用。該方法應用能夠從海量文本數據中抽取具有相似詞性、詞義的詞組構建成支撐語義解析的詞庫,從而為電網專業知識庫構建提供底層詞庫支撐,同時為相關智能搜索提供便捷、有效、智能化的語義詞庫基礎,尤其是制度文檔的語義解析與搜索應用。為電網公司人工智能技術的應用提供一種語義理解方向的底層技術參考。

1文檔現狀分析

1.1 結構化文本文檔

文本數據承載企業巨量運營信息,是公司知識沉淀與變現的重要來源,支撐創新驅動。OA郵件、發文、工作方案、工單等文本數據,承載了企業巨量運營信息,蘊含了巨量隱性知識價值。通過對這些文本數據挖掘,有助于公司知識資產持續沉淀與變現,是“十三五”創新驅動規劃中五大創新的重要支撐。

1.2 非結構化文檔

本次研究中,采集了貴州電網的多種數據,并根據數據的不同情況,分別應用到了NLP中的不同領域,包括OA郵件發文數據、it設備臺賬、工單、操作票等。

2詞庫概述

2.1 詞庫在NLP任務中的作用

詞庫在NLP中的作用主要有以下幾個方面:構建文本特征向量、分詞、實體識別、實體關系抽取、知識圖譜的基礎組成等。

2.2 基于詞庫的典型方法

2.2.1 獨熱編碼與詞嵌入

獨熱編碼即One-Hot編碼,又稱一位有效編碼,其方法是使用N位狀態寄存器來對N個狀態進行編碼,每個狀態都有它獨立的寄存器位,并且在任意時候,其中只有一位有效。在機器學習中,常常遇到分類型特征,即不能用連續的數值表示的特征,貴州電網的文本集合就可以抽取為這樣的特征。這些特征值并不是連續的,而是離散的,無序的。

2.2.2 詞袋模型

詞袋模型假設我們不考慮文本中詞與詞之間的上下文關系,僅僅只考慮所有詞的權重。而權重與詞在文本中出現的頻率有關。在詞袋模型統計詞頻的時候,可以使用sklearn中的CountVectorizer。由于大部分文本都只會用詞匯表中很少一部分的詞,因此詞向量中有大量的0,也就是說詞向量是稀疏的。因此在實際應用中一般使用稀疏矩陣來存儲。

2.2.3 詞頻與逆向文本詞頻

TF-IDF模型(term frequency–inverse document frequency,詞頻與逆向文本頻率)是:TF*IDF。TF表示詞條在文檔d中出現的頻率。IDF(inverse document frequency,逆向文件頻率)的主要思想是:如果包含詞條t的文檔越少,也就是n越小,IDF越大,則說明詞條t具有很好的類別區分能力。如果某一類文檔C中包含詞條t的文檔數為m,而其他類包含t的文檔總數為k,顯然所有包含t的文檔數n=m+k,當m大的時候,n也大,按照IDF公式得到的IDF的值會小,就說明該詞條t類別區分能力不強。

3生成詞庫的方法

3.1 新詞發現

新詞是一個最近鑄造的發明詞或者詞的重新組合。本次研究采用了基于統計的詞關聯性信息與統計特征與詞法特征相結合的新詞發現方法。對電網預料進行分詞,將在兩停用詞間的相鄰字串兩兩組合,根據組合后的字串頻率統計取得新詞候選串,再通過組合成詞規則進行篩選獲得候選新詞,最后通過詞的鄰接域變化特性去除垃圾串獲得新詞。

在構建電網詞庫時,首先假設整個電網領域的詞語都是“未登錄詞”,使用上述方式進行成詞的抽取,最后與已經真實存在的電網詞庫進行交叉對比校驗,以結果來動態擴充詞庫。

3.2 候選詞結構制定

由于電網領域詞語的最大長度無法在初始化時確定,因此,在詞的結構上,使用N-gram統計模型。其主要思想是:一個單詞的出現與N-gram模型建立在一種假設前提下,即假設第n個詞的出現只與前面n-1個詞相關,并且與其他任何詞都不相關,得到的各個詞出現的概率的乘積就是整句的概率。

3.3 詞向量方法

Word embedding指的是將詞轉化成一種分布式表示,又稱詞向量。分布式表示將詞表示成一個定長的連續的稠密向量。

分布式表示優點:

(1)詞之間存在相似關系:

(2)包含更多信息:

詞向量能夠包含更多信息,并且每一維都有特定的含義。在采用one-hot特征時,可以對特征向量進行刪減,詞向量則不能。

本研究采用跳字模型和連續詞袋模型融合應用方式實現。

跳字模型。在跳字模型中,我們用一個詞來預測它在文本序列周圍的詞。例如,給定文本序列”the”,“man”,“hit”,“his”,和”son”,跳字模型所關心的是,給定”hit”,生成它鄰近詞“the”,“man”,“his”,和”son”的概率。在這個例子中,”hit”叫中心詞,“the”,“man”,“his”,和”son”叫背景詞。由于”hit”只生成與它距離不超過2的背景詞,該時間窗口的大小為2。

假設詞典大小為|V|,我們將詞典中的每個詞與從0到|V|?1的整數一一對應:詞典索引集V={0,1,…,|V|?1}。一個詞在該詞典中所對應的整數稱為詞的索引。給定一個長度為T的文本序列中,t時刻的詞為w(t)。當時間窗口大小為m時,跳字模型需要最大化給定任一中心詞生成背景詞的概率:

連續詞袋模型。連續詞袋模型與跳字模型類似。與跳字模型最大的不同是,連續詞袋模型中用一個中心詞在文本序列周圍的詞來預測該中心詞。例如,給定文本序列”the”,“man”,“hit”,“his”,和”son”,連續詞袋模型所關心的是,鄰近詞“the”,“man”,“his”,和”son”一起生成中心詞”hit”的概率。

假設詞典大小為|V|,我們將詞典中的每個詞與從0到|V|?1的整數一一對應:詞典索引集V={0,1,…,|V|?1}。一個詞在該詞典中所對應的整數稱為詞的索引。給定一個長度為T的文本序列中,t時刻的詞為w(t)。當時間窗口大小為m時,連續詞袋模型需要最大化由背景詞生成任一中心詞的概率:

4結語

面對能源互聯網所帶來的數據海量化的趨勢,電網日常工作中產生的結構化、非結構化數據日益增多,為解決對海量數據面臨的多次重復訓練的問題,電網各領域信息系統建設數據重復利用問題,本章提出構建一種針對電網制度數據的詞庫生成方法,在制度領域實現了底層知識數據的詞庫構建,有效的為上層智能應用,如語義解析、智能搜索、數據分析等提供了統一、快速、可復用的電網詞庫能力支撐,同時智能化的實現新詞發現,實現了實時地對數據進行訓練的功能,表明該方法能夠有效支撐電網智能化體系構建。

參考文獻

[1]戴彥,王劉旺,李媛,顏擁,韓嘉佳,文福拴.新一代人工智能在智能電網中的應用研究綜述[J].電力建設,2018,39(10):1-11.

[2]奉國和 , 鄭偉. 國內中文自動分詞技術研究綜述[J]. 圖書情報工作, 2011, (02), pp.41-45CNKI

歐陽靜(1986.5-33),漢,貴州貴陽人,學士,貴州電網有限責任公司信息中心助理工程師,主要從事信息系統建設與研究。

[基金項目]本文為貴州電網有限責任公司信息中心科技類項目“基于非機構化文檔內容自動識別技術的電網制度百科平臺研發及應用”(項目編號:066700KK52180027)的研究成果。

猜你喜歡
智能化
智能化戰爭多維透視
軍事文摘(2022年19期)2022-10-18 02:41:14
住宅小區弱電智能化工程建設實現
大型公共建筑智能化系統造價控制
智能化的“世界觀”
印刷工業(2020年4期)2020-10-27 02:46:02
印刷智能化,下一站……
印刷工業(2020年4期)2020-10-27 02:45:52
餐廳智能化該如何進行?
中國儲運(2019年5期)2019-05-15 09:37:40
風電智能化時代開啟
能源(2018年10期)2018-12-08 08:02:52
汽車營銷如何智能化?
汽車觀察(2018年10期)2018-11-06 07:05:08
基于“物聯網+”的智能化站所初探
高速公路智能化的前景
中國公路(2017年12期)2017-02-06 03:07:25
主站蜘蛛池模板: 欧美区国产区| 成人在线观看不卡| 2021国产精品自产拍在线| 国产精品无码作爱| 天天操天天噜| 中文字幕色站| 日韩大乳视频中文字幕| 91香蕉视频下载网站| 国产精品手机在线观看你懂的| 亚洲免费福利视频| 狠狠色噜噜狠狠狠狠奇米777| 日本午夜影院| 亚洲系列无码专区偷窥无码| 欧美日韩第三页| 精品久久777| 亚洲国产综合精品中文第一| 久久无码高潮喷水| …亚洲 欧洲 另类 春色| 亚洲国产成人精品青青草原| 她的性爱视频| 91丝袜乱伦| 亚洲人成网站色7799在线播放| 国产视频大全| 色婷婷综合激情视频免费看 | 超碰91免费人妻| a级毛片毛片免费观看久潮| 国产精品分类视频分类一区| 91娇喘视频| 欧美三级视频在线播放| 精品视频一区在线观看| 国产特级毛片| 欧美精品二区| 国产探花在线视频| 九九久久精品免费观看| 爱爱影院18禁免费| 色综合久久无码网| 欧美一区福利| 青青青国产精品国产精品美女| 91啦中文字幕| 91九色国产porny| 欧美日韩成人在线观看| 国产成人精品综合| 日韩精品一区二区三区视频免费看| 伊人婷婷色香五月综合缴缴情| 日韩 欧美 小说 综合网 另类| 黄色网在线| 国产流白浆视频| 国产亚洲高清在线精品99| 亚洲无限乱码一二三四区| 中文字幕亚洲综久久2021| 国产99精品视频| 99久久人妻精品免费二区| 综合色88| 成人综合在线观看| 18禁影院亚洲专区| 免费毛片视频| 色噜噜狠狠狠综合曰曰曰| 2020国产精品视频| 搞黄网站免费观看| 亚洲无码在线午夜电影| 伊人久久婷婷| 亚洲欧美日韩综合二区三区| 91久久性奴调教国产免费| 亚洲中文字幕在线观看| 亚洲国产精品日韩av专区| 69综合网| 国产成人永久免费视频| 亚洲日韩精品欧美中文字幕| 精品伊人久久久香线蕉| 久久人人97超碰人人澡爱香蕉| 东京热一区二区三区无码视频| 一本久道久久综合多人| 国产制服丝袜91在线| 99久久精品免费看国产免费软件| 成人在线第一页| 性69交片免费看| 无码网站免费观看| 五月婷婷丁香色| 国产乱人视频免费观看| 99爱视频精品免视看| 欧美亚洲一区二区三区导航| 久久网欧美|