歐陽靜 馮光璐 舒彧 李然 黃莉雅

摘? 要:本文從電網制度領域智能化文本解析角度出發,提出一種針對結構化、非結構化文本數據詞庫生成算法應用。該算法通過采集貴州電網制度數據,融合多種語義解析詞庫算法,實現對各種制度文檔詞庫的抽取,形成電網制度領域的基礎詞庫,同時實現新詞發現,為后期制度領域的信息化、智能化建設提供統一、可復用的詞庫數據支持,從而有效的提升數據利用率。
關鍵詞:詞庫;電網;智能化;語義解析
0引言
本文從電網制度文檔存儲方式和表現形式入手進行考察,提出一種基于結構化、非結構化文本數據構建語義詞庫的方法應用。該方法應用能夠從海量文本數據中抽取具有相似詞性、詞義的詞組構建成支撐語義解析的詞庫,從而為電網專業知識庫構建提供底層詞庫支撐,同時為相關智能搜索提供便捷、有效、智能化的語義詞庫基礎,尤其是制度文檔的語義解析與搜索應用。為電網公司人工智能技術的應用提供一種語義理解方向的底層技術參考。
1文檔現狀分析
1.1 結構化文本文檔
文本數據承載企業巨量運營信息,是公司知識沉淀與變現的重要來源,支撐創新驅動。OA郵件、發文、工作方案、工單等文本數據,承載了企業巨量運營信息,蘊含了巨量隱性知識價值。通過對這些文本數據挖掘,有助于公司知識資產持續沉淀與變現,是“十三五”創新驅動規劃中五大創新的重要支撐。
1.2 非結構化文檔
本次研究中,采集了貴州電網的多種數據,并根據數據的不同情況,分別應用到了NLP中的不同領域,包括OA郵件發文數據、it設備臺賬、工單、操作票等。
2詞庫概述
2.1 詞庫在NLP任務中的作用
詞庫在NLP中的作用主要有以下幾個方面:構建文本特征向量、分詞、實體識別、實體關系抽取、知識圖譜的基礎組成等。
2.2 基于詞庫的典型方法
2.2.1 獨熱編碼與詞嵌入
獨熱編碼即One-Hot編碼,又稱一位有效編碼,其方法是使用N位狀態寄存器來對N個狀態進行編碼,每個狀態都有它獨立的寄存器位,并且在任意時候,其中只有一位有效。在機器學習中,常常遇到分類型特征,即不能用連續的數值表示的特征,貴州電網的文本集合就可以抽取為這樣的特征。這些特征值并不是連續的,而是離散的,無序的。
2.2.2 詞袋模型
詞袋模型假設我們不考慮文本中詞與詞之間的上下文關系,僅僅只考慮所有詞的權重。而權重與詞在文本中出現的頻率有關。在詞袋模型統計詞頻的時候,可以使用sklearn中的CountVectorizer。由于大部分文本都只會用詞匯表中很少一部分的詞,因此詞向量中有大量的0,也就是說詞向量是稀疏的。因此在實際應用中一般使用稀疏矩陣來存儲。
2.2.3 詞頻與逆向文本詞頻
TF-IDF模型(term frequency–inverse document frequency,詞頻與逆向文本頻率)是:TF*IDF。TF表示詞條在文檔d中出現的頻率。IDF(inverse document frequency,逆向文件頻率)的主要思想是:如果包含詞條t的文檔越少,也就是n越小,IDF越大,則說明詞條t具有很好的類別區分能力。如果某一類文檔C中包含詞條t的文檔數為m,而其他類包含t的文檔總數為k,顯然所有包含t的文檔數n=m+k,當m大的時候,n也大,按照IDF公式得到的IDF的值會小,就說明該詞條t類別區分能力不強。
3生成詞庫的方法
3.1 新詞發現
新詞是一個最近鑄造的發明詞或者詞的重新組合。本次研究采用了基于統計的詞關聯性信息與統計特征與詞法特征相結合的新詞發現方法。對電網預料進行分詞,將在兩停用詞間的相鄰字串兩兩組合,根據組合后的字串頻率統計取得新詞候選串,再通過組合成詞規則進行篩選獲得候選新詞,最后通過詞的鄰接域變化特性去除垃圾串獲得新詞。
在構建電網詞庫時,首先假設整個電網領域的詞語都是“未登錄詞”,使用上述方式進行成詞的抽取,最后與已經真實存在的電網詞庫進行交叉對比校驗,以結果來動態擴充詞庫。
3.2 候選詞結構制定
由于電網領域詞語的最大長度無法在初始化時確定,因此,在詞的結構上,使用N-gram統計模型。其主要思想是:一個單詞的出現與N-gram模型建立在一種假設前提下,即假設第n個詞的出現只與前面n-1個詞相關,并且與其他任何詞都不相關,得到的各個詞出現的概率的乘積就是整句的概率。
3.3 詞向量方法
Word embedding指的是將詞轉化成一種分布式表示,又稱詞向量。分布式表示將詞表示成一個定長的連續的稠密向量。
分布式表示優點:
(1)詞之間存在相似關系:
(2)包含更多信息:
詞向量能夠包含更多信息,并且每一維都有特定的含義。在采用one-hot特征時,可以對特征向量進行刪減,詞向量則不能。
本研究采用跳字模型和連續詞袋模型融合應用方式實現。
跳字模型。在跳字模型中,我們用一個詞來預測它在文本序列周圍的詞。例如,給定文本序列”the”,“man”,“hit”,“his”,和”son”,跳字模型所關心的是,給定”hit”,生成它鄰近詞“the”,“man”,“his”,和”son”的概率。在這個例子中,”hit”叫中心詞,“the”,“man”,“his”,和”son”叫背景詞。由于”hit”只生成與它距離不超過2的背景詞,該時間窗口的大小為2。
假設詞典大小為|V|,我們將詞典中的每個詞與從0到|V|?1的整數一一對應:詞典索引集V={0,1,…,|V|?1}。一個詞在該詞典中所對應的整數稱為詞的索引。給定一個長度為T的文本序列中,t時刻的詞為w(t)。當時間窗口大小為m時,跳字模型需要最大化給定任一中心詞生成背景詞的概率:
連續詞袋模型。連續詞袋模型與跳字模型類似。與跳字模型最大的不同是,連續詞袋模型中用一個中心詞在文本序列周圍的詞來預測該中心詞。例如,給定文本序列”the”,“man”,“hit”,“his”,和”son”,連續詞袋模型所關心的是,鄰近詞“the”,“man”,“his”,和”son”一起生成中心詞”hit”的概率。
假設詞典大小為|V|,我們將詞典中的每個詞與從0到|V|?1的整數一一對應:詞典索引集V={0,1,…,|V|?1}。一個詞在該詞典中所對應的整數稱為詞的索引。給定一個長度為T的文本序列中,t時刻的詞為w(t)。當時間窗口大小為m時,連續詞袋模型需要最大化由背景詞生成任一中心詞的概率:
4結語
面對能源互聯網所帶來的數據海量化的趨勢,電網日常工作中產生的結構化、非結構化數據日益增多,為解決對海量數據面臨的多次重復訓練的問題,電網各領域信息系統建設數據重復利用問題,本章提出構建一種針對電網制度數據的詞庫生成方法,在制度領域實現了底層知識數據的詞庫構建,有效的為上層智能應用,如語義解析、智能搜索、數據分析等提供了統一、快速、可復用的電網詞庫能力支撐,同時智能化的實現新詞發現,實現了實時地對數據進行訓練的功能,表明該方法能夠有效支撐電網智能化體系構建。
參考文獻
[1]戴彥,王劉旺,李媛,顏擁,韓嘉佳,文福拴.新一代人工智能在智能電網中的應用研究綜述[J].電力建設,2018,39(10):1-11.
[2]奉國和 , 鄭偉. 國內中文自動分詞技術研究綜述[J]. 圖書情報工作, 2011, (02), pp.41-45CNKI
歐陽靜(1986.5-33),漢,貴州貴陽人,學士,貴州電網有限責任公司信息中心助理工程師,主要從事信息系統建設與研究。
[基金項目]本文為貴州電網有限責任公司信息中心科技類項目“基于非機構化文檔內容自動識別技術的電網制度百科平臺研發及應用”(項目編號:066700KK52180027)的研究成果。