999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

配網工程項目詞庫創建及分詞探索

2016-05-30 07:21:20張文露譚騫章光東
企業技術開發·中旬刊 2016年11期
關鍵詞:文本挖掘

張文露 譚騫 章光東

摘 要:隨著國網公司信息系統的完善和業務數據的積累,公司各業務部門開展了數據探索和分析,以支撐逐年增加投資、擴大規模的配網工程項目建設工作。但是由于各省市公司的管理模式不同,導致配網工程項目相關數據一致性較差,可用于支撐分析的特征值較少。因此論文基于文本挖掘方法創建符合國網公司特性的工程詞庫,彌補過往歷史數據的缺失和不完整,使歷史文本數據能夠支撐后續數據分析工作。

關鍵詞:文本挖掘;配網工程;詞庫創建

中圖分類號:TP391 文獻標識碼:A 文章編號:1006-8937(2016)32-0072-02

1 研究背景

配網工程項目具有項目類型眾多、物資使用種類集中的特點,隨著國網信息化系統建設的逐漸完善,出現聯合數據分析的需求,然而由于各網省公司項目管理水平的差異,配網項目在各網省公司的管理模式不同。

部分省公司按照區縣對配網項目進行打包管理,部分省公司則按照單體項目進行管理。但是從整體來看,針對配網工程項目的管理是松散的,直接導致了配網工程項目的可用特征較少,無法配合其他數據,以工程項目為對象進行聯合數據分析。但是配網工程項目的命名包含一定規律,可以通過文本挖掘的方法從工程項目名稱中提取有效的項目屬性特征,以描述工程建設性質和建設內容。然而目前較為成熟的分詞函數都依賴于對應的專業詞庫,即基于一本專業“詞典”自動完成名詞的分解,所以提取配網工程項目特征標簽的首要任務就是構建專業的配網電網詞庫,以支持后期分詞函數的應用,完成對配網工程項目名稱的分詞。

2 詞庫構建原理

傳統的詞典創建方法通常認定出現頻數超過某個閾值的文本片段即為詞典的組成部分,然而并沒有考慮到該文本片段是否僅為一個詞還是由多個詞構成的詞組,因此為了克服傳統方法的缺點,需要綜合分析自然語言的內部凝聚程度和外部自由運用程度兩個方面去構建配網專業詞庫。其中詞語的內部凝聚程度指的是一個文本片段成詞的概率,凝聚程度越大說明該文本片段越可能成為一個詞即進入配網專業詞庫,如“維修工程”出現的概率為“維修工”出現概率的25倍,這說明“維修工程”更可能是一個具有實際意義的配網專業詞匯。

外部自由運用度指的是定義該詞語片段與左鄰、右鄰詞語之間的相關程度,計算該文本的左鄰字和右鄰字所能夠提供的信息熵,信息熵越大,說明該文本可提供的信息量越大,該文本的左右鄰字越豐富,即可以更加自由地運用于各個語言環境中,如“臺區”前后可以添加各類文本片段成詞,然而“變電臺區”、“新增臺區”、“臺區布點”等詞卻僅能夠以單獨形態成詞,即更有可能成為真正有區分度的有實際意義的配網專業詞匯。

用p(x)代表詞語的凝聚程度,P(AB)代表該文本片段在整個文本中出現的概率,P(A),P(B)代表子文本片段在整個文本中出現的概率,凝聚度公式如下:

如果僅從內部凝聚程度考慮,有可能出現找到部分詞的情況,該詞內部凝聚程度很高,但并不包含完整的文本片段,如變電、開閉等。同樣,如果僅從外部自由程度去考慮,很有可能提取到相當多的連接字,該連接字可以很大程度上自由地運用于文本環境中,如的、了等。因此模型首先需要對輸入文本進行預處理,將一列項目名稱整合成一段緊密相連的文本片段、去掉字母、數字和特殊符號,將預處理后的文本按從前至后和從后至前兩個方向進行單字切割,分別生成單字出現字頻表。

然后計算并逐步檢驗可能成詞的文本片段的內部凝聚程度和外部自由運用程度兩個指標,結合實際業務需求,在程序中設定合適的內部凝聚度閾值和左右信息熵閾值,按照業務規則最終篩選得到既準確又有現實意義的配網電網專業詞庫字典,比如針對項目名稱中各省地市公司的地理位置詞語,由于缺乏能夠揭示工程建設性質和建設內容的實際意義,所以即便可以滿足內部凝聚程度和外部自由運用程度兩個指標的要求,也不能作為最終的詞語進入配網電網專業詞典。

運用R語言實現以上步驟,該階段的輸入數據是一列包含配網電網特征關鍵詞的項目名稱,輸出是一列可能成詞的文本即配網電網專業詞庫字典,該輸入輸出的數量并非一一對應的關系,如圖1所示。

3 分詞原理

運用R語言中的結巴(jiebaR)工具包,利用其支持的最大概率法(Maximum Probability),隱式馬爾科夫模型(Hidden Markov Model),索引模型(Query Segment),混合模型(Mix Segment)共四種分詞模式的功能,首先引入并應用已經創建完成的配網專業詞典,替換掉結巴(jiebaR)工具包中的默認詞典,接下來讀取項目名稱數據集進行分詞。該階段的輸入數據是一列包含配網電網特征關鍵詞的文本,輸出是對應項目名稱的一系列標簽,如圖2所示。

基于已創建的配網專業詞典,可以將復雜的項目名稱拆分成為幾個關鍵詞的堆疊,并且根據需求,配置個性化選擇規則,例如選擇幾個關鍵詞中出現頻率最高的關鍵詞作為標簽形成初步標簽。由于分詞會輸出較多標簽,為了防止標簽冗雜,工程特征指示不清晰,本文通過聚類分析發現并聚合具有相似物資領用特征的項目群,隨后結合業務理解對這些項目群進行命名,即完成了標簽的合并和刪減。此過程使用K-Means聚類方法作為無監督式的機器學習方法,在未知樣本類別的情況下,通過計算樣本彼此間的歐式距離或余弦距離來估計樣本所屬類別。

K-Means是一種自下而上的聚類算法,是典型的基于距離的聚類算法,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大。該算法認為簇是由距離相近的若干對象組成的,因此希望最終得到緊湊的簇。該算法接受參數k,首先將事先輸入的n個數據對象隨機分成k個簇,為使同一類中的對象相似程度較高,不同類中的對象相似程度較低。具體計算步驟如下:

①隨機選定k個中心作為起點;

②將每個數據點歸類到離它最近的中心點所代表的簇中;

④重復步驟②~③,直到滿足收斂要求,即該k個中心點不再變化。

結合業務理解給定k=44,即給定44個具有不同項目工程建設內容和建設性質的項目群,通過聚類分析的方法,輸入對應于各個項目名稱的不同物料小類的領料數據和下達預算金額,最終輸出得到44個項目群的序號標簽,隨后結合業務理解,根據項目工程實際特征,對這44個項目群分別進行命名即分別貼標簽,對貼好的標簽進行人工調整,保留其中能用自然語言表達的并且具有現實意義的標簽名稱,作為提取構建的新的工程項目特征,完成配網工程項目特征屬性的提取和標記,使得即便不同省份對配網項目的管理水平不一致,也可以使用同一維度標尺進行衡量,便于后續與其他數據聯合開展關聯分析。

4 研究結論

首先通過計算自然語言的內部凝聚程度和外部自由運用程度兩個指標可以幫助從冗雜的文本片段中篩選出符合閾值篩選條件的詞語,創建出符合國網公司自身業務特點的專業配網電網詞典,接下來結合文本挖掘工具即可較為簡單地根據個性化選擇規則對項目名稱實現匹配、分詞,提取配網工程項目的特征值,以描述項目特征、建設內容、工程屬性等。另一方面,通過聚類方法可以減少提取特征值的數量,使具有相同工程建設性質和建設內容的項目合并成一個項目群,并基于業務理解為44個項目群分別命名,因此該分詞結果更為標準清晰,同時也簡化了分類維度,有利于支撐后續與其他數據之間的聯合分析。

參考文獻:

[1] 鄧建,李夕兵,古德生.結構可靠性分析的多項式數值逼近法[J].計算力 學學報,2002(11):26-30.

[2] 李慶陽,王能超,李大義.數值分析[M].武漢:華中工學院出版社,1982.

[3] 王淑云,方保镕,王如云.數值分析方法[M].南京:河海大學出版社,1996.

[4] I.Babuska,W.C.Rheinbold.Error estimates of adaptive finite element

computations[J].SLAM Journal of Numerical Analysis,1978(4):

736-737.

[5] B.Moller,M.Beer,W.Graf,etal.Fuzzy finite element method and its

application[M].Trends in computational structural mechanics,2001:

529-538.

[6] 劉信恩,肖世富,莫軍.用于不確定性分析的高斯過程響應面模型的設 計點選擇方法[J].計算機輔助工程,2011,20(1):101-105.

猜你喜歡
文本挖掘
基于貝葉斯分類器的中文垃圾短信辨識
科技資訊(2017年5期)2017-04-12 15:18:52
基于潛在特征的汽車評論要素挖掘
基于評論信息的淘寶服裝類評分體系優化
商情(2016年32期)2017-03-04 00:27:28
數據挖掘技術在電站設備故障分析中的應用
軟件導刊(2016年12期)2017-01-21 15:55:21
基于LDA模型的95598熱點業務工單挖掘分析
文本數據挖掘在電子商務網站個性化推薦中的應用
商(2016年34期)2016-11-24 16:28:51
從《遠程教育》35年載文看遠程教育研究趨勢
基于文獻的中西醫結合治療腦梗死藥物使用情況分析
基于改進Hadoop云平臺的海量文本數據挖掘
慧眼識璞玉,妙手煉渾金
主站蜘蛛池模板: 欧美另类第一页| 日本免费高清一区| 91网站国产| 色综合激情网| 91亚洲精品国产自在现线| 美女国产在线| 熟妇人妻无乱码中文字幕真矢织江 | 日韩在线1| 强奷白丝美女在线观看| 国产成人高清在线精品| 熟女成人国产精品视频| 无码'专区第一页| 国产在线无码av完整版在线观看| 91精品小视频| 久久99国产精品成人欧美| 欧美成人午夜影院| 在线无码av一区二区三区| 另类专区亚洲| 91久久偷偷做嫩草影院| 午夜电影在线观看国产1区| 午夜欧美在线| 国产成人高清精品免费| 国产裸舞福利在线视频合集| 日韩午夜福利在线观看| 精品一区二区三区视频免费观看| 国产素人在线| 手机在线国产精品| 97视频在线精品国自产拍| 在线观看免费黄色网址| 伊人久综合| 666精品国产精品亚洲| 国产无码网站在线观看| 老色鬼欧美精品| 国产成人精品无码一区二| 国产波多野结衣中文在线播放| 国产成人乱码一区二区三区在线| 色香蕉影院| 欧美成人A视频| 日本三级黄在线观看| 中文字幕有乳无码| 国产正在播放| 国产在线精品人成导航| 欧美精品影院| 伊人福利视频| 久久99这里精品8国产| 久久中文字幕2021精品| 久久毛片基地| 国产在线八区| 无码网站免费观看| 亚洲男人在线天堂| 亚洲Aⅴ无码专区在线观看q| 777午夜精品电影免费看| 国产精品女在线观看| 精品福利视频网| 538精品在线观看| 久久免费成人| 欧美色视频日本| 精品少妇人妻无码久久| 日本高清在线看免费观看| 亚洲第一色视频| 亚洲美女久久| 狠狠v日韩v欧美v| 毛片在线播放a| 久久精品66| 四虎影视库国产精品一区| 亚洲天堂视频在线播放| 手机精品福利在线观看| 4虎影视国产在线观看精品| 麻豆精品久久久久久久99蜜桃| 亚洲中文字幕在线观看| 国产精品私拍在线爆乳| 亚洲福利一区二区三区| 久久亚洲综合伊人| 欧洲欧美人成免费全部视频| 亚洲人免费视频| 午夜电影在线观看国产1区| 激情爆乳一区二区| 精品伊人久久久久7777人| 欧美激情综合| 久久99精品久久久大学生| 亚洲国产天堂久久九九九| 色综合久久无码网|