999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自然語言處理技術和藍光存儲技術的電網數據池構建研究

2022-11-01 06:24:12陳珊珊
電力勘測設計 2022年10期
關鍵詞:特征

陳 駿,劉 敏,陳珊珊,王?飛

(江蘇蘇星資產管理有限公司,江蘇 南京 210000)

0 引言

電網業務數據規模的不斷擴大,對數據池整體性能提出了更高要求[1]。目前學術界的相關研究已經積累了一定的研究成果,文獻[2]利用三維可視化技術方法構建了數據分析模型,提供了較好的分析性能,但是其模型中的數據池儲存容量較小,導致響應速度較慢。文獻[3]根據區塊連接技術進行智能電網數據管理,內容中設計出了較為完善的數據池管理模式,但是由于自然語言處理不到位,所以響應速度慢的問題沒有得到有效改善。將基于可視化技術的數據構建模型和基于區塊連接技術的數據管理模型融入電網數據池構建,致力于改善電網數據池響應速度較慢的問題,對此展開討論。

自然語言處理技術是一門融語言學、計算機科學和數學為一體的科學,將自然語言處理技術應用于電網數據池構建,為用戶簡化了相關使用步驟。藍光儲存技術是一種應用藍色激光,以改變無機物相位的方式對光盤上的存儲載體進行照射與掃描,以此獲取數據信息的一種技術,其優勢在于存儲密度大,存儲能耗低并且介質壽命長,能更加廣泛地應用到相關領域中。

1 電網數據池構建

1.1 獲取電網數據分布式特征

電網業務中的數據結構類型主要包括實時型、關系型以及文本型數據,主要來源是發電、輸電、變電、配電以及用電等環節。其中,實時數據主要是來自電力調度環節,是一種經過綜合處理后得出的數據。關系型數據主要是相關的管理人員進行參考,并完成相應任務的數據,通常與藍光存儲技術相融合,主要是產生于投資統計數據和電能量信息采集[4]。文本型數據一般是依托自然語言處理技術,包括各環節的操作說明、數據類型描述等。通常情況下,電網數據池需要聯合電力發展部門、營銷部門、運檢部門和調控中心等部門的相關參數進行數據分類[5]。電網數據的分布式結構示意圖如圖1所示。

圖1 電網數據分布式結構示意圖

在電力行業的實際發展過程中,電網數據的來源和類型都比較多,包括時間序列數據、文本信息以及圖像視頻等,不同類型數據的特征空間也不同[6]。為了提高電網數據池的數據質量,需要提取相對穩定并且有效的特征[7]。在原始的數據集合中,篩選出相關的特征數據子集進行數據預處理,選定特征子集后,需要判斷數據子集的數據質量,經過雙向搜索后,排除無關特征[8]。將給定數據集設定為Q,在數據集Q中,存在著一個i類型樣本數據集,并且在總數據集中的占比可表示為qi= {q1,q2,q3,…}i=1, 2, 3,…。若數據集特征皆為離散性數據,設定特征子集為C,根據C的取值范圍將Q劃分為e個子集,則二者關系可表達為{Q1, Q2, Q3,…, Qe},若特征子集中的數據樣本在C上的取值范圍相同,則特征子集C的信息評價公式為:

式中:H表示數據集的離散指數;G(C)表示特征子集的信息評價。數值越大,則表示特征子集C中包含的特征信息就越多。在保證數據信息精確性與完整性的前提下,將電網數據通過數學變換得到簡化后的表達方式:

式中:以數據線性特征為基礎,k∈Lt表示原始特征向量;P∈Lk×t為變換矩陣;k'∈Pk表示線性變換后的特征向量。應用式(2)可以將電網數據的分布式特征具體量化,從而為數據池構建提供數據基礎。

1.2 計算數據節點安全等級

電網數據安全是數據池構建效果的主要影響因素,設定電網數據的輸入量與輸出量共同構成了整個電網數據的數據樣本空間,在此空間內的數據通常是輸入量大于輸出量,并且每個具體的數據都可以用向量表示[9]。將樣本空間用線性空間和非線性空間表示,其函數表達式如式(3)所示:

式中:f(y∶λ)為參數λ的函數;λ表示相應的函數線性組合;R表示樣本矩陣。在電網運行過程中,電力負荷是影響電網數據質量的關鍵因素之一,主要受到各種時間、天氣以及經濟指標影響,利用歷史數據信息和相關的特征因素進行預測[10]。其表達式如式(4)所示:

式中:電網數據真實節點的防御等級為wn;被攻擊的概率為u,并且滿足w+u≥1的條件;n表示安全指數。當電網數據的擴展能力滿足分布需求時,電網數據真實節點的期望值可表 達為:

式中:β表示電網數據的發展模塊,則電網數據真實節點安全性的表達式為:

式中:p表示電網數據真實節點的安全等級;a表示相應的數據空間。則電網數據安全可以通過計p的數值來獲取,為數據池構建提供安全等級高的數據。

1.3 利用自然語言處理技術標注數據信息

將自然語言處理技術與藍光儲存技術應用到電網數據池構建中,根據相應的技術原理進行電網數據處理[13]。自然語言處理技術在計算機中通常表現為字符串序列,包括語法分析、語義分析和語用分析等要素[14]。用V = {v1,v2,v3,…,vn}表示語句分詞后的單詞序列集合,詞性序列集合用Y = {y1,y2,y3,…,yn}表示,詞性標注的含義就是在所有相關的語句中,尋找一個對于V來說最優的Y,并且y1是v1的詞性。其中,yi∈ Sy,i=1, 2, 3,…,n,Sy表示詞性集合的標注集。在詞性標注過程中,將完成標注的文本當成是數據樣本集,可觀察層包括詞語序列,隱藏層包括詞性序列,而待標注的詞語通常情況下,在其前后都各有一個或多個非兼類序列標簽,具體如圖2所示。

圖2 待標注的兼類詞序列

根據圖2可以看出,待標注的兼類詞附近都有若干個標簽,以便對數據集進行語義和序列調整。在最終標注結果為所有可能標注序列中最優結果的理論基礎上,則:

式中:Ym表示最終的標注結果集合;P表示被標注的概率。則:

式中:P(V)代表電網數據集中的常數,若式(9)成立,則式(8)變為:

至此,有效將電網數據的文本信息標注問題轉化為公式識別與計算問題。將電網數據的文本文檔信息應用自然語言處理技術進行標注處理,為電網數據池構建提供語義信息。

1.4 運用藍光存儲技術布局數據存儲密度構建數據池

藍光儲存技術包括認證節點、代理節點和存儲節點,認證節點主要負責對電網數據進行反饋信息認證,并設定有效時間;代理節點主要負責將通過認證的電網數據進行請求信息和分發任務管理;存儲節點主要負責將電網數據以賬戶、對象、容器以三層結構進行邏輯架 構[15-17]。由于電網數據的規模較大且比較密集,若電網數據未經過處理就直接放入數據池會造成提取步驟繁瑣的問題,運用藍光存儲技術,計算電網數據樣本集的密度分布概率以及帶寬參數的數值對電網數據密度的影響。函數表達式如下:

式中:x1,x1,…,xc表示電網數據中未知概率g的樣本數據集;h(x,xc)代表核函數。當滿足核函數的對稱性要求時,其積分和等于1[18-19],則:

式中:δ表示帶寬參數。帶寬參數的數值大小會影響電網數據集的密度分布概率,當數值過小時,數據集整體偏差降低,估計結果較不穩定;當帶寬參數的數值過大時,數據集的整體偏差變大,導致電網數據過于密集,不符合電網數據池的構建要求,因此需要將式(12)的計算結果控制在0~1的范圍內[20-21]。綜合上述描述與計算,實現基于自然語言技術與藍光儲存技術的電網數據池構建。

2 實驗研究

2.1 搭建實驗環境及參數設置

實驗選取兩種傳統電網數據池構建方法(文獻[2]方法和文獻[3]方法)與此次設計的構建方法進行實驗對比,得出實驗結果。根據實驗需求搭建實驗環境以及設置相關參數,操作系統使用Windows8.1,SybaseIQ16.0,并且使用C#語言作為電網數據集語義分析的工具,同時,其他相關配置見表1所列。

表1 實驗設備配置

根據上述實驗環境,進行實驗參數設置。由于單個模塊的容量直接影響著數據池的響應速度,因此分別對電網數據池的擴展模塊、移植模塊、伸縮模塊、以及共享模塊的容量進行設置。隨著電網業務的不斷更新與發展,對應的電網數據池的擴展模塊參數也需要不斷更新,在出現新的業務需求時,可設定標準區域與非標準區域,二者之間的區別在于標準區域內的參數是固定的不能修改。非標準區可修改部分參數具體見表2所列。

表2 擴展模塊容量參數設置

電網數據池的移植模塊主要負責數據池數據的底層數據交換,在數據平臺與格式發生變化時,無需再進行整體數據池重構,具體參數設置見表3所列。

表3 移植模塊容量參數設置

一旦出現了新的電力業務,電網數據池需要具備相應的伸縮能力,實現數據的新建、刪除和提取等操作。即便是用戶操作失誤的情況下也能確保用戶歷史數據完整無損,具體參數設置見表4所列。

表4 伸縮模塊容量參數設置

在保證電網數據標準化的基礎上,根據相應需求提取數據池的數據,具體參數設置見 表5所列。

表5 共享模塊容量參數設置

2.2 電網數據池響應時長測試

分別對比基于可視化技術的數據構建模型(以下簡稱“當前構建方法1”)和基于區塊連接技術的數據管理模型(以下簡稱“當前構建方法2”)的電網數據池與此次基于自然語言處理技術與藍光儲存技術構建的電網數據池,在不同的用戶并發數下的響應時長,測試結果如 圖3所示。

圖3 響應時長測試結果

根據圖3可以得出基于可視化技術的數據構建模型、基于區塊連接技術的數據管理模型以及此次構建的電網數據池在不同的用戶并發數條件下的響應時長,并求出三種構建方法下電網數據池響應時長的平均值,具體見表6所列。

表6 響應時長均值ms

此次構建的電網數據池響應時長在5000~20000用戶并發數的測試條件下,其響應時長的平均值分別比當前兩種構建方法下的電網數據池少2.82 ms和3.58 ms,證明此次融合了自然語言處理技術與藍光儲存技術的電網數據池響應時長更短,說明該方法構建數據池的速度更快,性能更佳。

3 結語

為改善現有的區塊連接下的數據管理方法響應速度較慢問題,提出基于自然語言處理技術和藍光存儲技術的電網數據池構建方法。預測電力負荷,計算數據節點的安全等級,利用自然語言處理技術標注電網數據信息,實現電網數據池構建。

經過實驗測試可知,在5000~20000用戶并發數的測試條件下,研究構建的電網數據池響應時長的平均值分別比兩種傳統方法縮短了2.82 ms 和3.58 ms,驗證了本文數據池速度更快,性能更佳。

但由于研究時間的限制,本次研究還存在缺乏統一數據管理平臺的缺陷。為了進一步提升配電網發展業務信息化水平,在日后將針對此問題不斷深入研究。

猜你喜歡
特征
抓住特征巧觀察
離散型隨機變量的分布列與數字特征
具有兩個P’維非線性不可約特征標的非可解群
月震特征及與地震的對比
如何表達“特征”
被k(2≤k≤16)整除的正整數的特征
中等數學(2019年8期)2019-11-25 01:38:14
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
詈語的文化蘊含與現代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 欧美69视频在线| 无码高潮喷水在线观看| 欧美黄网在线| 亚洲精品无码AⅤ片青青在线观看| 五月天久久婷婷| 福利国产在线| 国产精品视频a| 亚洲美女高潮久久久久久久| 中文无码毛片又爽又刺激| 欧美区国产区| 激情乱人伦| 欧美日韩在线成人| 欧美区一区二区三| 91极品美女高潮叫床在线观看| 丁香六月综合网| 国产在线观看精品| 精品久久国产综合精麻豆| 亚洲高清无在码在线无弹窗| 国产成人无码Av在线播放无广告| 国产成人精品视频一区二区电影| 日本一区二区不卡视频| 色欲国产一区二区日韩欧美| 亚洲无线一二三四区男男| 色悠久久综合| 国产精品免费电影| 国产成人1024精品下载| 国产农村精品一级毛片视频| 国产成人亚洲欧美激情| 老司机精品久久| 91亚洲精品国产自在现线| a级毛片毛片免费观看久潮| 毛片基地视频| 精品国产Av电影无码久久久| 国产综合网站| 19国产精品麻豆免费观看| 日韩av手机在线| 日本手机在线视频| 最新日韩AV网址在线观看| 在线无码私拍| 久久综合亚洲鲁鲁九月天| 一区二区三区毛片无码| 日韩麻豆小视频| 亚洲aⅴ天堂| 国产伦精品一区二区三区视频优播| 国产欧美视频综合二区| 日本人真淫视频一区二区三区| 福利小视频在线播放| av在线5g无码天天| 永久免费精品视频| 中文字幕1区2区| 亚洲第一成网站| 亚洲综合色婷婷| 国产人人乐人人爱| 青青草a国产免费观看| 国产精品hd在线播放| 久久福利网| 日韩精品少妇无码受不了| 亚洲国产日韩一区| 午夜限制老子影院888| 亚洲成人在线免费| 国产精品一区在线麻豆| 精品国产中文一级毛片在线看| 在线免费不卡视频| 动漫精品中文字幕无码| 在线免费不卡视频| 国产打屁股免费区网站| 成人免费午间影院在线观看| 91久久偷偷做嫩草影院| 欧美在线综合视频| 无码精油按摩潮喷在线播放 | 中文字幕欧美日韩高清| 毛片免费在线| 中文字幕不卡免费高清视频| 人人91人人澡人人妻人人爽| 亚洲香蕉久久| 国产成人精品免费av| 五月婷婷导航| 免费高清毛片| 免费中文字幕在在线不卡| 欧美性久久久久| 无码电影在线观看| 丁香五月亚洲综合在线|