999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種非結構化數據查詢優化存儲系統設計

2017-08-08 03:01:08王秋琳宋立華閆麗飛
電子設計工程 2017年13期
關鍵詞:數據庫優化

王秋琳,宋立華,閆麗飛,林 暉

(福建億榕信息技術有限公司 福建 福州350003)

一種非結構化數據查詢優化存儲系統設計

王秋琳,宋立華,閆麗飛,林 暉

(福建億榕信息技術有限公司 福建 福州350003)

針對電力系統信息運維現狀,研究并設計了電力業務非結構化數據查詢優化存儲系統。首先詳述了非結構化數據存儲系統的架構方案;針對分布式存儲問題,提出了均衡分布優化策略,并在此基礎上設計了協同數據查詢優化方案。數據集劃分時間、數據集讀取時間、查詢正確率、數據節點服務器負載和請求響應時延等實驗表明,所搭建的評測環境可滿足測試需要,所研制的方案具有一定的優勢,滿足電力業界主流分布式存儲技術的能力特征及適用性。

非結構化數據;查詢優化;存儲系統;均衡分布

電力系統實時數據包括運行數據、負荷狀況、故障信號以及維護業務等,是電網信息調度中心分析電網穩定、計算潮流、查看設備運行狀態的依據。這些實時系統信息數量巨大、種類繁多、實時性高,包含了各業務子系統產生的文本、圖片、語音、視頻等文件,屬于典型的非結構化數據[1]。這些數據的讀取速率通常在每秒百M以上,交換性強,給電力企業信息調度中心造成了存儲與查詢難題。故針對電力系統信息運維現狀,如何構建一個高性能、高可用、高保險的存儲系統是目前電力數據處理領域研究的重要課題。

1 非結構化數據存儲系統架構

電網實時數據種類多、數量大,且數據格式不統一,為典型的非結構化數據,其操作方式多為一次寫入、多次讀取,以便滿足電力設備故障分析、電力自動化設備優化調整等方面的需要。為適應實時電力數據處理的要求,支持多種存儲架構思路和分布式存儲技術,提升數據查詢優化性能,該存儲系統所配置的基礎軟硬件設施包括Mongodb數據庫、Oracle數據庫、SAN存儲、NAS存儲以及廉價PC Server存儲服務器等[2]。

其中,數據存儲層是整個存儲系統的基礎,實現電力數據的高速、并行、實時處理,包括元數據處理單元、文件路徑及權限元數據處理單元、分布式存儲計算單元、集中式存儲計算單元等。

元數據管理組件層包括與存儲構架相連的一些底層的設備驅動組件和Web Service組件,提供設備驅動和Web應用服務的底層實現,同時負責數據的管理與訪問。該層為架構優化設計的核心,將替代EMC的Documentum產品,作為非結構化平臺底層核心元數據管理組件,集中體現分布式存儲功能支持及性能優化思路。在內部,該層管理組件由Client和Server兩端組成[3]。Client端可為上層的非結構化數據管理平臺接入組件或全文檢索組件所引用,實現對底層的文件傳輸、存儲、元數據管理各功能的調用;Server端則由元數據服務邏輯節點Meta Server、文件傳輸及存儲管理邏輯節點File Server、路徑與權限內存服務邏輯節點Name Server、離線計算單元邏輯節點Offline Computation Server、分布式存儲邏輯節點 PC Storage Cluster Server組成[4]。

該層設計方案的另一個獨特之處在于整體架構不依賴于任何第三方組件,即所有目前采用的第三方組件均可替換,包括文檔數據庫Mongodb、內存KV數據庫Riak、分布式存儲服務Riak-CS等[11]。同時,該層具有全面的服務高可用性。任何服務邏輯節點都有采用集群部署或主備部署模式,整個系統不存在單點故障,能夠提供高穩定的服務質量。另外,File Server端的文件流式傳輸服務支持部署到多臺服務器、離線計算節點Off-Line Computation支持不受數量限制的物理機及虛擬機部署,可實現對非結構化平臺不斷增長的業務提供柔性支持[5]。服務層與應用層為客戶提供服務,包括具體的數據處理程序、身份注冊與認證服務、密碼服務、文件和數據的讀寫與傳輸、網頁瀏覽與電子郵件服務等。

中間件主要包括分布式協調及調度服務——Zookeeper,分布式消息中間件——MetaQ,為各方案提供分布式環境下調度及消息服務方面的支持。

2 多服務器的分布式系統數據查詢優化

2.1 電力數據的均衡分布優化策略

電網狀態數據的實時性強、數據量大,考慮實時性的需求,同時也為減少因過度強調存儲平衡而帶來的數據頻繁遷移,避免已存數據的不同數據中心的數據重分布而引起的數據大規模傳輸,需對電力數據進行均衡分布處理。傳統的分布處理通常按存儲設備性能高低進行聚類分析,對同一設備類中的數據采用一致Hash算法進行分配[6]。然而,以上分布策略未考慮到數據間的關聯關系,數據所在的位置決定著數據查詢的效率、數據讀取和傳輸的效率。故需對均衡分布策略進行優化改進。

依據同一數據庫和不同用戶間數據的關聯性以及共享性的要求,此處提出的優化策略為先通過特定優化算法進行關聯數據的初步分類,之后根據各數據依賴關系,將具有數據依賴關系的數據存放在同一服務器上。此處所謂的依賴關系是指電力數據按照類型、大小、數據源等為依據進行聚類處理后得到的關聯性,可認為被歸為一類的數據彼此間具有一定的依賴關系。在該系統中,采用改進的遺傳算法進行源數據的分布優化。設現將第組中的數據A按需存儲到設備②中、數據B存儲到設備③中、數據C存儲到設備①中,則可用數據分布矩陣表示為

此方法編碼簡單,只需要選取n個(數據個數)位置,填充為1即可,幾乎等同于無編碼。而同樣表示數據分布關系的二進制位串則一定需要編碼,而且編碼需要解析,且增加很大解析工作量。且以該矩陣進行編碼可方便后期進化算法中的交叉變換。該矩陣為整個解空間,故不管行或列如何交叉變換,得到的解均是滿足最優解或次優解要求的。另外,因分布矩陣中的行列交叉可演化出所有解的情況,故采用分布矩陣可避免傳統遺傳算法中的變異操作,進而可節省大量的計算資源[7]。

在通常的二進制編碼方式下,變異操作知識簡單地將基因某一位取反,即將“0”變為“1”,將“1”變為“0”。采用矩陣方式的遺傳算法不需要進行變異,因為矩陣之中的交叉交換就可以演化出所有的解情況,故可節省大量的計算步驟。

以給定初始解作為進化種群,在該種群中進行個體的進化操作,同時設定其適應度函數。該適應度函數通過比較種群中個體對各自環境的適應程度來決定染色體的優劣,應該有效的反應每一染色體與最優解染色體之間的差距。適應度是評價染色體優劣的唯一標準[16]。根據用戶使用歷史與數據訪問歷史記錄,服務器的能力和網絡性能,可為每一種位置計算出一個適應值,此處以NetValue表示數據k分布在機器i上時的網絡性能度量,以SeverValue表示數據k分布在機器i上時的服務器處理性能和負載能力的度量,即

則適應度Fi的計算式為

以矩陣Fi中對角線元素表示第i組中的數據A、B、C存放位置的適應度。

假設在用戶需要調用數據時,設備①上存儲的A、B、C 3個數據的網絡狀況評分分別為 1、7、5(數值越大,表明網絡狀態越好),設備②網絡連接評分為 3、1、6,設備③為 8、3、9,則可得

將海量電網監測數據分布存儲的目的在于使得其能在不同的服務器上并行計算和安全存儲,然而,為提高用戶在不同服務器上調取、查詢非結構化數據的速率,需進行分布式數據的查詢優化[8]。為減輕主控服務器的查詢、處理壓力,同時以便均衡網絡負載壓力,該系統采用遞歸查詢方式來實現多服務器的協同數據查詢。

該遞歸查詢方式由相關的數據庫來協調完成,不需要主控服務器的全程參與,其查詢步驟如下:

1)查詢請求:由終端用戶向主控服務器發送請求,申請查詢資格;

2)初步查詢:收到用戶請求的主控機對申請數據表進行分析,對包含數據的服務器進行定位,同時將分析結果下傳至鄰近數據庫;

3)數據下傳:數據庫服務器間將相關數據及主控定位信息持續下傳;

4)下傳查詢:信息持續傳遞到末端數據庫服務器;

5)查詢回傳:末端數據庫服務器查詢相關數據,并將結果按原路回傳至鄰居服務器;

6)查詢優化:根據查詢優化規則,部分地開始鏈接和選擇數據表,將部分結果按原路返回到首端數據庫服務器;

7)結果遞交:最終首端數據庫服務器將查詢結果遞交給發出查詢請求的終端用戶。

3 存儲系統性能評測

3.1 評測環境搭建

為評測系統存儲性能,驗證數據均衡與優化查詢算法的有效性,利用1臺PC機作為元數據服務器,用于存儲客戶端連接與邏輯處理信息,其硬件資源配置信息為Intel Core i7處理器、16 GB DDR3內存、SATA3 1TB硬盤;3臺PC作為數據存儲節點,用于存儲緩存與持久化數據存儲,其硬件資源配置信息為Intel Core i5-4590處理器、8 GB DDR3內存、SATA3 4TB硬盤;1臺PC作為性能測試節點,用于模擬用戶發送的數據查詢及傳輸請求,其硬件資源配置信息為Intel Core i5-4590處理器、4 GB DDR3內存、SATA3 2TB硬盤;為排除網絡延遲影響,各服務器間以千兆以太網相連組成局域網。3個數據節點采取主從模式,測試節點向應用節點發送數據請求并等待響應[10]。

實驗數據主要包括電力監控視頻(<500 MB)、監視圖片(平均<3 MB)、周用電負荷報表文本數據、變電站各設備狀態文本數據、月運行故障報表數據、運維及營銷文本數據、客戶資料文本數據等幾十種數據文件,多數報表及文本文件文件,大小一般分布在10~2 048 kB范圍內,總文件個數超過約為158 420 000個,總存儲大小超過約2509 GB。

為滿足同一數據庫和不同用戶間數據的關聯性、共享性要求,將以上現有實驗數據根據式(1)~(3)所示的優化策略進行關聯性分類,依據各數據間的依賴關系進行數據集劃分。此處依據電力業務類型、各文件大小比例關系、各文件關聯度大小、服務器處理性能和負載能力度量需求等因素劃分數據集,每個數據集以文件切片的方式進行分布式存儲,隨機分布于3個數據節點上。為使得實驗結果更具有說服性,元數據與數據集間的調用關系也隨機確定,其元數據由一個二元組{Cp,Di}進行描述,其中Cp表示所查詢或申請的數據所在的數據中心節點,Di為調用的數據集。

3.2 測試結果與分析

對該分布式存儲系統進行的性能測試包括數據集劃分時間、數據集讀取時間、查詢正確率、數據節點服務器負載和請求響應時延實驗,相同的測試實驗重復10次,排除最值并取平均。數據集的劃分與查詢讀取時間的統計結果如圖1~2所示,由圖可知,隨著數據集文件切片中包含文件數的增多,依據關聯性劃分的所需時間將增大,同時對數據集中某用戶申請查詢的數據讀取影響也較大,因小文件的有效查詢時間與其在數據集中的位置以及服務器處理負載能力度量值均有關系,故在后期實驗中,將文件分片的大小設定為每數據集包含小文件不超過600個。

圖1 劃分數據集平均時間

圖2 數據集讀取平均時間

用戶發送查詢申請的數據查詢正確率統計結果如圖3所示。在該實驗中,通過性能測試節點模擬實際電力系統中多個用戶同時發送不同查詢申請的查詢實驗,查詢正確率為查詢結果與查詢申請數的比值,可看出,隨著同時發送查詢申請數量的增大,基于本文系統的數據查詢正確率略有下降,但均不低于99.4%,在可接受范圍內,同時發送查詢數量的增長對查詢正確率影響不大[11]。

為驗證本文均衡分布優化策略的有效性,分別利用本文策略與一致Hash算法、SequenceFile算法對比測試相應的節點服務器負載和請求響應時延[12]。其對比結果如圖4~5所示。由結果可知,當系統分別存 儲 50 000、100 000、150 000、200 000、250 000、300 000個小文件時,本文策略與SequenceFile算法在降低數據存儲節點負載方面都要優于一致Hash算法。在平均響應時延方面,本文策略的平均時延低于其余兩者,隨著查詢請求數量的增加,時延增勢最為緩慢。

圖3 用戶申請查詢正確率

圖4 平均查詢請求響應平均時延

圖5 數據節點服務器負載對比結果

4 結束語

文中研究并設計了電力業務非結構化數據查詢優化存儲系統。為降低電力公司存儲成本、提升數據管理及服務的性能水平,滿足上層各業務系統在非結構化數據領域的使用需求,文中首先詳述了非結構化數據存儲系統的架構方案;針對分布式存儲問題,提出了均衡分布優化策略,并在此基礎上設計了協同數據查詢優化方案。數據集劃分時間、數據集讀取時間、查詢正確率、數據節點服務器負載和請求響應時延等實驗表明,所搭建的評測環境可滿足測試需要,所研制的方案具有一定的優勢,滿足電力業界主流分布式存儲技術的能力特征及適用性。

[1]趙俊華,文福拴,薛禹勝.云計算:構建未來電力系統的核心計算平臺[J].電力系統自動化,2010,34(10):1-8.

[2]張逸,楊洪耕,葉茂清.基于多 Agent的電能質量輔助服務平臺[J].電力自動化設備,2012,32(12):92-96.

[3]張健.電力企業核心業務數據存儲方案設計[D].成都:電子科技大學,2010.

[4]張逸,楊洪耕,葉茂清.基于分布式文件系統的海量電能質量監測數據管理方案[J].電力系統自動化,2014,38(2):102-107.

[5]丁杰,奚后瑋,韓海韻.面向智能電網的數據密集型云存儲策略[J].電力系統自動化,2012,36(12):65-72.

[6]王培.智能電網監測數據的云存儲研究[D].北京:華北電力大學,2012.

[8]陳錦銘,袁曉冬.電能質量在線監測平臺的設計與開發 [J].電力信息化,2011,9(3):60-64.

[9]馬惠芳.非結構化數據采集和檢索技術的研究與應用 [D].上海:東華大學,2013.

[10]沐連順,崔立忠,安寧.電力系統云計算中心的研究與實踐 [J].電網技術,2011,35(6):171-175.

[11]李成華,張新訪,金海.MapReduce:新型的分布式并行計算編程模型[J].計算機工程與科學,2011,33(3):129-135.

[12]鄭偉,周喜超,王維洲.一種高性能的多級異構電能質量數據庫同步方法[J].電力科學與工程,2010,26(10):21-24.

Design of a storage system for unstructured data query optimization

WANG Qiu-lin,SONG Li-hua,YAN Li-fei,LIN Hui
(Fujian Yirong Information Technology co.,LTD.Fuzhou 350003,China)

Aiming at the current situation of electric power system information operations,this paper researched an electric power business storage system for unstructured data query optimization.Firstly,the architecture scheme of unstructured data storage system was detailed.Then,for the distributed storage problems,the balanced distribution optimization strategy was proposed and the collaborative data query optimization scheme was designed based on the proposed strategy.The experimental results such as dataset partition time,reading time,data query accuracy,server load and request response time delay etc indicated that the evaluating environment could meet the needs of the testing and the developed scheme had certain advantages which meet the ability of electric power industry mainstream distributed storage technology characteristics and applicability.

unstructured data;query optimization;storage system;equilibrium distribution

TN73

:A

:1674-6236(2017)13-0016-05

2016-05-19稿件編號:201605189

王秋琳(1980—),男,福建龍巖人,高級工程師。研究方向:電力信息系統建設、大數據存儲、大數據分析。

猜你喜歡
數據庫優化
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
由“形”啟“數”優化運算——以2021年解析幾何高考題為例
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
主站蜘蛛池模板: 成人国产免费| 国产精品亚洲欧美日韩久久| 国产日本欧美亚洲精品视| 九九精品在线观看| 亚洲日韩每日更新| 丝袜高跟美脚国产1区| 青青操国产| 自拍亚洲欧美精品| 亚洲va在线观看| 美女国产在线| 日本黄色a视频| 久久亚洲综合伊人| av在线人妻熟妇| 色视频久久| 久久亚洲中文字幕精品一区| 亚洲国产精品一区二区第一页免 | 国产精品短篇二区| 国内精品视频| 怡红院美国分院一区二区| 亚洲区欧美区| 无码精品福利一区二区三区| 精品乱码久久久久久久| 亚洲愉拍一区二区精品| 99久久免费精品特色大片| 婷婷色一二三区波多野衣| 亚洲欧美日韩另类在线一| 爆乳熟妇一区二区三区| 日韩欧美国产精品| 国产尤物jk自慰制服喷水| 99在线视频免费观看| 国产精品开放后亚洲| 91亚洲视频下载| 精品国产中文一级毛片在线看 | 18禁黄无遮挡网站| 丰满的熟女一区二区三区l| 日韩国产另类| 四虎亚洲国产成人久久精品| 午夜人性色福利无码视频在线观看| 久久精品国产免费观看频道| 国产精品亚洲日韩AⅤ在线观看| 国产区成人精品视频| 丁香婷婷综合激情| 欧美色亚洲| 国产在线一区二区视频| 性69交片免费看| 成人午夜久久| www.日韩三级| 91精品国产综合久久香蕉922| 欧美亚洲日韩中文| 精品无码国产自产野外拍在线| 久久 午夜福利 张柏芝| 亚洲成人网在线播放| 免费A级毛片无码免费视频| 第九色区aⅴ天堂久久香| 福利在线不卡| 亚洲精品视频免费| 乱人伦中文视频在线观看免费| 久久国产黑丝袜视频| 国产成人精品第一区二区| 国产精品片在线观看手机版| 亚洲精品成人福利在线电影| 国内精品小视频在线| 国产精品乱偷免费视频| 国产va欧美va在线观看| 国产无人区一区二区三区| 人妻无码中文字幕第一区| 国产成年女人特黄特色毛片免| 国产精品九九视频| 欧美成人国产| 国产亚洲精品97在线观看| 91久久偷偷做嫩草影院电| 亚洲欧洲日产国产无码AV| 首页亚洲国产丝袜长腿综合| 久久精品中文字幕少妇| 99这里只有精品6| 亚洲国产91人成在线| 亚洲浓毛av| 国产一区免费在线观看| 日韩黄色大片免费看| 九九热精品视频在线| h网站在线播放| 日韩在线观看网站|