999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

電力系統中數據集成技術關鍵問題研究

2016-12-28 06:44:18劉冬蘭劉新馬雷任俊杰楊鋒
山東電力技術 2016年11期
關鍵詞:頁面數據庫檢測

劉冬蘭,劉新,馬雷,任俊杰,楊鋒

(1.國網山東省電力公司電力科學研究院,濟南250003;2.山東中實易通集團有限公司,濟南250003)

電力系統中數據集成技術關鍵問題研究

劉冬蘭1,劉新1,馬雷1,任俊杰2,楊鋒2

(1.國網山東省電力公司電力科學研究院,濟南250003;2.山東中實易通集團有限公司,濟南250003)

國家電網公司多年來建設了很多業務系統,如辦公自動化(OA)系統、營銷系統、管理信息系統等。然而,電力企業信息化建設的深入以及業務系統中數據量的急劇增長給查找數據信息帶來極大不便和新的挑戰。為此,提出了一個面向電力領域的數據集成系統架構,并對其中的數據獲取、抽取、整合等關鍵技術問題進行研究;提出了基于高頻率查詢詞采集率的數據獲取方法、自底向上方法構建數據抽取包裝器的思想以及無監督學習的自動化重復記錄檢測模式。針對電力系統各個信息孤島進行數據集成,對各業務系統中非結構化數據進行統一存儲和管理,方便用戶檢索出所需的數據,為電力企業員工提供便捷服務。

數據集成;數據抽取;包裝器;自底向上;非結構化數據

0 引言

近年來,信息技術已經滲透到各個領域,而且能采集、處理、存儲和顯示的信息量在不斷增長。在電力系統領域中數字化技術應用廣泛,如數字化繼電保護系統和數字化控制系統。由于各類相互獨立的信息管理及監控系統較多且規模龐大,使數據庫存儲的數據種類繁多,在電力系統中產生大量數據。面對電力系統中迅速膨脹的數據信息量,運行人員和決策者不僅需要對本行業的數據庫了如指掌,還需要熟練地對大量數據進行分析處理。由于各類信息系統中的數據具有大規模、異構性、分布式等特點,使數據的分析挖掘變得尤為困難[1]。

通過數據集成與應用集成技術,建立能相互共享數據、有效協同工作的企業綜合管理信息平臺,利用各專業信息系統多年積累的數據將其轉換成能為企業創造價值的信息。針對電力系統龐大的數據信息進行分析、加工、提煉以獲取用戶所需的數據,把各個信息孤島相互匯集成為決策輔助信息系統,構建面向電力領域的數據集成系統,將分布式非結構化數據進行集中式存儲、管理并提供統一的查詢接口,使企業相關人員能夠高效、便捷地檢索出所需的數據[2]。因此,對電力領域數據集成系統平臺進行研究可以為電力企業用戶提供決策支持,更好地保證信息系統的經濟、安全穩定運行,具有重要意義。

1 數據集成系統架構

電力系統中數據集成技術關鍵問題主要分為數據獲取、數據抽取、數據整合、數據分析等幾方面。技術關鍵在于如何解決電力系統領域數據模式的異構問題,使操作人員不必受限于數據模型的異構性、數據獲取、抽取和整合等問題[3]。為此,對各業務系統數據進行系統集成,通過對眾多業務系統數據進行分析,提出了面向電力領域的數據集成系統架構,如圖1所示。

圖1 數據集成系統架構

數據集成主要包括數據獲取、抽取、整合及分析,其中涉及一個核心技術問題是領域模型管理,領域模型管理組件包含領域模型的定制和演化。領域模型定制是負責實體模式和實體之間的關系,領域模型演化負責檢測并及時更新實體之間的關系[4-5]。數據集成系統操作過程如下。

1)數據獲取。數據獲取通過構造爬蟲程序來實現,爬蟲根據提交的查詢表單,發現并選擇優質的Web數據庫,通過對接口進行理解分析,從網站上爬取出盡可能多的Web頁面存儲在本地數據庫。

2)數據抽取。數據抽取通過構造包裝器來實現,包裝器抽取對用戶感興趣的數據進行準確定位,把非結構化或半結構化的數據抽取出來并轉換為結構化數據進行存儲;對頁面中的數據進行標注和抽取,實現對同領域內不同站點中Web數據的模式統一。

3)數據整合。數據整合包括重復記錄檢測和數據融合,通過一些重復檢測技術對抽取到的Web數據進行檢測,并對同一實體相同信息進行合并,獲得結構化數據。

4)數據分析。數據分析采用適當的方法對數據整合中得到的結構化數據進行處理,對數據信息的功能進行最大化開發,充分發揮數據的作用,獲取有用信息并對數據加以詳細研究和概括總結,進而采用一些圖表形式展現給用戶。

2 基于高頻率查詢詞采集率的數據獲取

數據集成的基礎問題是數據獲取。通常只有把網站上眾多的網頁數據爬取下來存儲在本地數據庫,才能進行后續的數據抽取、整合操作,為市場情報分析等應用提供決策支持。目前,普通的網絡爬蟲軟件是單一的爬蟲程序,面對眾多的業務系統數據需要對各業務系統頁面的查詢接口進行解析,提交合適的查詢詞,在短時間內爬取大量網頁,提高數據獲取效率[6]。

為達到較高的數據獲取效率,提出了基于高頻率查詢詞采集率模型的數據獲取方法。通過統計網頁中漢字出現頻率,獲取高頻率列表用于估算候選詞的新數據獲取率,同時對網站數據庫進行采樣,得到某一文本屬性的采樣數據庫,采用多個特征自動構造訓練樣本,利用多元線性回歸方法不斷訓練樣本,進而構造基于高頻率查詢詞采集率模型。在每一次獲取數據過程中使用此模型不斷迭代選擇查詢詞向該文本屬性進行提交,實現對網站數據庫的爬取,該方法有較高的數據覆蓋率。

基于高頻率查詢詞采集率模型的數據獲取過程主要包括查詢詞采新率模型構建和網站數據庫獲取,如圖2所示。

第一階段是基于高頻率查詢詞采新率模型的構建。通過統計網站頁面中漢字出現頻率,獲取高頻率列表用于估算候選詞的新數據獲取率;使用一些常用的采樣方法對網站數據庫中待抽取數據的文本屬性進行采樣,得到文本屬性的采樣數據庫,利用網頁結構特征構建訓練集,使用線性回歸方法對樣本進行訓練,得到基于高頻率查詢詞采集率模型。

圖2 基于高頻率查詢詞采集率模型的數據獲取過程

第二階段是利用第一階段構建的模型來獲取網站數據庫。從提交的查詢列表中選擇一個有效的新查詢詞重新提交,查詢提交后從所有的網站Web數據庫中查詢數據,返回結果頁面后抽取所需記錄存儲在本地數據庫,將采集到的相應網站頁面存儲到本地數據庫,其中從結果頁面提取的數據已經是待抽取數據,屬于結構化數據;通過不斷迭代選擇新查詢詞提交,實現對網站數據庫的獲取,直至獲取數據盡可能多地覆蓋到整個網站。為了提高數據獲取效率,可將此過程采用Map/Reduce方式來并行操作,可以有效解決數據獲取過程中URL分配調度面臨的負載均衡問題。

3 基于自底向上方法的數據抽取包裝器的構建

數據抽取包括頁面提取和語義標注,該組件可以準確提取目標網頁中的目標數據,并對數據元素進行語義理解,進而準確地識別數據元素和屬性標簽的采樣頁面,提高對目標數據的抽取準確度。領域模型演化組件從更新的數據中檢測新的實體模式和新的關系,進而及時更新領域模型。實體模式關系的動態更新可采用支持向量機(Support Vector Machine,SVM)方法[7],利用數據系統中存在的數據及目標頁面的視覺信息有效地檢測和建立不同實體之間的關系。

3.1 數據抽取包裝器健壯性評估方法

數據抽取通過構造包裝器來實現,所謂包裝器是指使用一個程序把感興趣的數據從網站頁面提取出來,并轉換為結構化數據存儲和管理[8]。

數據抽取的關鍵問題在于網站頁面中如何定位數據的準確位置,自動化抽取中一般將網站頁面轉化成對應的DOM樹,利用網站DOM樹的頁面和結構特征,構造XPath路徑表達式來定位數據,這種XPath路徑表達式就稱之為包裝器[9]。例如,某省電力公司招聘網站上信息安全工程師崗位招聘頁面對應的DOM樹如圖3所示。

圖3 網站頁面對應的DOM樹結構

構造XPath路徑表達式可通過遍歷HTMLDOM樹得到,即W1=//html/body/div[2]/table/td[4]/text()就是所構造的包裝器,由此包裝器能準確抽取到工作地點是濟南。此包裝器是采用自頂向下方式構建的,包含了頁面DOM樹中從根節點到待抽取節點的所有謂詞。但是此網站頁面中如果刪除第一個div,或者在第二個div下面添加了新的謂詞td或table,那么上述包裝器就失效了。

例如,包裝器表達式W2=//div[@class=‘btname’]/*/td[4]/text(),顯然,包裝器W2性能優于W1,因為當第一個div謂詞被刪除后,包裝器W2還能繼續抽取到正確的工作地點信息;包裝器表達式W3=//table[@width=‘95%’]/td[4]/text(),顯然,包裝器W3性能更優于W2,因為當在第二個謂詞div下面添加了新的謂詞td或table后,包裝器W3能正確抽取到準確的工作地點信息。從上述可以看出,數據抽取包裝器表達式XPath越少依賴于DOM樹結構,其包裝器的健壯性越好。

包裝器健壯性是表示當網頁隨著時間變化時,包裝器將繼續保持抽取數據節點的能力,是測量包裝器在變化后的新版本網頁中抽取數據的能力。衡量數據抽取包裝器的健壯性,通常根據數據抽取的查準率和查全率來判斷。查準率表示抽取數據的準確度,查全率表示獲取正確數據的覆蓋程度。

3.2 數據抽取包裝器構建方法

為提高數據抽取包裝器的健壯性,根據自底向上的邏輯歸納設計思想,提出了一種自底向上方法構建數據抽取包裝器。先選擇一些普通的特定XPath路徑表達式,在此基礎上提出一個規則,匹配和特化每個節點直到數據抽取包裝器表達式和需要抽取的目標數據節點信息完全匹配,同時盡可能地使其生成的數據抽取包裝器查全率和查準率都等于1,即使抽取數據的準確率盡量達到完全準確,并且使抽取的數據覆蓋到網站上所有的結果數據。

假設D表示一系列有標簽的XML文檔集合,包含了相應的網頁中若干個感興趣的待抽取數據節點信息。對于任意一個待抽取節點d∈D,我們想要從有標簽的文檔D中抽取目標節點,記為T(d)。對于任意給定的XPath路徑表達式x,我們想要生成一個XPath表達式x使其滿足如下規則。

對于任意的d,使x(d)=T(d),即使用包裝器XPath表達式抽取的結果正好等于待抽取的目標節點。根據信息檢索中的評估方法定義評估標準

式中:P為查準率,R為查全率。構建健壯性的包裝器應使其包裝器的查準率和查全率都等于1。

4 重復記錄檢測

Web數據庫之間的同一實體存在重復記錄,即同一條信息可能存在于多個數據庫中。從網站上抽取的數據里有重復信息會造成數據冗余,冗余數據會增大所占空間導致數據查詢效率降低,對數據分析造成一定影響。從抽取的結果數據中識別出重復的數據記錄稱之為重復記錄檢測,而數據整合主要包括重復記錄檢測和數據融合。數據整合的過程是利用一些重復記錄檢測技術對抽取到的數據信息進行檢測,并對同一實體相同信息進行合并,提高數據的質量,進而提高數據檢索的速度。手工檢測重復記錄得到的數據準確率高,但是工作量大并且靠人工檢測速度較慢。因此,研究自動化的重復記錄檢測技術變得尤為重要。

重復記錄檢測的關鍵問題在于識別出兩條數據記錄是否完全重復或相似,即兩條數據記錄表達的信息是否相同或相近。目前識別重復記錄的算法主要有編輯距離匹配、字段匹配、聚類等[10-11]。為此,提出一種無監督學習的自動化重復記錄檢測方法,通過采用聚類分析方法自動選擇初始訓練集,采用SVM的分類迭代方式,構建數據記錄分類模型,達到重復記錄識別及檢測分類合并的目的。

無監督學習的自動化重復記錄檢測過程如下。

1)分塊/索引。兩個數據庫D1和D2之間的記錄對是D1和D2大小的乘積,為提高重復記錄檢測效率,可使用分塊或者索引技術先分類,將不可能重復的記錄對進行過濾。

2)獲取比較向量。分析實體屬性類型,選擇相似度計算方法,對分塊索引后的記錄對計算記錄對中相同屬性值的相似度,進一步獲取比較向量。

3)獲取訓練樣本。自動化的重復記錄檢測通常選擇聚類算法訓練樣本集,為提高樣本集質量,采用聚類集成方法結合多個聚類結果,獲取其一致結果作為訓練樣本集。

4)比較向量分類。采用已獲取的訓練樣本集訓練一個SVM分類器,用該分類器對剩余未分類的比較向量進行分類。分類包括匹配對和不匹配對,并對分類結果按照可信度排序,選擇可信度大的比較向量更新訓練樣本,重新訓練SVM分類器,不斷迭代執行,直到滿足某一條件結束。分類得到的匹配對比較向量集對應的記錄就是重復記錄檢測的結果。

無監督學習的自動化重復記錄檢測采用聚類集成方法,結合多個聚類結果自動選擇初始訓練集,提高了樣本集的準確度,采用SVM迭代分類方法構建數據記錄分類模型,提高了數據記錄的分類準確度,進一步提高數據融合性能。

5 結語

針對電力領域眾多的業務系統數據,為便于企業用戶快捷地檢索信息,對電力領域中各業務系統架構等進行了初步調查研究,研究基于高頻率查詢詞采集率的數據獲取方法、采用自底向上方法構建數據抽取包裝器思想以及無監督學習的自動化重復記錄檢測模式,并設計了電力系統數據集成系統架構。針對電力系統領域龐大的數據信息進行分析加工,進一步提煉用戶所需的數據,對各個信息孤島進行數據集成,對各業務系統中非結構化數據進行統一存儲和管理,并且提供統一的查詢接口,方便企業用戶快速檢索出所需數據。

[1]董永權.Deep Web數據集成關鍵問題研究[D].濟南:山東大學,2010.

[2]羅學禮,徐樹振,王森,等.電力企業的非結構化數據檢索研究[J].計算機與數字工程,2014,42(4):729-733.

[3]馬玉梅.電力系統中數據集成技術的研究與應用[D].保定:華北電力大學,2006.

[4]DONG Yongquan,LI Qingzhong.A Robust Approach of Automat ic Web Data Record Extraction[J].Journal of Computational Information Systems,2009,6(6):1 757-1 766.

[5]XU Xiuxing,LI Qingzhong,DONG Yongquan et al.Dynamically Constructing a Global Schema for Web Entities.Web Information Systems&Applications Conference[C].Huhhot:IEEE,2010.

[6]劉偉.Deep Web數據集成中的關鍵技術研究[D].北京:中國人民大學,2008.

[7]閆中敏,李慶忠,彭朝暉,等.DWDIS:面向分析的Deep Web數據集成系統[J].計算機研究與發展,2010,47(S1):479-483.

[8]RAHUL Gupta,SUNITA Sarawagi.Domain Adaptation of Information Extraction Models[J].SIGMOD Record,2008,37(4):35-40.

[9]NILESH Dalvi,RAVI Kumar,MOHAMED Soliman.Automatic Wrappers for Large Scale Web Extraction[J].In VLDB,2011,4(4):219-230.

[10]葉煥倬,吳迪.相似重復記錄清理方法研究綜述[J].現代圖書情報技術,2010(9):56-66.

[11]邱越峰,田增平,季文赟,等.一種高效的檢測相似重復記錄的方法[J].計算機學報,2001,24(1):69-77.

Key Problems of Data Integration Technology in Electric Power System

LIU Donglan1,LIU Xin1,MA Lei1,REN Junjie2,YANG Feng2
(1.State Grid Shandong Electric Power Research Institute,Jinan 250003,China;2.Shandong Zhongshi Yitong Group Co.,Ltd.,Jinan 250003,China)

The State Grid has built amounts of business systems for many years,such as OA system,marketing system and management information system.However,with the deepening of power enterprise informatization construction and the sharp increase of data in business systems,it brings new challenges and inconvenience for data seekers.An architecture model of data integration in the power field is proposed,and key problems in this model such as data acquiring,extracting and integrating are investigated.A new date acquirement method based on high frequency words collecting rate is put forward,a concept to build data extraction wrapper through bottom-up approach and an automating repetitive record detection model for unsupervised learning are also proposed.Aiming at the information isolated island in the electric power system the data is integrated,and the unified storage and management of unstructured data in business systems are conducted,which can help users to obtain required data and to provide convenient services for staffs in the power enterprise.

data integration;data extraction;wrapper;bottom-up;unstructured data

TP311

A

1007-9904(2016)11-0023-05

2016-05-26

劉冬蘭(1987),女,工程師,從事電力系統信息安全技術督查工作。

猜你喜歡
頁面數據庫檢測
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
小波變換在PCB缺陷檢測中的應用
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
主站蜘蛛池模板: 香蕉eeww99国产在线观看| 欧美成一级| 欧美激情福利| 日本亚洲最大的色成网站www| 亚洲—日韩aV在线| 伊人久久精品无码麻豆精品| 国产福利免费视频| 在线观看国产精品第一区免费| 91黄色在线观看| 国产成人AV综合久久| 中文字幕 日韩 欧美| 粗大猛烈进出高潮视频无码| 亚洲视频在线青青| 黄色a一级视频| lhav亚洲精品| 亚洲国产精品成人久久综合影院| 天堂中文在线资源| 亚欧乱色视频网站大全| 77777亚洲午夜久久多人| 国产在线观看成人91| 国产精品理论片| 日韩精品少妇无码受不了| 91区国产福利在线观看午夜 | 天天综合亚洲| 3D动漫精品啪啪一区二区下载| 91福利一区二区三区| 色婷婷丁香| 尤物特级无码毛片免费| 无码精品国产VA在线观看DVD| 欧美成人手机在线观看网址| 久久99蜜桃精品久久久久小说| 97av视频在线观看| 极品私人尤物在线精品首页 | 久久人体视频| 在线日本国产成人免费的| 狠狠色婷婷丁香综合久久韩国| 精品自窥自偷在线看| 最新国产成人剧情在线播放| 色天天综合久久久久综合片| av尤物免费在线观看| 午夜国产大片免费观看| 亚洲第一成人在线| 久久99国产综合精品1| 国产午夜一级毛片| 日本一本正道综合久久dvd| 日韩毛片免费视频| 丁香六月激情综合| 国产在线无码一区二区三区| 亚洲国产高清精品线久久| 国产在线观看91精品| 97精品久久久大香线焦| 免费毛片全部不收费的| 啪啪免费视频一区二区| 色悠久久久久久久综合网伊人| 22sihu国产精品视频影视资讯| 伊人久久综在合线亚洲91| 亚洲天堂久久| 香蕉综合在线视频91| 亚洲午夜综合网| 免费黄色国产视频| 国产乱子伦无码精品小说| 最新日本中文字幕| 亚洲丝袜第一页| 毛片最新网址| 中文国产成人精品久久| 久久香蕉国产线看观看亚洲片| 亚洲乱码精品久久久久..| 91亚洲视频下载| 久久香蕉国产线看观看亚洲片| 国产亚洲精品91| 欧美一级在线看| 亚洲欧美天堂网| 国产成人AV综合久久| 99久久亚洲精品影院| 亚洲有码在线播放| 日韩a级片视频| 性激烈欧美三级在线播放| AV老司机AV天堂| 日韩欧美国产成人| a毛片在线播放| 香蕉久久国产超碰青草| 国产精品亚洲日韩AⅤ在线观看|