國網新疆電力有限公司信息通信公司 尹 蕊 王曉磊 王 濤
面對當下變動越來越頻繁的電力網絡,社會生產與民眾生活對與電力資源的需求也在不斷地擴張,網絡技術的快速發(fā)展促使信息資源量飛速提升,傳統(tǒng)模式下對信息進行獲取的方式已經難以滿足現代化社會的發(fā)展需求。因此,相關工作人員應當積極的意識到給方面的不足,對電力信息分類以及搜索進行深入地分析,提升電力信息分類及搜索水平。
伴隨著日益增多的信息資源,現階段較為成熟的大型通用搜索引擎以及無法充分滿足現代化電力信息分類與搜索的工作需求。因此,電力部門應當積極針對客戶實際需要,制定電力人群以及制定電力領域電力信息分類搜索技術順勢而生,進而為人們提供特定價值的信息以及有關的電力服務。
從不完全的、有噪聲的、隨機的、龐大的以及模糊的數據中發(fā)掘有效的、新穎的以及有用的數據,最后將數據中可以理解的知識以及信息進行識別的過程就是數據挖掘。作為一個涵蓋多方面技術的技術學科,數據挖掘中包含神經網絡、模式識別、數理統(tǒng)計、模糊教學、機器學習以及數據庫等技術。
對于數據挖掘的分類可以采用多種方法,站在挖掘的角度而言,可將其分為機器學習法、統(tǒng)計法、神經網絡法以及數據庫法,其中數據庫法主要是采用多維數據進行分析;神經網絡法主要采用有組織神經網絡以及前向神經網絡等進行數據挖掘;統(tǒng)計法則書要是采用回歸分析、判別分析、聚類分析以及探索性分析等對數據信息進行分析分類;機器學習法則主要采用歸納學習法、基于范例學習法以及遺傳算法等方式對數據進行分析歸類。站在挖掘人物的角度里,數據挖掘可以細分為預測模型發(fā)現、異常和趨勢發(fā)現、數據總結、依賴模型發(fā)現等種類。數據挖掘在電力信息搜索中的應用流程如圖1所示。

圖1 數據挖掘在電力信息搜索中的應用流程
電力信息分類及搜索就是指根據企業(yè)經營過程中會計核算記錄以及相關管理資料,與企業(yè)內外部環(huán)境信息相結合,通過數據分析的方式來對企業(yè)經營狀況以及電量使用狀況進行評價,以此保障能夠為企業(yè)的運營提供科學的依據。
傳統(tǒng)電力信息采集與搜索工作具備較強的片面性。在過去采用的電力信息報表秉承數量分析、以及定性分析的原則,統(tǒng)計匯總以及簡單計算是其主要的分析方式,因此得出的結論主要是問題投資、盈利能力、償債能力、運營能力、籌資以及為主。但是,但下很多電力企業(yè)都在大力的應用云計算以及物聯(lián)網等多種新型技術,企業(yè)的全部業(yè)務數據都能夠被及時的獲取,同時數據的類型也開始向著評價、地址以及時間等多個形式進行轉變。在這種情況下,傳統(tǒng)企業(yè)電力信息采集與搜索工作難以對這些數據進行分析、計算、排序與篩選,企業(yè)難以得到數據所提供的支持,管理層的相關需求難以被充分的滿足。
傳統(tǒng)電力信息采集與搜索工作在時間上有滯后性。現階段,我國很多電力信息采集與搜索方法主要依賴核算數據,但是匯總核算通常都是針對歷史數據進行核算,因此傳統(tǒng)的電力信息采集與搜索工作只能對歷史進行評價,根據歷史對未來進行預測。但是,我們應當充分的意識到,電力企業(yè)在運行的過程中無時無刻不在產生數據,并且在發(fā)展日新月異的今天,企業(yè)的生命線就是時間,企業(yè)財務分析決策開始迫切的需要企業(yè)能夠及時的獲取所有的數據與信息。
總而言之,傳統(tǒng)的電力信息采集與搜索方式已經難以充分滿足現現代化企業(yè)針對業(yè)務數據的搜集、存儲以及分析等多種需求,電力信息采集與搜索工作方式的弊端原來越明顯。
電力企業(yè)在建立電力信息數據庫的過程中應當注重以下幾個方面:首先,要全面地收集各種電力信息資源數據,并對收集到的電力信息資源內進行科學的整理、分類以及存儲,最大限度利用電力信息資源,保障電力信息資源的作用能夠充分地發(fā)揮出來。其次,電力部門應當充分結合電力信息數據的語言特征創(chuàng)建相應的電力專業(yè)詞庫,采用文本聚類的方式對數據倉庫進行整理,筆者采用文本聚類的關聯(lián)算法驗證數據倉庫的可行。
采用這樣的方式能夠保障用戶應用兩種方式進行電力信息搜索:第一,用戶需要將需要查詢的電力信息問題的關鍵詞以及自認語言在表中進行描述輸入,并且明確的歸類問題所屬的領域,采用這種方式將搜索相似度這個問題定位在某一個領域或者是多個領域中,隨后在相關領域中將用戶所需要的信息或者是有關信息找出,大大提升搜索的速度;第二,如果在用戶沒有對問題的所述領域進行明確的情況下,那么就需要以所有。領域得到電力專業(yè)詞庫來進行搜索。
本文筆者所研究的搜索方案主要包括索引模塊、用戶接口、搜索模塊以及檢索模塊四個部分。其中,用戶接口模塊主要為了顯示查詢的結果、登錄注冊、用戶資料查詢以及信息輸入查詢;而檢索模塊的主要內容包括依據相似度對查詢的結果進行有效的排序,并且對用戶的信息進行搜集,檢索相應文檔。索引模塊的主要功能包括生成索引表、抽取索引項以及理解各種信息等等。搜索模塊的主要功能則是針對于電力信息的采集與分析。
該方案中主要包括中文分詞、關聯(lián)規(guī)則、相似度規(guī)則、聚類規(guī)則以及搜索規(guī)則。首先,我們建立數據庫的過程中應當根據論壇搜索的原則,隨后再借助整理好的數據庫對信息進行檢索,為用戶提供便捷的搜索界面。數據庫中主要包括關聯(lián)規(guī)格模塊、相似度規(guī)則模塊以及聚類模塊,第二階段的數據收縮依賴于搜索模塊開展。中文分詞模塊是整個方案設計的基礎,方案中后續(xù)的各個功能模塊都需要中文分詞模塊去進行結果處理,該方案能夠實現的主要功能有數據庫文本分詞、計算文本中的詞條、詞庫的顯示與添加等等。
該方案中幾個模塊設計的根本目的就是為了對數據庫進行整理,充分保障能夠及時地對各種數據信息進行有效的匯總與整理,并對數據進行有效地管理與儲存,保障工作人員能夠及時地獲取需要的數據。當用戶采用中文語言描述電力問題之后,該方案能夠執(zhí)行應用分次算法收集數據庫中的相關資料,隨后采用一維數組對其進行有效的儲存,最后在數據庫中的事物數據表中分類為O的記錄單獨的存入到一個一維數組里。當數組中對用戶的語言描述的關鍵詞分類儲存之后可以其在二維數組之中進行處理,第一個關鍵詞用Y表示,第二個關鍵詞則用I便是,通過與一維數組里的數據進行對比若存在差異,該條信息將會保持不變繼續(xù)進行檢索,若結果完全一致,那么相關度權限值則為20,隨后再對下一個關鍵詞進行檢索。在進行完美連詞以及關鍵詞對比的過程中,同樣可以采用這樣的辦法,但是有些地方則會出現明顯的不同,大多數情況下,尋找到一個關鍵詞并且完成相關度權值計算之后會舍去5的關聯(lián)度,若關聯(lián)詞的相關權值超過5將會被系統(tǒng)自動歸納到另一個數組之后,在采用從大到小的方法進行檢索,進而準確的尋找出需要的信息數據。
結語:總而言之,在電力企業(yè)信息管理的過程中應用數據挖掘技術能夠促使電力資源文檔庫的有效分類存儲,確保相關工作人員能夠快速及時的尋找出需要的電力信息,為電力工作的順利開展打下良好的基礎。因此,相關部門應當深入地對基于數據挖掘的電力信息分類及搜索技術進行分析,探究其應用過程中出現的不足,及時采取相應的優(yōu)化措施,提升電力企業(yè)電力信息分類及搜索技術水平。