孫豐杰,王承民,謝 寧
(上海交通大學 電子信息與電氣工程學院,上海 200240)
智能電網是利用現代網絡信息技術等實現電網設備間的數據信息交換,從而實現電網實時自動化控制、智能調節、在線決策分析等功能的新型電網[1]。
智能電網的建設積累了海量數據資源,目前電力公司“用數據管理企業,用信息驅動業務”的需求日益迫切。而智能電網大數據具有4V特征,即數量大(Volume)、種類多(Variety)、速度快(Velocity)、價值密度低(Value)。傳統的數據處理方法已經難以滿足需求,因此學者們提出了一系列大數據挖掘算法。
關聯規則挖掘算法由Agrawal等在文獻[2]中首先提出,該方法從大量歷史數據中尋找頻繁項或屬性之間的關聯性。現有的關聯規則挖掘方法主要是Apriori算法及頻繁模式樹FP-Tree(Frequent Pattern-Tree)算法[3-4]。Apriori算法的主要缺點是需要尋找大量的侯選項目集,當數據庫較大時,存在組合爆炸問題,同時,Apriori算法需要多次掃描數據庫,增加了計算的負擔。
針對Apriori算法的缺點,J. Han提出了利用FP-Tree產生頻繁項集的方法[5-6]。FP-Tree算法將提供頻繁項集的數據庫壓縮到FP-Tree上,然后從初始后綴模式開始,構造條件模式基,再形成條件FP-Tree,并遞歸地在該樹上進行挖掘,其主要優點體現在:不需要產生候選項,僅需要構造FP-Tree和條件FP-Tree,通過遞歸地訪問FP-Tree產生頻繁模式;對事務數據庫僅需2次遍歷,第1次遍歷產生頻繁1-項集,第2次遍歷用于創建FP-Tree,從而極大地降低了訪問數據庫的次數。FP-Tree算法存在的主要問題為:挖掘過程中需要不斷遞歸地生成“樹”,增加了時空復雜度;……