
摘? 要:隨著網絡的深度普及,人們對于互聯網的使用越來越頻繁,隨之而來的是龐大且分散的各式各樣的數據。面對海量的數據,用戶在查詢時往往難以高效地獲取到對自己有價值的信息。為了向用戶提供更精準的信息,提高用戶獲取有效信息的效率,自動化推薦系統適時而生。不管是通信領域還是其他領域,繁雜的數據都需要一種優異的處理算法或者機制來進行處理,本文通過把自適應共振理論(ART)和數據挖掘技術兩者結合,形成一個自動化在線推薦系統,并對用于用戶聚類的ART算法進行改進,提升了通信領域中推薦系統推薦的合理性與有效性。
關鍵詞:數據挖掘;自動化推薦系統;ART算法;通信領域
中圖分類號:TP311.13;TP391.3? ? ? 文獻標識碼:A 文章編號:2096-4706(2019)08-0044-03
Abstract:With the popularization of the internet,people become more and more dependent on the use of the internet. Faced with massive data,it is often difficult for users to efficiently obtain valuable information for themselves when querying. In order to provide users with more accurate information and improve the efficiency of users to obtain effective information,the automatic recommendation system is timely born. Both communication and other areas,complex data needs to be an excellent processing algorithms or mechanism to deal with,in this paper,the adaptive resonance theory(ART) and a combination of data mining technology,forming an automated online recommendation system,and for users to improve the ART of clustering algorithm,improved communication in the field of recommendation system recommended by the rationality and validity.
Keywords:data mining;automated recommendation system;ART algorithm;communication field
0? 引? 言
互聯網的發展帶動了許多領域的進步,包括通信領域也發生了天翻地覆的變化。人們的生活已經越來越依賴于互聯網,網絡中的信息量增長迅速,信息種類也越來越多。用戶想要從互聯網上獲取需要的資料,就會花費很多的時間。為了解決這一問題,相關的信息推薦系統便被研發設計出來。在通信領域,數據就是根本,通信行業數據的流量和維度遠遠高出了其他行業,做好對數據的收集整理、分析工作,有助于企業掌握客戶的質量,直接決定了企業與客戶之間的黏性,這在企業的發展中也是核心的影響因素。利用數據挖掘技術,可以幫助通信行業增強信息的提取能力,讓其能夠及時對數據進行分析然后做出判斷,為營銷策略提供科學的依據。
1? 數據挖掘技術在通信領域的應用分析以及相關算法設計
數據挖掘技術,顧名思義是指通過采取一定的行為方法,對指定范圍的信息數據等進行提取,從而實現進一步的分類整理和分析匯總,為數據應用、存儲共享和科學預測等提供基礎支持的一種技術。如果將數據挖掘技術運用到商業領域,其可以搜尋有價值以及有潛力的商業信息,然后通過相應的方法進行分析處理,最后整理出來,從而將相關的數據信息轉變成相關的策略,運用到商業的操作中去。可以看出,數據挖掘技術能夠顯著提高企業的信息化水平。通信企業一旦信息資源不足,對業務的開展就會失去具體的方向,也不利于通信行業的發展。
通過將分類、回歸和時間序列三種分析方法結合在一起,可以強化數據挖掘技術相關功能的實現。該技術經過了長期的發展,加上互聯網技術的發展,促使數據挖掘技術也得以應用到實際的工作上[1]。對于通信領域而言,對不同客戶銷售數據利用數據挖掘技術進行分析,就可以很好地預測客戶的行為,從而做出相應的措施。
在當今社會中,許多領域的數據信息都呈現出暴漲的態勢,也就是所說的信息爆炸和數據爆炸。數據信息越來越多,可是對信息數據的使用率卻沒有很快的提升上去,在數據的海洋里無法搜尋到有效、有價值的數據。而聚類相似性度量與量綱分析的網絡通信數據挖掘的出現,讓這些數據都能夠變廢為寶,逐漸成為一項越來越重要的技術。目前,很多企業都越來越重視基于互聯網的通信數據挖掘算法的設計,通過這一技術的應用,讓工作更加的準確和有效率。通過下面對表1和圖1的分析,對數據挖掘技術中的聚類算法進行分析。
由表1的信息可以看出,不同組別的數據集因為簇的個數的不同,而得到了不同的結果。在A1數據集中,簇的個數較少,其函數運算的時間以及簇合并的時間都比較短;在A2數據組里面,簇的個數相應增加,函數計算和簇合并時間也相應地增加;在A3數據集中,和A2數據集的情況差不多;同樣地再看A4數據集,情況和其他三種都不相同,當簇的個數變成了27,與A3相比個數減少時,它的函數運算的時間和簇合并時間卻增加了不少。
根據圖1的數據信息圖我們可以得知,在實際的運用中,有些企業也通過聚類算法取得了一些效果,但事實上結果都不是很樂觀,有的企業在算法完成分析工作后就認為達到了目的,從而對相關的分析工作就松懈了下來,導致得到的效果不理想。
綜上所述,該算法能夠對數據進行有針對性的相似性度量和量綱分析,充分發揮數據挖掘的重要作用。我們在總結了這一類算法后,也相應地對其他聚類算法進行了研究,其中ART聚類算法就是重點研究之一。
2? 關于相關自動化推薦系統以及ART算法的研究分析
2.1? 目前自動化推薦系統的主要技術
目前在互聯網上的自動化推薦系統其主要推薦技術可以分為非個性化的推薦技術、基于屬性的推薦技術、物品關聯推薦技術以及人物關聯式推薦技術。[1]對于這些推薦技術來說,其主要推薦方式分為基于內容的過濾方式和合作過濾方式。每一種方式都有著自身獨特的功能。以內容為基礎的過濾方式具有簡單、有效的優點,能夠利用用戶興趣和信息的相似性來過濾信息,但是其存在著過濾關鍵字庫容易過時,不能夠及時挖掘出有用的、最新的信息的問題;合作過濾方式可以彌補上一種方式的短板,讓用戶之間的信息互聯,僅僅依靠其中一個用戶的數據就可以推薦新的信息給其他用戶。但是,在實際運行的過程中,還是存在著一些難以處理的問題。
2.2? 基于ART算法的推薦機制總體框架
運用ART神經網絡技術,能夠預處理用戶的個人信息,提取出用戶的個性化屬性信息并加以分析,根據分析結果再對用戶進行相應的分類,從而為用戶提供個性化的推薦信息[2]。該自動推薦機制的處理流程包括預處理階段和在線階段。圖2列出了在線自動化推薦機制的框架圖。
在線自動化推薦機制運用了相關技術預處理用戶的個人信息資料,當有用戶在線發起相應的服務請求時,系統會識別用戶的類型信息,從而進行分析并挖掘出用戶的興趣度信息,展現給用戶個性化的推薦信息。預處理階段的主要任務是對用戶的屬性以及歷史交易數據等信息進行分析,在提取數據的操作過程中,可能會發生一些問題,比如出現格式不相容的問題,需要及時處理。預處理的同時推薦信息被存儲進知識庫,便于系統重復利用。
2.3? 關于ART算法的現狀分析
對于ART算法來說,其目前的情況是,雖然被廣泛用來進行用戶聚類,但其本身也存在著一些不足,主要表現在以下兩個方面。
(1)屬性向量“同或”狀態。ART算法進行相似度比較,涉及到最大匹配度節點j*的外權向量Wj*和輸入向量x,比較兩者和“1”的數量關系,其表達如式(1):
此公式中沒有考慮外權向量中“0”的作用,但在實際運用中,0和1兩種狀態在判斷中都是有用的信息,該方法因此不能有效的做出反應[3]。
(2)ART算法中輸入屬性相對應的權重問題。輸入屬性是多個屬性的集合,每個因子都會對聚類的結果產生不同的影響,為了處理在聚類過程中屬性重要性的問題,ART算法仍然需要通過改進才能得到合理的結果。
3? 在自動化推薦系統中應用ART網絡進行聚類的設計以及改進該算法的研究
自適應共振理論(ART)來源于人工神經網絡,人工神經網絡(ANN)是一種應用較好的集群技術,其理論基礎來源于生物學,是一種模仿生物神經網絡的信息處理系統[4]。對于自適應共振理論(ART),其是一位美國學者在1987年提出的一種神經網絡模型。通過整合ART以及數據挖掘技術,可以幫助用戶在浩大的信息流中找到真正需要的、有用的關鍵信息。
3.1? 在數據挖掘中關于ART算法的聚類設計
ART算法網絡的結構包括輸入層、輸出層和網絡連接層。在應用ART算法處理時,第一步要設置好用戶屬性和其對應的輸入向量,其初始向量的范圍在(0,1)間;第二步設定其開始時只有一個初始輸出點;第三步利用權重矩陣表示出輸入向量和第j個輸出集的匹配度,然后找到相對應的輸出集,計算出兩者之間的相似度。
3.2? 目前ART聚類算法存在的不足
對于ART聚類算法,目前的情況是雖然被廣泛用來進行用戶聚類,但其本身也存在著一些不足,主要表現在以下兩個方面:對于屬性向量“同或”狀態的問題,對于典型的相似度比較的問題,沒有能夠全面的考慮,因此需要進行相關的改進優化。通過整合ART和數據挖掘技術,針對自動化推薦系統的特性進行相應的改進,這時MART算法便應運而出。
3.3? 將ART算法改進為MART算法
根據ART算法的相關分析,發現其存在著明顯的不足,我們將相似值計算公式修改如式(2)所示:
在改進后的MART算法中,M[i]為輸入屬性的權重,即第i個節點重要性。ART算法改進后得到的MART算法能夠公平比較兩個向量,其算法的執行步驟和ART算法類似,根據用戶的個人屬性,通過相應的算法對用戶進行分組,進而達到數據挖掘的目的。
通過相關的實驗我們可以得到兩種算法經過計算分析后的結果,然后進行相關的分析我們可以發現以MART算法來進行聚類,判斷出用戶屬性的重要性,從而自動化推薦系統可以設置每一個屬性節點的權重。把以這樣的方式計算出的結果與傳統的ART算法得到的結果進行比較,輸出的結果更加合理和靈活。
4? 結? 論
互聯網的快速發展使得網絡的信息量迅速增長,如何在浩大的數據海洋里搜尋到有價值、有效的數據信息,是各個注重信息價值領域的企業所應該關注的問題。對于數據挖掘技術而言,其主要的價值就是在海量的數據資源里進行分析比較,然后發現有價值的數據信息,再通過一定的自動化推薦系統,把這些有用的數據呈現到用戶的面前,從而為用戶制定相關的發展策略提供有用的參考。在通信領域采用優質的自動化推薦系統對企業的發展具有至關重要的作用。
參考文獻:
[1] 陳慶章,湯仲喆,王凱,等.采用數據挖掘的自動化推薦技術的研究 [J].中文信息學報,2012,26(4):115-121.
[2] 張軍.試分析數據挖掘在通信行業營銷中的應用 [J].信息通信,2018(7):254-255.
[3] 劉鑫.聚類相似性度量與量綱分析的網絡通信數據挖掘算法研究 [J].計算機產品與流通,2018(3):48-49.
[4] 朱文忠.基于數據挖掘的自動化推薦系統算法 [J].四川理工學院學報(自然科學版),2012,25(2):55-59.
作者簡介:彭文惠(1981-),女,漢族,湖南寧鄉人,講師、高級工程師,碩士,主要研究方向:大數據、數據庫、Web開發。