江務學
(東莞職業技術學院 計算機工程系,廣東 東莞 523808)
社交網絡中熱點話題深度挖掘方法及實驗測試
江務學
(東莞職業技術學院 計算機工程系,廣東 東莞 523808)
互聯網大數據時代,社交網絡數據交互具有實時性、社會性、復雜性;多元架構數據信息中會存在熱點話題數據;傳統社交網絡熱點話題挖掘方法存在熱點詞條檢索速度慢、話題詞條層淺、斷層數據無法挖掘等一系列問題,如何將社交網絡中的熱點話題數據進行挖掘,針對這一問題提出大數據信息詞條特征比對提取方法,對社交網絡中的大數據數據信息詞條進行特征顯化處理,采用餅圖對比方式對特征化詞條數據進行網絡互交頻率展現,采用多維數據獲取法,解決社交網絡熱點話題挖掘中出現的數據阻滯現象,滿足社交網絡中熱點話題深度挖掘的要求;通過仿真實驗對提出方法進行效率、準確度、速度測試,實驗結果表明,提出方法對社交網絡中的熱點話題挖掘快捷、高效、實用性強。
社交網絡;熱點話題;挖掘;信息詞條特征
近年來,社會發展速度加快,信息通信科學技術發展迅猛。信息網絡架構逐漸完善,光纖、4G網絡基站等高速網絡傳輸介質與技術的運用使人、機、物構成多元化大數據空間[1-2],標志著大數據時代的到來。互聯網大數據時代,個人數據信息集中交互構建了相對穩定的社交網絡空間。隨著網絡普及,社交網絡成為獲取外界信息、親人朋友相互溝通交流的重要手段,并已成為當下熱點話題發布的前沿陣地。社交網絡中數據節點的構成特征性決定數據節點組成詞條信息數據級別的重要性[3-4],部分數據節點特征構成的詞條對其他數據節點特征構成具有決定性作用,對社交網絡中探討觀點起到導向作用。社交網絡空間內龐大的個人、社會信息數據交織匯總,形成信息交互網。社交網絡信息交互網中信息數據時效性強,信息結構組成復雜,特征詞條信息數據微差化[5]。深度挖掘社交網絡信息交互網中時下熱點話題數據成為各大網站平臺關注的核心。
針對社交網絡中熱點話題深度挖掘提出大數據信息詞條特征比對方法,社交網絡信息交互網中的數據組成特征標簽各不相同,對社交網絡信息交互網中大數據數據信息詞條的構成進行數據標簽特征分類,到達社交網絡信息交互網中數據特征化歸類,運用譜線形式對特征化詞條數據進行網絡互交頻率展現,采用多維獲取數據算法,解決傳統社交網絡中熱點話題數據檢索過程中出現的數據獲取阻滯問題。保證熱點話題數據檢索準確流暢。通過對特征詞條一段時間交互數量的統計分析,達到深度挖掘社交網絡中熱點話題目的。通過仿真實驗對提出方法進行測試,測試數據表明,提出的大數據信息詞條特征比對方法在社交網絡熱點詞條分析中,熱點詞條挖掘檢索速度快、掘準確度高,滿足社交網絡中熱點話題深度挖掘的要求。
1.1 社交網絡中話題數據構成方式
社交網絡信息交互網中,話題數據節點被多次交互, 形成交互節點數據集。交互節點數據集由熱點話構成題詞條特征數據信息、熱點話題人群特征數據信息、熱點話題社會特征數據信息三部分組成,統稱特征節點數據。三部分信息數據交錯排列。復雜、動態交互節點按照社交網絡交互網信息交互頻次排列式進行排列。排列式如下:
(1)
(2)
(3)
上述推導排列式中,a,b,c...n代表不同詞條數據節點,φ為社交網絡信息交互網中節點數據的交互頻率,T為社交網絡信息交互網中節點數據的交互間隔時間。i為特征數據標簽排列位序值。根據推導排列式可以獲得社交網絡中話題數據排列構成方式如表1所示。

表1 社交網絡中話題數據排列構成方式
由表1可以看出,社交網絡中話題數據構成排列方式中詞條信息特征標簽節點數據并不明顯且排列混亂。在社交網絡信息交互網中很難進行重點話題詞條挖掘。
1.2 社交網絡中話題數據特征顯化處理
通過上述推導排列關系式(1)、(2)、(3)生成的社交網絡中話題數據排列譜系得知,社交網絡信息交互網中構成詞條數據的特征節點數據按照特征數據本體數據量進行分布,以交互頻次間隔時間作為本體數據分布排列依據。但此種特征數據排列方式具有很強的隱蔽性,在大數據的社交網絡信息交互網中很難檢索到話題數據的特征數據標簽或被其他類似詞條特征數據標簽,導致社交網絡熱點話題詞條挖掘滯緩,準確度差。經統計,近5年社交網絡中熱點話題挖掘率呈下滑趨勢,如圖1所示。

圖1 5年內社交網絡中熱點話題挖掘走勢
通過圖1直觀反映出2012年以來,社交網絡中熱點話題挖掘率迅速下降,2014年下降率呈突發性下滑,對表1社交網絡中話題數據排列結構進行特征數據節點優化處理。運用特征節點數據標簽升序排列法,將話題數據排列算法進行頻次系數取值位序調整,生成新的排列關系式,如下所示:
(4)
關系式(4)中對社交網絡中話題數據特征數據標簽排列位序值i進行了特征值升序排列處理,處理后的話題數據排列在保持本體數據位序不變的前提下,對特征數據標簽進行特征顯現升序排列。排列式如下所示:
(5)
關系式中,a,b,c...n本體詞條數據排列位序受i系數取值影響,|n∈i≠0|條件保證了優化后的詞條數據按照新順序排列所構成詞條本體與原本體詞條一致。確保后期社交網絡中熱點話題詞條特征數據挖掘檢索的高效性。社交網絡中話題數據特征化處理后排列方式如表2所示。

表2 特征化處理后社交網絡中話題數據排列構成方式
由表2可以看出,經過特征顯化處理,社交網絡中話題特征數據排列呈升序化排列方式,將特征數據在社交網絡中交互次數坐標系數引入,可得社交網絡話題特征標簽模型,如表3所示。

表3 社交網絡話題特征標簽模型
表3社交網絡話題特征標簽模型的建立,標志著社交網絡話題數據特征標簽顯化處理全部結束,社交網絡話題特征標簽模型的建立為下面的社交網絡中熱點話題詞條數據挖掘檢索分析提供了平臺環境。
1.3 社交網絡中熱點話題數據檢索
通過對社交網絡中話題數據詞條構成節點特征數據的處理,社交網絡中熱點話題詞條數據標簽顯現出來。怎樣使熱點話題詞條在社交網絡信息交互網中被快速搜索以及挖掘是本節處理核心。表3社交網絡話題特征標簽模型中采用STZP特征對比引擎,對模型中數據坐標系數進行交互頻率關聯化處理,得出熱點話題詞條特征空間系數值,特征空間系數值公式如下所示。
(6)
將模型內社交網絡中熱點詞條數據坐標系數導入式(6),得出社交網絡中熱點話題詞條特征空間細數如表4所示 。

表4 社交網絡中熱點話題詞條特征空間細數值
通過表4,得到社交網絡中熱點話題詞條特征空間系數值,將社交網絡中熱點話題詞條特征空間系數值寫入聯通密度對比算法,進行熱點話題詞條檢索。偽代碼如下:
寫入*D,Λ/MINPtst
/rig
D:一個含有n結合的特征數據集;
/**
算法引入:
檢索特征詞條標記為unvisit;
Do*
/null****
動態選取任意unvisit標簽;
標記L為visit;
4.客戶滿意度分析機制,對于客戶滿意度的調查,可以通過各類型調查問卷來進行,但是這種方法最大的缺點就是被動,其效果與客戶填寫資料的主觀性有著很大的影響。因此可以采取數據挖掘的方式來進行,通過采集和挖掘用戶對商品、物流和客服的評價信息,進行情感分析實現主動式的客戶滿意度分析機制。這種分析機制可以主動、準確且客觀的分析出客戶對商品、物流公司和銷售服務的各項調查數據,為改進平臺的營銷策略提供可靠的決策依據。
If L 為&特征空間范圍至少存在MINPtst個系數值;
提取特征空間標簽系數特征;
/*******
If N是unvisit
將L標記提取
*a坐標3.4執行檢索
For N or L
*b坐標6.0 執行檢索
For N or L
*c坐標9.7 執行檢索
For N or L
數據結果返回/rid**
/****
偽代碼中考慮到相近特征數據標簽詞條影響,對類似特征標簽詞條做了篩除設計保證社交網絡中熱點話題詞條檢索準確度。社交網絡中熱點話題數據檢索結果曲線如圖2所示。

圖2 社交網絡中熱點話題數據檢索結果譜圖
社交網絡中熱點話題數據檢索過程中除類似特征詞條影響外,還存在數據數空間斷裂無法對斷裂數據空間信息進行檢索挖掘的狀況,提出大數據信息詞條對比方法,采用大數據空間多維空間數據獲取方法,來解決數據空間斷裂造成的熱點話題數據挖掘阻滯現象。
1.4 多維數據獲取法
多維數據獲取法是利用多條數據交互通道的設計,在大數據空間不同層面與不同數據域中獲取數據,經過數據特征標簽分析后,將關聯性信息數據作為斷層數據空間補缺數據面,滿足社交網絡中熱點話題深度挖掘需要的數據特征表現信息。多維數據獲取法采用DFIA數據信息斷層算法,優化整合多通道資源信息數據。算法如下所示:
(7)
關系式(7)中,A、B代表獲取數據的通道;N代表通道獲取數據資源量系數;n代表通道數。大數據空間中滿足A∈B∈N∈n≠0,數據空間層為開合數據狀態,即數據特征標簽信息獲取匹配成功。若A∈B∈N∈n=0,數據獲取通道A、B等通道出現數據斷層,此時A?B?N?n=0,各通道數據獲取量與獲取空間層次不在統一,轉變為動態資源獲取,達到多維數據獲取的目的。工作原理如圖3所示。

圖3 多維數據獲取算法工作原理
通過圖3可以看出,多維數據獲取算法中數據獲取通道間及相互獨立又相互依存,確保社交網絡中熱點話題深度挖掘過程中的數據準確與完整。至此,社交網絡中熱點話題深度挖掘方法設計全部完成。
針對提出的社交網絡中熱點話題深度挖掘方法進行仿真實驗測試。實驗設置傳統方法與提出方法針對百度、新浪、搜狐、網易、騰訊5大網絡平臺數據進行采集,采集時間為一周。對采集后挖掘出的話題與時下熱點話題進行對比,證實提出方法的有效性與準確性。測試詳細參數如表5所示。

表5 實驗測試參數
從表5中可以看出,提出的方法在社交網絡熱點話題挖掘數量上明顯占有優勢。證明了提出方法的高效性。將表5數據生成準確度餅圖,進行社交網絡中熱點話題深度挖掘的準確度測試。生成圖如圖4所示。
通過圖4的五組社交網絡熱點話題準確度餅圖可以看出,百度、新浪、搜狐、網易及騰訊5大平臺數據中挖掘熱點話題餅圖與熱點話題基準量餅圖重疊面積最大的為提出方法數據生成的餅圖,證明提出方法在社交網絡熱點話題深度發掘中具有準確度高的優點,滿足社交網絡中熱點話題深度挖掘的要求。
對提出的設計方法與傳統方法進行社交網絡中熱點話題挖掘速度的測試,設置1500組熱點話題分3組進行測,對比提出方法與傳統方法全部挖掘所用時間。具體參數如表6所示。

圖4 測試數據對比圖

測試數據傳統方法/s提出方法/s5006.83.5100017.69.5150030.919.5
通過表6數據對比,提出的社交網絡中熱點話題深度挖掘方法比傳統方法挖掘熱點速度短,提升空間大。綜合上述兩組測試數據,證明提出的社交網絡中熱點話題深度挖掘方法設計高效可行,熱點話題挖掘準確度高,達到設計要求。
互聯網技術高速發展,網絡社交平臺已成為眾多信息發布交互平臺。基于大數據環境下,針對社交網絡中的熱點話題深度發掘提出了設計方法,并通過仿真實驗證明提出方法具有高效性與可行性。設計方法的測試成功為未來社交網絡熱點話題挖掘研究領域提供新的設計思路。
[1] 曹玖新,陳高君,吳江林,等.基于多維特征分析的社交網絡意見領袖挖掘[J].電子學報,2016,44(4):156-162.
[2] 張繼榮,王向陽.基于X ML數據挖掘的Apriori算法的研究與改進[J].計算機測量與控制,2016,24(6):156-162.
[3] 陳福集,胡改麗.網絡輿情熱點話題傳播模式研究[J].情報雜志,2014,33(1):97-101.
[4] 黃發良,張師超,朱曉峰.基于多目標優化的網絡社區發現方法[J].軟件學報,2013,24(9):2062-2077.
[5] 劉 靜. 數據挖掘技術在教務管理實踐中的應用研究[J].電子設計工程, 2014, 22(24):1-3.
Depth of Hot Topics in Social Network Mining Method and Experimental Test
Jiang Wuxue
(Department of Computer Engineering, Dongguan Polytechnic, Dongguan 523808, China)
The Internet era of big data, social network data interaction is real-time, sociality, complexity.Multiple architecture data information are hot topics in data.Traditional social network hot topic mining methods retrieval speed slow, hot entry subject terms and shallow layer, fault data cannot be mining and so on a series of problems, how to social network hot topic in data mining, in order to solve this problem put forward comparing large data entry feature extraction method, the social network of big data features manifest data entry, and the pie chart can be compared to the way of network intercrossing frequency characteristic entry data show, the multidimensional data acquisition method, solve the hot issues of social network in the mining of the data block phenomenon, to meet the requirements of the hot topics in social network depth excavation.Through the simulation experiments on the proposed method efficiency, accuracy and speed test, the experimental results show that the proposed method is the hot topic in social network mining fast, efficient and practical.
social network; hot topic; mining; feature information entry
2016-09-05;
2016-09-27。
廣東省產學研專項資金項目(2013B011301003);東莞市產學研合作項目(2014509102211);東莞職業技術學院政校行企項目(政201607)。
江務學(1976-),男,湖北黃岡人,碩士,副教授,CCF會員,主要從事服務計算方向的研究。
1671-4598(2017)02-0174-03
10.16526/j.cnki.11-4762/tp.2017.02.048
TP393
A