999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于R語言的社交網絡數據信息挖掘

2021-09-18 02:57:48孫澤龍
電子測試 2021年16期
關鍵詞:數據挖掘文本用戶

孫澤龍

(西安職業(yè)技術學院,陜西西安,710077)

1 R 語言的特點

R 語言是數據分析并進行可視化展示實現的實用工具,數據科學的不斷發(fā)展,使得我們需要把數據映射成為方便查看的圖形、圖像或微視頻等,用戶對數據的交互更為方便,容易從中理解和讀取數據。R 語言擁有靈活性和多樣性的特點,使用它可以根據用戶的不同需求,通過R 語言工具本身提供的大量R 函數,可以完成相對應的圖形圖標繪制,依據函數的幫助信息,對于特殊圖形要求的還可以自己編寫程序,繪制符合個性化要求的圖形。

生活中全國春運客流數據,氣象云圖數據、用戶搜索生成搜索網絡數據,微博用戶相互關注和傳播的數據,電子商務購物網站等都可以稱得上是大數據產生的源頭聚集地,數據爆發(fā)式增長和社會化趨勢是大數據產生的本質原因。爆發(fā)式增長是現在實時數據、非結構化數據、機器數據產生的迅速是以前無法想象的。摩爾定律中全球每18 個月產生的數據量是之前有計算機歷史以來數據的總和,現在更新后需要的時間更短了。用戶的行為和關系產生大量的碎片化信息被互聯網所記錄。大數據體量之大使得現有數據庫技術無法承載,視頻、音頻等存儲遇到問題,實時生成數據之快傳統數據庫和網絡架構無法滿足,數據產生的價值密度低,需要挖掘展現其中的價值。

2 社交網絡的特點

互聯網上擁有用戶實時生成的海量數據,這些數據往往具有碎片化,當然也存在著N 度好友理論,說的是你的好友的好友依次往下不超過六個的好友可以覆蓋你所在區(qū)域或更廣的所有人,由于社交網絡工具的便捷,使得生成的這些數據記錄著上網用戶的情緒和智慧,這些龐大的群體用戶蘊含著社交網絡的價值。比如利用社交網絡挖掘價值,可以進行預測天氣的變化,通過各個地區(qū)很熱的人數來進行監(jiān)測,在微博網絡上選取一些關鍵詞種子描述很”熱”的詞需要關注的,在一定語境下的熱才指天氣熱,選取相應數據并進行文本集合算法的規(guī)則處理,當然關于’熱’的方言相關詞和綜合語境都要提取文本處理相關語境,根據語法結構判斷真正的天氣熱。經過這些處理后再統計出各個地區(qū)很熱的人數,然后得到”熱”的數據,加上日期后可以根據時間的推移看出不同地區(qū)天氣的變化情況。預測選用的方法會對結果產生影響。

社交網路也存在著問題和挑戰(zhàn),有時同一個句子不同語境所表達的意思會不一樣,這就涉及到機器對自然語言規(guī)則的處理,不同場景中情感分析中詞匯本題庫的積累,微博或論壇數據中涉及大都是稀疏文本或表情符號信息提取、垃圾信息地處理等面臨一定的問題,抽樣數據中不是所有的信息都有用,有用的數據是否抽取全面和抽樣方法的合理性都可能影響最后的處理結果。

3 數據信息挖掘

把從數據源文本中抽取出的特征詞,進一步量化的過程來進行表示文本信息。將它們從一個無結構的原始文本轉化為結構化的計算機可以識別處理的信息,即對文本進行科學的抽象,建立它的數學模型,用以描述和代替文本。文本挖掘是從大量文本數據中提取前所未知的、有用的、可理解的、可操作的知識的過程。文本挖掘包含了學術或技術報告、新聞、網頁、用戶手冊等都是文本挖掘的數據來源,文本挖掘的主要任務是包含對詞或短語的關鍵字提取;對詞條的關系建立對應文本的主要概念,進行概念提取;從多角度出發(fā)進行分析,實現可視化的顯示或導航;文本挖掘與數據挖掘有著緊密的聯系,主要區(qū)別如表1 所示。

表1 對比數據挖掘與文本挖掘

使計算機能夠通過對這種模型的計算和操作來實現對文本的識別。短語提取是提取文本集中所有相關的短語。概念提取是對這些短語之間的關系,建立一個該文本集中的主要概念。可視化顯示和導航是從多個視角出發(fā)進行分析。本文數據來源是一個班級群里,近一個月時間里群里消息文本資料,班級群里面應該有老師,學生,學生里面有學生的班干部等,通過對此數據進行挖掘分析,從下圖2 所示,來找出群內高頻詞匯,分析群里面近期關注的熱點信息等。

圖1 高頻詞挖掘圖

4 數據分析應用

聊天時間統計后發(fā)現,群里早上10 點前基本很少有人聊天,11 點后聊天數量逐步上升,一天時間段中晚上9-11點聊天是最為活躍的。從下圖2 所示時間分布圖中,可以看出群聊里在一天中聊天的活躍度分布情況。這樣就可以看出,如果需要討論或者通知相關事宜,就可以適當選擇合適的時間進行,比如早上方便通知消息或發(fā)布文件資料等信息,這樣重要信息就不會被吞沒,而討論適合在晚間進行。

圖2 聊天時間分布圖

5 結語

隨著大數據與云計算的發(fā)展,網絡上的信息內容和文本類型將變得日趨豐富。本文在對文本內容分析為研究目的和文本挖掘模型的基礎上對高頻詞、時間分布兩個參數為研究對象進行了分析。從高頻詞和時間分布的圖表中,我們可以判斷出來群信息最近談論的最熱的話題等。以上分析的數據只是建立在現有的數據之上的,統計數據只能統計出大概的事情發(fā)展趨勢,可能會有許多的誤差,所以還需進一步完善和優(yōu)化進而做出更準確的判斷。今后教學實踐將繼續(xù)以數據挖掘案例為載體,“新工科”建設為指導,設計更多基于有數據挖掘價值的應用案例,提升教育教學水平和激發(fā)學生學習興趣。

猜你喜歡
數據挖掘文本用戶
探討人工智能與數據挖掘發(fā)展趨勢
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
一種基于Hadoop的大數據挖掘云服務及應用
如何獲取一億海外用戶
主站蜘蛛池模板: 欧美五月婷婷| av色爱 天堂网| 精品国产香蕉在线播出| 免费无码又爽又黄又刺激网站| 特级毛片8级毛片免费观看| 性欧美久久| 一本大道东京热无码av| 91av成人日本不卡三区| 国产乱人伦AV在线A| 97精品国产高清久久久久蜜芽| 国产精品久久久久久久久久久久| 亚洲首页在线观看| 波多野吉衣一区二区三区av| 香蕉蕉亚亚洲aav综合| 又粗又硬又大又爽免费视频播放| 色综合五月| 国产精品分类视频分类一区| 国产一区二区色淫影院| 91口爆吞精国产对白第三集| 色网在线视频| 国产精品午夜电影| www亚洲精品| 国产欧美日韩免费| 小13箩利洗澡无码视频免费网站| 国产成人精品一区二区不卡| 午夜一级做a爰片久久毛片| 欧美全免费aaaaaa特黄在线| 五月激情综合网| 丰满人妻一区二区三区视频| 丝袜亚洲综合| 欧洲精品视频在线观看| 国产性生大片免费观看性欧美| 丁香五月激情图片| 国产高潮流白浆视频| 又爽又黄又无遮挡网站| 中文字幕日韩欧美| 在线国产三级| 国产v精品成人免费视频71pao| 99久久这里只精品麻豆| 欧美在线观看不卡| 99re经典视频在线| 欧美日韩v| 熟妇人妻无乱码中文字幕真矢织江 | 国产18在线播放| 免费高清a毛片| 日韩a级片视频| 国产日本一区二区三区| 亚洲二区视频| 毛片网站免费在线观看| 嫩草国产在线| 朝桐光一区二区| 日韩免费毛片| 国产精品99久久久久久董美香| 99视频精品全国免费品| 免费看一级毛片波多结衣| 韩国福利一区| 亚洲视频三级| 国产麻豆精品久久一二三| 久久亚洲国产一区二区| 国产地址二永久伊甸园| 色天天综合| 欧美日韩一区二区在线免费观看| 欧美a级在线| 欧美日韩成人| 亚洲—日韩aV在线| 国产精品一区在线观看你懂的| 欧美成人日韩| 91丨九色丨首页在线播放 | 无码AV高清毛片中国一级毛片| 三上悠亚一区二区| 中国特黄美女一级视频| 国产成人欧美| 精品一区二区三区无码视频无码| www.狠狠| 久草美女视频| 国产成年无码AⅤ片在线| 污视频日本| 婷婷在线网站| 亚洲欧美日韩精品专区| 国产丝袜啪啪| 日韩在线观看网站| 国产精品尹人在线观看|