999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于互聯網大數據“接地氣”的深度學習研究

2019-10-24 07:33:16謝妤婕孟凡然劉旭東劉鳳海賈國柱
科技傳播 2019年17期
關鍵詞:百度分析研究

謝妤婕,孟凡然,劉旭東,楊 鑫,劉鳳海,賈國柱

1 概述

“接地氣”在百度百科中解釋為:廣泛接觸老百姓的普通生活,反映最底層普通民眾的愿望、訴求。用大眾的生活習慣、用語等,而不是脫離了群眾的實際需求和真實愿望,而是踏踏實實。用來形容一些政府官員及名人,比較親善大眾。再看近年來,兩起打破常規的政治選舉事件,跟“接地氣”有著微妙的聯系。2019 年4 月21 日,作為“政治素人”的喜劇演員澤連斯基利用社交媒體,用喜劇、漫畫來調侃競爭對手,并將普通民眾的訴求、愿望、利益作為自己的競選重點,拉近與選民的距離,靠著非?!敖拥貧狻钡男蜗蟠螳@全勝,成功當選烏克蘭總統。還有諸多實例都能說明“接地氣”與政客、政治領域緊密相關,引起媒體的關注和報道。從這些實例中可以看出,“接地氣”,本身帶有一種感情色彩。另外,從百度指數來看,“接地氣”呈現明顯的震蕩趨勢,對“接地氣”的研究有很大的價值。

那么我們是否可以通過研究“接地氣”的相關數據,建立一個關于“接地氣”的情感分析語料庫,從而輔佐媒體等領域的研究呢?本文將從以下方面來展開對“接地氣”的研究。大數據是互聯網平臺產業的結晶,利用大數據是分析事物客觀規律的有效途徑。本文選取百度指數、CNKI 數據庫等數據作為數據源。在對數據進行自然語言分析(NLP)時,發現“簡單”和“接地氣”有著很高的相關性,不過“簡單”的百度指數和“接地氣”的百度指數這兩列數據集是非平穩時間序列,且相關性復雜,不能只運用簡單的線性分析。為了得到更可靠的分析,本文選擇了MF-DCCA 對“簡單”和“接地氣”進行分析,并為進一步形成關于“接地氣”的情感分析語料庫做了基礎性的工作。

圖1

2 數據源與研究方法

2.1 數據源

百度指數是一個數據共享平臺,基于以百度為搜索引擎的海量網民的行為數據構建,作為研究數據具有一定的可信度和普遍性[1]。

CNKI 是中國影響力大、內容全的數字圖書館和網絡資源共享平臺,核心期刊和重要評價性數據庫來源期刊的收錄率達到99% 以上,其信息內容有非常明確的來源、出處,內容可信可靠,可以作為學術研究和科學決策的依據[2]。

2.1.1 CNKI 數據庫

關鍵詞選擇“接地氣”,文獻類型去除“非工程科技Ⅰ類和非工程科技Ⅱ類”,從1984—2019 年,共獲得3 700 條文獻數據。每一條數據記錄主要包括文獻的作者、題目、摘要、關鍵字和引文等。

如圖2 所示,2010 年前,年平均發表文獻小于10 篇,2010 年之后整體呈現明顯的上升趨勢,在2014 年達到頂峰后又開始呈現明顯的下降趨勢,并且百度指數也在2014 年達到最高點。檢索到的文章主題分布非常廣泛,共15 個,其中“接地氣”主題占比最大達到80.44%,超過一半,占比第二的是企業管理。進一步主題可大分為接地氣、政治、管理。整體呈現,以接地氣為主導,政治、管理為輔的局勢。研究層次分布廣泛,共18 個,主要在自然科學和社會科學。其中占比最大的是政策研究,達到33.36%,行業指導次之24.29%。占比前四均為社會科學研究,總占比達到81.68%,超過一半。

2.1.2 百度指數

已在概述中做出說明。

2.1.3 爬蟲抓取數據

使用了八爪魚采集器抓取以“接地氣”為關鍵詞的百度新聞標題,并對其進行詞頻分析,去掉動詞、量詞等,只用名詞和形容詞,最后統計得出:名詞里詞頻TOP3 是網友、明星、句子;形容詞里詞頻TOP3 是精辟、喜歡、簡單。

在百度資訊中分別以“接地氣”和詞頻Top5的形容詞組合成接地氣精辟、接地氣喜歡、接地氣簡單、接地氣真實、接地氣高大為搜索詞進行搜索,得到表1。

表1 2019年4月21日星期日

圖2

結合以上數據分析發現,“接地氣”的百度指數呈現明顯震蕩狀態,其相關學術研究較少,且與新聞、媒體、傳播等具有一定相關性。

2.2 研究方法

1)在CNKI 數據庫中以關鍵詞“接地氣”為關鍵詞高級檢索,去除“非工程科技Ⅰ/Ⅱ類”,提取研究層次、領域等數據,繪制成圖,分析其特征。利用八爪魚采集器抓取以“接地氣”為關鍵詞的百度新聞標題,運用NLP 分析、易詞云進行詞頻分析畫圖。提取形容詞詞頻TOP5 數據,做進一步處理。結合“接地氣”和形容詞詞頻TOP5 的詞匯作為關鍵詞,在百度搜索引擎中搜索相關條目。為更深入研究,本文采用MF-DCCA 來分析“接地氣”和“簡單”的相關性。整個研究方法歸結為一個模型,即基于互聯網大數據的深度學習的研究。在接下來的工作中,融入已有情感詞典和相關語料庫,形成關于“接地氣”的情感分析語料庫,為新聞,媒體領域的研究做輔助性工作。

圖3 互聯網大數據深度學習模型

2)MF-DCCA。1967 年,Mandelbrot 首次提出了分形理論,用分數維度的視角和數學方法描述和研究客觀事物。為了研究不同數據集的長期交叉相關性,Podobnik 和Stanley 提出了去趨勢交叉相關性分析法(DCCA),在多個領域得到了廣泛應用。為探究兩個交叉相關的非平穩時間序列的多重分形特征,Zhou 結合DCCA 方法和MF-DFA 方法,提出了多重分形去趨勢交叉相關性分析法(MF-DCCA),將DCCA 的二階局部趨勢推廣到了q 階,用于研究兩個同時發生的具有自相關性的非平穩序列之間的相關性及其多重分形特征[3]。

圖4

(1)赫斯特指數Hxy(q)。根據圖4 中呈現的曲線來看,赫斯特指數Hxy(q)隨q 值的不同而不同,Hxy(q)均不為常數,這表明“接地氣”和“簡單”交叉相關性具有多重分形特征。圖5 中可以看出,當q=2 時,Hxy(q)=1.066,接近于1,說明“接地氣”和“簡單”兩列時間序列呈長程相關性。

(2)τ(q)圖4 中表明τ(q) 不是 q 的線性函數,所以“接地氣”和“簡單”兩列時間序列的交叉相關性呈多重分形。

(3)波動函數Fq(s)和時間間隔s。圖4 中顯示了“接地氣”和“簡單”之間的波動函數隨著時間標度s 的變化而變化的雙對數圖。從圖中可以看出,對于不同的q 值,在一段時期內曲線基本呈現出線性關系,具有較好的冪律關系,這也就意味著“接地氣”和“簡單”之間確實存在著交叉相關性。

(4)滑動窗口分析。圖4 中小圖為滑動窗口分析圖。橫坐標為時間,縱坐標為赫斯特指數。

滑動窗口常用于研究兩列數據集相關性的時間變化特征,為了更全面地分析“接地氣”和“簡單”的交叉相關性,本文采用滑動窗口分析方法得到“接地氣”和“簡單”的交叉相關性的日度動態變化特征。滑動窗會隨著窗口長度的變化而變化,滑動窗口過長,會導致丟失許多局部信息;而滑動窗口過短,會導致局部波動太劇烈而影響動態趨勢的觀察[4]。因此,正確選擇滑動窗口的長度對于滑動窗口分析方法至關重要。為了正確捕獲到全樣本交叉相關性的動態特點,適應研究需要將滑動窗口分析的窗口期設定為500 天。從2012 年1 月1 日 到2018 年12 月31 日;設定q 值為2,去除時間序列的前500 天,計算交叉相關性指數Hxy(q);然后將樣本向前滾動一天,重復上述步驟直至樣本末端,得到交叉相關性指數序列圖。

從圖4 中可以看出,所有赫斯特指數Hxy(q)均在0.75-1.10 之間,說明“接地氣”和“簡單”兩列時間序列一直都具有長程相關性且呈多重分形特征。

2.3 總結

通過多重分形去趨勢交叉相關性分析法(MFDCCA)得出的結果發現“接地氣”的百度指數和“簡單”的百度指數這兩列時間序列總是具有長程相關性,且呈多重分形特征。

3 研究結果與分析

1)互聯網時代,人們對于事物的關注度往往體現在搜索量上。對于“接地氣”的關注,自然也可以通過百度指數來反應。從“接地氣”的百度指數可以看出,人們對于“接地氣”一直有關注,且其走勢呈明顯的震蕩趨勢,所蘊含的信息豐富,研究價值很大。

2)將八爪魚采集器爬取到的以“接地氣”為關鍵詞的百度新聞標題進行分詞。通過簡單的NLP 分析可以發現,“接地氣”與“簡單”“精辟”“真實”等具有一定的相關性。并且可以看到,“接地氣”一般用來表示官員、政客、名人等的親善大眾,是一個本身帶有情感色彩的詞匯。

3)CNKI 文獻數據表明關于“接地氣”在黨建,政策研究等領域都有相關研究,但在新聞、傳媒研究甚少,且“接地氣”又和新聞、媒體、傳播等領域具有一定相關性,因此關于“接地氣”在新聞、傳媒等領域具有很大的研究價值和潛力。

4)通過多重分形去趨勢交叉相關性分析法(MF-DCCA)和滑動窗口分析方法研究“接地氣”百度指數和“簡單”百度指數這兩列時間序列,結果發現,“接地氣”百度指數和“簡單”百度指數具有總是具有長程相關性,且呈多重分形特征,這說明,研究“簡單”對于研究“接地氣”有一定的意義,對“接地氣”的研究提供了方向。

5)對于“接地氣”的數據分析和研究,可以進一步擴展到情感分析領域,建立一個“接地氣”的情感分析語料庫,從而輔助“接地氣”對于新聞,傳播,媒體等領域的研究。文章對于“接地氣”的CNKI 文獻數據、百度指數、爬蟲爬取的新聞標題的研究,為建立“接地氣”情感分析語料庫做了一個基礎性的工作。

猜你喜歡
百度分析研究
FMS與YBT相關性的實證研究
遼代千人邑研究述論
隱蔽失效適航要求符合性驗證分析
Robust adaptive UKF based on SVR for inertial based integrated navigation
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
百度年度熱搜榜
青年與社會(2018年2期)2018-01-25 15:37:06
電力系統及其自動化發展趨勢分析
百度遭投行下調評級
IT時代周刊(2015年8期)2015-11-11 05:50:22
主站蜘蛛池模板: www精品久久| 中文字幕人妻无码系列第三区| 国产在线小视频| 久久大香伊蕉在人线观看热2| 91免费国产在线观看尤物| 国产一级小视频| 久久久久夜色精品波多野结衣| 精品国产成人高清在线| 青青草国产在线视频| 中文字幕无码中文字幕有码在线| 亚洲无线观看| 91精品国产情侣高潮露脸| 全免费a级毛片免费看不卡| 亚洲va欧美va国产综合下载| 伊人国产无码高清视频| 日韩成人在线视频| 夜夜操国产| 亚洲热线99精品视频| 亚洲毛片一级带毛片基地| 亚洲无码视频喷水| 成人福利在线看| 黄色网页在线观看| 亚洲欧美一区在线| 视频一本大道香蕉久在线播放| 热久久这里是精品6免费观看| 国内熟女少妇一线天| 亚洲一级色| 精品综合久久久久久97| 亚洲制服丝袜第一页| 日韩黄色大片免费看| 久久综合丝袜长腿丝袜| 亚洲男人在线| 激情综合婷婷丁香五月尤物| av一区二区无码在线| 精品一區二區久久久久久久網站| 国产午夜在线观看视频| 国产主播喷水| 激情乱人伦| 久久精品娱乐亚洲领先| 久久国产精品无码hdav| 72种姿势欧美久久久大黄蕉| 国产精品无码翘臀在线看纯欲| 午夜丁香婷婷| 全部免费毛片免费播放| 伊人久久久大香线蕉综合直播| 久久公开视频| 亚洲无码日韩一区| 亚洲伦理一区二区| 精品少妇三级亚洲| 69综合网| 精品综合久久久久久97超人该| 国产在线无码av完整版在线观看| 婷婷亚洲视频| 久久伊伊香蕉综合精品| 在线欧美国产| 欧美国产中文| 黄色网站在线观看无码| 亚洲五月激情网| 岛国精品一区免费视频在线观看| 日本福利视频网站| 欧美中文一区| 国产流白浆视频| 手机在线国产精品| 欧美啪啪精品| 国产成人在线无码免费视频| 亚洲色图综合在线| 欧美性猛交xxxx乱大交极品| 激情无码字幕综合| 午夜日本永久乱码免费播放片| 国产精品任我爽爆在线播放6080 | 制服丝袜 91视频| 亚洲天堂视频在线播放| 国产精品真实对白精彩久久 | 亚洲黄色视频在线观看一区| 亚洲天堂啪啪| 国产91视频观看| 在线播放91| 欧美天堂在线| 亚洲一区二区在线无码| 亚洲三级a| 久久夜色精品国产嚕嚕亚洲av| 色综合天天娱乐综合网|