謝妤婕,孟凡然,劉旭東,楊 鑫,劉鳳海,賈國柱
“接地氣”在百度百科中解釋為:廣泛接觸老百姓的普通生活,反映最底層普通民眾的愿望、訴求。用大眾的生活習慣、用語等,而不是脫離了群眾的實際需求和真實愿望,而是踏踏實實。用來形容一些政府官員及名人,比較親善大眾。再看近年來,兩起打破常規的政治選舉事件,跟“接地氣”有著微妙的聯系。2019 年4 月21 日,作為“政治素人”的喜劇演員澤連斯基利用社交媒體,用喜劇、漫畫來調侃競爭對手,并將普通民眾的訴求、愿望、利益作為自己的競選重點,拉近與選民的距離,靠著非?!敖拥貧狻钡男蜗蟠螳@全勝,成功當選烏克蘭總統。還有諸多實例都能說明“接地氣”與政客、政治領域緊密相關,引起媒體的關注和報道。從這些實例中可以看出,“接地氣”,本身帶有一種感情色彩。另外,從百度指數來看,“接地氣”呈現明顯的震蕩趨勢,對“接地氣”的研究有很大的價值。
那么我們是否可以通過研究“接地氣”的相關數據,建立一個關于“接地氣”的情感分析語料庫,從而輔佐媒體等領域的研究呢?本文將從以下方面來展開對“接地氣”的研究。大數據是互聯網平臺產業的結晶,利用大數據是分析事物客觀規律的有效途徑。本文選取百度指數、CNKI 數據庫等數據作為數據源。在對數據進行自然語言分析(NLP)時,發現“簡單”和“接地氣”有著很高的相關性,不過“簡單”的百度指數和“接地氣”的百度指數這兩列數據集是非平穩時間序列,且相關性復雜,不能只運用簡單的線性分析。為了得到更可靠的分析,本文選擇了MF-DCCA 對“簡單”和“接地氣”進行分析,并為進一步形成關于“接地氣”的情感分析語料庫做了基礎性的工作。

圖1
百度指數是一個數據共享平臺,基于以百度為搜索引擎的海量網民的行為數據構建,作為研究數據具有一定的可信度和普遍性[1]。
CNKI 是中國影響力大、內容全的數字圖書館和網絡資源共享平臺,核心期刊和重要評價性數據庫來源期刊的收錄率達到99% 以上,其信息內容有非常明確的來源、出處,內容可信可靠,可以作為學術研究和科學決策的依據[2]。
2.1.1 CNKI 數據庫
關鍵詞選擇“接地氣”,文獻類型去除“非工程科技Ⅰ類和非工程科技Ⅱ類”,從1984—2019 年,共獲得3 700 條文獻數據。每一條數據記錄主要包括文獻的作者、題目、摘要、關鍵字和引文等。
如圖2 所示,2010 年前,年平均發表文獻小于10 篇,2010 年之后整體呈現明顯的上升趨勢,在2014 年達到頂峰后又開始呈現明顯的下降趨勢,并且百度指數也在2014 年達到最高點。檢索到的文章主題分布非常廣泛,共15 個,其中“接地氣”主題占比最大達到80.44%,超過一半,占比第二的是企業管理。進一步主題可大分為接地氣、政治、管理。整體呈現,以接地氣為主導,政治、管理為輔的局勢。研究層次分布廣泛,共18 個,主要在自然科學和社會科學。其中占比最大的是政策研究,達到33.36%,行業指導次之24.29%。占比前四均為社會科學研究,總占比達到81.68%,超過一半。
2.1.2 百度指數
已在概述中做出說明。
2.1.3 爬蟲抓取數據
使用了八爪魚采集器抓取以“接地氣”為關鍵詞的百度新聞標題,并對其進行詞頻分析,去掉動詞、量詞等,只用名詞和形容詞,最后統計得出:名詞里詞頻TOP3 是網友、明星、句子;形容詞里詞頻TOP3 是精辟、喜歡、簡單。
在百度資訊中分別以“接地氣”和詞頻Top5的形容詞組合成接地氣精辟、接地氣喜歡、接地氣簡單、接地氣真實、接地氣高大為搜索詞進行搜索,得到表1。

表1 2019年4月21日星期日

圖2
結合以上數據分析發現,“接地氣”的百度指數呈現明顯震蕩狀態,其相關學術研究較少,且與新聞、媒體、傳播等具有一定相關性。
1)在CNKI 數據庫中以關鍵詞“接地氣”為關鍵詞高級檢索,去除“非工程科技Ⅰ/Ⅱ類”,提取研究層次、領域等數據,繪制成圖,分析其特征。利用八爪魚采集器抓取以“接地氣”為關鍵詞的百度新聞標題,運用NLP 分析、易詞云進行詞頻分析畫圖。提取形容詞詞頻TOP5 數據,做進一步處理。結合“接地氣”和形容詞詞頻TOP5 的詞匯作為關鍵詞,在百度搜索引擎中搜索相關條目。為更深入研究,本文采用MF-DCCA 來分析“接地氣”和“簡單”的相關性。整個研究方法歸結為一個模型,即基于互聯網大數據的深度學習的研究。在接下來的工作中,融入已有情感詞典和相關語料庫,形成關于“接地氣”的情感分析語料庫,為新聞,媒體領域的研究做輔助性工作。

圖3 互聯網大數據深度學習模型
2)MF-DCCA。1967 年,Mandelbrot 首次提出了分形理論,用分數維度的視角和數學方法描述和研究客觀事物。為了研究不同數據集的長期交叉相關性,Podobnik 和Stanley 提出了去趨勢交叉相關性分析法(DCCA),在多個領域得到了廣泛應用。為探究兩個交叉相關的非平穩時間序列的多重分形特征,Zhou 結合DCCA 方法和MF-DFA 方法,提出了多重分形去趨勢交叉相關性分析法(MF-DCCA),將DCCA 的二階局部趨勢推廣到了q 階,用于研究兩個同時發生的具有自相關性的非平穩序列之間的相關性及其多重分形特征[3]。

圖4
(1)赫斯特指數Hxy(q)。根據圖4 中呈現的曲線來看,赫斯特指數Hxy(q)隨q 值的不同而不同,Hxy(q)均不為常數,這表明“接地氣”和“簡單”交叉相關性具有多重分形特征。圖5 中可以看出,當q=2 時,Hxy(q)=1.066,接近于1,說明“接地氣”和“簡單”兩列時間序列呈長程相關性。
(2)τ(q)圖4 中表明τ(q) 不是 q 的線性函數,所以“接地氣”和“簡單”兩列時間序列的交叉相關性呈多重分形。
(3)波動函數Fq(s)和時間間隔s。圖4 中顯示了“接地氣”和“簡單”之間的波動函數隨著時間標度s 的變化而變化的雙對數圖。從圖中可以看出,對于不同的q 值,在一段時期內曲線基本呈現出線性關系,具有較好的冪律關系,這也就意味著“接地氣”和“簡單”之間確實存在著交叉相關性。
(4)滑動窗口分析。圖4 中小圖為滑動窗口分析圖。橫坐標為時間,縱坐標為赫斯特指數。
滑動窗口常用于研究兩列數據集相關性的時間變化特征,為了更全面地分析“接地氣”和“簡單”的交叉相關性,本文采用滑動窗口分析方法得到“接地氣”和“簡單”的交叉相關性的日度動態變化特征。滑動窗會隨著窗口長度的變化而變化,滑動窗口過長,會導致丟失許多局部信息;而滑動窗口過短,會導致局部波動太劇烈而影響動態趨勢的觀察[4]。因此,正確選擇滑動窗口的長度對于滑動窗口分析方法至關重要。為了正確捕獲到全樣本交叉相關性的動態特點,適應研究需要將滑動窗口分析的窗口期設定為500 天。從2012 年1 月1 日 到2018 年12 月31 日;設定q 值為2,去除時間序列的前500 天,計算交叉相關性指數Hxy(q);然后將樣本向前滾動一天,重復上述步驟直至樣本末端,得到交叉相關性指數序列圖。
從圖4 中可以看出,所有赫斯特指數Hxy(q)均在0.75-1.10 之間,說明“接地氣”和“簡單”兩列時間序列一直都具有長程相關性且呈多重分形特征。
通過多重分形去趨勢交叉相關性分析法(MFDCCA)得出的結果發現“接地氣”的百度指數和“簡單”的百度指數這兩列時間序列總是具有長程相關性,且呈多重分形特征。
1)互聯網時代,人們對于事物的關注度往往體現在搜索量上。對于“接地氣”的關注,自然也可以通過百度指數來反應。從“接地氣”的百度指數可以看出,人們對于“接地氣”一直有關注,且其走勢呈明顯的震蕩趨勢,所蘊含的信息豐富,研究價值很大。
2)將八爪魚采集器爬取到的以“接地氣”為關鍵詞的百度新聞標題進行分詞。通過簡單的NLP 分析可以發現,“接地氣”與“簡單”“精辟”“真實”等具有一定的相關性。并且可以看到,“接地氣”一般用來表示官員、政客、名人等的親善大眾,是一個本身帶有情感色彩的詞匯。
3)CNKI 文獻數據表明關于“接地氣”在黨建,政策研究等領域都有相關研究,但在新聞、傳媒研究甚少,且“接地氣”又和新聞、媒體、傳播等領域具有一定相關性,因此關于“接地氣”在新聞、傳媒等領域具有很大的研究價值和潛力。
4)通過多重分形去趨勢交叉相關性分析法(MF-DCCA)和滑動窗口分析方法研究“接地氣”百度指數和“簡單”百度指數這兩列時間序列,結果發現,“接地氣”百度指數和“簡單”百度指數具有總是具有長程相關性,且呈多重分形特征,這說明,研究“簡單”對于研究“接地氣”有一定的意義,對“接地氣”的研究提供了方向。
5)對于“接地氣”的數據分析和研究,可以進一步擴展到情感分析領域,建立一個“接地氣”的情感分析語料庫,從而輔助“接地氣”對于新聞,傳播,媒體等領域的研究。文章對于“接地氣”的CNKI 文獻數據、百度指數、爬蟲爬取的新聞標題的研究,為建立“接地氣”情感分析語料庫做了一個基礎性的工作。