摘 要:互聯(lián)網(wǎng)技術(shù)的發(fā)展使大數(shù)據(jù)在微博輿情中的應(yīng)用越來越廣泛,當(dāng)前微博大數(shù)據(jù)的應(yīng)用集中體現(xiàn)在商業(yè)領(lǐng)域和輿情評測兩方面,以輿情評測應(yīng)用熱度最甚。因此,其成為了國內(nèi)學(xué)術(shù)界和業(yè)界普遍研究的熱點話題。本文著重從大數(shù)據(jù)應(yīng)用風(fēng)險和應(yīng)用挑戰(zhàn)兩個角度分析闡述微博輿情研究,并提出建設(shè)性的意見。
關(guān)鍵詞:微博輿情;大數(shù)據(jù);風(fēng)險;挑戰(zhàn)
中圖分類號:G206 文獻標(biāo)志碼:A 文章編號:1674-8883(2020)07-0114-02
微博大數(shù)據(jù)在展示社交關(guān)系中發(fā)揮著顯著的作用,已成為研究當(dāng)前人們社會行為的典范。從我國當(dāng)前研究所取得的成果來看,微博輿情研究已經(jīng)不再是單純的監(jiān)測,而是逐步向預(yù)警和預(yù)測方向發(fā)展,開始涉及多個領(lǐng)域,可以預(yù)見,未來的微博輿情研究必然是以綜合信息服務(wù)為導(dǎo)向的數(shù)據(jù)鏈。但是,凡事有利必有弊,大數(shù)據(jù)在微博輿情研究中發(fā)揮技術(shù)優(yōu)勢和數(shù)據(jù)優(yōu)勢的同時,也逐漸顯露出了一些負面的風(fēng)險和挑戰(zhàn),使微博輿情研究開始出現(xiàn)質(zhì)疑和偏見,面對這突如其來的嚴(yán)峻形勢,進一步明確微博輿情研究中的大數(shù)據(jù)風(fēng)險與挑戰(zhàn)顯得尤為重要。
一、微博輿情研究中的大數(shù)據(jù)風(fēng)險分析
(一)大數(shù)據(jù)增加了“錯誤發(fā)現(xiàn)”的風(fēng)險
大數(shù)據(jù)信息技術(shù)基于計算機網(wǎng)絡(luò),利用自身的數(shù)據(jù)集和細粒化優(yōu)勢,增加了“錯誤發(fā)現(xiàn)”的風(fēng)險。比如用戶根據(jù)需求搜索一條信息時,檢索窗口會出現(xiàn)多條與之相關(guān)的信息,在很大程度上會增加用戶尋求信息的難度,也就是“錯誤發(fā)現(xiàn)”。另外,微博輿論中的帖子和用戶評論也會不同程度地增加“錯誤發(fā)現(xiàn)”風(fēng)險,這是因為微博輿論中各種帖子和評論均含有統(tǒng)一信息指標(biāo),當(dāng)這些信息指標(biāo)累積后,就會無限增加大數(shù)據(jù)信息,給輿情分析帶來更大的不確定性和難度。在對某一個社會熱點進行輿情分析時,必然會使用計算機和相關(guān)的數(shù)字模型,但是值得注意的一點是,計算機和數(shù)字模型是針對群體信息進行系統(tǒng)分析,并從輿情群體用戶中找到相同點和相關(guān)性,而這種相關(guān)性是總體性分析,這往往使大數(shù)據(jù)下的輿情分析和評測失去了真實性。
(二)大數(shù)據(jù)影響了輿情分析和預(yù)測的準(zhǔn)確性
微博輿情需要借助大數(shù)據(jù)技術(shù)和數(shù)字模型對大數(shù)據(jù)信息進行研究,但是同時輿情分析和預(yù)測的準(zhǔn)確性受到了影響。之所以產(chǎn)生這一現(xiàn)象,原因主要是:一方面,微博輿情代表廣泛民意,但卻不代表社會的全部民意;另一方面,通過微博進行輿情分析和預(yù)測,從大數(shù)據(jù)上看存在很多微博用戶,但大數(shù)據(jù)顯示下的微博用戶并不等于現(xiàn)實中的微博用戶,又或者有的用戶只是通過網(wǎng)頁訪問微博,并沒有微博賬號,也就不存在言論發(fā)表。因此,眾多的因素表明,微博輿情采用大數(shù)據(jù)進行分析,所獲得的結(jié)果只是反映了輿情的局部面貌,有很強的片面性。除此之外,微博輿情在進行檢索時,也存在大數(shù)據(jù)棄用的現(xiàn)象,大數(shù)據(jù)技術(shù)和數(shù)字模型在分析輿情時會首先以文本信息為主,并且會選擇容易解讀和處理的文本信息,很難對圖片和影像等資料進行系統(tǒng)性的分析,而選擇性棄用的這些圖片和影像往往是輿情的集中體現(xiàn),這使得微博輿情研究所產(chǎn)生的數(shù)據(jù)資料存在誤差,在很大程度上影響了輿情分析和預(yù)測的準(zhǔn)確性。因此,只有解決微博輿情研究中的選擇性風(fēng)險,才可以確保微博輿情數(shù)據(jù)信息的準(zhǔn)確性。
(三)大數(shù)據(jù)存在用戶隱私泄露的風(fēng)險
隱私泄露風(fēng)險是大數(shù)據(jù)時代和互聯(lián)網(wǎng)時代普遍存在的問題之一,隨著計算機技術(shù)的不斷發(fā)展,這種風(fēng)險日益增加。微博大數(shù)據(jù)在存儲和管理方面的技術(shù)缺陷經(jīng)常會導(dǎo)致用戶隱私泄露,而如何進一步加強隱私保護技術(shù),是大數(shù)據(jù)時代下微博輿情研究重點需要解決的問題之一。一旦技術(shù)方面的缺陷導(dǎo)致微博用戶個人信息泄露,就會產(chǎn)生侵犯他人隱私、輿論暴力等違法行為,作為違法行為的典型代表,“人肉搜索”就是個人信息泄露導(dǎo)致的。從近幾年微博上轟動的幾起“人肉搜索”事件可以看出,雖然“人肉搜索”的對象均存在不同程度的負面形象,但是當(dāng)事人的隱私在“人肉搜索”下暴露無遺,在一定程度上對當(dāng)事人造成了傷害,輿論的正義甚至壓過了程序正義,這使得微博輿情變得不合法,應(yīng)該引起社會的理性認識和警醒。
(四)大數(shù)據(jù)有壟斷誤導(dǎo)輿情選擇的風(fēng)險
微博社交平臺在大數(shù)據(jù)時代下發(fā)展速度明顯加快,可以直接體現(xiàn)人們的日常行為,這也為微博輿情研究提供了大數(shù)據(jù)樣本。但是大數(shù)據(jù)可以為社會大眾謀福利,也可以變成壟斷和誤導(dǎo)人們認知的工具,可以說,大數(shù)據(jù)的應(yīng)用會在很大程度上導(dǎo)致“算法的獨裁”。在微博輿情研究中,引入大數(shù)據(jù)可以使輿情資料變得更加充實和豐富,但是其壞處也很明顯,大數(shù)據(jù)壟斷會使一些信息壟斷者借機對輿論帖子進行選擇性使用。比如微博某博主因為持有某一條謠言信息,便趁機在網(wǎng)絡(luò)上發(fā)布,并借助大數(shù)據(jù)技術(shù)引導(dǎo)社會大眾進行輿論傳播,制造假象,并將這些帖子和評論標(biāo)注為精選,這樣一來,用戶在瀏覽的過程中,就會出現(xiàn)大量類似的評論,使其他人誤以為這是一條真實的信息,然后進行傳播,最終某博主從中獲取利益。由此可以看出,大數(shù)據(jù)技術(shù)在為人們帶來生活便利的同時,也帶來了壟斷誤導(dǎo)輿情選擇的風(fēng)險,使互聯(lián)網(wǎng)時代多了一分“不安定”。[1]
二、微博輿情研究中的大數(shù)據(jù)挑戰(zhàn)分析
(一)微博輿情檢索工具缺乏
從國內(nèi)外的微博輿情收集研究可以看出,當(dāng)前國外出現(xiàn)的Gnip機構(gòu),著重針對Twitter進行大數(shù)據(jù)收集。分析國外微博輿情的搜索和分析工具可以發(fā)現(xiàn),多數(shù)檢索工具都是由研究者專門設(shè)計的,這些檢索工具具有很強的針對性,所采用的技術(shù)也是當(dāng)前較為先進的技術(shù)。我國專門針對微博輿情的研究機構(gòu)目前還很少,系統(tǒng)工具以Scool和See為主。之所以我國微博輿情研究機構(gòu)或工具較少,主要是與微博輿情研究人員的專業(yè)性有關(guān),多數(shù)微博輿情研究者或從事媒體工作,或從事文學(xué)、社會等學(xué)科研究,缺少計算機技術(shù)和對微博輿情工具軟件的認知,沒有足夠的能力進行設(shè)計研究,這使微博輿情檢索工具缺乏問題越來越突出,也從側(cè)面表明當(dāng)前我國的微博輿情研究仍存在很大的局限性,制約因素較多,在大數(shù)據(jù)分析和檢索方面還不能真正做到“收放自如”。
(二)大數(shù)據(jù)存儲面臨技術(shù)攻克挑戰(zhàn)
存儲和檢索是微博輿情預(yù)測的重要基礎(chǔ),作為輿論行為的結(jié)構(gòu)化數(shù)據(jù),當(dāng)前的大數(shù)據(jù)存儲系統(tǒng)以半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、二維表等關(guān)系型數(shù)據(jù)等為主。博客帖子以及圖像視頻等均屬于非結(jié)構(gòu)化數(shù)據(jù),而博客的HTML文檔又屬于半結(jié)構(gòu)化數(shù)據(jù)。就當(dāng)前微博輿情存儲和檢索所應(yīng)用的系統(tǒng)來看,主要有No-SQL和Hadoop兩種。No-SQL是一種不同于傳統(tǒng)數(shù)據(jù)庫的系統(tǒng),因為具有極快的響應(yīng)速度和強大的后端處理能力,所以主要用來解決大規(guī)模數(shù)據(jù)集帶來的挑戰(zhàn),但是在多列查詢及數(shù)據(jù)統(tǒng)計分析方面存在很大的局限性。因此,在搜索微博輿情帖子時,常常會有一種數(shù)據(jù)延遲的感覺。另外,當(dāng)前所應(yīng)用的No-SQL還沒有形成完整的系統(tǒng),在實際應(yīng)用中缺乏商業(yè)支持,使得大數(shù)據(jù)存儲面臨技術(shù)攻克的挑戰(zhàn)。Hadoop是另外一種大數(shù)據(jù)管理工具,基于MapReduce,可以有效實現(xiàn)數(shù)據(jù)檢索,國外常用Hadoop進行巨量數(shù)據(jù)分析,通過應(yīng)用Hadoop可以將結(jié)構(gòu)化數(shù)據(jù)文件更好地展示出來,并優(yōu)化功能,最終實現(xiàn)數(shù)據(jù)查詢功能。[2]但是這種大數(shù)據(jù)管理工具在微博輿情研究中的表現(xiàn)卻顯得有點力有不逮,主要表現(xiàn)為Hadoop不能快速加載和查詢數(shù)據(jù),并且操作過程較為煩瑣,搜索效率低下,系統(tǒng)的穩(wěn)定性也需要進一步加強。因此,當(dāng)前的微博輿情存儲技術(shù)還有很大的提升空間,這也是微博輿情研究中最為明顯的大數(shù)據(jù)挑戰(zhàn)。
三、結(jié)語
結(jié)合當(dāng)前形勢來看,微博輿情研究中的大數(shù)據(jù)風(fēng)險與挑戰(zhàn)十分嚴(yán)峻。因此,在明確這些風(fēng)險和挑戰(zhàn)的基礎(chǔ)上積極加以解決和優(yōu)化是相關(guān)研究者和工作者的使命,需要進一步努力和積極探索。
參考文獻:
[1] 張連峰,周紅磊,王丹,張海濤.基于超網(wǎng)絡(luò)理論的微博輿情關(guān)鍵節(jié)點挖掘[J].情報學(xué)報,2019,38(12):1286-1296.
[2] 李熠輝,李冠,趙衛(wèi)東.基于MUK-means算法的微博輿情意見領(lǐng)袖群識別[J].軟件導(dǎo)刊,2019,18(12):30-34.
作者簡介:李靜遠(1991—),女,河南鄭州人,研究生,碩士,講師,從事網(wǎng)絡(luò)輿情、新媒體研究。