魏子皓 遂寧市東辰榮興國際學校
目前業界廣泛認可大數據的特征為4V特征,即認為大數據具有規模性(Volume)、價值性(Value)、多樣性(Variety)以及高速性(Velocity)四個特征。
在大數據時代,隨著海量輿情信息的涌現和數據采集技術的進步,唐濤(2014)認為網絡輿情分析創新要使用大數據分析方法,包括網絡日志數據挖掘的隱性輿情分析、基于社會網絡分析的網絡主體關系分析、關聯領域數據輿情分析、基于網絡民意調查的輿情分析等。維克托fi 邁爾fi 舍恩伯格(2012)認為大數據是指不用隨機分析法這樣的捷徑,而采用所有數據的方法,樣本分析逐步讓位于總體分析,傳統的統計分析方法與Web數據挖掘技術互相融合,包含多種分析模塊的輿情分析系統被開發出來。
典型的Web數據挖掘主要包括以下幾個(1)查找資源:任務是從目標Web文檔中得到數據,包括電子郵件、電子文檔、新聞組,或者網站的日志數據甚至是通過Web形成的交易數據庫中的數據。(2)信息選擇和預處理:任務是從取得的Web資源中剔除無用信息和將信息進行必要的整理。(3)模式發現:自動進行模式發現??梢栽谕粋€站點內部或在多個站點之間進行。(4)模式分析:驗證、解釋上一步驟產生的模式。
從社會網絡的角度出發,人在社會環境中的相互作用可以表達為基于關系的一種模式或規則,而基于這種關系的有規律模式反映了社會結構,這種結構的量化分析是社會網絡分析的出發點。社會網絡分析不僅僅是一種工具,更是一種關系論的思維方式??梢岳脕斫忉屢恍┥鐣W、經濟學、管理學等領域問題。近年來,該方法在職業流動、城市化對個體幸福的影響、世界政治和經濟體系、國際貿易等領域廣泛應用,并發揮了重要作用。社會網絡分析研究的重點不是個體,而是個體之間的聯系。社會網絡分析的任務就是描述群體關系的結構,研究這種結構對群體功能或者群體內部個體的影響。
一,為了得到更準確的輿情信息,所需要的數據量大幅膨脹。隨著數據生成的自動化以及數據生成速度的加快,自媒體時代的到來,為了獲得準確的網絡輿情信息需要處理的數據量急劇膨脹。一種處理大數據的方法是使用采樣技術,通過采樣,把數據規模變小,以便利用現有的技術進行數據管理和分析。二,數據深度分析需求的增長。為了從數據中得到準確的輿情信息進而指導人們的決策,必須對大數據進行深入的分析,這些復雜的分析必須依賴于復雜的分析模型。所以對網絡輿情信息的分析還需要路徑分析、時間序列分析、圖分析、What-if分析等。三,自動化和可視化分析需求的出現。在TB級的復雜輿情信息環境下,網絡輿情系統應該能根據網站的內容自動構造查詢,自動提供熱點推薦,自動分析數據的價值并決定是否需要保存。
隨著網絡技術和應用的不斷創新,網絡輿情在不斷發生變化,面對數億網民和浩如煙海的網絡大數據環境,我們需要不斷擴大網絡輿情分析的內涵,從分析顯性輿情容,拓展到分析隱性輿情、輿情主體間關系、輿情子群體、輿情對社會的動態影響等更廣義的輿情分析。我們要不斷改進輿情的分析方法,網絡輿情分析不再僅僅是采樣分析,而是要開始關注大數據分析;不再僅僅是企業大數據能力,提高大數據工作水平。目前國內外有關廠商,紛紛推出與大數據服務相關的產品。如甲骨文公司推出了Oracle大數據機,最大程度幫助用戶管理海量數據,快速提供一個具有高可用性的可擴展系統;IBM推出最新數據庫軟件DB210和InfoSphere Warehouse 10,能夠輕松集成大數據系統,自動將數據壓縮成更緊密的空間,以防止存儲蔓延,并且將過去、現在和未來的信息進行分離,以清除某些程序代碼。
隨著大數據時代的到來,我們要不斷改進輿情的分析方法,將大數據思維及方法運用到網絡輿情分析中去。首要開始關注大數據分析,其次不再僅僅依靠語義分析,而是求諸于自動化的數據分析,再次要關聯不同領域數據進行輿情分析等等。總之,我們要突破傳統,將輿情分析向大數據分析的方向創新。
[1]張璇.基于社會網絡分析的輿情管理研究[D].合肥工業大學,2013.