廣西壯族自治區經濟信息中心 梁銘之
大數據(big data),指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。經濟網絡輿情信息是指人們借助互聯網,對經濟事務特別是經濟熱點、焦點問題所表現出來的有一定影響力、帶傾向性的意見或言論,是人們對于經濟事件的所有認知、態度、情感和行為傾向的集合。
經濟網絡段情監測的基本內容包括網絡消費者信心分析、金融投資分析、房地產投資分析、雙創活力分析、生態環保監測、價格監測等方面。
網絡消費者信心分析,反映網民對經濟形勢的判斷和未來經濟發展的預期;投資分析從企業減負、投資準入和投資金融服務等方面反映民眾對當前投資環境的判斷和評價;房地產投資分析包括國家及各地樓市調控政策解讀、房地產交易情況、當地政府樓市政策分析、樓市熱點分析、房地產價格情況、下階段預期等相關問題;雙創活力分析從融資事件量、民眾對雙創的熱情程度等方面反映當地雙創活動的活力;生態環保監測從網民反映的生態環保問題、對環保關注程度等方面監測的生態環保情況;物價監測從網民反映的消費問題、主要產品產量的監測、生活資料和生產資料旬度價格監測反映當地物價走勢。
利用大數據技術,對網絡交易平臺、社交網絡、自媒體網站、企業經營網站信息進行抓取、采集,通過對半結構化和非結構化數據的清洗、處理、分析,采用數據挖掘、自然語言處理等大數據手段,能快速分析領導關注熱點,輔助發現相關問題的解答方案。
數據挖掘技術是從海量的數據中發現隱含的、有意義的信息,并對未來的趨勢及行為做出預測,幫助人們進行決策。數據挖掘分為兩個的步驟:首先是確定業務對象,認清需要處理的問題及目的;二是數據處理,搜索與業務對象有關的數據信息,選擇合適的數據,通過數據預處理,對數據的質量進行分析,確定要挖掘操作的類型,建立適合的挖掘算法分析模型,對數據進行轉換、挖掘,最后得到分析結果并完成知識的同化。典型的數據挖掘系統通常由數據庫、知識庫、數據挖掘引擎等構成。系統可對數據庫、數據倉庫、萬維網或其他信息庫中的數據進行清理和集成,根據用戶的數據挖掘請求,數據庫或者數據倉庫服務器負責提取相關處理結構。知識庫主要包括某一領域知識,用于指導搜索或評估結果,完成數據挖掘任務。數據挖掘引擎是數據挖掘系統的基本組成部分,用于執行特征化、關聯和相關分析、分類、預測、聚類分析、離群點分析和演變分析等任務。
文本情感分析是利用自然語言處理、機器學習、數據挖掘等技術,通過文本內容分析其作者的觀點、態度、情感或者情緒,分析的文本對象包括新聞、評論、微博等。文本情感分析要建立情感詞典,情感詞典是作為情感傾向性和情感極性判斷的重要依據,其質量決定了情感分析的效果,情感詞典要隨語言的發展進行不斷的擴展。情感詞典的擴充方法有兩種方式:一是基于共現或相似度的方法,利用種子情感詞、語義詞典以及包含情感詞的文本等資源,以候選詞與種子情感詞的共現、相似性等信息為依據,抽取情感詞并判斷其極性;二是基于分類的方法,將情感詞抽取和情感極性判斷視為分類問題,通過分類模型,將候選詞劃分到正面性、負面性和無極性三個類別中。
經濟網絡輿情系統結構包括數據采集層、處理存儲層、數據分析層和平臺應用層。
數據采集層,采集管理實現系統與上下層系統的接口對接,統一調度采集任務和進程,同時對信息進行統計分析和告警。采集配置實現對目標網站的采集配置進行管理。爬蟲以分布式的方式部署爬蟲,實現了爬蟲多任務調配、多線程執行的工作機制,保障了爬蟲的穩定、高效執行任務。
處理存儲層,數據處理實現輿情數據預處理,包括數據排重、數據清洗等。數據存儲實現數據的存儲和讀取。
數據分析層搭載了分詞程序、遺忘算法、傳播指數分析、實體抽取、情感分析、熱詞分析、地域分析、統計分析、可視化分析等分析程序。
平臺應用層主要實現了經濟輿情分類監測、事件監測、輿情預警、輿情報告等前端應用。
經濟輿情監測系統架構圖
主要功能包括:輿情工作臺、分類輿情、輿情預警和輿情預告。
輿情工作臺主要展示經濟發展整體的輿情監測概況,包括輿情統計表、輿情漏斗、輿情欄目等功能。輿情統計表展示各個載體和時間的二維表數據透視結果;輿情漏斗展示從全量數據、相關數據、輿情數據、負面數據、正面數據以及預警數據的數據分析漏斗;輿情專題可以在經濟發展專題設置中自定義分類和標簽,選擇數據展示方式后進行展示。
分類輿情是與對濟發展數據進行分析展示和數據查詢處理的工作系統,可按照設置的分類和標簽進行聯動篩選;支持輿情自主研判、手動加入預警、數據排重以及數據排序等;針對每一個經濟問題分類的數據集合進行圖表分析,包括載體趨勢、文章屬性、站點分布、任務活躍度分析等。實現經濟分類輿情信息的實時更新,按照各種維度靈活的篩選和檢索以及圖表分析。
輿情預警針對與營商環境相關的重點輿情數據進行預警,包括手動預警和自動預警,手動預警即在全景輿情中邊瀏覽邊選中預警,自動預警即預先設置關鍵詞進行實時分析預警。
輿情報告是經濟輿情監測成果的輸出功能,可針對指定的經濟輿情分類進行報告制作,同時系統自動生成智能的月報,用戶可自主訂閱報告。
構建大數據經濟輿情之“雙創指數”。
2015年6月和2017年7月國務院相繼發布多個雙創指導文件,啟動和加速了我國歷史上前所未有的雙創大潮。廣西壯族自治區作為“一帶一路”有機銜接重要門戶,以及重點產業的承載區,構建廣西雙創指數,全面反映廣西各個領域、各個行業、各個層級的創新、創業情況,對于監測廣西創業環境及出臺創業支持政策有著重要參考意義。
廣西雙創指數以“數據可采集、指標可計算、方法可比對、結果可解析、決策可參考”等為核心,以“規模、結構、質量”三個特征維度為著眼點,以系統梳理廣西雙創活動的“潛力、實力、動力、活力、合力”為突破口,構建雙創指數測度體系的具體思路。
在指標體系研究的設計過程中參照和汲取國內外先進的經驗,創新性的發展一套指標體系。在指標的選取上既有宏觀的指標,又有微觀的指標,微觀指標來源于對創業者的調研以及從線上獲得客觀的微觀指標。因為雙創指數會持續、動態的更新和發布,所以數據可得性是未來指標體系繼續發展非常重要的基礎條件。另外,在指標的選取上還注重橫向可比,跟國內、國際上先進的創新創業的指數構成可比性,能精準的衡量廣西雙創在國內和國際的位置。
通過各行業部門統計數據和互聯網采集數據,借助大數據的技術手段,選取科技、經濟、人才、環境四個與雙創工作關聯度較大的影響因素,形成四個一級指標,構建廣西雙創指數。使用大數據的清洗、分析、建模方法計算雙創指數,科學、準確、及時地反映經濟結構,優化升級的新進展。實現按月發布廣西全區及行業的雙創指數,較好的輔助“雙創“決策。
本文提出了一個大數據經濟網絡輿情監測系統的設計方案和具體監測案例,從使用的關鍵技術、系統功能方面進行了描述、設計,利用該系統能發現話題并對經濟輿情進行跟蹤、分析,使經濟管理者和決策者能及時監經濟網絡輿情,輔助經濟決策。
[1]劉文.網絡輿情監測系統設計及實現[J].指揮信息系統與技術,2015(10):56-60
[2]姚曄,石翠.網絡輿情監控分析系統的構建探討[J].科技展望,2016(12):262-263