楊健 云南省中小企業服務中心
當前,將大數據用于經濟監測和預測已引起了廣泛的關注,并且由于其在研究中的及時性,準確性,相對較低的成本,較高的粒度和較大的樣本量等優點,其應用已變得越來越廣泛。大。傳統的監測主要依賴于統計報告數據,這些問題包括延遲發布,采樣準確性不足以及許多新興行業,它們不屬于統計范圍,這直接或間接影響宏觀決策的及時性和科學性[1]。大數據概念和技術的科學應用,Internet 數據資源的挖掘和使用,豐富的統計數據源以及更準確地監視和預測經濟運行,對于提高宏觀經濟控制中的科學決策水平非常重要。
Web 爬網技術,也稱為Web 機器人或WebSpider,這是一種可以依照相應的規則進行信息的收集的相關程序或者相符的腳步。如果您將Internet 比作蜘蛛網,則網絡爬蟲是一種蜘蛛,它可以瀏覽Internet,對于Internet 上一些網頁或者相關的鏈接依照既定的目標進行有選擇的訪問,同時對于Web 內容也可以實現定時的讀取,并將讀取過程中的相關內容進行儲存。經濟運行數據的收集和開發是經濟運行監控和分析的核心。在如今時代不斷發展的背景之下,對于大數據的應用越來越廣泛,因此,在經濟運行監測分析工作的過程中,不但要充分的了解相關部門的數據統計情況,還要在互聯網的公共數據中不斷的獲得,與經濟運行相關的更多 信息,例如:批量產品價格信息。上市公司的土地市場供應信息,整體的運行模式的相關情況中體現的數據,以及清楚了解相關的財務報表數據情況。
但是,大多數此類信息以網頁形式存在,因此很難直接下載和下載。在遵守適用法律的前提下,網絡上的大量信息也可以通過網絡爬蟲進行收集,以形成可用于分析和擴展經濟運營信息的數據集。集合的寬度和深度。
文本挖掘(TM)是指從大型文本數據庫中提取隱藏信息,先前未知或潛在有用的信息和知識,在線民意分析,產品評估分析,微博熱點分析,主題前沿分析的過程。以及相關政策文本分析。在相關部委的盡職調查過程中,大量的文本數據反映了公司的生產和經營情況,并反映了公司的相關政策要求和建議,這些數據以公司為主要用戶或服務的目的在相關部委的工作系統中積累了下來。與數字數據相比,文本數據是企業響應的主要形式,它包含更多信息,但是由于數據量大,記錄粗糙且處理信息的能力不足,因此挖掘了文本數據系統。相對短缺限制了對公司反饋信息的深入審查和使用。就經濟運行監控和分析而言,引入了文本挖掘技術,例如基于LDA 主題模型的文本主題提取和基于樸素貝葉斯算法的文本情感分析,以識別跡象,趨勢,潛在問題和企業吸引力。通過研究和判斷分析,定期發現和分析政府部門的公司監控系統,調查系統以及公司對業務研究的反饋的文本信息,以準確反映各種類型和特定于行業的困難,上訴主體的變化和情感傾向。我在作為您的研究提供依據并提出相關政策建議,以從您的企業中獲取真誠和準確的意見。
將計算機在大量的數據中學習特定定律的過程稱之為機器學習。這些定律包括決策樹,隨機森林,邏輯回歸,支持向量機,樸素貝葉斯相關分類,關聯分析,回歸,聚類等。超過12 種算法,例如K 近鄰算法,K-means 算法,AdaBoost,神經網絡和Markov。如果政府的治理模式可以通過應用大數據來充分的得到改善,在各個領域中對于數據的挖掘可以通過機器學習算法技術來更好的獲得有效的信息。因此對于預警企業的生產風險的評估已經很好的應用了機器學習算法這一技術,并且發現泛化是有規律的。存在共同的問題和趨勢,并提取有價值的數據,信息和建議,以更好地服務于政府決策。例如,LM 神經網絡算法和CART醫生,用于監視和預警企業生產和運營風險,以保護員工的注冊,稅務備案和銷售,納稅,市場監督,稅務,人類社會,電力供應等部門。
在科學不斷發展的背景之下,在經濟的運行監測分析中應用大數據技術還是存在許多的問題以及困難,但是只要結合科學,對于這一技術不斷的提高創新,在分析技術與分析業務之間找到更多的融合點,使得經濟運行的工作可以和大數據技術完美的結合起來,為改進監視和分析經濟運行水平提供有力的支持。