婁峰
摘要:在經濟學領域,大數據應用還處于初步探索階段,但隨著海量經濟數據的幾何式增長,以及網絡技術與計算方法的不斷完善和更新,將大數據運用于經濟學逐漸成為學術界、商界以及社會廣泛關心的熱點問題之一。文章分析了大數據經濟學特征、大數據在經濟學領域應用的基本原理、大數據對經濟學的影響、應用前景以及面臨的挑戰等問題。認為大數據與經濟學的結合為經濟學和其他社會科學提出了新的機遇和挑戰,未來大數據可能會帶來經濟學顛覆性的改變,也有可能成為一門獨立的學科和方法論。
關鍵詞:大數據;經濟學;數據分析
大數據作為一種有用的信息資源,在商業、金融等領域發揮著越來越重要作用,也逐漸成為社會科學的國際前沿應用研究內容之一。然而,在經濟學領域,大數據還鮮少被用到(據統計,截至2014年12月,google中學術搜索到的與“大數據”有關的研究論文共3026篇,其中僅有29篇是和經濟學相關)。但因海量經濟數據資源的快速增長,計算技術和能力的不斷提高,以及方法論的不斷發展,將大數據分析技術運用于經濟學已成為一個值得探討的新課題。展望未來,由于經濟學是一門理論與實踐相結合的學科,將大數據應用于經濟學,有可能會開辟一個全新的經濟學發展領域。
一、大數據在經濟學領域應用的基本原理
大數據在經濟學中應用的基本思路以大樣本數據統計與機器學習技術為基礎。其中大樣本統計的過程概括如下:用N個代入變量得出對應的N個測量結果與K個潛在的預測因子,比如:以居民消費價格CPI指數預測為例,首先通過GOOGLE數據搜索或其他軟件,篩選出同CPI有關的一系列關鍵詞(比如糧食產量、原油期貨價格、氣候溫度、價格改革政策等),然后通過這些關鍵詞在文本數據(新聞、微博、評論、研究報告、學術論文等)出現的時間頻次,計算它們之間的相關關系和邏輯路徑關系,從而得到測量結果N和預測因子K。在許多情形下,每一個代入變量的信息是足夠豐富的,但不具有結構性,故可能會產生很多潛在預測因子,因此,需要注意的是:若是過度擬合,即預測因子K的個數可能會遠遠大于觀測變量N的個數時,雖然模型可完美解釋觀測到的結果,但樣本外數據的解釋力卻很差。在這種狀況下,構造一個最大化樣本解釋力的模型便成為首要目標,同時構建的模型還不能出現因過度擬合所導致的樣本外無力解釋的情形。因模型構建不同,使用方法也隨之改變,懲罰預測因子的過度使用方式也不同。如Lasso回歸模型,在滿足一系列約束條件下,依據最小化離差平方和來選擇模型系數。通過將樣本分為“訓練樣本”和“測試樣本”(“訓練樣本”用來估計模型參數,“測試樣本”用來評估模型)進行過度擬合。而在評估預測效果時,一般交叉使用樣本內預測與過度擬合,但目前這種交叉驗證的方法在當前的實證微觀經濟學中也鮮少用到。
機器學習的一個非常重要假設就是機器學習的環境是相對穩定的,也就是樣本數據(訓練樣本與測試樣本情形相同)獨立產生于同一過程。但由于現實環境會隨著時間發生改變,故這一假設并不合理,因此,在高頻使用新數據的應用中,往往通過對自身持續“再訓練”,從而使得模型可以隨著時間與環境的變化對預測結果進行調整。當然,對于機器學習,有些經濟學家提出了盧卡斯批判的疑問,即若根據模型的預測結果進行政策調整,則政策調整后的現實結果可能與初始模型的預測結果有差異,因為政策的改變會影響數據間的潛在行為關系,但這一疑問在其他預測模型,比如計量經濟模型、結構方程模型和聯立系統模型中也都存在。
二、大數據對經濟學的影響及前景
如今,隨著數據樣本容量的急劇增加,使得大數據的使用方式不盡相同。作為一個規律性科學,經濟學需要廣泛、詳細的數據,并運用統計技術來處理新型數據,大數據的出現可能會在社會學與計算機科學間構建一架橋梁,其學科價值可能在于創造新的思維方式,這將會導致對經濟學的新思考和研究方法創新,甚至會帶來分析經濟學方法的質變。
一方面,由于多維度的精細間隔,大數據可以為經濟學研究人員提供更多研究變量和視角,可以研究以前難以測度的行為理論,這為經濟理論研究提供了一種全新的測量方法。例如:麻省理工大學助理教授Alberto Cavallo設計的“百萬價格”項目,該項目旨在通過一個網絡程序,獲取網上物品價格,繼而運用這些數據計算得出通脹指數,該通貨膨脹指數就是阿根廷的精確透明通貨膨脹指標,其實時價格數據的捕捉能力和準確度,使得該指標作為政府測量通脹的替代選擇。又如,谷歌提供的請求式數據選擇也提供了一個探索新機會的理由,目前一個備受矚目的例子就是“及時預報”,在某些方面它可以通過龐大經濟社會數據集進行短期精確預測。
另一方面,大數據已與行為經濟學相適應,成為產業相關經濟規律研究的一部分,并且,大數據在經濟學領域已經顯示出眾多的優越性。大數據已有潛力去挑戰理性概念,例如對于經濟學家在預測問題上的出錯概率,強調樣本偏差的方法;或者對于政策刺激的外部效應問題,強調在社會媒體中情緒化分析出現的混亂問題,總而言之,大數據與先進的建模策略相結合,可以產生更詳細、更準確和更有說服力的解釋和分析。
從經濟學理論的發展歷程或者研究思想上看,總體來說,目前大數據分析技術在經濟學中的應用還剛剛開始,處于初級階段和輔助地位,目前還沒有出現跨時代、里程碑式的技術進展。相比于比較完善的宏微觀經濟學理論、計量經濟學理論和金融學等理論等,大數據技術的劣勢在于沒有嚴謹的、完整的經濟學理論作基礎,其對不同關鍵詞的選擇具有主觀性,很難洞悉其背后的因果關系和邏輯關系;其使用的各種數據挖掘技術(比如自然語言處理算法、分段算法和機器學習算法),從技術上講,這些技術沒有突破傳統的理論和思路;而且大數據分析技術的原理主要是分析不同關鍵詞的關聯關系及其強弱度,方法比較單一,遠遠不能代替現有的宏微觀建模技術和分析方法。
但是,大數據在經濟學中的應用前景曠闊而深遠。隨著時間的延續,數據容量在飛速增長,數據彼此之間的關系也越來越復雜。對于經濟學家而言,傳統經濟領域就已經有較多的數據量:各種金融交易數據,如優惠卡數據、在線消費數據、詳細人口數據等間隔性數據。大數據通過對各種媒體和渠道(比如搜索引擎、社交網絡、通話記錄、傳感器、網絡日志等)中不同類型的海量的結構數據、非結構數據和半結構數據進行快速計算和分析,能夠解析存在于現實社會、虛擬世界以及虛實混合社會的復雜網絡關系,并適時動態地做出判斷和決策,這不僅僅是一個把基礎數據轉變為信息、信息轉變為知識、知識轉變為智慧的由低到高的轉變過程,該過程融合貫通了國家、區域、行業和個人,顛覆了傳統的、線性的、自上而下的目標驅動式的精英決策模式,形成了動態的、隨機的、非線性的、自下而上的發現群體智慧的數據驅動決策模式;而且這也是一種新技術、新工具,其依據海量的網絡資源,充分發揮了電腦對海量信息收集能力和批量化處理能力遠遠高于人腦的優勢,從而有效地彌補人腦功能的不足,這在當今隨著互聯網、云計算、物聯網、社交網絡等技術的興起和普及導致的信息化數據爆發時代,優勢明顯,應用前景看好。已有研究表明,對于經濟學家而言,大數據是一座巨大的寶庫,大數據對于社會學研究的魅力已經逐漸顯現,不從事大數據研究的經濟學家可能會產生較大的機會成本(Mayer,2013)。
三、大數據在經濟學應用中面臨的挑戰
一方面,大數據已經在經濟學的研究中展示出越來越多的優勢和強大能力,但另一方面也面臨一些問題和質疑,比如大數據集的可獲得性,大數據集的管理和處理,以及如何有效地提取大數據集中所隱藏的關鍵信息等,具體的問題包括以下幾點。
1. 因果關系。僅僅通過大數據分析技術,有時難以洞悉或找到事情背后的真正因果關系,比如,根據某城市的數據,電視數量越多,犯罪案件也就越多,兩者是正相關的,但是它們之間不是因果關系,真正的因果關系是這個城市的人口在增加,而導致電視多,同時犯罪數量也在增加。雖然在商業應用中,如果通過大數據分析找出了電視和犯罪數量相關,就可以直接應用了,而不在乎里面的原因和結果,但這種相關沒有經濟學意義,因此,即使對于大數據分析技術得出的計算結果,在使用前應該反復思考,思考其背后經濟學邏輯,而不是完全盲目信任。
2. 大數據依然存在數據局限。雖然大數據具有容量大的特征,但是這也是相對的,由于數據收集、硬件設施、數據機密屬性等問題,真正的完全樣本很難獲得,即使在美國,所謂的海量數據也可能存在局部性和片面性,這些數據的抽樣樣本也不能完全滿足統計學中隨機抽樣的假設(即,i.d.假設)。正如Linnet Taylor(2014)所說,實際上影響社會變革的很多分布都是非對稱的,其實很多不是對稱的,因此做抽樣的時候就得非常慎重。甚至是谷歌(google)和面書(facebook)公司,它們聲稱的全數據樣本,但實際上也不是全部數據,因為,上facebook僅僅是那些有facebook的人或能夠上網的人,這些人的觀點也不能夠代表全部居民,而且這些人的占比和很小,可能沒有代表性;還有,這些數據的同質性是沒有辦法保證的,因為它們是在不同時段用不同方法來收集數據,然后整合在一起,這樣的處理辦法很難保證這些網站的數據具有完整性和隨機性。
3. 如何清洗和獲得數據。因為數據越大,噪音可能就越多,比如從微博里面提取的數據,由于這些數據大部分都是無關信息或者是重復信息,因此,如何篩選信息以提高信息準確性也是非常重要和比較棘手的問題。另外,盡管經濟學已經具有處理數據量較大樣本的嫻熟技能和統計技巧,但是大數據的資源可獲性仍是社會科學研究面臨的一個難題。由于數據資源大部分是專有的(比如,Google的大眾可獲得數據庫(如insight和trend)都是被監管的,且在短時期內不太可能完全公開),因此,經濟學領域的許多研究者都會碰到獲取合適數據的難題。運用企業數據也面臨同樣的問題,因為數據具有私有性,故研究者只有在與企業簽訂保密合同的情形下,才可獲得這些數據的使用權,雖然隨著更多的研究者在其研究中應用大數據,數據也就不再那么難獲得,但是,數據資源的完全開放在短期內仍是無法實現的美好愿望。
然而,總而言之,大數據與經濟學的結合為經濟學和其他社會科學提出了新的機遇和挑戰,在未來的幾十年,大數據可能會改變經濟政策與經濟學的研究方法。大數據在經濟學中的使用是分析方法、數據管理和分析策略的改變,也是一次基礎性的轉變,即從基于“正態”均值和標準差的科學研究轉變為基于個體觀測值的研究,認識論的改變將給經濟學準則基本原理帶來質變和量變的雙重挑戰。由于這些原因,大數據可能會帶來經濟學顛覆性的改變,也有可能成為一門具有獨立的學科和方法論。
參考文獻:
[1]Mayer S.,Nberger V. and Cukier K, “Big Data: a revolution that will transform how we live, work, and think[M]”. New York: Houghton Mifflin Harcourt, 2013.
[2]Linnet Taylor, Ralph Schroeder, Eric Meyer,“Emerging practices and perspectives on Big Data analysis in economics: Bigger and better or more of the same”[J]. Big Data & Society, Volume 7,2014.
[3]于曉龍,王金照.大數據的經濟涵義及價值創造機制[J].中國國情國力,2014(02).
[4]俞立平.大數據與大數據經濟學[J].中國軟科學,2013(07).
(作者單位:中國社會科學院數量經濟與技術經濟研究所)