中國人民銀行昆明中心支行貨幣金銀處課題組
誠如大數據專家舍恩伯格所說,大數據開啟了一次重大的時代轉型。我們正身處轉型之中:借助互聯網公司龐大的數據庫,我們可以在網上得到個性化的定制服務,可以使用強大的翻譯引擎“無縫”地理解不同語言的文本;對于某個感興趣的話題,我們能夠迅速獲取更詳盡的描述和更精準的分析——在“大數據”的技術基礎和思維模式蓬勃發展的今天,一個高效率的、令人信服的思維范式就是,讓數據自己“說話”。生活、工作和思維,可以說,“大數據”正在重新塑造這個世界的方方面面。作為一項與數據、經濟運轉密不可分的社會職能部門,如何迅速接納大數據的思維模式和工作方法以適應科學化、精細化管理的要求,也許是未來貨幣金銀工作的重要課題之一。
那么,在大數據時代,貨幣金銀工作會迎來怎樣的機遇與挑戰呢?
一、大數據的定義以及大數據時代的特征
大數據,顧名思義就是海量的數據。最初特指互聯網公司大規模獲取數據和相應發展出來的處理數據的手段。近年來,隨著大數據在社會各個領域滲透,其適用語境已經悄然發生了改變。在本文中,我們采用大數據的另一種外延更廣、更為大眾所接受的定義:大數據是人們在大規模數據的基礎上可以做到的事情,而這些事情是在小規模數據的基礎上是無法完成的。舉一個例子:舍恩伯格在他的《大數據時代》中提到,2009年,谷歌公司把5000萬條美國人最頻繁檢索的詞條(如“哪些是治療咳嗽和發熱的藥物”)和美國疾控中心在2003年至2008年間季節性流感傳播時期的數據進行比較,旨在尋找特定檢索詞條的使用頻率與流感在時間和空間上的傳播之間的聯系。谷歌公司發現了45條檢索詞條的組合,將其用于一個特定的數學模型后,他們的預測與官方數據的相關性高達97%。實踐證明,谷歌公司可以準確判斷出流感是從哪里傳播出來,并且它的判斷更及時,不存在疾控中心通常意義上的信息滯后。通過掌握和使用大數據,谷歌公司實現了在“小數據時代”無法想像的精準預測。
大數據的核心是預測,而預測的基礎則在于對信息的分析。大數據對時代的重新定義就體現在我們對信息分析方式的轉變,即:
一是在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴于隨機采樣。與局限在小數據范圍相比,使用大數據帶來了更高的精確性,也讓我們看到了一些以前無法發現的細節信息。
二是研究數據如此之多,以至于我們不再熱衷于追求精確度。擁有了大數據,我們不再需要對一個現象刨根究底,只要掌握大體的發展方向即可——適當忽略微觀層面上的精確度會讓我們在宏觀層面擁有更好的洞察力。
三是在大數據時代,我們無須再緊盯事物之間的因果關系,而應該尋找事物之間的相關關系。我們不再需要在還沒有收集數據之前,就把我們的分析建立在早已設立的少量假設的基礎之上。讓數據發聲,我們會注意到很多以前從來沒有意識到的聯系的存在。
以上轉變正契合了貨幣金銀工作科學化、精細化的發展要求。接受、吸收,把大數據時代的思維模板和技術手段為我所用,無疑會極大提高貨幣金銀工作在量化管理、趨勢預測等方面的水平——這是一次機遇,同時也是挑戰。如何抓住機遇、迎接挑戰,把貨幣金銀工作和大數據的力量有機結合在一起,筆者在下文提出了一些設想。
二、貨幣金銀工作怎樣與大數據結合
(一)流通人民幣管理與搜索引擎
搜索引擎是數據富集的地方。近年來,搜索引擎對大數據的創造性使用最為人所津津樂道。谷歌公司預測流感趨勢便是其中一例。而在今年春節,央視攜手百度進行的收視習慣調查同樣令人印象深刻。在搜索引擎中,每個進行檢索的人都成為數據的貢獻者,而這些數據正是檢索人困境和愿景的直接體現。和谷歌預測感冒同理,一些人在遭遇假幣時也會求助搜索引擎,那么檢索時間和檢索者所在位置會不會體現假幣在時間和空間上的蔓延態勢呢?
筆者做了這樣一個實驗:在百度中鍵入“收到假幣怎么辦”和“收到假錢怎么辦”(檢索原則是令檢索關鍵詞盡量口語化,盡量避免檢索出指導性的文章),各得到39.2萬條和79萬條共118.2萬條檢索結果,即使考慮到一定比例的無效鏈接和重復引用,如此規模的樣本數在統計學意義上也是非常龐大的。對于普通用戶,這些數據最有價值的部分隱藏在“黑箱”之中:檢索人的IP地址(地理位置信息)、檢索在時間上的聚集和波動趨勢、某一詞條被引用和鏈接的次數……這些龐雜的數據掌握在互聯網公司的手中,運用特定的算法處理,很容易轉化成有價值的數據。比如,通過收集檢索人的地理信息,并經過數學處理(如用檢索詞條數除以投放規模以反映假幣的相對泛濫程度,同時使用統計技術剔除掉各省信息化程度的差異),可以得到圖1、圖2統計結果。
圖1 假幣在不同地區的分布圖(假想)
圖2 假幣在某一地區發展趨勢圖(假想)
如圖,盡管從統計學的角度看,抽樣是有偏的(使用搜索引擎的一般是年輕人),但我們需要的數據洞察是假幣在時間和空間上的變化趨勢,在如此巨量的樣本支持下,得到的統計結果還是很能說明問題且具有指導意義的。尤其是如果我們觀察這些數據在時間序列中的動態表現,則很容易看到某種新型假幣的出現及至爆發,以及假幣在空間上的流動——這樣,就很容易定位假幣是在何時、何地蔓延開來,有利于我們采取有針對性的處置措施。
同理,我們也可以通過搜索引擎觀察人民幣整潔度在不同地區、不同時點上的變動趨勢。筆者在百度中鍵入“人民幣破損用什么粘”、“人民幣破損怎么辦”,分別得到157萬條和2250萬條搜索結果。在這樣規模的樣本支持下,得出的結論將非常接近真實情況。
(二)發行基金投回預測與數理分析
發行基金的投回預測關乎人民銀行在未來的生產計劃、調撥和分支行投放的整條物流鏈,其精度至關重要。目前,發行基金的投回預測一般采用兩種方法:數學建模法和經驗估算法。筆者認為,這兩種方法的原理其實是相同的,即,以過去指導未來,從錯綜復雜的經濟變量中尋找能夠決定、影響或者指示投回的因素,以這些因素的變動推測投回的變動。兩種方法的區別是,相較經驗估算法,數學建模法有更嚴格的數理分析、假設和檢驗做基礎,且更易于標準化操作,因而越來越受到現金分析人員的青睞。然而,數學建模法亦有其局限性:第一,模型精度與可獲得數據規模息息相關,小的樣本數往往導致較大的系統性偏差;第二,自變量的選擇依賴于分析人員的專業知識和主觀判斷,時常會有遺漏變量或偽回歸的情形發生而影響模型精度;第三,一個好的模型的建立,需要反復試錯,直至挑選出最能反映真實世界運行的那一個,在這一繁復過程中,分析人員的數理知識和統計技術至關重要,并且要耗費大量時間。這對“兼職”從事分析的發行人員來說,不能不說是一種負擔。
為克服發行基金投回預測的局限,獲取盡可能多的數據,減少分析人員的主觀參與和工作強度,依托“大數據”,筆者做了如下設想:如果能夠建立一個不斷更新投回數據與國家主要統計數據(如人口數、GDP增長率、CPI增長率等)的信息化平臺,并且在這一平臺中整合一部分統計軟件的功能,那么發行基金投回的數學建模(當然也包括其他和發行業務相關的數學建模)可能會事半功倍。如,大數據平臺可以自動篩選出在時間上與投回變動有一致或強烈相關趨勢的數據指標并且通過聯立方程模型或向量自回歸模型計算其數量關系。一些由于難以獲取、經濟理論知識缺陷等原因被我們忽視的數據(如人口的省際遷移、產業結構變遷、地區教育程度等)有可能成為模型的一部分從而提高模型的精度。一旦這些數據實現了實時更新,那么模型也會隨之不斷更新,我們將得到精度很高的動態預測,這對增強發行基金生產、調撥和投放的前瞻性是不無裨益的。
顯然,這樣的假想是建立在大數據的思維模式和技術能力的基礎之上的。
三、大數據時代,貨幣金銀工作的機遇與挑戰
如前所述,要搭上大數據時代的“順風車”,把大數據的力量化為己用,我們不僅要轉變“小數據”時代的思維模式和工作方法,還要以實際行動為大數據搭建“舞臺”,這就需要:
(一)尋求與互聯網公司的合作,建立與發行數據接駁的數據分析平臺
比如,若能與搜索引擎合作,從“黑箱”數據中提取信息并輔以統計軟件,則可實現動態監測假幣在時間和空間上的發展趨勢。同時,在保證數據安全的前提下,實現與國家主要統計指標數據庫之間的單向接駁,借助整合的計量經濟學軟件功能,我們將得到實時修正且精度較高的數學模型,用以預測發行業務的主要數字指標。
(二)整合歷史數據,將“小數據”升級成“大數據”
發行業務有豐富的歷史數據,如對調撥業務而言,我們可以得到某中心支庫某種券別在某一工作日的投回金額。如果能利用全部信息,這將是樣本數非常龐大的時間序列數據和面板數據,對分析發行基金投回自身變動趨勢將有很大助益。但是,一直以來,數據的獲取都是一個瓶頸。以云南省為例,要得到2005年1季度以前的投放數據,必須翻閱歷史賬本。而即使是能夠在貨幣金銀信息管理系統中查詢到的2005年1季度以后的數據,也需要分析人員逐項查找、記錄,最后將其輸入電腦進行數據分析,這項工作既繁瑣又容易出錯。所以,從目前的實際情況來看,即便我們坐擁大數據的“冰山”,也往往只得其“一角”而已。為克服這一問題,總行應考慮在二代貨金系統中納入全部歷史數據并實現這些數據的無紙化導出,將“小數據”升級成可以直接利用的“大數據”。由于工作量巨大,可考慮將久遠的歷史數據輸入分塊外包。
(三)加強總行與分支行之間、人行各部門之間的數據共享
人民銀行分支行要深刻地認識經濟規律以指導未來工作,局限在分析某一地區、某一部門的數據,始終是管中窺豹,只能窺其一斑。另一方面,總行貨幣金銀局,各分支行的貨幣信貸、調統、金融穩定等部門掌握著豐富的數據資源。如果能建立數據共享平臺,實現總行與分支行之間、人民銀行各部門之間的數據共享,將局部的“小數據”統合成全局的“大數據”,將非常有助于我們突破單一地區、單一部門的分析局限性,高屋建瓴地指導未來工作。
四、結語
大數據是時代趨勢,也將是我們的生存環境。如何迎接大數據時代的機遇和挑戰,將是一個日益凸顯的重要課題。對于這一課題,筆者僅做了粗糙的、理想化的設想和思考,不足之處,望批評斧正。
貨幣金銀處課題組長:許衛東
成員:楊晚晴(執筆) 王偉松