謝俊杰 謝穎 梁照文
摘要:數據是數字時代“信息石油”,足以說明數據對于生活在互聯網時代人們的重要性。數據,就是人們在日常生活、社會發展等過程中計算、觀察到的信息。數據思維則是利用數學作為工具,對具體的問題開展數據分析的思考過程。在計算機高速發展的現代,利用海量的數據來模擬多元化場景下的實際問題,從而選擇最佳的解決方案,可以運用到各行各業,本文的應用場景則是對進口產品質量做趨勢預測。
關鍵詞:數據 ?思維 ?趨勢預測
1.什么是數據思維
我們古人有云:“早晨下雨當日晴,晚上下雨到天明”、“蜻蜓千百繞,不日雨來到”,這些都是古代勞動人民在日常生活中觀察自然氣象并加以總結得出的樸素結論,而本文所談的數據思維就是人們基于數學思想解決實際問題的一種思路。
在上文例舉的自然現象,需要人們用眼睛觀察后記錄總結。在信息化高度發達的現代,這些數據可以交由計算機來完成。但其實無論是人類還是電腦,都是通過觀察、分析數據從而得到某種規律,區別在于后者在前者的基礎上使用固式化的數學模式和算法來進行分析。例如圍棋自古有之,經過人們不斷總結完善,世代傳承下已經積累很多的“棋譜”。但人的大腦思維和記憶能力畢竟有限,雖然可以計算出非常多場景下對手的“套路”,但對于應對極限數量等場景,計算機計算能力就被放大,甚至可以擊敗世界上最頂尖的棋手。
2.數據思維的應用場景
得益于計算機對海量數據的處理能力,人們在社會發展和工業生產過程中也有可能實現精準預測和有效管理。例如市場流通產品質量風險檢查布控管理。在最原始的風險布控階段,由于缺乏真實數據,管理者只能按照產品本身屬性特點來進行安全環保衛生等要素來檢驗布控。隨著后續監管中發現的問題數據源源不斷地充盈數據庫,管理層注意到不同的產品在檢查列表中體現的質量趨勢也不盡相同,于是就將不同產品的檢查行為分成了不同的表單(檢查頻次、檢查內容等)給到了一線執法人員。進而,管理成會將表單劃分后的產品質量數據信息收集起來,利用計算機的分析能力來預測產品質量趨勢從而可以做到有針對性地對市場流通產品質量風險布控,這就是最基本的各管理部門使用的風險布控系統的原型框架
3.如何使用數據思維對產品質量趨勢進行預測
同樣的,在學科管理領域也可以使用數據思維來解決各類問題。比如,地級市的某類進口產品的質量趨勢一般是無法直接應用到整個此類進口產品上的,這個質量趨勢僅適用于某個地域、某個時間段的情形,這是由于數據豐度的局限。但從數據思維的角度來考慮,可能預測者的數學模型和算法并非有問題,而只是缺乏其他地區產品的數據而已。由于海關總署本身的統計職責,可以通過系統收集進口產品使用前的質量數據。但對于產品其他生命周期中的質量反饋,就需要依靠其他渠道。監管部門可以通過線上反饋、爬蟲等手段收集和分析大量的產品使用中、多次返修使用、產品失效等階段的產品質量數據。首先,這些海量數據會被全部保留在數據庫;然后,我們可以根據不同的質量問題類別進行劃分;最后,即使采集的數據中存在不同級別的誤差,但也可以利用數據庫中大量數據的“投票”功能來選擇一個誤差較小的“質量趨勢”1。在當前階段,計算機理論上是可以基于數據來預測產品質量問題的趨勢。
特別需要注意的是,我們在這里強調的是抓住產品質量問題的相關性就能做出預測,并不意味著可以用相關性來推導因果關系,因為相關性和因果性之間并沒有必然關系。假設原因A和原因B都是問題C的結果,當問題C出現時,原因A和B都會發生,所以看起來原因A和B是具有相關性的,但是這并不能說明原因A和B具有因果聯系。例如,某產品A進口數量越多,則某進口產品B標簽不全的問題越多,從數據上看,這兩者是相關的,但是從常識來看,兩者之間的因果關系結論是極其不符合邏輯的。實際上,產品A進口數量增多是因為國家降低了入境稅率,而進口關稅降低同樣也使得產品B的數量增加而導致標簽問題增多。但是,這個質疑是否成立其實取決于我們的應用。如果我們的應用只是做預測,而不是探尋因果關系,那么可能不會有太大的問題:即我們不會為了對外通過發布警示通報、加大查驗率同時要求企業提高產品B的質量,而去限制A的進口。我們只是通過觀察得到,今年A的進口數量比往年有所增加,那么如果其他因素沒有改變的話,那么可以預測出今年B的標簽質量會比往年要高。把上述兩個問題N次方化,如果用
xi=(i=0,1,2…,n)表示問題i出現的次數,用y來表示等式的值,假設
y=k0*x0+k1*x1+…+kn*xn,(1)
其中,k0,k1,k2…kn是待定系數,需要通過已知等式來確定。當ki=(i=0,1,2…,n)得到之后,對于任意給出的n個數,代入方程(1)即可求出其值。
值得注意的是,人的判斷和計算機的唯一的區別在于,人可以得到i并且分析“ki”這種質量趨勢產生的原因,但是計算機雖然也能得到i值卻無法解釋ki這條“趨勢線”和外部因素之間的因果關系。
4.提高數據思維場景應用的成功率
人們是根據一些相對少量的數據和參數較少的模式識別來記憶和搜索,而計算機則是通過大規模的數據、儲存和計算來處理的。計算機的優勢之處在于有更強大的儲存和計算能力。所以在某些領域中,計算機能夠做得和人類差不多甚至超過人類的前提條件是,使用更加大量的數據和更高維的參數空間(式子1中的ki),來彌補計算機“智商”上的不足。因此,為了更好地利用計算機進行數據分析和預測,有兩個特別重要的因素:盡可能使用多的數據,而不是抽樣數據,同時使用更高維的參數空間。為什么要盡可能多的使用數據?雖然利用抽樣可以通過較少的數據和計算資源去獲取更多的信息,但采取隨機抽樣必然會存在信息損失,尤其是一些小概率事件在抽樣的過程中會被遺漏。隨著計算機計數的迅猛發展,計算處理能力已經不是制約人們的瓶頸時,就可以使用全量數據,這樣不僅可以很好的預測大概率事件,還能精確地預測小概率事件,從整體上提高決策的精準度。
參考文獻:
[1]張平文.大數據建模方法[M].北京:高等教育出版社,2019,1:33