□曹海波
統計數據是統計工作活動過程中所取得的反映國民經濟和社會現象的數字資料及與之相聯系的其他資料的總稱,除了最直觀的統計數字、統計圖表之外,與各類文字、說明情況等也直接相關。以筆者從事的工業生產者價格調查為例,月度報表中企業填寫的出廠、購進產品規格價格超限(波動超過5%)說明,信息量就在200 條左右,如何充分發掘這些文字信息的效用是本文嘗試研究的內容。
量化一切,是數據化的核心,也是大數據時代的基石。統計工作中接觸的各類文字說明,由于文字表述的復雜性、表達方式的不統一,記錄方式的多樣化、多次記錄甚至是重復記錄等因素,會給統計人員在運用這些信息時增加明顯工作量,在準確關聯這些信息時把握前后邏輯的一致上造成困擾。將文字化為數據,本質上是剔除文字說明中的主觀因素,提取核心客觀因素的過程,如同已經存在的企業名稱對應統一社會信用識別碼、企業所處的地址對應的行政區劃代碼、企業所處行業對應的統計行業代碼等,可視為統計工作與大數據時代進一步接軌的嘗試,可更好地履行統計監測職能,提供更為優質統計服務。
一是可歸類、可比較。文字數據化可以直觀地歸類匯總問題、監測趨勢,通過統一分類和編碼尋找同地區、同行業之間共性問題和趨勢,推動不同行業間共性問題和趨勢的歸類互認;通過統一分類和編碼尋找跨地區、跨行業之間的個性問題、不同趨勢,推動個性問題、不同趨勢在跨地區間、跨行業間的比較。
二是可監測、可回溯。文字數據化可以強化數據核查力度,綜合了解企業生產經營狀況、原材料購進價格與出廠價格波動之間的聯系、市場需求等方面存在的新情況和新問題,以及產品價格變動趨勢、政策變化對企業的影響等情況,準確掌握規格品的價格變化動向及真實原因。對同企業、同行業的產品價格波動原因進行長期監測,進行深入研究,進而摸索產業鏈上價格傳導機制。
三是可拓展、可創新。文字數據化有利于開展大數據分析運用,發掘統計調查中各種文字說明的更大作用。在大數據環境下,數據的價值不僅僅是特定目的的使用,更大的價值在于數據創新,在于這些數據的再利用、重組、擴展創新出的新用途。例如商店里的監控器,最開始的初衷是監視扒手。但是后來可以通過跟蹤客戶流和他們停留的信息,設計店面的最佳布局并判斷營銷活動的有效性。
整理匯總近幾年月度報表說明,通過TF-IDF 算法進行關鍵詞提取。TF-IDF 算法:用于反映一個詞對于某篇文檔的重要性。濾掉常見的詞語,保留重要的詞語。如果某個詞在一篇文檔中出現的頻率高,則TF 高;并且在其他文檔中很少出現,則IDF高。TF-IDF 就是將二者相乘為TF*IDF,這樣這個詞具有很好的類別區分能力。在jieba 用以下代碼實現(圖1):
將通過算法提取的關鍵詞進行進一步篩選。并按照性質進行分類。我們暫且把企業的說明情況(Ni,i 為從1 開始的自然數,下同)假設為三維模式,即造成價格波動的原因(bi)、原因的存續時間(ti)和造成價格波動的結果(ri)。價格波動原因類的“訂 單”“上 游”“需 求”“市 場”“終端”等,原因的前序時間“上月”“今年以來”“上季度”等,價格波動結果的“上漲”“上升”“下跌”“下降”等。當然,也可以進一步增設維度,比如價格波總結果的影響范圍、影響預期時間等等。

圖1 代碼
FIND (find_text,within_text,start_num),其中括號內的“find_text”表示我們要查找的字符串。“within_text”表示要超找的區域,也就是需要在哪個單元格內查找“find_text”;“start_num”指定開始進行查找的字符數。比如“start_num”為1,則從單元格內第一個字符開始查找關鍵字。如果忽略“Start_num”,則假設其為1。具體結果(見圖2):
圖片中,數字“1”、“20”、“50”分別代表在文本中第1 個字符開始出現“今年以來”、第20 個字符開始顯示“需求”、第“50”個字符顯示“下降”。
每一條情況說明對應的數字化編碼為Ni,Ni=bitiri,(見圖3)
圖片中,序號1 的文字說明對應編碼為t1b1(b4)r2,解讀成“今年以來的需求(終端)原因導致價格下降”;序號2 的文字說明對應編碼為t1b1(b5)r2,解讀為“今年以來的需求(市場)原因導致價格下降”。
一是同報表跨期限的文字說明整理。由于文字表述的復雜性,同樣的問題說明由不同的人員來提供會出現不同的表述,有效的核心信息往往隱藏在較長篇幅的大段文字中,轉化成數據的形式可以有效地剔除無用的信息,以最高效的方式提供核心信息。拉長時間跨度來看,以標準的數據化形式出現的每月報表說明中的核心信息,有利于統計人員匯總、比較,發現運行趨勢。
二是跨報表運用。通過統一的編碼將同一企業不同報表之間的文字情況進行標準化關聯,更加容易審核、把握、厘清其中的邏輯關系,把握好企業、行業的運行態勢。工業生產者價格調查中,與企業相關的文字說明除了月度的超限說明以外,還有很多其他渠道,比如日常與企業的數據核實記錄等等,通過將文字編碼化處理,將同一企業不同來源、不同表述的文字進行標準化,可以起到印證參考的作用,也更便于發現前后邏輯不一致的情況。
一是文字說明源頭的精確性把握。本文所討論的文字說明的主要來源為企業人員提供的素材,精確性目前依然有所欠缺。一方面在于統計人員對市場情況不夠了解;另一方面在于企業統計負責人沒有對每期報表進行過問審核,價格變動趨勢是否符合市場規律及市場行情,報表數據審核工作有所欠缺。企業對統計工作重視不足,審核工作僅限于程序中簡單提示審核,對價格數據超限的說明,描述簡單沒有深入挖掘,不能做到對于每個審核背后存在的問題進行審核,不能詳細說明價格變動的原因。
二是代表性和推廣使用問題。從蘇州的工業生產者價格調查來看,月度需要填寫超限說明的產品數量占全部調查產品的比重10%左右。對此類文字說明進行數據化編碼雖然可以更為直觀地對同企業、同行業的產品價格波動原因進行監測,但是無論從樣本的代表性和當前的技術手段來看,所起到的作用僅停留在與指數中的行業趨勢、與行業所處的市場趨勢相互印證。實效性有待更多跨報表關聯使用甚至是跨專業使用后的結果檢驗,這就需要大數據技術在統計部門的進一步推廣應用。

圖2 關鍵詞

圖3 編碼組合
一是夯實業務基礎。將統計調查信息、企業報表與價格數據質量聯動研究,發現苗頭性問題及時開展有針對性的專題調研,帶著問題訪問企業,同時搜集鮮活資料,對有關經濟數據進行深入解讀,揭示經濟運行中的矛盾和潛在問題,不斷提高對宏觀經濟形勢的分析研究和預測預判能力。
二是增加統計調查服務供給。統計調查的原始資料是大量的數據和素材,要反映出潛在的問題,解釋出問題的實質,就要將專業知識與工作實踐進行有機結合,從全局出發,抓住重點、熱點、難點,運用專業統計分析方法,進行“去粗存精,去偽存真,由此及彼,由表及里”的統計分析過程,從中發現問題,找出規律。積極主動向黨政領導匯報情況和問題,提出解決問題的合理化建議或措施,從而使統計調查由事后反映變為事前預測分析,提供常態化決策參考。
三是拓展大數據技術、大數據思維的應用范圍。“統計大數據就是統計,是新時代、新時期和新的技術條件下的統計。”大數據時代就在當下,統計系統要推進以大數據運用為核心的統計信息化體系融合,加強對現有統計數據資源資產化管理和大數據挖掘分析應用,強化系統整合、數據融合、服務集合,推進數據采集整合、綜合應用、關聯分析和安全管理,促進政府統計數字化轉型,為建立統計大數據奠定基礎。