杭敬、苑立波、張志遠
(上海市統計局,上海 200003)
研究探索
基于經濟普查大數據的上海“三新”經濟發展態勢研究
杭敬、苑立波、張志遠
(上海市統計局,上海 200003)
本文利用上海第三次經濟普查所形成的較為完備的調查數據庫,對上海“三新”經濟的總量規模、影響因素及發展趨勢做了試算和研究分析,為研究“三新”經濟發展態勢進行了探索性嘗試。結果顯示,上海法人單位中具有“三新”經濟特征的企業比例為23.3%,從業人員占21.6%。經測算,“三新”經濟增加值占全市GDP的比重為21.8%,呈現出向現代服務業、向中心城區、向非公經濟聚集的主要特征。
“三新”經濟;文本挖掘;增加值;交叉驗證
“三新”經濟是指新產業、新業態與新商業模式等新興的經濟活動類型,加快發展“三新”經濟是中國經濟步入“新常態”、應對“三期疊加”的嚴峻挑戰,實現經濟發展方式轉型和經濟增長動力轉換的重要途徑。然而由于現行政府統計方法制度的局限和“三新”經濟統計制度尚在探索建立階段,在常規統計成果基礎上反映“三新”經濟存在較大困難。因此,探索利用現有統計數據資料和大數據方法對“三新”經濟加以研究分析具有現實的緊迫性和必要性。
本文立足于經濟普查所積累的較為全面的數據資料,運用大數據手段探索“三新”經濟統計數據的挖掘和分析,測算上海“三新”經濟增加值總量規模及影響因素,為研究“三新”經濟探索科學可行的方法和途徑。
(一)“三新”經濟界定的難點
1.統計對象界定模糊。“三新”經濟在一、二、三產中跨界共生、滲透融和,現行國民經濟行業分類中不能明確找到它們所屬的門類。對企業來說,經營活動的多元化使得財務數據僅能報送到主營業務所在行業分類,掩蓋了其對“三新”經濟的貢獻;對政府統計來說,原有的行業分類無法及時更新以反映新經濟的快速發展,采用在原有行業分類基礎上的系數調整也存在估計有偏和缺乏依據的現象。
2.統計內容不統一。“三新”統計內容在地區間和部門間不存在統一的制度標準。各地區和各部門對統計對象、統計表式、統計指標和統計口徑的界定并不統一,數出多門,數據不可比,造成“三新”經濟數據不統一、不規范。
3.自上而下的制度設計滯后于新經濟發展。國家統計局于2016年4月發布了《新產業、新業態、新商業模式專項統計報表制度》(以下簡稱“三新”統計制度)。制度對“三新”經濟的定義、特征進行了明確,通過20張綜合報表和17張基層報表反映提質增效轉型升級、工業戰略性新興產業、新產品、新服務、高技術產業及新技術、科技企業孵化器、四眾(眾創、眾包、眾扶、眾籌)、電子商務、互聯網金融、城市商業綜合體和開發園區等11個“三新”重點領域。這對于獲得統一的“三新”經濟統計數據具有重要作用。
然而,實際操作中,統計局通過分專業自行認定“三新”企業并獲取統計數據,對于統計部門自身和被調查企業都存在困難。
統計部門面臨的主要困難在于:(1)認定企業困難。盡管已有“三新”統計制度可以參考,但摸清所有企業是否具有相應活動或產品仍然存在困難。(2)獲得“三新”業務活動的比例困難。企業普遍存在跨行業經營的現象,界定其“三新”活動所占比例更會增加認定工作的復雜性。(3)“三新”活動變化節奏過快。“三新”企業跟隨市場做出經營活動調整的節奏遠遠快于傳統產業,增加了企業認定的難度和獲取數據的及時性。
企業面臨的主要困難在于:分離“三新”業務活動將增加企業負擔。企業面臨一套新的統計制度,不僅增加了企業負擔,而且易與現行其他數據口徑混淆。尤其對于傳統行業嘗試“三新”業務活動的企業,填報積極性不高。
解決好“三新”經濟統計的問題,亟需新的研究角度和方法,重點解決企業的界定問題,減輕數據供需雙方的負擔,提高統計效率和質量。
(二)文本挖掘界定“三新”經濟的優勢和可行性
在國家統計局制定的“三新”統計制度(2016)的基礎上,本文認為企業家對本企業的業務特征最具發言權,國家統計局可以將“三新”經濟業務特征的描述交給企業家,即規范調查單位基本情況表中“主營業務活動/產品”的描述與填報,國家統計局利用文本挖掘的方式選擇具有“三新”特征的企業,通過“自下而上”的方式完成對“三新”企業的界定、跟蹤和統計。傳統認定方法與文本挖掘認定方法的比較見圖1。

圖1 “三新”經濟的傳統認定方法與文本挖掘認定方法比較
國家統計局制定的“三新”統計制度(2016)中提供了覆蓋11個“三新”重點領域的統計報表,可以從中提取和擴充“三新”經濟的業務特征關鍵詞。2013年的全國第三次經濟普查提供了第二、三產業全面的企業基層數據,其中基本情況表中對企業“主要業務活動/產品”的描述具有三項,其內容主要是短句或短語。這兩部分文本集合為進行文本挖掘、界定“三新”企業提供了必要的數據源。
(一)界定“三新”單位的步驟
1.統計部門制定反映“三新”業務活動特征的詞典(dictionary)。
2.獲得單位填報的“主要業務活動(或主要產品)”文本數據:該文本通常包括三部分短句或短語(根據需要可以在今后的制度中要求單位提供三種主要業務活動所占的比重)。
3.對“主要業務活動(或主要產品)”的文本按照“三新”業務活動詞典進行中文分詞處理。
4.遍歷每家單位的分詞結果是否包含“三新”業務活動特征,包含的則被認定為“三新”單位。
本文以國家統計局《新產業、新業態、新商業模式專項統計報表制度(2016)》為基礎,提取并擴充為包含197個關鍵詞的文本集合作為“三新”經濟詞典(限于篇幅,此處不詳細列舉,備索);以上海市2013年第三次經濟普查數據庫的法人單位基本情況表(101表和611表,合計499798家企業)為數據源,從基本情況表中取得單位“主要業務活動(或主要產品)”文本集合,作為文本挖掘對象。
(二)文本挖掘工具介紹
本文使用Python3.5軟件下的jieba 0.38分詞組件對經濟普查調查單位的“主要業務活動(或主要產品)”文本集合進行分詞。
1.分詞算法
該組件基于前綴詞典實現高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構成的有向無環圖(DAG);采用了動態規劃查找最大概率路徑,找出基于詞頻的最大切分組合;對于未登錄詞,采用了基于漢字成詞能力的HMM模型,使用了Viterbi算法。
2.分詞模式
應對不同的分詞需要,該組件提供了精確模式、全模式和搜索引擎模式三種分詞模式。其中第一種嘗試將句子最精確地切開,適合本文的文本分析。
3.自定義“三新”經濟特征詞典
雖然jieba有新詞識別能力,但是自行添加新詞可以保證更高的正確率。由于本文的“三新”經濟特征詞典大部分為新登錄詞,本文使用“添加自定義詞典”的功能指定該詞典,以便能夠對主要業務活動進行精確拆分。
詞典格式為一個詞占一行。每一行分三部分:詞語、詞頻(可省略)、詞性(可省略),用空格隔開,順序不可顛倒。程序打開的文件為UTF-8編碼。
(一)上海“三新”經濟發展基本特點
文本挖掘及結果數據清洗后的結果顯示,上海“三新”單位共計116526家,占全部法人單位數499798家的23.3%;期末從業人員數為2661809人,占全部法人單位從業人員數的21.6%;資產總計為79141169.55億元,占全部法人單位資產總計的19.8%。“三新”經濟發展的基本特點如下:
1.“三新”經濟與傳統產業全面融合發展的態勢開始顯現
全市“三新”單位覆蓋了81個行業大類、818個行業小類,分別占全市91個行業門類、1016個行業小類的89%和80.5%,基本涵蓋了除公共管理、社會保障和社會組織等非市場化行業之外的全部行業類別。農業、制造業等傳統產業中越來越多企業涉足“三新”業務,傳統企業逐步向信息化、服務型、科技型和管理型企業轉變,“三新”經濟與傳統產業融合發展的態勢開始顯現。
2.“三新”經濟主要集中于生產性服務業和新興制造業
由上海“三新”經濟的單位數及從業人員的行業分布可以看出,上海“三新”經濟呈現行業集中發展的特點,租賃和商務服務業、批發和零售業、科學研究和技術服務業、信息傳輸、軟件和信息技術服務業、制造業等五大行業三新單位數合計和從業人員數合計分別占全市“三新”經濟的81.8%和76.6%,全市“三新”經濟行業主要集中于生產性服務業和新興制造業。其中,租賃和商務服務業占比最高,單位數和從業人員占比分別達到37.9%和26.2%;制造業單位數占比雖然僅有6.8%,但從業人員占比達到20.6%。
3.“三新”經濟主要集聚于中心城區
從上海“三新”經濟單位數和從業人員數區域分布看,上海“三新”經濟區域分布總體較為均勻。其中,浦東新區由于區域面積較大,“三新”單位數和從業人員數較多。但從按所在地和注冊地分別統計的“三新”經濟區域分布情況看,上海“三新”經濟呈現出從郊區向中心城區集聚發展的態勢。黃浦、徐匯、長寧等中心城區按所在地統計的單位數和從業人員數占比分別高于按注冊地統計的單位數和從業人員數占比,而崇明、奉賢、青浦等郊區按所在地統計的單位數和從業人員數占比則低于按注冊地統計的數據,表明“三新”經濟的實際生產經營活動主要偏向于向人才、資本和技術較為集中的中心城區集聚。
4.“三新”經濟在非公經濟中更為活躍
上海“三新”經濟單位中,企業單位占比為97.1%,非企業單位僅占2.9%。從“三新”企業的控股情況看,私人控股單位數和從業人員數分別占“三新”企業的83.8%和47.8%,表明上海“三新”經濟主要集中于非公經濟中。
(二)上海“三新”經濟增加值測算方法
第三次經濟普查數據庫法人表所涵蓋的指標較少,直接采用經普法人單位財務報表資料無法直接進行生產法、收入法或者支出法的增加值核算。因此,本文利用“三新”經濟行業主要經濟指標以及行業增加值率來推算“三新”經濟增加值。
1.按照第三次經濟普查四上單位財務表和其他相關資料分別測算國民經濟各行業四上單位增加值率,即行業增加值占總產出的比重,作為“三新”經濟行業增加值測算的基本依據。
2.分行業匯總“三新”經濟主要經濟指標,包括營業收入、資產總計等指標。
3.根據“三新”經濟營業收入、資產總計等經濟指標,按照相同國民經濟行業四上單位營業收入、資產總計指標與行業總產出的關系,推算各行業“三新”經濟總產出。
4.根據各行業“三新”經濟總產出和相同行業全部四上單位的增加值率推算三新行業增加值,所有行業增加值加總得到全市“三新”經濟增加值。
(三)上海“三新”經濟產業結構特征
測算結果顯示(限于篇幅,此處刪除“上海‘三新’經濟增加值測算結果表(2013年)”),2013年上海“三新”經濟增加值總量為4759.19億元,占全市GDP的比重為21.8%。
從三次產業構成看,上海“三新”經濟在三次產業中增加值占比結構為0.2∶20.3∶79.5,其中第三產業占比達到79.5%,比全市GDP第三產業占比高出16.3個百分點,表明目前上海“三新”經濟發展主要集聚于服務業。
從門類行業占比情況看,上海“三新”經濟增加值排名前五位的行業依次是制造業、租賃和商務服務業、信息傳輸、軟件和信息技術服務業、金融業、批發和零售業,占“三新”經濟增加值比重依次為18.9%、16.7%、16.3%、12.7%和10.2%,合計占“三新”經濟增加值的74.8%,體現出先進制造業與生產性服務業在“三新”經濟中的重要地位。
從“三新”經濟行業增加值占全行業增加值的比重看,“三新”經濟增加值占行業增加值比重超過50%的行業有四個,分別為信息傳輸、軟件和信息技術服務業、文化、體育和娛樂業、租賃和商務服務業、科學研究和技術服務業,“三新”經濟增加值占行業增加值的比重依次為71.4%、69.8%、65.5%和62.5%,表明“三新”經濟在上海信息、文化、管理和科技領域發展迅速。
為研究“三新”經濟對宏觀經濟的貢獻及影響,本文利用“三新”經濟增加值的測算結果建立回歸模型,并利用模型進行預測。
模型所使用的數據是按照行業大類匯總后的經濟普查數據,因變量為52個行業大類“三新”經濟增加值。解釋變量分別取各行業大類增加值、研發支出、從業人員、資產總計等指標。上述各變量分別記為VA,BVA,RD,employ,asset,為保持模型使用數據的平穩性,預先對數據進行對數化處理,變量名仍然沿用上述記法。
(一)“三新”經濟增加值的多元線性回歸模型
參數估計及檢驗:利用R 3.3軟件的lm()和step ()函數,容易得到對于“三新”經濟增加值的線性模型:

圖2 預測“三新”增加值VA的回歸樹
VA=-8.96+0.22 BVA+0.47 employ+0.28 asset+e
各系數在0.05的顯著性水平下均顯著不為零,方程調整R2為0.84,比較理想。
多重共線性檢驗:利用kappa()函數對各解釋變量的多重共線性進行檢驗,檢驗統計量取值為32.96,遠小于臨界值1000,表明各自變量之間不存在多重共線性。
模型解釋:由于研發支出R&D的行業大類數據難以取得,使得模型選擇過程中該變量被剔除,如果能夠進一步獲得詳細的研發支出數據,對研究“三新”經濟增加值應有很大幫助。
從估計得到的模型可以得出如下結論:行業的“三新”經濟增加值取決于該行業的增加值、從業人員數量和資產規模,其彈性系數分別為0.22、0.47和0.28。
(二)“三新”經濟增加值的回歸樹模型
借助R 3.3軟件的rpart軟件包(Therneau and Atkinson,2010),實現各變量對“三新”經濟增加值的回歸樹構建,原始數據為52個行業大類,被回歸樹模型分剪為3個節點(見圖2)。
(三)模型的評價和選擇
模型的評價通過將目標變量的預測值與實際值進行比較得到,并從中得到平均誤差的度量,常見的方法包括平均絕對誤差(MAE)、均方誤差(MSE)和平均絕對誤差(NMSE)。
上述兩個模型的主要評價結果見表1。

表1 兩類模型的評價結果
從表1及兩類模型預測值與實際值的散點圖中均可以得出,多元線性回歸模型的預測誤差相對較小,預測效果比回歸樹模型好。
(四)兩類模型的交叉驗證
為獲得兩類模型預測的穩定性,本文對多元線性回歸模型和三個回歸樹模型進行了交叉驗證(Cross-validation)。結果表明,多元線性回歸模型的預測性能較好,預測效果更穩定,因此2013年“三新”經濟增加值的擬合選用本文的多元線性回歸模型較為適合。
1.建立“三新”經濟內涵與外延界定的動態更新機制,及時科學地反映經濟發展中涌現出的新產業、新業態和新模式
“三新”經濟中的“新”是一個相對的概念,在對“三新”經濟的內涵進行科學歸納和總結的基礎上,更需要對其外延的發展變化進行及時的更新和完善。另一方面,經濟運行中不斷涌現的新產業、新業態和新模式未必都可以納入“三新”經濟的范疇,還需對其進行科學的分析和甄別。我們認為,只有那些符合經濟發展規律,能夠有效提升行業勞動生產率乃至出現顛覆性、革命性創新,能夠經得起市場經濟考驗的新產業、新業態和新模式方能納入“三新”經濟的范疇。
2.建立以經濟活動為對象的統計調查內容,進一步補充完善以法人單位為基礎對象的統計調查模式
伴隨著技術與制度的創新,經濟活動的復雜性與日俱增,企業經營的業務內容和業務手段均呈現出明顯的多元化特征,這對于現行統計調查制度中以法人單位為基礎調查對象、以企業主營業務確定所屬行業的傳統方式提出了新的挑戰。特別是從國家統計局制訂的“三新”經濟統計制度可以看出,“三新”所指的是某些特定的具有一定創新性的產品或業務模式,比如某企業銷售同樣的商品或金融產品,分為網絡銷售和店面銷售兩種,其網絡銷售活動可以視為“三新”經濟活動,而店面銷售部分則不能納入“三新”統計范疇,但在企業填寫統計報表時作為單一的法人單位上報數據,并不區分網絡銷售和店面銷售的比重,從而無法掌握其“三新”經濟活動的統計數據。再比如某工業企業的經營活動中,既有傳統的制造業部分,也有部分屬于“三新”的服務業活動,然而由于行業劃分的限制,其“三新”部分的業務活動也被統一納入工業報表中進行上報,無法單獨區分加以反映。以上兩例表明,傳統的以法人單位為基礎對象的統計調查模式,已無法適應以特定產品或經濟活動為基本元素的“三新”經濟在統計上加以反映的要求。因此,從統計方法制度改革的角度出發,建議繼續完善法人單位上報其主要經濟活動內容(在經濟普查年度填報副營經濟活動內容)并簡要拆分其收入比例,為進一步科學地測算和反映“三新”經濟發展情況提供有效的量化依據。
3.建立規范統一的業務活動詞典,為運用大數據手段開發統計資料奠定扎實工作基礎
本文研究上海“三新”經濟所依據的數據庫是第三次經濟普查所取得的資料,樣本量超過49萬家,是研究上海國民經濟運行狀態的重要基礎性資料。本文為開展文本挖掘所設計的“三新”經濟業務詞典主要依據的是國家統計局制訂的“三新”經濟統計制度。然而在利用該詞典對經普數據庫進行文本挖掘過程中發現,由于企業在填報其主要業務活動中缺乏規范性,與詞典中的關鍵詞難以匹配,導致少量原本應納入“三新”經濟活動的內容沒有挖掘出來,也使得文中所測算的“三新”經濟總量規模存在一定程度的偏差。我們認為,上述系統性偏差可以通過建立規范統一的《業務活動詞典》或在修訂《國民經濟行業分類》中對小類行業新增業務關鍵詞等方法加以消除。在經濟普查年度,組織調查對象填報業務活動內容時,應參照《業務活動詞典》或業務關鍵詞進行填寫,從而為按照經濟活動進行統計匯總提供便利條件,更可為運用大數據手段開發統計資料奠定扎實的工作基礎。
(責任編輯:曹家樂)