中國工業企業數據庫以及海關貿易數據庫合并方法概述

2016-03-28 10:37:26張學立

商 2016年5期

關鍵詞：合并

張學立

摘要：隨著國際貿易理論的發展以及微觀計量經濟學的引入，越來越多的研究關注到了微觀企業行為在國際貿易中起到的作用，中國經濟學者越來越重視微觀數據的開發和使用。其中，中國工業企業數據庫和海關貿易數據庫成為國內外學者研究中國企業在國際貿易中行為和績效的主要數據庫。但是，將企業層面的生產數據和產品層面的貿易數據合并會面臨一定的技術問題。兩組數據庫的編碼系統完全不同，企業數據庫中企業編號為9位，而貿易數據庫中企業編號為10位，將兩個數據庫匹配起來是有困難的。本文介紹了將兩個數據庫合并的幾種方法，并給出了各種方法匹配出來的效果。

關鍵詞：中國工業企業數據庫；海關貿易數據庫；合并

一、中國工業企業數據庫和海關貿易數據庫使用概況

在經驗研究中，企業級和產品級的微觀數據正在受到越來越多的重視。數據是經驗研究的根本，因此數據質量的好壞直接決定了經驗研究的質量。其中，中國工業企業數據庫和海關貿易數據庫成為國內外學者研究中國企業在國際貿易中行為和績效的主要數據庫。他們的研究成果廣泛的發表在國內著名學術期刊上，包括《經濟研究》、《管理世界》、《經濟學（季刊）》、《世界經濟》等。

楊汝岱在《區位地理與企業出口產品價格差異研究》中用兩個數據庫從區位地理的角度解釋中國出口產品的價格差異，越偏遠的地方，企業出口產品的價格相對越低，初步反映出我國出口產業的梯度分工模式。余淼杰在《企業出口強度與進口中間品貿易自由化：來自中國企業的實證研究》一文中，使用中國制造企業數據和貿易數據，發現企業面臨的中間品關稅的下降顯著提高了企業的出口強度，即出口占銷售的比例。戴覓在《中國出口企業生產率之謎：加工貿易的作用》一文中，通過2000—2006年企業—海關數據的分析表明，中國存在“出口企業生產率之謎”完全是由中國大量的加工貿易企業導致。除此之外，還有一系列研究運用中國工業企業數據庫和海關貿易數據庫得出了很好的結論。

但是，將企業層面的生產數據和產品層面的貿易數據合并會面臨一定的技術問題。兩組數據庫的編碼系統完全不同，企業數據庫中企業編號為9位，而貿易數據庫中企業編號為10位，將兩個數據庫匹配起來是有困難的。并且，兩個數據庫原始數據存在很多問題，如樣本匹配混亂、指標缺失、變量大小異常、側度誤差明顯和變量定義模糊等嚴重問題。本文介紹了將兩個數據庫合并的幾種方法，并給出如何整理數據，剔除異常值的步驟和建議。

文章余下部分安排如下：第二部分簡要介紹了兩個數據庫的特征；第三部分介紹了兩個數據庫的并方法；第四部分是結論和建議。

二、兩個數據庫基本介紹

（一）中國工業企業數據庫的基本介紹

中國制造業企業數據庫由國家統計局建立，它的數據主要來自于樣本企業提交給當地統計局的季報和年報匯總。包括2000年到2006年每年約230000個制造業企業的生產信息。這套數據包括了3張會計報表：損益表，資產負債表和現金流量表，共100多個會計變量。這套數據每年涵蓋的企業生產總值占中國總工業生產總值約95%，實際上《中國統計年鑒》中的加總的工業數據就是從這套數據加總而來。數據包括兩大類型企業，所有國有企業以及年銷售額在500萬元以上的非國有企業。企業數目從2000年的162885家增長到了2006年的301961家。

（二）海關貿易數據庫的基本介紹

海關數據庫包括了2000-2006年產品層面交易的月度數據。每個產品都是在HS8位碼上，產品數量從2000年1月的78種增加到2006年12月的230種，每年平均的觀測值數目由2000年的1000萬增加到2006年的1600萬，最終這7年的觀測值總數約為118333831個，大約有286819家企業參與了國際貿易。

三、兩個數據庫合并的方法

（一）按企業名稱對接兩個數據庫

根據企業的姓名和年份匹配，在同一年的兩套數據中有相同的名字則認為是同一個企業。年份這一變量對于匹配是重要的，因為一些企業在不同年份企業名稱可能不同，并且新進入的企業有可能采用他們原來的名稱。

《中國的多產品出口企業及其產品范圍：事實與解釋》采用此種方法，目的是為了剔除中間商。同時出現在海關數據庫和工業企業數據庫中的企業必然不是純粹的中間商，因此留下來的樣本就是剔除了中間商的樣本。用此種方法合并，最后得到2000-2005年的企業數量分別為22631，26038，30629，37103，42259，44136家。合并后的數據庫企業出口額達到了原海關數據中出口額的60%。這樣，合并后的數據就近包括有出口行為的工業企業的進出口和企業的投入產出信息。

兩篇文章匹配出的結果一樣。

（二）使用郵政編碼和電話號碼對企業進行識別

通過企業的郵政編碼和最后7位電話號碼進行匹配，因為在每一個郵政地區中，企業的號碼不同。《加工貿易、企業生產率和關稅減免——來自中國產品面的數據》一文采用此種方法。篩選之后，有218024家企業的產品貿易數據（海關貿易數據）保持有效，占到了全部640352個企業樣本中的34%。同理，對企業數據集，剔除掉其中郵政編碼或電話號碼無效的樣本后，剩余的企業樣本數為973207。繼續按照先前的標準進行篩選，則還剩下433273個企業樣本，占到了973207家企業中的44.5%。在此基礎上，文章將產品貿易數據和企業生產數據歸并整合起來。

（三）采用企業名稱以及郵政編碼和電話號碼兩種方法匹配，然后取并集

《企業出口強度與進口中間品貿易自由化：來自中國企業的實證研究》一文首先根據企業的姓名和年份匹配，在同一年的兩套數據中有相同的名字則認為是同一個企業。這樣如果使用原始的工業企業數據，我們可以匹配到83679家企業。如果使用篩選（根據“通用會計準則”（GAPP）中的規定）過后的，我們可以匹配到69623家企業。第二種方法通過企業的郵政編碼和最后7位電話號碼進行匹配。

一些企業有可能在工業庫或海關庫中沒有匯報企業名稱，同樣，其郵編和電話號碼也可能只出現在一套數據中。為了保證能匹配到更多的企業，將兩種方法得到的數據取并集。如此，用原始工業企業數據成功匹配的企業數有90558個。篩選（根據“通用會計準則”（GAPP）中的規定）后的有76823個。

（四）將企業名稱拆分成若干詞段，用這些詞段去搜尋匹配

在數據匹配上，首先按每家企業的企業名稱完全匹配，接下來將不能完全匹配上的海關庫企業中，按貿易額大小排序，將每家企業的企業名稱拆分成若干詞段，用這些詞段去和工業庫企業名稱搜尋匹配，如果每個詞段都能匹配上，賦值匹配類型為“1”，如果只有部分詞段匹配上，按匹配要求的精度可逐步賦值。

四、小結和建議

從現有文獻來看，合并兩個數據庫的主要方法有：1.通過企業名稱和年份進行匹配；2.郵政編碼和最后7位電話號碼進行匹配；3.將企業名稱分為若干詞段來匹配；4.代碼表轉換。由于第三種方法要求匹配的精度不好確定，以及第四種方法代碼表轉換不全面，不建議使用。建議使用第一種和第二種方法匹配所得到的數據取并集。

參考文獻：

[1]錢學鋒，王勝，陳勇兵.中國的多產品出口企業及其產品范圍：事實與解釋[J].管理世界，2013（01）：9-27.

[2]楊汝岱，李艷.區位地理與企業出口產品價格差異研究[J]管理世界，2013（07）：21-30.

[3]戴覓，余淼杰.中國出口企業生產率之謎：加工貿易的作用[J].經濟學：季刊，2014，13（02）.

[4]陳勇兵，李燕，周世民.中國企業出口持續時間及其決定因素[J].經濟研究，2012（07）：48-61.