張海均
(四川省統計局,四川成都610041)
大數據技術探索“四眾”企業單位查找方法研究
張海均
(四川省統計局,四川成都610041)
近年來,新業態、新模式蓬勃興起,眾創、眾包、眾扶、眾籌(以下簡稱“四眾”)快速涌現,四川利用大數據技術查找“四眾”平臺企業,以此作為調查對象,使用多維數據建立相關統計分析和算法模型,精準識別“四眾”企業,并及時鎖定、補充、佐證調查結果,為應統盡統“四眾”平臺企業作了有益的探索。
“四眾”企業;大數據技術;統計分析;算法模型
按照國家統計局《新產業、新業態、新商業模式專項統計報表制度》的要求,借力四川運用大數據技術開展“三新”統計的探索,四川在全國首創開展了運用大數據技術精準識別“四眾”企業單位查找的專項研究,豐富和拓展了新經濟數據采集渠道,成效明顯。
近年來,四川省基于互聯網的新業態、新模式蓬勃興起,“四眾”快速涌現。作為新經濟的重要組成部分,其具有分布廣、規模小、變化快等特征,呈現大眾化、規模化、井噴式發展之勢,正在成為創業創新重要支撐平臺。要想掌握新經濟發展情況,傳統的調查單位查找和數據層層上報、逐級匯總的統計方法難以及時、準確、全面和有效地反映新經濟業態,探索科學反映“三新”統計調查方法是大勢所趨,也是國家局布置的重要改革任務。
此次研究以四川省成都市為例,以按制度方法確定的207家“四眾”平臺企業為參考樣本,提出了精準識別“四眾”企業的解決方案,具體包括以下3點:①針對提供眾創服務的企業,設計大數據算法模型,在線上采集企業數據驗證模型,通過模型能夠準確覆蓋已有的眾創平臺,并預測出一批疑似眾創的平臺企業,有效彌補了線下人工調查缺失部分;②針對提供眾籌、眾包服務的企業,利用數據爬蟲技術收集和篩選大量網站信息,完成眾籌眾包平臺網站的數據源采集和精準識別,并利用大數據處理技術清洗和整理數據,構建數據統計需要的數據表結構,建立統計行業數據倉庫;③針對提供眾扶服務的企業,更多是在線下開展活動,暫不具備大數據識別查找條件。
3.1 開辟了查找、識別眾創企業的新路徑
根據國家統計制度整理出一批有效的爬蟲關鍵詞,通過網絡爬蟲技術抓取各類網站數據,整理企業名稱、企業經營范圍、企業類型、企業地址和企業存活狀況等信息。運用大數據清洗技術,清洗線下人工調查的“四眾”企業數據和爬蟲技術取得的全部數據,提取眾創平臺企業的特征詞庫。運用綜合評分法進行企業評分,得分越高,企業提供眾創模式的概率越大,再運用交叉驗證法檢驗數據預測的準確性,通過迭代優化和機器學習等方法進一步優化、完善潛在眾創企業名單,提高預測的準確率。
通過與成都市線下人工調查企業數據的比對,大數據預測準確率為72.1%,部分企業名稱和主營業務范圍不含“四眾”特征詞的企業不能預測。通過對大數據預測的970家成都市2016年潛在眾創企業(不包括2015年線下人工調查部分)進行初步人工調查,能夠短期內線下找到的有500家,占51.5%;能夠明確判定為眾創平臺的有115家,占23.0%.由此可以看出,大數據技術開辟了查找、識別眾創企業的新路徑,使成都市眾創平臺企業數由146家增至214家,解決漏統68家,漏統占比46.6%.眾創解決方案整體思路見圖1.
3.2 為輔助統全統準眾包、眾籌企業提供補充
利用關鍵字搜索引擎找到與眾包眾籌企業相關的網站,人工調研、整理出相關網站列表。以行業類的主流平臺為參考依據,找到參與眾包、眾籌的服務商庫,根據網站提供的詳細信息,結合爬蟲技術,對眾包、眾籌企業信息進行抓取。在實際工作中,利用大數據處理技術將采集到的非結構化數據轉化為結構化數據,對于數據質量較差的數據源進行數據整理和清洗,以獲得眾籌眾包平臺企業的相關數據。眾籌眾包解決方案整體思路如圖2所示。

圖2 眾籌眾包解決方案整體思路示意圖
利用大數據技術爬取全省2016年眾包企業初步名錄212家、眾籌企業初步名錄64家,分別比2015年線下調查多了34家和46家,解決眾包企業漏統占比16%,眾籌企業漏統占比71%.大數據技術使得四川省的調查結果更加符合全省創業創新支撐平臺總體發展水平,為輔助統全統準眾包、眾籌平臺企業提供了強有力的補充支持。
3.3 改進了“四眾”企業數據采集和處理方式
大數據技術為新經濟統計提供了一個信息系統,在國家制度框架下開展數據采集,能夠消除線下統計數據質量的差異性,及時處理存在的數據冗余、空缺、錯誤、更新不及時等問題,并能不斷優化數據取舍,提高統計數據質量。大數據技術能夠精準識別眾創、眾包、眾籌平臺企業的基本名錄信息,明確初步調查對象,減輕基層統計工作的壓力。同時,在實際工作中,相關人員不斷對算法進行迭代優化,使得模型更加合理、有效。
“四眾”企業存在跨界、融合、共生、滲透等情況,但是,現行國家制度范圍的界定還不夠明確,導致算法模型在企業分類過程中沒有統一的標準,覆蓋率還不夠高。因此,大數據技術并不能替代線下人工調查,只能作為補充和參考。
部分企業為了獲得政府補助,隨意確定企業名稱、經營范圍等,人為增加創業創新支撐平臺特征詞,但實際并未提供“四眾”服務,擴大了潛在企業數據庫,為線下人工入戶調查增加了工作量。
受現行工商登記制度的影響,部分企業搬遷、注銷、死亡,未在工商部門和企業信息網報備,從而為精準識別“四眾”企業增加了難度。
在日后的工作中,相關部門要進一步吃透國務院關于構建創業創新支撐平臺有關部署精神和國家統計局“四眾”企業統計制度的要求,進一步明確“四眾”企業統計范圍、測算方法等指標,提高線上、線下統計調查工作的準確性。
在已有算法和模型的基礎上,建立大數據采集和分析信息系統,完善大數據處理過程的自動化和一體化流程,真正實現對“四眾”企業的精準識別。同時,積極推廣運用取得的成效,推動大數據技術在各專業統計工作中的運用和實踐。
[1]王麗平,劉小龍.價值共創視角下眾創空間“四眾”融合的特征與運行機制研究[J].中國科技論壇,2017(03).
[2]陳茫.基于大數據的信息生態系統演變與建設研究[J].情報理論與實踐,2015(03).
〔編輯:白潔〕
F276.44
A
10.15913/j.cnki.kjycx.2017.14.068
2095-6835(2017)14-0068-02