999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據在鄉村振興發展水平評價中的應用
——以鄉村稱號數據為例

2022-05-28 12:13:18鞏蓉蓉
管理現代化 2022年1期
關鍵詞:評價發展

□ 劉 瑾 李 振 鞏蓉蓉 劉 英

(1.中央民族大學 經濟學院, 北京 100081; 2.復旦大學 大數據學院, 上海 200433;3.珠海復旦創新研究院, 廣東 珠海 519000; 4.中國人民大學 重陽金融研究院, 北京 100872)

一、引 言

中共十九大提出鄉村振興戰略,明確“產業興旺、生態宜居、鄉風文明、治理有效、生活富裕”二十字方針。在此背景下,如何對各地鄉村振興發展水平進行測度和評價,發掘優勢,補全短板,進而因勢利導推動鄉村發展,是實現中國鄉村振興的關鍵。當前,已有研究通過構建相關指標體系來測度中國鄉村振興發展水平,并使用統計年鑒[1]、農業普查數據[2]、調查數據庫[1]以及調研數據[3]進行實證分析。然而,統計數據雖然具有可靠性較高的優點,但滯后期一般為2-3年,調研數據則較少進行追蹤調查。由于難以獲取更多有效數據,導致政府、學術機構等難以全面、科學評價中國鄉村振興發展水平。

隨著國家大數據戰略推進,大數據技術更加成熟,正加速成為創造價值、發掘潛力的驅動力,其應用逐漸滲透到經濟社會的各個微觀單元。在農業農村領域,大數據技術在農產品價格監測[4]、農產品流通[5]、農業災害預警[6]等領域得到廣泛應用,但無論在理論上還是實踐上,尚未有文獻對大數據在鄉村發展評價方面的應用進行系統研究。事實上,大數據在鄉村振興發展水平評價中大有可為,這主要得益于鄉村大數據的沉淀。大數據技術不僅可以用于數據采集,同時還可以在分析、處理和展示數據方面發揮獨特優勢,為全方位、多維度、立體化刻畫鄉村發展面貌,評價中國鄉村振興發展水平提供技術支撐,也為解決中國農業農村問題提供新的方案。本文以從互聯網爬取的鄉村稱號數據為例,對大數據在中國鄉村振興評價中的應用進行探索,為鄉村振興評價領域中使用新數據、新模型、新技術提供參考,同時也給出大數據在解決經濟社會問題時的具體使用方法。

相比已有研究,本文主要在四個方面進行創新。第一,本文創新性地使用非傳統數據源,為評價鄉村振興發展水平提供更多維度。第二,本文提出非傳統數據的采集和處理方法,為規范使用大數據源提供模板。第三,本文應用非結構化和半結構化數據的量化方法,解決了大數據中數據量化難的問題。第四,本文結合使用傳統分析方法和新型分析方法,挖掘出更多有效信息。總體來看,本文在數據源選擇、數據處理、數據計算和數據展示的全流程都體現了大數據思維,在實際操作中,使用爬蟲技術、分詞技術、大數據匹配技術和可視化技術等信息技術手段,具有一定創新性。

二、大數據優化鄉村振興發展水平評價的理論邏輯

(一)大數據技術全生命周期視角下的鄉村振興發展水平評價優化

在農業農村數據量不斷增加、大數據技術迅速發展的背景下,本文重新審視如何評價鄉村振興發展水平這一問題。大數據具有“5V”特征,即海量(Volume)、高速(Velocity)、多樣(Variety)、真實(Veracity)和低價值密度(Value)。大數據技術是指大數據的應用技術。從大數據的生命周期來看,具體分為大數據采集、大數據預處理、大數據存儲和大數據分析等四個階段。在各個階段,大數據技術均有助于鄉村振興發展水平評價優化,圖1給出了大數據優化鄉村振興發展水平評價的理論邏輯。

圖1 大數據優化鄉村振興發展水平評價的理論邏輯

第一,在大數據采集階段,大數據技術可以對不同來源的鄉村數據進行采集,包括行政記錄、商業記錄、互聯網數據、電子設備傳感數據等,這些數據可以統稱為非傳統數據,不同于統計部門采集的傳統數據[7]。使用非傳統數據進行分析能夠增加數據量級和層次,拓展數據維度,豐富數據類型,減少數據滯后并提高數據頻率。第二,在大數據預處理階段,首先需要對缺失數據、異常數據做處理,將其按照一定方法補全或者剔除。然后,要將多源異構鄉村大數據整理成為統一格式數據,并對一些文本型數據做量化處理,將其轉換成數值型數據。第三,在大數據存儲階段,要將海量的鄉村數據存儲在數據庫中,且必須保障安全、快速和高效存儲。第四,在大數據分析階段,借助機器學習、深度學習等大數據分析方法對數據進行處理,并使用可視化技術對數據進行展示。

(二)大數據技術助力鄉村振興發展水平評價質量和效率提升

大數據技術通過以上四個階段,能夠優化鄉村振興發展水平評價,主要體現在兩個方面。一是質量提升。從本質上看,鄉村振興發展水平評價是一個特征發掘過程,大數據技術優勢恰在于此。從廣度上看,大數據技術通過對來源廣泛的數據進行采集,能夠為刻畫鄉村發展面貌提供更多“原材料”。從深度上看,算法和技術可以為提取數據特征提供更多手段。二是效率優化。大數據技術可以直接采集原始數據,進行快速運算和分析,然后輸出結果,能夠縮短各個環節所用時間,同時減少人工失誤導致的數據偏差,從而提高鄉村振興發展水平評價效率。

三、鄉村稱號數據概念說明和處理

(一)鄉村稱號數據概念介紹和數據質量初步評估

在鄉村數據采集階段,要特別關注數據質量問題。在大數據環境下,數據質量問題更加突出,原因來自諸多因素,比如大數據來源多元化、數據總體多變且覆蓋不全、數據表現非標準、數據內涵非確定和數據真假難辨等[8]。因此,大數據質量評估要考慮“十性”要求:可得性、相關性、可靠性、有效性、及時性、適用性、準確性、連貫性、可比性和可解釋性[7]。

通過梳理文獻中涉及的鄉村大數據源,本文選定鄉村稱號數據作為切入點進行研究。鄉村稱號數據是指由政府部門經過評審并發布的鄉村稱號名單,如“農業產業強鎮”、“中國美麗休閑鄉村”等。雖然稱號是由政府部門發布,但其具有來源分散、更新速度較快、半結構化或非結構化、文本型數據等特征,因此相關數據屬于非傳統數據。結合上述數據質量評估標準,本文對稱號數據質量進行初步評估,發現其滿足有關數據質量的“十性”要求。

(二)鄉村稱號數據采集和篩選

發布鄉村稱號的政府部門包括農業部、商務部、生態環境部等。本文分三步對稱號數據進行采集和篩選。

第一步,初步搜索稱號。首先,在各政府部門網站搜索框中輸入“稱號”、“試點”、“示范”等關鍵詞,然后對2005—2020年相關目錄進行查看,即本文不查詢2005年之后沒有更新過任何批次的稱號(1)這主要是考慮到稱號具有時效性,往往隨著農業農村政策變化進行更新和調整。在2005年之前發布或更新的稱號距離現在太過久遠,即使某些村落獲得過鄉村稱號,也很難反映這些村落目前鄉村振興發展情況,因此使用價值較小。。經過人工查找,定位包含稱號名單的條目,這些條目的形式一般為“標題+正文+稱號名單”。經統計,共獲得54個稱號。

第二步,篩選有效稱號。54個稱號并非都適合評價鄉村振興發展水平,需要根據稱號政策含義進一步篩選。一是剔除具有扶貧性質的稱號。以“農民合作社質量提升整縣推進試點”為例,考慮到該稱號名單中包含很多仍處于貧困狀態的縣級行政單位,不能很好地代表鄉村振興發展水平,因此,對這類稱號進行剔除處理。二是剔除具有明顯地域偏差的稱號。地域偏差是指由于不同地域適合發展的農業產業不同,因此不宜將與某類產業相關的稱號納入鄉村振興評價體系。三是剔除對象數量過少的稱號。如“農業重大技術協同推廣計劃試點”僅在2018年公布過8個試點,數量太少,不宜納入評價體系。在對所有稱號進行篩選后,本文得到29個有效稱號。此外,在搜索引擎中直接搜索“農村稱號”,還得到中國文明網、人民網、中國生態文化協會等官方媒體和協會評選出的3個稱號。由于“淘寶村”稱號能夠體現農村電子商務產業的發展情況,因此本文也將其納入到有效稱號列表中。最終,本文得到33個有效稱號共128個批次的名單。

第三步,采集稱號數據。在獲取33個稱號各批次名單的原始鏈接后,從網站爬取數據,大部分為網頁數據,少部分頁面提供文件下載鏈接,文件格式包括WORD、EXCEL、PDF、CEB等多種類型,數據基本上是半結構化數據。本文使用爬蟲技術手段獲取全部名單數據。

(三)鄉村稱號數據預處理

在大數據預處理階段,本文關注多源異構數據的整合問題。33個稱號數據的格式和結構不統一,甚至同一稱號不同批次的數據格式和結構也不同。由于農村稱號對象大部分是行政單位,因此,本文分三步對農村稱號數據進行預處理。

第一步,提取稱號對象中的行政單位名稱。大部分稱號格式為“X省X市X縣X鄉鎮X村”,縣級稱號格式為“X省X市X縣”,鄉鎮級稱號格式類似。本文對128個批次名單數據中所有行政單位名稱進行提取。

第二步,按照行政級別對原始數據進行處理。對于原始數據中各級行政單位信息都完整的稱號,可以直接使用分詞技術將“X省X市X縣X鄉鎮X村”中各個行政單位分開,如表1所示,以“全國民主法治示范村”和“淘寶村”兩個稱號為例,將稱號對象按照省、市、縣、鄉、村五級行政區劃進行處理和存儲。對于原始數據中各級行政單位信息不完全的稱號,首先需要從國家統計局網站的統計用區劃和城鄉劃分代碼頁面爬取全國所有地區的行政區劃層級和代碼,然后將稱號中所含的行政區劃信息與統計局行政區劃信息進行大數據匹配,補全缺失信息,補全結果也同表1樣例按照五級行政區劃存儲。對于稱號對象為非行政區劃的稱號,如“全國主食加工示范企業”,本文將企業名單與國家企業信用信息公示系統進行匹配,獲得企業注冊地址,并按以上步驟重復處理過程。最終獲取128個批次名單的47 381個對象。

表1 鄉村稱號數據處理結果樣例

第三步,根據本文需要對數據進行量化處理。經過前兩步,本文已經將多種格式、多種類型的數據整理成為統一格式數據,但這類文本型數據無法與指標體系結合,同時,不同稱號的對象有差異,稱號對象既包含行政區劃,又包含企業、園區等,相互之間不可比,因此需要進行量化處理。本文以省級鄉村振興發展水平評價為例,首先分別對各個稱號在省級層面進行數量統計。考慮到不同省份的村、鄉鎮、區縣數量差異較大,因此不能直接使用絕對數量,需要將其轉換成比例數據,轉換過程需要考慮稱號對象的行政區劃層級。當稱號對象行政區劃層級十分清晰,為縣級或村級時,使用各省份縣級或村級行政單位的數量作為除數,對絕對數量結果進行處理;當稱號對象包含不同的行政區劃時,如“全國一村一品示范村鎮”稱號對象同時包含村和鎮,此時需要選用較高層級的行政區劃數量,即各省份鎮的數量作為除數;對于基地、企業等只能細分到縣級的稱號,使用縣級行政單位數量作為除數;除以上三種情況外,如果對象為園區、優勢區、企業等稱號,使用村級行政單位數量作為除數。

四、基于稱號數據的鄉村振興發展水平評價

(一)模型構建

目前對鄉村振興進行評價的主要方法是構建指標體系。指標體系是最為經典的一種評價方法,本文也使用指標體系對鄉村振興發展水平進行評價。由于標簽模型具有框架設定更為自由、標簽數據類型更加多樣等優勢,本文考慮使用信息領域“數據畫像”中的標簽技術,將指標體系拓展為標簽體系,對鄉村振興發展情況進行可視化展示。

1.指標體系構建

本文選取2020年為評價年度,利用33個稱號來構建指標體系。根據鄉村振興戰略“二十字”方針要求,將一級指標確定為產業興旺、生態宜居、鄉風文明、治理有效和生活富裕,然后將33個稱號作為底層指標,將稱號按其含義分配到所屬的一級指標中,如表2所示。

表2 基于稱號的鄉村振興指標體系

2.標簽模型構建

標簽體系是一種靈活、多維和適合大數據系統的模型體系。在信息技術領域,標簽技術通常被用在“用戶畫像”領域,即通過為事物打上不同的標簽來描述和刻畫用戶特征。本文創新性地將畫像技術的核心——標簽技術應用到鄉村振興的評價領域,為評價鄉村振興發展水平提供了更多技術工具和展示方法。

本文將與鄉村稱號相關的標簽分為三類。第一類,事實標簽。標簽名稱與稱號名稱相同,標簽值是經過標準化處理的原始數據。事實標簽可以對底層指標數據進行展示。第二類,模型標簽。模型標簽是指經過模型計算得到具體標簽值的標簽。本文模型是指標體系,經過指標體系處理,可以計算各省份的總指數值、5個一級指標值和33個二級指標值,然后分別對各省份總指數值、一級指標值和二級指標值進行排名,最后給各省份打上標簽。例如,假設山西省“國家農業科技園”二級指標值在各省份中排名第8,可以打上“國家農業科技園排名第八”的標簽。第三類,預測標簽。預測標簽是指基于多年數據進行預測的標簽。可以將獲取的鄉村稱號微觀數據按照年度進行累計計算,得到連續多年數據,在此基礎上進行預測標簽值的計算。例如,假設2019年山東省“鄉風文明”一級指標值排名第6,2020年排名第4,可以打上“山東省鄉風文明2020年上升2位,有上升趨勢”的標簽。

(二)實證分析

1.指標體系結果分析

熵權法是一種客觀賦權方法,能夠避免人為因素的干擾。因此,本文選用熵權法計算指標權重。同時,本文使用機器學習中的聚類分析方法,將31個省份(不包括港澳臺)聚為3類,如圖2所示,縱坐標為鄉村振興總指數值。

圖2 中國省級鄉村振興指數聚類圖

天津、上海和北京三地名列前茅,屬于第一梯隊,吉林、寧夏等11個省份屬于第二梯隊,四川、河北等17個省份屬于第三梯隊。可以看出,鄉村振興指數與東中西部地理位置的關聯性較弱。雖然東部沿海省份總體發展水平明顯高于大部分中部省份和西部省份,但寧夏、貴州、重慶等西部省份的總指數值較高,出現在前十名,這與以往的研究結果差異較大。因此,使用新型數據可以從更多維度對鄉村振興發展水平進行刻畫,有助于更加全面地了解鄉村發展情況。

2.標簽模型展示

各省份都可以使用標簽技術對事實標簽、模型標簽和預測標簽進行展示。本文以北京市和四川省為例,使用詞云圖展示事實標簽,如圖3所示。

圖3 北京市和四川省鄉村振興事實標簽詞云圖

從北京市詞云圖可以看出,“全國主食加工示范企業”標簽最為顯著,這與北京市市場經濟發達,適合企業發展的大環境相關,此外,“全國文明村鎮”、“全國環境優美鄉鎮”、“數字農業建設項目試點”等多個標簽也較為突出,說明北京市在鄉村振興發展的多個方面具有獨特優勢。四川省的“全國農村創業創新園區(基地)”和“淘寶村”標簽比較突出,說明四川省作為西部省份,其農業農村發展出現了新的動向,如推動農業技術創新、發展農村電子商務等,這些變化有助于縮小東西部鄉村發展差距。關于模型標簽和預測標簽,理想狀態是使用算法并編寫程序,將計算過程和結果輸出等步驟標準化、流程化,本文在此不做展示。

五、進一步探討

統計數據和大數據的結合使用是政府統計工作的未來趨勢,本文使用稱號數據作為切入點進行研究。隨著各級政府數據資源共享和開放工作進程的推進,大量鄉村數據資源被集合起來,在此基礎上,政府部門可以對統計數據和大數據進行拼接,基于多維數據進行數據分析。使用大數據要注意四點事項:一是警惕“數據陷阱”,防止出現由于過度挖掘導致的過度擬合現象。二是警惕有偏的大數據,即數據量夠大,但代表性不足的大數據,使用這類數據進行分析的結果往往遠離事實。在實際工作中,需要先對相關大數據源進行人工篩查,確保其代表性、相關性和可靠性。三是要重視對“小數據”研究。根據數據含義、數據類型等將“大數據”拆解為“小數據”,對各個“小數據”內部情況進行詳細研究,解決好每個“小數據”內部數據質量問題。四是利用統計思維處理大數據。大數據應用不是將大數據扔進一個“黑盒子”中等待結果輸出,而是需要結合統計方法的人工全程參與。大數據方法與傳統統計方法并不沖突。未來,隨著大數據技術的進一步發展,大數據分析和預測結果將成為政府部門作出決策的重要參考和依據,積極運用大數據技術和提高工作人員大數據素養將成為影響政府治理水平和服務能力的重要因素。□

猜你喜歡
評價發展
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
邁上十四五發展“新跑道”,打好可持續發展的“未來牌”
中國核電(2021年3期)2021-08-13 08:56:36
中藥治療室性早搏系統評價再評價
從HDMI2.1與HDCP2.3出發,思考8K能否成為超高清發展的第二階段
砥礪奮進 共享發展
華人時刊(2017年21期)2018-01-31 02:24:01
改性瀝青的應用與發展
北方交通(2016年12期)2017-01-15 13:52:53
基于Moodle的學習評價
關于項目后評價中“專項”后評價的探討
“會”與“展”引導再制造發展
汽車零部件(2014年9期)2014-09-18 09:19:14
保加利亞轉軌20年評價
主站蜘蛛池模板: 欧美午夜理伦三级在线观看| 亚洲国产成人久久精品软件| 成人韩免费网站| 久久这里只有精品2| 国产成人综合在线观看| 99精品视频播放| 尤物国产在线| 中美日韩在线网免费毛片视频| 欧美日韩中文国产| 成人国产小视频| 99re这里只有国产中文精品国产精品 | aa级毛片毛片免费观看久| 日本爱爱精品一区二区| 国产毛片网站| 青青青亚洲精品国产| 欧洲成人免费视频| 国产一二三区视频| 国产亚洲一区二区三区在线| 丁香六月综合网| 日韩专区第一页| 日韩欧美中文字幕在线精品| 一级成人欧美一区在线观看| 日韩精品一区二区三区免费在线观看| 色婷婷在线影院| 亚洲一区二区约美女探花| 欧美午夜理伦三级在线观看| 99re在线视频观看| 1024你懂的国产精品| 国产97公开成人免费视频| 欧美日韩午夜| 久久亚洲美女精品国产精品| 亚洲 成人国产| 国产精品开放后亚洲| 人妻出轨无码中文一区二区| 亚洲欧美在线综合一区二区三区| 国产真实自在自线免费精品| 熟女日韩精品2区| 亚洲黄色网站视频| 中国特黄美女一级视频| 亚洲国产第一区二区香蕉| 福利视频一区| 中文字幕第1页在线播| 日韩精品无码免费专网站| 萌白酱国产一区二区| 欧美不卡二区| 免费欧美一级| 亚洲侵犯无码网址在线观看| 色综合天天操| 国产 在线视频无码| 欧美亚洲一区二区三区导航| 中文无码日韩精品| 亚洲一区无码在线| 91亚洲精品第一| 无码人妻热线精品视频| 国产96在线 | 欧美69视频在线| 国产成人综合在线观看| 日韩av无码精品专区| 亚洲欧美不卡视频| 国产精品主播| 97一区二区在线播放| 国产精品深爱在线| 一级高清毛片免费a级高清毛片| 激情综合网激情综合| 91精品国产自产91精品资源| 99在线免费播放| 亚洲午夜18| 日韩免费无码人妻系列| 国产啪在线91| 国产亚洲欧美在线中文bt天堂| 中文字幕 91| 伊人色在线视频| 成人av专区精品无码国产| 欧洲亚洲一区| 欧美日韩国产系列在线观看| 久久福利网| 色欲色欲久久综合网| 亚洲第一中文字幕| 在线精品自拍| 国产高清在线观看| 国产福利影院在线观看| 日韩欧美中文在线|