巫誠誠,單 飛,蔣雨波,陳大偉,莫方旭
(1.東南大學 交通學院,江蘇 南京 211189;2.河南交通發展研究院有限公司,河南 鄭州 451162)
“四好農村路”即建好、管好、護好、運營好農村公路,自2014年由中共中央總書記習近平提出,2015年交通運輸部進一步形成具體意見,并計劃于2020年實現這一總目標,從而進一步消除農村發展瓶頸、推動農路管養運協調發展。隨著全國各省市的建設推進和目標年的到來,定量化評估四好農村路建設落實效果具有重要的現實意義。既有評估模型更多地依賴于地方上報數據及實際建設情況進行評估,存在反饋時間長、耗用人力物力大等問題,且評估結果難以反映出廣大人民群眾的實際支持情況。此外,由于不同地區統計口徑不一,統計渠道存在差異,也使得不同地區間的評估對比存在困難。因此,隨著信息化技術的發展,從大數據角度進行統一化的評估數據采集與評估方法建立,具有重要意義。
國內外學者針對農村公路的評估研究大多集中在農村公路的安全性、技術性及發展水平等方面。安全性評估主要從道路設計、道路線性、路況等方面確定農村道路安全性的評價指標[1-4]。技術性評估從路網連通性、路網密度及服務水平等角度出發制定評估指標體系[5-7]。農村公路發展水平評估則側重考慮農村公路建設、管理、養護、運營中某階段發展情況或建管養運全方面的綜合評估[8-10],如朱雨晴[9]基于“values-objectives-criteria”的邏輯理論研究,引入因子分析方法確立了具有針對性的四好農村路發展水平指標體系。另外也有一些學者對建設農村公路的社會經濟效益展開了研究[11-13],如馮震宇[12]研究了農村公路建設對于農村區域生活水平、城鄉結構改善等方面的影響,確定了農村區域經濟增長表現的若干指標。然而,目前對于農村公路建設及運營的社會影響、社會評價的評估與對比的研究極少涉及。原因在于公路作為交通聯通承載者,其實際使用群體數量龐大且分布較廣,難以通過問詢調查等方式開展數據采集。單條公路作為網絡聯通的一部分,其社會評價也難以單獨評估。然而,四好農村公路在道路網中承擔末端連接功能,其使用及收益群體相對穩定,而其建設運營帶來的改善效用相對明確。因此,對四好農村公路的社會評價進行研究,兼具可行性與重要性。
在農村公路評估方法方面,國外學者提出了灰色評價法、模糊決策模型、多元回歸模型等方法[14-17]。而國內學者常用的方法有模糊綜合評價法、層次分析法、物元法等[1,4,7],通過多級指標的建立與量化評分,最終實現公路建設和運營評估,其評估數據主要來源于公路建設和運管部門的實際采集數據。隨著信息化虛擬社交的不斷發展,微博等通過公開社會信息締結交流的新型社交平臺愈發普及[18],使得通過社交平臺采集四好農村公路的社會評價及社會影響的相關量化指標數據成為可能。目前已有相關研究通過公共社交平臺的信息采集及挖掘實現網絡輿情社會影響力以及參與者情感評估[19-22]。如馮小東等[19]基于微博采集數據和文本挖掘方法,從公眾視角分析了政務微博的傳播效果,發現發布機構的社會資本、社會信任和行為習慣對其傳播效果具有顯著影響;段堯清等[20]則通過對政府新聞的文本挖掘,構建了政府態度快速識別評估方法。文本挖掘方法目前在交通領域主要用于交通參與者的情感挖掘,如崔健等[23]通過抓取并提取出交通主題相關微博,以分析交通狀況,評估交通參與人的情感狀態。盡管目前的相關研究較少涉及農村公路建設的社會化評估,但采用微博社交平臺進行社會效用的評估,可實現對多個地區的一致性評估,具有明顯的研究潛力。
為此,本研究通過采集微博平臺內的四好農村公路相關信息,在文本挖掘的基礎上實現2個目的:(1)構建評估四好農路建設社會反響的快速評估方法;(2)實現不同區域四好農路建設特征的定量化橫向對比。同時,以河南省四好農村公路建設為例進行相應的案例應用。本研究有助于從第三方角度便捷、快速地對四好農村公路建設情況進行定量化評估,進而為反映社會大眾的群體化情感、推動農路建管養運協調發展、消除農村發展瓶頸提供定量化參考。
本研究分析數據來源為新浪微博平臺公開信息。具體而言,以“四好農村公路”為關鍵詞,通過對1段時間內(不少于30 d)發布內容及相關信息進行采集,從而獲得評估的基礎數據。具體采集信息內容包括:微博發布者、微博內容、轉發數、評論數、點贊數、發布時間共計7個內容。信息采集結果示例如表1所示。

表1 信息采集示例Tab.1 Example of information acquisition
文本挖掘是一種分析非結構化文本數據,并從中提取有用信息的數據分析方法,在描述分析、預測分析中均適用。文本挖掘的子任務包括:信息提取、詞頻分析、文本分類/聚類和關聯規則挖掘4部分,具體內容如下。
(1)分詞與信息提取:對非結構化文本數據進行分詞,并通過剔除詞庫中的無用詞匯(如“的”、“正在”、“和”等)及特殊字符、數字,從而自大量的文本信息中獲得相應的關鍵詞。分詞結果的優劣將直接影響到文本挖掘的準確程度。
(2)詞頻分析與降維:對分詞獲得的關鍵詞進行頻率統計分析。由于文本中信息繁多,提取的關鍵詞數量多,分析對象的特征維度也相對較高,運用條形圖和詞云進行詞頻分析是文本挖掘的基礎。經過詞頻分析可對低頻、冗余詞進行剔除,進一步降低分析對象的特征維度。
(3)文本分類/聚類:文本分類即在事先定義主體類別的基礎上,通過機器學習的方法將未標明類別的文本映射至1類或多類中的方法。常用的分類算法包括樸素貝葉斯分類、支持向量機、后向傳播分類等。相對文本分類,文本聚類方法不需要預先定義主題類別,而是通過聚類學習算法進行自動類別識別,是一種無指導的機器學習方法,常用的文本聚類方法包括層次凝聚法和K均值聚類方法。
(4)可視化:通過多類數據可視化方法,對文本挖掘的內容進行定量化內容的圖像展示與分析。常用的可視化方法包括文字云、熱力圖、聚類圖、相關性分析圖等。
(5)特征識別:基于文本挖掘的定量化分析,對其反映出的特定對象的相關特征進行歸類和識別。
文本挖掘方法內容眾多,可廣泛應用于各類研究。本研究主要采用文本挖掘進行農村公路社會化反響的定量化數據獲取,為評估模型的建立奠定數據基礎。
在獲取模型文本定量化數據并借鑒綜合評估法思路的基礎上,建立多維度定量化指標,并通過指標權重的分配,實現對四好農村公路建設工作的社會化反響評估。模型總體框架如圖1所示。

圖1 評估模型總體框架Fig.1 Overall framework of evaluation model
模型共包含社會響應度、社會曝光度和農路建設度3個維度共計11個指標。具體各指標含義及其挖掘結果的定量化方法如表2所示。

表2 多維度評估指標及其量化Tab.2 Multidimensional evaluation indications and quantification
采用文本挖掘方法對11個評估指標進行定量數據挖掘后,采取加權平均方式對評估指標集計化處理,以獲得最終的評估得分。為保障指標權重的準確性與公正性,借鑒綜合評估法,采取專家評分法形成相應的權重矩陣,對若干名專家進行調研,得到各個專家對指標相對重要性評分結果,以獲得最終評估得分。
河南省作為重要的農業大省,在四好農村路的建設中成就卓然,其率先出臺了《推進“四好農村路”建設工作方案》等一系列文件,成功創建國家級四好農村路示范縣6個,位居全國第1位。截至2019年底,河南省新建和改擴建農村道路10 200 km,全省1 806個鄉鎮和46 098個行政村通客車率達到100%,已有65個縣基本完成20戶以上自然村通硬化路任務,新增逾10 000個自然村實現通硬化路,全省自然村通硬化路率達到75%以上。2020年完成15 000個自然村通硬化路的目標,全省20戶以上自然村通硬化路率達到85%以上。本研究以河南省為例,基于文本挖掘方法獲取新浪微博平臺中河南省四好農路建設社會化反響的相關數據,以實現定量化評估與特征識別。同時,以相同方法挖掘江蘇省四好農村路的相應數據進行評估,以實現案例間的橫向對比。
在新浪微博平臺的公開信息中,分別以河南省、江蘇省及其各自下屬地區與四好農村路建設相關的詞匯作為關鍵詞,對平臺中2020-04-01至2020- 06-01間的相應微博內容和數據進行采集,并剔除無地名微博內容、重復內容及廣告內容。
2個月的時間段內累計共采集相關微博278條,通過地名映射進行地區劃分,得到河南省相關微博91條,江蘇省相關微博187條,其具體特征情況如下。
關鍵詞詞頻分析結果如圖2所示。直觀可見,河南省最高頻關鍵詞為“示范”,其更著重于示范縣建設情況的展示,而江蘇省最高頻關鍵詞為“小康”,更強調于四好農村路建設的成效。從高頻關鍵詞分析可知,河南省發文內容著重于建設成果與經濟拉動,而江蘇省發文內容則更重視建設目的及經濟建設類型(如旅游、生態、產業、品牌等)。在發文主體上,“江蘇”詞頻位居第二,“河南”詞頻位居第六,可見河南省發文內容更強調示范縣及其他城鄉的成果,而江蘇省更突出其省份的整體面貌。

圖2 關鍵詞詞頻分析結果Fig.2 Analysis result of frequencies of key words

圖3 發文數、點贊數、評論數的趨勢Fig.3 Trends of document issuing, approval and comment numbers
對2020-04-01至2020-05-27的發文反饋情況(點贊、評論及轉發),以周為單位進行統計,得到2個省發文反饋情況的時間趨勢圖,如圖3所示。總體可見,2個省的發文點贊數基本高于轉發及評論數,且隨著時間的推移呈現上升趨勢。上升趨勢可能與新冠疫情的影響與復工進度存在關聯性。江蘇省3類反饋數均高于河南省,可見江蘇省社會反饋度更高,但江蘇省反饋趨勢相對平緩,而河南省則呈現更為明顯的上升趨勢。由于微博平臺的社會反饋存在一定的教育經濟門檻,即經濟發達、受教育程度更高的地區可能具有更高的微博參與度,因此可能影響了河南省與江蘇省的總體頻率差異。

圖4 內容分類Fig.4 Content classification
通過對發文關鍵詞進行文本分類,分別統計3類文本的出現頻率:(1)政績類,即涉及體現政績的文本內容,如“示范、試點、領先、第一、XX率等”;(2)建設類,即涉及農路建設情況的文本內容,如“建成、開工、硬化、通車等”;(3)經濟類,即涉及經濟建設類文本內容,如“產業、GDP、拉動、種植、養殖等”,最終統計結果如圖4所示。分析3類文本的占比可知,河南省發布的建設類文本最多,占總文本量的44%;江蘇省發布的文本內容則以經濟類為主,占總量的43%。通過文本內容也可印證河南省四好農村路更著重于工程建設進展,而江蘇省更側重于經濟建設進展,這也同它們當前的經濟發展及農村建設進度相匹配:河南省當前的重點工作在于建設,實現村村硬化路通達;江蘇省則在于農路的運營、養護及借助較為完善的交通設施,進一步通過產業化拉動村級經濟的發展。
基于文本挖掘的數據結果,應用本研究所建立的評估模型,可分別得到河南省、江蘇省四好農路建設的社會化反響評估結果,如表3所示。其中,各指標權重的確定運用專家打分法通過依托項目在前期的調研會中咨詢相關建設規劃人員進行打分統計獲得。由于標準化后指標值的理論最大值為1.0,同時各權重加總值為1.0,因此其集計化總分應在[0,1]區間內。為提升評估結果的直觀性,本研究采用百分制評分,即評估所得的總分直接乘以100,從而保障各評估對象的得分位于[0.100]區間。

表3 社會化評估指標計算值及評估結果Tab.3 values and evaluation result of socialization evaluation indicators
總體上看,江蘇省社會化評估得分高于河南省,其四好農村路建設工作中,具有更良性的“開展工作-媒體曝光-社會反饋”循環。從單項得分來看,河南省四好農村路建設最大的優勢在于建設度較高,其建設穩定度、持續度、離散度均高于江蘇省,能夠更為持續、穩定地通過媒體反映出建設工作的進展。但河南省對其建設進展的反映更多地集中于關鍵性的地區(洛陽市、南陽市、安陽市、焦作市、平頂山市、漯河市等),導致其媒體反映出的建設密度低于江蘇省。相對而言,由于江蘇省經濟發展水平更高,其四好農村路工作傾向于管理、養護、運營,因此在農路建設工作的媒體反映上低于河南省,但由于江蘇省管養運的經濟投入相對高于建設,因此其工作更多地體現出“遍地開花”的局面,反映出的建設密度更高。
在社會曝光維度上,河南省與江蘇省評估結果相對接近。具體而言,河南省四好農村路建設的媒體曝光度具有更高的穩定度、集中度和持續度;江蘇省的媒體曝光度具有更好的信息展示率與接受率。這同樣反映出它們因建設階段差異性導致的社會宣傳、反饋差異。河南省的工作重點在于通過自然村硬化路建設及改造升級,提升偏僻村落通達度、促進城鄉一體化格局基本形成;江蘇省的工作重點在于已建成農村路的管養運,并依托更為便捷的交通服務拉動相關村鎮的產業化發展、提升村鎮的小康化水平。建設階段的差異性也使得河南省媒體發布內容更為穩定、集中,而江蘇省的發布內容有著更高的社會傳播力。
此外,河南省四好農村路建設的社會響應維度的評估得分遠低于江蘇省。河南省農路建設相關內容的發布數量、社會群眾對其的關注度均低于江蘇省(點贊數、評論數),其自發傳播力更低(轉發數更低),造成河南省四好農村路建設的公眾的關注度及支持度評估得分遠低于江蘇省。
本研究基于新浪微博社交平臺的文本挖掘數據,建立了定量化的評估方法,以反映在四好農村路建設中的政府工作特征和社會反映。以河南省、江蘇省為例進行了案例分析,得到如下結論。
(1)文本挖掘下的定量化評估模型有助于更為便捷、客觀地反映出評估對象在四好農村路建設工作中的工作重點、建設特征及公眾響應情況。這既可為目標年(2020年)各省市的工作成果評估提供定量化參考,也有助于各省市四好農村路工作推進的日常評估,實時反饋社會群眾反響,從而查漏補缺提升工作水平。
(2)通過案例分析可知,河南省、江蘇省四好農村路建設階段不同,其社會宣傳、反饋具有差異化特征:河南省的工作重點在于建設(自然村硬化農路建設及改造升級),而其宣傳更側重于實際政績,以提升偏僻村落通達度、促進城鄉一體化格局基本形成為工作目標;江蘇省的工作重點在于管養運,核心思路在于依托更為便捷的交通服務拉動相關村鎮的產業化發展、提升村鎮的小康化水平。
本研究及評估模型仍具有一定的局限性和優化空間:(1)由于2020年新冠疫情的影響,使得前期政府工作更集中于疫情防控,加之復工復產存在時間需求,使得數據采集時間(2020-04-01至2020-06-01)的四好農村路相關內容也存在“復工”特征,呈現逐步上升趨勢,且河南省、江蘇省復工進度不一,所采用的非結構化文本數據挖掘分析具有一定隨機性。這些問題使得文本挖掘采集到的案例數據具有一定的誤差,因此本研究的實證分析結論僅供參考。(2)社會化評估可進一步采集評論內容,從而識別出社會化反饋的情感傾向(支持或反對),使得評估結論可進一步細化。(3)不同省份的人工基數不一、微博注冊用戶數量差異,采用微博內容的轉發、評論、點贊數進行指標計算,也存在一定的誤差。后期可考慮對該指標除以注冊省份活躍用戶數,從而提升指標的準確性。