999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據的交通運輸公眾評議指數設計及應用

2022-09-28 02:30:28劉勇鳳成倩倩李緒茂
公路交通科技 2022年9期
關鍵詞:分類文本情感

李 弢,劉勇鳳,成倩倩,李緒茂

(1.交通運輸部規劃研究院,北京 100028; 2.綜合交通規劃數字化實驗室,北京 100028)

0 引言

交通運輸是經濟社會發展的“先行官”。經過改革開放40 a來的不懈努力,我國已邁入交通大國行列,基礎設施網絡規模居于世界前列,客貨運運輸量穩居世界第一,科技創新處于世界先進水平。當前我國已邁入建設社會主義現代化強國階段,對交通運輸提出了更新更高的要求,交通運輸的開路先鋒作用日益增強,因此我國交通運輸事業發展的當務之急是加快實現從交通大國向交通強國的轉變。黨的十九大提出了“交通強國”發展戰略,需要綜合推進交通運輸業各方面共同進步,包括基礎設施的發展、服務水平的提高、轉型工作的落實等等[1]。實現“交通強國”戰略,首先需要對我國目前的交通運輸綜合服務能力進行科學客觀的評價。

互聯網的飛速發展為建立更加準確真實的評價體系提供了新思路。近年來,互聯網規模持續增長、成果顯著普惠化。在交通運輸方面,我國網絡出行服務發展迅速,在線購票服務已成為人們長途出行的主要選擇。同時,依托共享經濟形成的共享出行市場也在不斷發展。截至2021年底,我國網約車用戶總規模已超過4.5億人,基于互聯網的交通出行業務逐漸普及,大量公眾出行的交通運輸行業數據也被相關企業收集積累起來,行業大數據由此產生。通過對相關海量數據挖掘與應用,可對目前交通運輸行業發展情況進行整體評價。

為了更好、更真實地反映我國交通運輸業的綜合服務能力,本研究提出4類新型的基于大數據的交通運輸公眾評議指數,包括客運企業評議指數、貨運企業評議指數、運輸行業十大事件公眾輿情情感度指數、1次死亡10人及以上道路運輸行車事故輿情情感度指數。上述指數基于大型運輸服務企業的在線評價或在線社交應用上發布的交通運輸相關內容,綜合公眾對于其提供的直接或第三方服務的評價、意見、投訴等,通過文本分析方法對其整體表現進行綜合評價,并得出相應指數。

1 文獻綜述

基于大數據的評議指數較傳統指數,其來源更加直接,內容更加全面,對于信息的挖掘更加深入,能夠作為對傳統評價指標的補充。一般來說,基于大數據的評議指數主要包含輿情分析、公眾評議、服務評價等若干方面。

1.1 輿情分析

輿情分析是指針對某一社會熱點問題,通過社交媒體等渠道了解民眾對該問題的態度,并對其進行分析研判,進而提出相應的輿情引導策略[2-7]。輿情分析的發展主要包括以下3個階段:傳統輿情分析、基于互聯網的輿情分析、基于大數據的輿情分析。

隨著大數據時代的到來,越來越多的研究者采用大數據分析技術對社會熱點問題輿情進行分析。

1.2 公眾評議

公眾評議是通過搭建公共對話平臺,讓我國民眾有效參與到政府績效評估的形式之一。公眾評議作為政府績效管理的重要組成部分,對公共服務水平的提升和公眾滿意度的提高都具有重要影響。

互聯網的不斷發展與普及,為公眾評議帶來了新的發展方向,如在線電子政務的產生帶來了網上評議的新模式[3]。然而,在實踐過程中,出現了參與程度低、評議結果不透明等問題[4]。

目前,各省(市、縣)交通運輸廳(局)均采用公眾評議方法收集群眾意見,經過整合相關建議后,確定進一步的整改方案,同時進行交通運輸服務的績效考評。已有的公眾評議渠道包括12328交通運輸服務監督電話系統、相關部門電子政務網站等。

1.3 綜合運輸服務能力

提高交通運輸服務能力要求構建普惠均等、便捷高效、智能智慧、安全可靠、綠色低碳的綜合運輸服務系統,不斷優化升級,進而增加社會公眾的滿意度和獲得感[5]。

為了有效衡量我國綜合運輸服務體系的發展成效,需提出科學客觀的指標體系對公眾滿意度進行評價[6]。依照交通運輸行業的分類規則,綜合運輸服務能力可分為客運服務能力和貨運服務能力。同時,“安全可靠”作為交通運輸服務能力的重要體現之一,也應對公眾態度加以考量。

1.4 基于大數據的綜合運輸服務能力公眾評議

由于傳統的公眾評議方法存在參與度低、數據失真等問題,將基于大數據的輿情分析與已有的政府績效公眾評議方法結合起來,利用大數據海量、真實的特點彌補傳統公眾評議數據收集過程中存在的問題。提出基于在線社交媒體的海量數據,從民眾的日常發布內容中發掘其對于交通部門公眾服務能力水平的態度。在此基礎上,為更加全面地衡量綜合運輸服務能力,分別對貨運、客運、運輸行業10件大事和1次死亡10人及以上道路運輸行車事故4個方面的輿情展開分析,分別得到相應的評議指數[7]。

2 評議指數計算模型

基于大數據應用的綜合運輸能力評議指數模型(以下簡稱 “綜合評議模型”),是結合機器學習模型與自然語言處理模型,對民眾在社交媒體等平臺中發布的交通運輸相關內容進行綜合分析后加權得出相關指數。綜合評議模型的應用架構如圖1所示,主要包含數據收集、數據預處理、模型訓練、指數計算4個部分[8]。

圖1 評議指數計算框架Fig.1 Evaluation index calculation framework

2.1 數據采集

首先,確定數據來源。為了能夠全面地對我國交通運輸客貨運、重大事件、重大安全事故等方面的公眾態度進行分析,針對上述4個方面選擇了5類數據源。其中,共享交通平臺、在線票務平臺、出行服務平臺用來進行客運企業評議指數的測算,電子商務平臺用來進行貨運企業評議指數的測算,社交媒體平臺則用來進行各領域(客運企業、貨運企業、重大事件和重大安全事故)公眾情感度的測算[9]。

其次,確定搜索關鍵詞。根據平臺對應指數進行數據爬取,如在線票務平臺和出行服務平臺中,以“火車”、“航班”、“機場”等詞語作為關鍵詞,在海量評價數據中進行搜索,得到需要的發布內容。其中,運輸行業10件大事和1次死亡10人及以上道路運輸行車事故的搜索關鍵詞可參照中國交通新聞網等網站公布的年度報告[10]。

而后,針對不同平臺的特點進行文本數據的爬取。部分平臺為研究者提供數據接口,通過調用相應接口即可得到所需數據。部分網站平臺可以通過網絡爬蟲等方式,將數據由線上下載到本地數據庫,以便后續處理。確定爬取模式后,根據需要頻率定期獲取數據[11]。

2.2 數據預處理

數據預處理主要包括數據清洗、數據集成、數據轉換3個流程。

數據清洗從樣本和詞語2個層級分別進行。首先,刪除重復的、內容過短(少于10個字符)的樣本;其次,對爬取到的文本進行處理,將其中包含的數字、鏈接、停用詞、標點符號、空白符、特殊字符等去除,只保留具有實際意義的文本。

數據集成是將文本的內容按照綜合運輸服務能力的4個方面分別進行融合。后續模型構建的工作將分別在細分好的4個數據集上進行。

數據轉換是指隨著增量數據的不斷累積,根據適合的數據結構對數據本身進行轉換。

2.3 模型訓練

為了能夠更好地綜合評價運輸服務能力,將分別從文本的內容和文本的感情值2個方面對其進行衡量。

2.3.1 文本分類器

訓練文本分類器的過程中,首先要對文本特征進行提取,常用的文本向量特征表示方法包括文本分詞、詞集模型、詞袋模型等。在將文本進行向量化處理后,通過機器學習模型對文本進行分類,常用的模型包括傳統的機器學習模型及深度學習模型等。基于Lu等[12]的研究,在試驗中采用獨熱碼(one-hot encoding)對文本特征進行提取和表示,而后采用卷積神經網絡模型對文本進行分類。

訓練領域分類器的過程中,首先將搜索文本時使用的標簽所屬領域進行融合,如“航班”、“機場”、“機票”等標簽下的文本內容歸為“客運空運”,并將歸納好的大類作為因變量展開訓練。

訓練內容分類器的過程中,首先應用無監督機器學習方法(如聚類)基于文本特征向量的相似性對樣本進行劃分。而后,根據領域知識,對劃分后的類進行合并標注,得到有標簽樣本;應用標注后的樣本訓練機器學習分類模型。

在對增量文本進行判斷時,對分類錯誤的文本進行人工分析,并將正確標記后的文本分類作為樣本加入到訓練集中。

2.4 情感分析器

情感分析主要分為基于情感詞典和基于機器學習2種方法。但由于在現實情況中,標注好的文本數量很少,如果使用基于機器學習的情感分析需要首先對文本進行人工標注,消耗很多時間和人力。因此,在對收集的文本進行情感分析時,本研究采用基于情感詞典的分析方法[13]。

基于情感詞典的分析方法指根據已構建的情感詞典,對待分析文本進行文本處理抽取情感詞,進而計算該文本的情感傾向,即根據語義和依存關系來量化文本的情感色彩[14]。

常用的中文情感詞典有清華大學李軍中文褒貶義詞典、臺灣大學NTUSD簡體中文情感極性詞典、知網Hownet情感詞典等等。同時,在已有的權威字典的基礎上,針對性地添加或修改綜合交通運輸方面的詞匯,并且使用N-Gram方法來進行新詞的挖掘,以期獲得更好的性能。

訓練情感分析器將文本中體現的民眾對綜合運輸服務的態度分為5種等級,包括非常消極、較消極、中性、較積極、非常積極。在訓練過程中,通過調整各情感等級間的閾值來提高模型分類能力。

2.5 指數計算

在定義指數時,為不同領域、不同內容賦予不同的權重,將文本中的情感值和領域內容方向的權重相結合,得到相關評議指數。

確定權重時,采用專家打分法請交通運輸領域專家為各個具體的方向給出分數,該方法具有簡便、直觀、計算簡單等特點[15-16]。

隨著交通運輸行業的不斷發展,可以根據計算得出的指數值與整體行業發展情況定期對權重進行更新。

3 實證分析

3.1 平臺選取

大數據平臺的選擇是影響基于第2節中模型框架計算得出的評議指數質量的重要因素。交通運輸服務綜合影響人們生活的方方面面,因此可以從多渠道、多角度、多平臺挖掘人們對于運輸服務水平的看法與態度。為了更加全面、客觀、真實地反映公眾對于我國交通運輸服務水平的感受,在確定文本數據來源的過程中,將以下指標作為各交通運輸子領域(如共享交通、旅游出行、快遞物流等)數據平臺的選擇標準。

3.1.1 頁面瀏覽量(page view, PV)

頁面瀏覽量是每個用戶對網站中任意網頁的訪問次數的總和,同一用戶對同一頁面的多次訪問,其訪問量累計。頁面瀏覽量可作為衡量網站流量的重要指標,用來反映網站用戶的活躍程度。頁面瀏覽量越多,則表示該網站在其所在領域受到公眾任認可的程度越高。

3.1.2 獨立用戶數量(unique visitor, UV)

獨立用戶數量又稱獨立IP數量,是指一定時期內訪問網站的用戶的數量,通常通過IP地址來代表1個唯一的用戶。獨立用戶數量是網站流量的另一重要指標,其更加真實地描述了網站的訪問量。

3.1.3 重復用戶數量(repeat visitor,RV)

重復用戶數量又稱重復訪問者,是指在一定時期內訪問網站2次及以上的用戶數量。該指標側面反映了網站對于用戶的價值水平,當且僅當網站中的內容對用戶有價值時,用戶才會選擇再次訪問。

3.1.4 文本數據量

文本數據量是指網站中由用戶發布所有文本的數據總量。通常數據越多,訓練得到的模型其表現效果越好。因此,將文本數據量指標作為公眾評議指數計算選取數據平臺的指標具有重要意義。

綜上,前3個指標是通過網站訪問量的各項指標來表示網站在其領域的用戶覆蓋及內容價值水平,而第4個指標則是針對公眾評議指數基于文本數據進行分類計算的特點,用來反映數據平臺是否有助于提高指數準確性。

3.2 數據獲取

基于第3節中提出的模型框架,利用不同的平臺和搜索關鍵詞可計算得出4個不同的指數。本試驗以客運相關企業評議指數為例,根據4.1節中提出的選擇指標,選取馬蜂窩在線出行服務平臺,爬取平臺中對于客運相關服務的評價文本作為試驗數據[17]。

本研究通過“飛機”、“火車”、“大巴”、“晚點”、“準時”等關鍵詞進行問答搜索,得到75 879條文本數據。去除其中的重復文本以及對于國外交通信息的問答,得到38 906條有效數據。數據爬取通過python 3.5實現[18]。

3.3 評價指標

本次試驗使用了正確率(precision)、召回率(recall)、F均值(F1)作為評價指標來檢驗試驗效果。

(1)

(2)

(3)

式中,TP(True Positive)為將樣本歸類為其實際的分類;FP(False Positive)為將樣本歸類為該類別但實際不是;FN(False Negative)為將樣本標記為其他類別但實際為該類別。

3.4 試驗結果3.4.1 領域分類器

試驗中,將分別從空運、道路、鐵路3個領域對客運服務進行領域劃分。文本樣本的領域標簽是通過爬取該文本時使用的標簽進行標注的,文本樣本的分布見圖2。

圖2 馬蜂窩問答領域分布Fig.2 Domain distribution of hornet’s nest question and answer

訓練所得的領域分類器分類表現如表1所示,結果表明,分類器可以將75%以上的問答文本正確分類。雖然根據搜索關鍵詞對問答文本進行分類會導致數據噪聲較大,但其操作簡便、效率較高,省去了人工標注的工程,因此,認為使用該方法在初始狀態下進行標注是可行的。

表1 領域分類器初始分類結果Tab.1 Initial classification result of domain classifier

同時,也進一步提出,在定期采集數據更新評議指數的過程中,對增量數據文本中少量的誤判樣本進行人工分類校正后,將其放入訓練數據集中,重新訓練模型。在此過程中,逐漸對初始自動分類導致的信息偏差進行糾正。

在驗證過程中,在訓練模型時,首先在訓練數據集中剔除最近10個月的文本數據,應用已訓練好的模型對新加入的接下來1個月的文本數據進行分類;選出分類錯誤的文本樣本,并對其進行人工標注,將人工標注與原始標注不一致的樣本加入到訓練數據集中重新訓練模型。如此重復10次,其正確率結果如圖3所示。

圖3 模型迭代結果變化趨勢Fig.3 Change trend of model iteration result

從圖3可以看出,隨著新的人工標注樣本的補充,分類模型的效果也會首先穩步提升,此后穩定在較高水平。轉折點是在第5次模型時,其模型效果提升速度最快的是道路領域,其次是鐵路,最后是空運。在實際應用過程中,可在計算評議指數的前5次對模型進行迭代更新。

3.4.2 內容分類器

試驗中,將聚類后的文本內容分類分別標注為依法行政、業務工作、服務態度、安全保障4種類型。各內容類型文本分布圖如圖4所示。

圖4 馬蜂窩問答內容分布Fig.4 Content distribution of hornet’s nest question and answer

訓練得到的內容分類器分類表現如表2所示。結果表明,利用無監督算法輔助文本標注的方法切實可行,分類器的準確率可以達到79.68%。但由于樣本分布過于不均,導致樣本量少的“依法行政”、“服務態度”與“安全保障”3類文本內容的分類準確度過低。

表2 內容分類器初始分類結果Tab.2 Initial classification result of content classifier

該問題可通過4.3.1節中介紹的利用增量數據集的方式加以解決,即將新爬取的“依法行政”、“服務態度”與“安全保障”3類文本數據全部加入到訓練集中,直至4種類型的文本數據基本平衡或模型效果達到穩定狀態。

3.4.3 情感分析器

試驗中,將所有文本數據采用獨熱碼對向量特征提取和表示后,利用現有的情感詞典進行計算,每條文本均得到1個0到1之間的值作為其情感值。

通過人工抽樣標注的方式,協助模型調整參數確定閾值,根據情感值將文本數據分為非常消極、較消極、中性、較積極、非常積極5種態度。

將所有文本按照確定的閾值進行分類后,其分布如圖5所示。為了驗證模型的有效性,從中抽取100條(之前未抽到的)樣本進行人工分類,其結果與分類器判斷的情感態度一致的樣本占抽出樣本的95%。

3.4.4 指數計算

經過上述3個分類器,此時每個樣本都帶有3個標簽,分別是領域標簽、內容標簽和情感標簽。綜合交通運輸評議指數的最終目的是反映民眾對客運、貨運、重大事件、重大事故的整體情感態度。因此選取交通行業的領域專家,分別根據領域標簽和內容標簽下的分類方向對綜合運輸的支持作用,賦予該標簽不同的權重。

將每個方向下每個文本的情感值分別乘以領域標簽和內容標簽對應的權重后求和,即可得到評議指數。

由于本試驗只選取了馬蜂窩1個平臺,其內容不足以使得計算得出的指數具備實際意義,因此在文中未給出具體數值。

3.5 討論

本試驗以馬蜂窩平臺中的問答數據為例,論證了第3節中提出的公眾評議指數計算框架的可行性。試驗結果顯示,該框架能夠簡單、高效地完成模型的訓練并達到較高的分類準確率,在實際應用中具有可行性優勢。

結合圖2與圖3可以發現,領域分類模型效果提升速度由快到慢依次是道路、鐵路、空運,與其領域分布下的樣本數量成反比。這有可能是因為初始樣本不足導致的模型得到信息不足的情況在后續增量數據的補充過程中得到了緩解,這同時也解釋了初始分類結果中3個領域分類結果的排名。

利用上述發現,提出了解決內容分類器樣本不均衡導致的分類準確率低問題的方法。該方法有效地利用了評議指數需定期更新這一特點,利用增量數據來平衡各類別樣本的數量。

4 結論

為了更加準確客觀地評價我國綜合運輸服務能力,為實現“交通強國”戰略打好基礎,提出了基于大數據的交通運輸公眾評議指數。該指數利用我國現有的在線出行服務等平臺積累的海量民眾發布的文本數據,采用自然語言處理技術對其含有的情感態度進行分析,加權整合后用來反映我國民眾在一定時期內對客運服務(長短途出行等)、貨運服務(快遞服務等)、重大事件以及重大事故的態度看法。得出的主要結論如下:

(1)基于大數據的指數評議方法較傳統指數來源更加直接,內容更加全面,對于信息的挖掘更加深入,基于大數據的輿情分析與已有的政府績效公眾評議方法結合起來,利用大數據海量、真實的特點可彌補傳統公眾評議數據收集過程中存在的參與度低、數據失真等問題。

(2)提出了基于文本分析算法和情感分析算法的公眾評議指數計算模型,該模型針對我國交通運輸客貨運、重大事件、重大安全事故等方面的公眾評議,通過網絡爬蟲等方式在相關數據源上獲取數據并對數據進行清洗、集成與轉換?;陬I域、內容、情感分析器對模型進行訓練,最后通過對不同領域、不同內容賦予不同的權重,將文本中的情感值和領域內容方向的權重相結合,得到相關評議指數。

(3)利用指數評議方法對客運相關企業進行指數評議,通過正確率、召回率、F均值等指標驗證驗證了綜合評議指數計算框架中提出的領域、內容、情感3個分類器的有效性。結果表明,領域、內容、情感分類器的準確率分別為75%, 79.68%, 95%。因此,確立的計算框架能夠高效地完成模型的訓練并達到較高的分類準確率。針對分類器樣本不均衡導致的分類準確率低的問題,通過增量數據的方法,使得各種類型的文本數據基本平衡或模型效果達到穩定狀態。

猜你喜歡
分類文本情感
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 国产成人1024精品| 欧美日一级片| 色综合五月| 日韩欧美综合在线制服| 国产精品亚洲天堂| 亚洲三级色| 亚洲中文字幕av无码区| 香蕉蕉亚亚洲aav综合| 人妻免费无码不卡视频| 欧美一区国产| aⅴ免费在线观看| 婷婷色中文| 成人午夜天| 天天视频在线91频| 国产日韩久久久久无码精品| 国产精品内射视频| 丁香六月综合网| 国产激爽爽爽大片在线观看| 国产日韩AV高潮在线| 中文字幕在线日韩91| 国产午夜无码片在线观看网站 | 精品国产网| 亚洲视频一区| 亚洲国产精品美女| 婷婷综合色| 老司机精品99在线播放| 欧美日韩激情在线| 91蝌蚪视频在线观看| 最新亚洲av女人的天堂| 色丁丁毛片在线观看| 国产精品尤物在线| 日韩无码真实干出血视频| 国产三级视频网站| 又粗又硬又大又爽免费视频播放| 色九九视频| 日韩黄色大片免费看| 一本久道热中字伊人| 激情国产精品一区| 欧美一道本| 亚洲天堂在线免费| 啪啪国产视频| 成人日韩精品| 91po国产在线精品免费观看| 国产亚洲精品自在线| 国产丝袜丝视频在线观看| 免费一看一级毛片| 超清无码熟妇人妻AV在线绿巨人| 久久精品免费看一| 亚洲精品午夜天堂网页| 精品一区二区无码av| 亚洲精品视频在线观看视频| 亚洲天堂网站在线| 欧美成人区| 精品伊人久久久香线蕉| 四虎精品国产永久在线观看| 久久久久久久久亚洲精品| 精品欧美一区二区三区久久久| 亚洲美女一区二区三区| 一本大道无码高清| 2021国产乱人伦在线播放| 久久综合伊人 六十路| 亚洲免费黄色网| 毛片在线看网站| 亚洲天堂视频在线免费观看| 一级看片免费视频| 久久亚洲日本不卡一区二区| 毛片视频网址| 国产精品播放| 亚洲av成人无码网站在线观看| 免费人成视频在线观看网站| 精品1区2区3区| 日本免费高清一区| 伊人狠狠丁香婷婷综合色| 日本妇乱子伦视频| 全午夜免费一级毛片| 亚洲男人的天堂久久香蕉网| 青青青国产视频手机| 国产精品成人一区二区不卡| 伊人久久青草青青综合| 国产精品女熟高潮视频| 婷婷色中文网| 超薄丝袜足j国产在线视频|