999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

公路交通輿情監測及系統開發

2021-02-22 04:00:58湯麗華吳星宇徐華健朱燕翔刁業敏吳建盛
關鍵詞:公路文本情感

湯麗華,吳星宇,徐華健,朱燕翔,刁業敏,吳建盛

(1.南京郵電大學地理與生物信息學院,江蘇 南京 210023) (2.南京郵電大學通信與信息工程學院,江蘇 南京 210003) (3.南京仁面集成電路技術有限公司VeriMake實驗室,江蘇 南京 210088) (4.南京叁角加文化發展中心TP實驗室,江蘇 南京 210005)

目前,輿情分析方法已從人工分析輿情信息的情感傾向,過渡到了通過一系列文本情感分析算法進行輿情信息情感分析. 文本情感分析算法通過對網絡上的文本進行智能化分析,可以挖掘文本內容蘊含的各種觀點、喜好等非內容或非事實信息,提煉文本中蘊含的情感方向,明確文本傳播者的真實意圖. 文本情感分析主要分為基于語義的分析和基于機器學習的分析兩種類型. 基于語義的分析一般通過構造傾向性詞典,借助語義分析工具如Word Net或 How Net等進行文本傾向性判別[1]. 但其較少考慮上下文語義聯系,難以適應網絡輿情信息的動態演化性. 基于機器學習的分析采用機器學習方法,通過對大量標注傾向性詞匯的訓練構造一個褒貶兩類分類器,讓機器自動進行傾向性判別,更適合于網絡輿情信息的傾向性分析.

2013 年Google發布了Word2vec[2],深度學習方法在自然語言處理領域開始普及,情感分析進入快速發展階段. 借助機器學習特別是深入學習技術,采集并整合社交媒體上的輿情信息,進而進行分析處理已經成為當下的研究熱點[3]. 2009年,Go等[4]對民眾在Twitter上發布的文章進行情感分析. Mukherjee等[5]提出了一種輕量級的分析方法,充分結合了否定詞、連詞與情態動詞等詞語特性對于情感傾向的影響,考慮了N-gram、詞性等特征,使用SVM算法大幅度地提高了對Twitter的情感傾向分類準確率. Kaur等[6]將N-gram 用于特征提取并在句子后添加標記,結合KNN分類算法精確率達到 82%. Rathor等[7]結合字母加權對比分析了SVM、NB和ME 3種機器學習技術. 深度學習是人工神經網絡在使用多層網絡進行任務學習中的應用,隨著深度學習在圖像和語音處理方面取得重大進展,其在情感分析領域也開始被廣泛應用[8]. Mikolov等[2]提出CBOW和Skip-gram模型,前者是利用上下文詞來預測目標詞,后者是利用目標詞去預測周圍詞,對細粒度的語義有較好的表達. Zeng等[9]提出的Pos ATT-LSTM模型同時考慮了上下文詞和上下文位置關系的重要性. 對于結構復雜的阿拉伯語,Heikal等[10]把最佳的CNN模型和雙向LSTM模型集成起來,提高了分類準確率. Du等[11]使用了分段池化策略,并對最大值拼接的向量做Tanh函數運算,同時引入了dropout算法. 馮興杰等[12]將CNN與注意力機制相結合,CNN考慮了不同的 N-gram 信息,注意力機制則考慮了文本句子與結果的相關性.

在交通輿情的文本挖掘領域,相關研究主要集中在交通事件與各種新型大數據媒體的分離、實時道路交通狀況跟蹤、游客感知、碰撞檢測和車輛設備故障診斷等方面,而交通領域輿情情感分析研究相對較少. Cao等[13]將交通輿情情感分析分為同義詞替換、主題識別、屬性提取和評估4個階段. Ardic等[14]基于結構方程研究媒體報道對交通政策輿情影響,計算輿情情感與媒體的關系. Cao等[15]基于半監督學習方法對中文微博用戶進行情感分析并預測交通擁堵道路和時間. Lu等[16]基于Word2vec事件融合模型并通過多渠道社交信息,感知檢測城市交通事故并對其進行可視化. 何夢嬌等[17]利用SVM模型進行交通輿情主題自動分類,基于Apriori算法利用關聯規則分析關鍵詞隱含的交通現象,并使用共現網絡分析方法深入挖掘輿情所反映的交通問題. Ali等[18]基于潛在狄利克雷函數方法和本體論進行交通情感分析,研究城市交通擁堵問題. 冒婷婷等[19]針對網民對關鍵基礎設施社會服務供應能力的情感傾向,利用深度學習模型進行輿情分析,建立了基于情感挖掘的基礎設施社會韌性評價模型. 以上分析表明,通過網絡媒體監測交通輿情信息、掌握情感傾向、反饋交通治理效果具有可行性.

我國公路四通八達,公路運輸行業與民眾生活息息相關. 每年因公路交通而引發的輿情事件數量龐大,涉及內容廣泛,事件歸因復雜,信息蔓延迅速,極易滋生輿情熱點[20]. 目前針對公路交通領域的輿情監測和情感分析的研究很少. 江蘇省是公路交通大省,公路交通輿情監測復雜且極其重要. 本文以江蘇省為例,采集了從2019年10月到2020年9月一整年間江蘇省公路交通相關網絡文本信息數據,從季度、年度、重大事件3個角度分別進行了輿情監測和分析,梳理了熱點輿情的內容及走勢變化,設計了一種基于長短期記憶網絡(long short-term memory,LSTM)方法的公路交通輿情情感分析模型,并構建了一套公路交通輿情監測系統.

1 數據集與方法

1.1 數據集

本文采集了從2019年10月到2020年9月一整年間江蘇省公路交通相關網絡文本信息數據,主要包含:全省普通公路的建設、養護方面工作,具體指普通國省干線公路、農村公路的施工現場、路面養護情況;全省普通公路的管理,生命防護工程管理和普通公路收費站管理;全省普通公路的服務管理,普通公路的服務區、公路驛站的服務管理,普通公路附屬服務設施的建設和管理;此外還包括全省普通公路所應用的新技術等.

本文使用Python語言進行數據的爬取. 首先,將Python程序偽裝成瀏覽器,通過rsa加密模塊模擬登錄,爬取數據;然后構建所需的URL,發送爬蟲請求,在接收到請求后,網頁將判斷是否為通過機器人爬取數據,如是則需輸入驗證碼;最后,程序判斷網頁返回的數據是否為空,若為空繼續構建URL,反之則程序解析數據后將數據存儲到文件中去. 將上述數據存儲到excel文檔中,并進行數據的預處理. 預處理包含了分詞、去除停用詞和文本向量化. 本文采用中文分詞庫jieba中的精確模式,將句子中每個單詞精確地分割開. 由于某些詞語對于語義的影響不明顯,需過濾這些停用詞. 最后,采用Word2vec技術對完成分詞處理的文本進行向量化. 本實驗使用的數據庫為MySQL8.0.

1.2 方法

本文分別從季度、年度、重大事件3個角度進行了關鍵詞分析. 讀入文本數據后,使用jieba庫的精確模式進行分詞,再導入WordCloud庫. 通過關鍵詞的演變分析,可以準確地掌握主流的輿情.

本文采用LSTM模型進行情感分析. LSTM模型是一種特殊形式的循環神經網絡,是為了解決基于長文本序列的模型訓練過程中梯度消失和梯度爆炸等問題而提出的,在自然語言處理的領域有著較好的效果. LSTM模型如圖1所示.

圖1 LSTM模型Fig.1 LSTM model

LSTM通過增添3個門控單元(輸入門、輸出門、遺忘門)的方式進行信息的選擇. 輸入門對當前數據及其上一個時間進行激活,然后對輸入到 LSTM 細胞中的信息進行選擇性控制,只通過對下一步進程有用的信息,阻擋無用的噪聲. 若輸入門的值為零,則斷開來自另一個節點的數據;若輸入門的值為1,則所有的信息都將通過. 輸出門的目的是控制狀態的輸出,通過控制 LSTM 狀態來減少對輸出的不利影響. 遺忘門的目的是控制狀態的更新,通過抉擇上一時刻的狀態來保留對預測有用的信息,丟棄無用的信息. LSTM通過輸入門、遺忘門、輸出門來共同解決數據中的噪聲干擾,原理見式(1)-(6):

it=σ(Wi·[ht-1,xt]+bi),

(1)

ft=σ(Wf·[ht-1,xt]+bf),

(2)

(3)

ot=σ(Wo·[ht-1,xt]+bo),

(4)

(5)

ht=ot·tanh(Ct).

(6)

式中,ht-1表示上一時刻的輸出;bi、bf、bo、bc分別表示和門控函數及細胞狀態有關的偏置矩陣;xt為最新輸入;Wi、Wf、Wo、Wc分別表示和門控函數及細胞狀態有關的權重矩陣;σ代表門函數,大多數情況下是 sigmoid 函數,范圍為 0-1;it代表輸入門,ft代表遺忘門,ot代表輸出門;Ct-1表示舊的細胞狀態;Ct表示新的細胞狀態,實現長記憶;ht表示這一時刻的輸出,實現短記憶;ft控制在多大程度上丟棄老的記憶單元內容;it控制在多大程度上將新信息存入當前記憶單元中;ot控制基于記憶單元Ct的輸出.

基于LSTM的文本情感分析方法實現流程如表1所示. 其中,Word2vec是Google推出的一個用于獲取詞向量的工具包,CBOW是其中一種網絡模型,使用上下文的詞匯來同時預測中間詞. 通過平均池化層來把詞向量集合H降維生成表達詞向量h,以及防止過擬合的發生. 邏輯回歸層用于將連續的多維輸出轉換為“類”.

表1 方法實現流程Table 1 Implementation flow of the method

2 結果和討論

2.1 輿情數據分析

通過對輿情監測系統所爬取的輿情內容分別從季度、年度、重大事件3個角度進行簡要的統計分析,梳理了熱點輿情的內容及走勢變化.

(1)輿情數據季度分析

2019年第四季度,輿情內容以一系列各地區公路中心動態為主,主要有公路養護、公路安全及各種保障整治工作等. 受無錫312事故影響,涉及橋梁安全、嚴查治超等相關報道也有一定的數量. 輿情報道大部分為正面;負面輿情較少,約占9%,大多與無錫312事故相關.

2020年第一季度,輿情內容主要涉及疫情防控、防疫保暢、公路養護、復工、春運等內容.

2020年第二季度,輿情內容以一系列各地區公路中心動態為主,主要有公路整治、公路養護及各種安全保障工作等. 輿情報道大部分為正面;負面輿情較少,約占8%,主要涉及一些道路交通小事故等.

2020年第三季度,輿情內容以一系列各地區公路中心動態為主,主要有公路整治、公路養護、路面修復及各種安全保障工作等. 輿情報道大部分為正面;負面輿情較少,約占8%,主要涉及一些道路交通小事故和道路問題.

(2)輿情數據年度分析

2019年第四季度至2020年第三季度,輿情內容以各地區公路中心日常工作動態為主,主要包括道路養護修建、道路安全保暢整治和安全檢查工作等. 同時,輿情內容也和相關熱點事件有關,如:受無錫312事故影響,涉及橋梁安全、嚴查治超等相關報道增多;隨著國慶假期的來臨,涉及道路安全檢查及道路保暢相關輿情報道增多. 輿情內容正面居多,負面輿情主要涉及一些道路交通小事故和道路問題等.

(3)輿情數據重大事件分析

2019年10月10日,江蘇無錫312國道K135處、錫港路上跨橋發生橋面側翻事故. 橋下共有3輛小車被壓,其中一輛系停放車輛(無人),事故共造成3人死亡,2人受傷. 以無錫312事故動態為例,輿情內容主要有橋梁安全、嚴查治超等工作. 其中,針對該事故輿情存在以下幾點問題:(1)權威信息發布慢,發布水平需提升;(2)需要同媒體打好交道,展示出良好的政府形象;(3)要對超載進行進一步的整頓.

表2 LSTM方法與其他方法的比較Table 2 Comparison of LSTM with other methods

2.2 基于LSTM模型的輿情情感分析

本文按照8∶2的比例將數據集隨機劃分為訓練集和測試集,對每組數據集,重復3次實驗,并取其Accuracy、Precision、Recall、AUC的平均值作為最終結果. LSTM模型的主要配置參數包含了訓練最大輪數(epoch=10)、詞嵌入大小(embeddingSize=100).

將本文方法與支持向量機(support vector machine,SVM)和卷積神經網絡(text convolutional neural network,textCNN)進行比較,如表2所示. textCNN通過一維卷積來獲取句子中N-gram的特征表示. textCNN對文本淺層特征的抽取能力很強,在短文本領域如搜索、對話領域專注于意圖分類時效果很好;對長文本領域,textCNN主要靠filter窗口抽取特征,在長距離建模方面能力受限,且對語序不敏感. LSTM可以捕捉到序列信息,在情感分析這種詞序很重要的應用場景中效果更好. 在該數據集上,LSTM準確率、查準率、召回率達到了96.1%、84.2%、88.9%,AUC值達到了0.904(閾值=0.7). 與textCNN相比,準確率、查準率、召回率和AUC值分別提升了3.2%、0.9%、3.3%和0.053;與SVM相比,分別提升了7.2%、4.8%、7.7%和0.082 1. 可見,使用LSTM模型對于解決文本情感分析問題時效果要比SVM和textCNN更好,究其主要原因是LSTM模型具有一定的記憶能力,適合于處理和預測時間序列中間隔和延遲相對較長的重要事件.

本文分析了不同的詞向量維度大小對模型性能的影響,如圖2(a)所示. 對數據分別進行50、100、150、200維詞向量處理,然后用帶有標簽的文本對LSTM模型進行對比實驗,準確率分別可達到89.3%、89.9%、88.9%和88.6%. 結果顯示,當詞向量維度為100的時候,準確率會達到最大值89.9%,因此本文采取詞向量維度為100進行模型訓練.

本文還考慮了LSTM模型的訓練最大輪數對結果的影響,如圖2(b)所示. 訓練的最大輪數epoch是影響模型性能的關鍵參數,次數過大則會出現過擬合現象. 損失率可用來估量模型的預測值與真實值的不一致程度,損失率越小,模型的魯棒性就越好. 分別選取epoch為5、10、15、20、25進行測試,結果顯示,隨著epoch的增加,模型的損失率呈現先下降后上升的趨勢,當epoch為10時,模型的損失率達到最優值16.8%,因此本文的訓練最大輪數設置為10.

圖2 重要參數對實驗數據的影響Fig.2 Influence of important parameters on experimental data

圖3 系統模塊與功能Fig.3 System modules and functions

3 系統開發

本文構建了一套公路交通輿情監測系統,主要包含了用戶管理模塊、輿情數據管理模塊、輿情數據分析模塊,功能如圖3所示. 系統代碼和附圖可以從https://github.com/RTPO中獲得.

用戶管理模塊包含用戶注冊、用戶登錄和用戶信息修改. 用戶填寫個人信息(包含用戶名、密碼、手機號、郵箱、生日)進行注冊,注冊完成后即可通過用戶名和密碼登錄系統查看個人信息,并可進入修改頁面進行相關信息的修改.

輿情數據管理模塊包含數據查詢、數據條數和數據增刪. 其中,數據查詢可按URL或按時間段兩種方式進行. 選擇查詢方式,點擊確認按鈕,向后端發送請求,系統將從數據庫中調用用戶所需要的數據. 同時,用戶可以指定查詢的數據條數,還可對輿情數據進行刪改操作.

輿情數據分析模塊包含本地文本分析模塊、選定時間段的多個文本分析和結果展示模塊. 在本地文本分析模塊,用戶點擊確認后,系統將會調用算法分析接口對上傳或拖拽至此的文件進行分析. 在選定時間段的多個文本分析模塊,用戶點擊確認后,將會調用算法分析接口對起止日期內和指定條數的文件進行分析,對輿情情感進行分類. 在結果展示模塊,將會生成相應的關鍵詞云圖和輿情情感傾向,同時也可查看輿情信息的詳細內容.

4 結論

本文首先分別從季度、年度、重大事件3個角度對江蘇省公路交通輿情進行簡要的統計分析,梳理了熱點輿情的內容及走勢變化,然后基于長短期記憶網絡(LSTM)設計了一種新的公路交通輿情情感分析方法,其準確率、查準率、召回率和AUC值分別達到了96.1%、84.2%、88.9%和0.904. 最后構建了一套公路交通輿情監測系統,該系統可以展示公路交通輿情關鍵詞云圖,并分析輿情情感傾向,可為公路管理部門出臺相關措施、及時反饋治理效果、促進輿情正向循環提供參考.

猜你喜歡
公路文本情感
我國建成第三條穿越塔克拉瑪干沙漠公路
中國記者(2022年8期)2022-09-15 12:59:38
“十四五”浙江將再投8000億元修公路新增公路5000km
石油瀝青(2021年4期)2021-10-14 08:50:40
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
公路斷想
人民交通(2019年16期)2019-12-20 07:04:10
情感
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
公路造價控制中的預結算審核
中國公路(2017年12期)2017-02-06 03:07:33
主站蜘蛛池模板: 国产成人综合久久精品尤物| 久久黄色一级视频| 色婷婷色丁香| 综合天天色| 精品国产成人av免费| 美女毛片在线| 婷婷六月在线| 亚洲综合精品第一页| 色欲色欲久久综合网| a级毛片一区二区免费视频| 国产一区二区三区精品久久呦| 亚洲成在人线av品善网好看| 91小视频在线观看| 久操线在视频在线观看| 欧美不卡视频一区发布| 九色在线观看视频| 中文纯内无码H| 亚洲一级毛片在线观播放| 亚洲精品午夜天堂网页| 天天躁日日躁狠狠躁中文字幕| 亚洲精品天堂在线观看| 91丝袜美腿高跟国产极品老师| 在线免费亚洲无码视频| 国产超薄肉色丝袜网站| 亚洲欧洲自拍拍偷午夜色| 亚洲最黄视频| 人妻夜夜爽天天爽| 国产高清在线精品一区二区三区| 人妻一本久道久久综合久久鬼色| 在线色国产| 2020久久国产综合精品swag| 怡春院欧美一区二区三区免费| 欧美亚洲欧美区| 91视频免费观看网站| 欧美日本在线| 久久福利网| 亚洲制服丝袜第一页| 四虎成人在线视频| 99伊人精品| 国产在线小视频| 免费毛片网站在线观看| 国产大片喷水在线在线视频| 国产福利一区视频| 国产一区二区三区精品久久呦| 午夜日本永久乱码免费播放片| 99国产在线视频| 亚洲欧美日韩天堂| 国产xxxxx免费视频| 国产AV无码专区亚洲精品网站| a级毛片网| 四虎永久免费地址在线网站| 欧美一区精品| 久久99国产综合精品女同| 日韩毛片在线播放| 亚洲天堂777| 一级一级一片免费| 精品福利一区二区免费视频| 亚洲一区二区三区在线视频| 国产欧美一区二区三区视频在线观看| 亚洲性影院| 精品一区二区三区无码视频无码| 毛片网站免费在线观看| 日韩精品免费一线在线观看| 极品av一区二区| 国产激情无码一区二区三区免费| 国产精品偷伦在线观看| 99热线精品大全在线观看| 亚洲精品欧美重口| 久久久久人妻一区精品色奶水| 国产精品免费福利久久播放| 国产在线小视频| 老汉色老汉首页a亚洲| 久久国产高潮流白浆免费观看| 欧美α片免费观看| 伊人久综合| 久久亚洲日本不卡一区二区| 久久婷婷色综合老司机| 日本三区视频| 欧美日韩北条麻妃一区二区| 二级毛片免费观看全程| 国产激爽大片高清在线观看| 亚洲免费毛片|