999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于新浪微博的冰雹實況信息提取方法和實用性研究*

2020-11-29 10:17:50張永瑞張岳軍田瑞敏
科技與創新 2020年23期
關鍵詞:排序分類信息

張永瑞,張岳軍,田瑞敏,王 林

(1.山西省氣象災害防御技術中心,山西 太原 030002;2.山西省氣象科學研究所,山西 太原 030002)

1 引言

山西是中國冰雹災害較重的省份之一,幾乎每年各地都有不同程度的冰雹災害發生。據統計,1949—2000 年,一年中遭受雹災在30 個以上縣(市、區),且平均2.4 年有一年遭受嚴重雹災[1]。冰雹具有局地性強、歷時短、發生區域廣等特征。許多冰雹信息受到時間、地域等諸多因素的限制而沒有記錄[2]。

微博是基于用戶關系的社交媒體平臺,用戶通過PC、手機等多種移動終端接入,以文字、圖片、視頻等多媒體形式,實現信息的即時分享、傳播互動。用戶數上截至2020-03,微博月活躍用戶達5.5 億,日活躍用戶達2.4 億。是目前最受歡迎的社交媒體平臺之一,包含了大量的信息。

氣象臺站信息雖然準確,但是臺站分布太少,不能反映更大范圍的情況,利用網絡信息的提取可以在廣闊的范圍內獲取這方面的信息。

本文將基于新浪微博的冰雹信息,比較多種文本分類方法,研究最佳的方法,提取2010—2019 年冰雹的實況信息,并與觀測資料比較,分析其實用性。

2 資料與方法

2.1 資料

本文采用山西109個氣象臺站2010-02—2020-12的冰雹信息以及新浪微博地址為山西省共轄的11個地級市2010-02—2019-12 以“冰雹”為關鍵詞的所有微博信息。

2.2 方法

2.2.1 網絡爬蟲

目前,從新浪微博上下載用戶數據主要途徑有2 個:第一種是通過新浪API 接口,但是有較大限制,需要被下載方授權許可,授權有效期為24 h。除了這些限制外,新浪API 針對一個用戶在使用一個應用的請求次數上還有限制,對于測試授權來說,單個用戶每個應用每小時只能請求150次,不能滿足本文研究需求。本文采用第二種途徑,通過網絡爬蟲(又被稱為網頁蜘蛛、網絡機器人),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本[3-5]。

2.2.2 分詞器及文本分類的特征選擇

“結巴”分詞是一個Python 中文分詞組件,可以對中文文本進行分詞、詞性標注、關鍵詞抽取等功能,并且支持自定義詞典。

如果把所有的分詞都作為文本特征,則經過分詞處理后的文本類樣本的特征維度將是巨大的,同時由于分類能力很弱的分詞的使用會松動訓練出優良分類器的根基,因此有必要在對分詞分類貢獻率分析的基礎上進行分詞選擇,即特征選擇。基本思想是使用評估函數對分詞集的每個分詞進行評估,然后按照評估得分的大小對分詞進行排序,并選取前n個分詞作特征,形成對“文本”類樣本的描述向量。

本文使用類別信息的評估函數有文檔頻率(DF)、詞頻-逆向文檔頻率(TF-IDF)、信息增益(IG)、互信息(MI)、卡方檢驗(CHI)、類間詞頻方差(DAC)[6]。

2.2.3 計算機學習

本文采用 Python 中的機器學習模塊Scikit-Learn 中的SVM 支持向量機、NB 樸素貝葉斯分類器、KNN K 近鄰分類器、DT 決策樹以及Google 公司2018-10-11 發布的BERT模型進行分類器的訓練與測試。

2.2.4 分類性能的評價指標

本文采用分類性能評估指標為:準確率(Precision)、召回率(Recal1)和綜合考慮準確率與召回率的F1 測度值(F.measure)。

3 數據爬取、建模樣本形成及特征向量選取

3.1 新浪微博數據爬取及建模

模擬登錄新浪微博,關鍵詞為“冰雹”,地址分別為“太原”“大同”等山西11 個地市,時間為2010-01-01T01:00—2019-12-23T15:00,由于每一次搜索,微博只提供50 頁的數據,所以為了避免遺漏,每一次搜索的時間間隔為24 h,使用requests 庫,加載網頁的HTML,利用正則表達式提取HTML 的每一條微博的博主姓名、發表內容和發表時間。共爬取了33 979 條山西關于“冰雹”的微博。

隨機抽取3 696 條微博信息作為樣本,分為2 類:①博主第一視角第一時間發現冰雹所發表的微博;②聽聞他人說、回憶、不確定信息、新聞報道、天氣預警預報信息等。其中,第一類有2 061 條,第二類有1 635 條。分別隨機抽取樣本60%、20%、20%,為機器分類樣本集、驗證集和測試集。

3.2 特征向量提取和多種函數分類

對發表內容去重、去標點,利用python 中文分詞器JIEBA 分詞器分詞,遍歷所用微博內容,識別一元詞到五元詞組,如微博“下大雨了,還夾著冰雹,玉米粒似的”,分為{下,大雨,了,還,夾著,冰雹,玉米,粒,似的,下大雨,大雨了,還夾著,夾著冰雹,玉米粒,粒似的,下大雨了,還夾著冰雹,玉米粒似的},并分別統計各個詞在爬取微博中的出現頻率。刪除掉停用詞“的”“了”等和出現頻率5 次及以下、帶數字、特殊符號的詞組后,共獲得49 899個詞組。用7 種評估函數對特征向量重新排序,根據分數大小排出6 種詞組順序。

4 計算機學習測試

4.1 多分類函數的排序在SVM、Bayes、KNN、DT 驗證集表現

比較文檔頻率(DF)、詞頻-逆向文件頻率(TF-IDF)、信息增益(IG)、互信息(MI)、卡方檢驗(CHI)、類間詞頻方差(DAC)在SVM 支持向量機、NB 樸素貝葉斯分類器、KNN K 近鄰分類器不同維度模型得分。其中,特征詞MI 函數分類排序在NB 分類器取得的模型分數較高。MI函數排序在樸素貝葉斯分類器,在5206 特征維度模型分數(Model Score)為0.81。

利用Sklearn 中決策樹的Grid Search CV 參數調優,訓練集分成5 等份相互驗證。比較文檔頻率(DF)、詞頻-逆向文件頻率(TF-IDF)、信息增益(IG)、互信息(MI)、卡方檢驗(CHI)、類間詞頻方差(DAC)在DT 決策樹驗證集模型得分。MI 函數排序在DT 分類器,在1000 特征維度模型分數較高為0.761,其中參數為:{不純度計算方法(criterion): gini, 決策樹深度(max_depth): None,節點劃分最小不純度(min_impurity_decrease):0.0,葉子結點的最小樣本數(min_samples_leaf): 3}。

4.2 BERT 驗證集表現

把訓練集調入 BERT 模型, 分別調節參數train_batch_size為8和16,num_train_epochs為3、4,learn_rate為1.00E-5、2.00E-5、3.00E-5、4.00E-5。在train_batch_size為 8,num_train_epochs 為 3,learn_rate 為 2e-5 驗證集模型準確率最高為0.801。

4.3 多分類器模型的測試集表現

特征詞MI 函數分類排序在NB 分類器5206 特征詞訓練的模型、特征詞MI 函數分類排序在DT 分類器1000 特征詞訓練的模型以及最佳驗證集參數參數:{不純度計算方法(criterion):gini,決策樹深度(max_depth):None,節點劃分最小不純度(min_impurity_decrease):0.0,葉子結點的最小樣本數(min_samples_leaf):3}的BERT 的訓練模型在測試集測試,比較各模型的準確率(Precision)、召回率(Recal1)和F1 測度值(F.measure),最終MI 函數分類排序在NB 樸素貝葉斯分類器訓練的模型表現最好,準確率(Precision)為0.84,召回率(Recall)為0.8,F1 測度值為0.83。

5 冰雹實況信息抽取

冰雹實況信息包括降雹的時間、地點及冰雹大小,由于微博的短文本居多和內容隨意性強的特點,這些要素有時會有一定的缺失。為將這三要素從降雹事件類中提取出來,本文從已標注的微博數據中歸納出該三要素常用的表達規則,通過模板匹配法提取冰雹實況信息。時間為博主發微博時間,地區已經確定,具體地址遍歷該地區鄉鎮街道,并提取。比如“太原”則遍歷太原市現轄的六區、三縣、一個市,及其縣市區內的街道鄉鎮,有相同地址名稱則提取。冰雹大小的提取主要基于2 個規則:①關于直徑的描述,為{直徑|最大直徑|空}+{多達|可達|有|達到|空}+數字+{厘米|毫米|cm|mm};②關于比喻的描述,{有|如|像|比|跟|大如|空}+比喻對象+{那么大|似的|般|般大|般大小|大|還大|一樣|一樣大小|大小|狀||小一些|空},比喻對象有[玉米]、[黃豆]、[乒乓球]、[棒球]、[西瓜]、[湯圓]、[雞蛋]、[鹽粒]、[豆粒]、[花生粒]、[彈珠]、[杏核]、[鵪鶉蛋]等30 個詞語,比如“有玉米粒那么大”“如鵪鶉蛋般大小”等。

6 與觀測資料對比分析

為了提高準確性,特征詞MI 函數分類排序在NB 分類器5206 特征詞訓練的模型,在同一天符合一類數量在3 條以上記錄為該地區為降雹日。對比山西109 站2010-02—2019-12 降雹數據。機器分類精準率(precision)為0.93,說明通過微博爬取的降雹事件是有參考性的,可以彌補一些地區降雹未被氣象臺站記錄的問題。查全率(recall)為0.87,說明微博博主并不能完全記錄下降雹事件,氣象臺站對冰雹事件記錄得更全面,在降雹事件中通過微博博主的信息是不能替代氣象臺站工作的。

7 結論和討論

本文基于新浪微博的冰雹信息,比較多種文本分類方法,發現互信息(MI)函數分類排序在樸素貝葉斯(NB)分類器訓練的模型在對冰雹降雹事件識別準確率較高,利用冰雹大小的規則提取出冰雹的時間、地點、大小,與氣象臺站觀測資料對比,通過微博提取冰雹實況信息雖然不能替代氣象臺站的工作,但是有一定參考性。

猜你喜歡
排序分類信息
排序不等式
分類算一算
恐怖排序
分類討論求坐標
節日排序
數據分析中的分類討論
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
教你一招:數的分類
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 国产在线观看91精品亚瑟| 99久久精品久久久久久婷婷| 欧美日本在线| 天堂亚洲网| 欧美爱爱网| 午夜小视频在线| 思思热精品在线8| 国产福利在线观看精品| 亚洲精品视频免费| 99久久99视频| AV天堂资源福利在线观看| 午夜老司机永久免费看片| 国产免费观看av大片的网站| 国产精品网曝门免费视频| 刘亦菲一区二区在线观看| 中字无码精油按摩中出视频| 亚洲精品成人7777在线观看| 精品免费在线视频| 亚洲性日韩精品一区二区| 亚洲综合在线网| 国产a网站| 亚洲最大福利网站| 日韩色图在线观看| 欧美日韩高清| 欧美激情视频二区| 欧美成人怡春院在线激情| 综合色在线| 久久伊人色| 第一区免费在线观看| www.狠狠| 欧美a在线看| 9cao视频精品| 免费人成网站在线观看欧美| 色综合婷婷| 亚洲中文字幕97久久精品少妇| 99在线视频精品| 日韩欧美中文字幕在线精品| 99久久精品免费看国产免费软件| 成人日韩视频| …亚洲 欧洲 另类 春色| 黄色网站在线观看无码| 国国产a国产片免费麻豆| 色悠久久久久久久综合网伊人| 亚洲人成网站色7799在线播放| 国产欧美精品一区aⅴ影院| 国产97公开成人免费视频| 风韵丰满熟妇啪啪区老熟熟女| 四虎影视永久在线精品| 久久熟女AV| 99re经典视频在线| 99re热精品视频国产免费| 亚洲综合极品香蕉久久网| 亚洲一区二区黄色| 亚洲精品视频免费| 欧美色综合网站| a欧美在线| 国产精品女熟高潮视频| 亚洲人成网18禁| 国内毛片视频| 成人另类稀缺在线观看| 一级毛片在线播放免费观看| 国产一区二区人大臿蕉香蕉| 国产一在线观看| 午夜国产大片免费观看| 麻豆精选在线| 看国产一级毛片| 九九久久99精品| 亚洲V日韩V无码一区二区| 国产主播在线一区| 国产本道久久一区二区三区| 成人韩免费网站| 日本在线亚洲| 亚洲国产日韩一区| 亚洲成人福利网站| 三上悠亚精品二区在线观看| 欧美视频在线播放观看免费福利资源| 午夜欧美理论2019理论| 午夜久久影院| 亚洲视屏在线观看| 国产美女主播一级成人毛片| 91色爱欧美精品www| 精品国产美女福到在线直播|