999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于TF- IDF 的網(wǎng)絡地理文本信息分類研究

2020-05-12 10:01:56王英杰
科學技術創(chuàng)新 2020年10期
關鍵詞:分類特征文本

王英杰

(北京建筑大學 測繪與城市空間信息學院,北京100044)

網(wǎng)頁文本信息是非結構化數(shù)據(jù),文本格式自由多樣,內(nèi)容更新頻繁,在不同文章環(huán)境下容易產(chǎn)生不同的意義。地理學名詞匯具有不同于基礎詞匯的形式與用法,往往蘊含著豐富專業(yè)信息,將地理學名詞引入文本分類可以有效提高對地理相關文本的分類結果。因此,本文針對文本分類提出了基于地理學名詞的特征權重計算方法,在分詞過程中識別地理學名詞使其不被分割,在向量空間模型表示中利用地理學名詞,重新分配特征權重從而提高分類器的性能,即提高與地理相關的文本信息分類的正確率。

1 基于TF-IDF 的地理文本分類設計

1.1 文本分類原理

文本分類或者稱為自動文本分類,是指計算機將載有信息的一篇文本映射到預先給定的某一類別或某幾類別主題的過程。文本分類另外也屬于自然語言處理領域。本文中文本和文檔不加區(qū)分,具有相同的意義。

文本分類的形式化定義如下:

1.2 文本分類設計

地理學名詞反映了地理學內(nèi)容的廣泛性,還反映了中國地理現(xiàn)象和中國地理學研究的特色,并對所有選定的地理學名詞進行了科學定義。針對地理學名詞的特點提出了本文文本分類的技術路線。

(1)利用爬蟲技術爬取百科平臺文本數(shù)據(jù),將文本統(tǒng)一化處理,得到待分類文本信息。

(2)在文本預處理過程中加入地理學名詞詞典,利用地理學名詞重新對文本分詞,一并得到統(tǒng)計量。

(3)基于地理學名詞提出新的特征權重計算公式,得到全新特征矩陣。

(4)在已有的基礎上使用K 近鄰算法作為分類器訓練方法,通過分類器得到文本分類。

2 基于地理名詞的TF-IDF 特征權重計算方法

以往TF-IDF 算法基本關注是特征項的詞頻和逆文本頻率這兩個指數(shù),而詞頻和逆文本頻率對于地理相關文本的特殊性是沒有任何意義的,所以根據(jù)文本中地理名詞的特殊性,使用其加入語料庫,可以解決文本分詞過程中出現(xiàn)的歧義問題,從而有效地提高文本分詞的準確率。并且根據(jù)特殊的語義產(chǎn)生的分詞能夠更有效地描述文本,使文本的向量空間模型更準確。因此本文針對現(xiàn)有的TF-IDF 算法,提出了基于地理學名詞的改進策略。

針對特征項長度改進權重:特征項的字數(shù)可以衡量該特征項是否重要,在文本分詞后的統(tǒng)計結果中,單字是頻率最高的,而多字的特征項則頻率較低。而且對于特征項而言,單字不能傳達有效的信息且難以用來作為文本信息的特征。而多字特征項卻本身所傳達的信息量多可以作為文本信息的特征,因此這一指標可以用來衡量特征項的權重。通常較長的特征用來表示特定的信息,例如“天安門”所傳達的信息就是特定地點,因此利用特征項長度改進權重。

本文基于地理學名詞在地理相關文本中的重要性及特殊性對其基礎上改進,提出了改進的權重算法公式:

其中l(wèi)en(t)是特征項的長度,將分子,分母同時加上len(t)將會提高特征項t 在文本d 中的權重。

3 實驗與分析

3.1 實驗流程

基于改進特征項權重的文本分類流程:

(1)文本預處理得到文本分詞和文本詞典。

(2)特征處理包括特征頻率統(tǒng)計,特征評估,特征加權。

(3)將文本建立向量空間模型(向量表示)。

(4)輸入分類器得到分類結果。

實驗使用開源jieba 工具對原始數(shù)據(jù)進行分詞處理,利用傳統(tǒng)TFIDF 算法作為比照實驗。

3.2 結果分析

通常文本分類的評價指標為精度(Precision)、召回率(Recall)和F1 得分(F1 score)。

精度(P)是正確分類樣本占總分類樣本數(shù)量的百分比,召回率(R)是正確分類樣本占某分類總樣本數(shù)量的百分比,F(xiàn)1 值是平衡查準率和查全率兩個不同分類效果指標,對某一類別。

類別 傳統(tǒng)TF-IDF (實驗1) 傳統(tǒng)TFIDF 結合改進權重 (實驗2) P R F1 P R F1 1 86.65 87.94 86.96 91.11 92.45 92.35 2 89.97 89.71 89.73 91.52 92.79 91.03 3 81.73 84.62 82.08 91.79 91.59 92.3 平均值 86.12 87.42 86.26 91.47 92.28 91.89

從上表中可得實驗二的準確率和召回率均比實驗一高且F1 得分平均值比實驗二的F1 得分平均值高5.54%,通過實驗對比可得,地理學名詞加入文本預處理可使分類有所提升,同時可以減少特征項的數(shù)量使向量空間模型的緯度降低。

4 結論

本文基于傳統(tǒng)TF-IDF 算法,提出一種新的地理文本分類方法,根據(jù)地理特征名詞、和特征項長度因素改進了傳統(tǒng)TF-IDF 中的權值計算,針對不同特征項采取不同計算方式。最后通過數(shù)據(jù)分析及評價指標數(shù)值驗證該方法合理有效且效果較好。然而該方法尚未深入考慮待分類文本中未識別的地理特征項如何提取。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 精品视频一区在线观看| 亚洲成aⅴ人在线观看| 最新日韩AV网址在线观看| 亚洲国产天堂在线观看| 精品国产Ⅴ无码大片在线观看81| 中文字幕久久波多野结衣| 亚洲视频四区| 精品一区二区无码av| 国产成人综合日韩精品无码不卡| 国产在线欧美| 国产一级无码不卡视频| 国产在线视频自拍| 天堂亚洲网| 免费不卡在线观看av| 2020极品精品国产 | 国产精品嫩草影院视频| 欧美午夜在线观看| 欧美激情第一欧美在线| 人妻精品久久无码区| 国产欧美又粗又猛又爽老| 97视频免费看| 老色鬼欧美精品| 国产h视频在线观看视频| 国产精品自拍露脸视频| 99资源在线| 亚洲AⅤ无码国产精品| 欧美日韩综合网| 欧美日韩精品一区二区视频| 国产在线精品人成导航| 熟女成人国产精品视频| 亚洲综合第一页| 国产主播在线一区| 日韩不卡免费视频| 欧美成人h精品网站| 青青草国产精品久久久久| 久久综合激情网| 久久狠狠色噜噜狠狠狠狠97视色 | 97久久精品人人| 亚洲av无码成人专区| 亚洲视频三级| 国产亚洲日韩av在线| 国产福利在线观看精品| 久久亚洲美女精品国产精品| 国产91蝌蚪窝| 国产真实乱人视频| 亚洲二三区| 亚洲熟女中文字幕男人总站| 日韩av在线直播| 国产一区二区三区日韩精品| 少妇精品久久久一区二区三区| 毛片免费观看视频| 国内精品小视频在线| 精品人妻AV区| 永久免费无码成人网站| 青草视频网站在线观看| 伊人国产无码高清视频| 日韩资源站| 国产精品视频观看裸模| 欧美国产在线看| 97精品久久久大香线焦| 亚洲狠狠婷婷综合久久久久| 欧美另类精品一区二区三区| 欧美午夜在线观看| 免费国产不卡午夜福在线观看| 亚洲AV一二三区无码AV蜜桃| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 亚洲成在线观看| 真实国产乱子伦视频| 激情视频综合网| 国产精品自拍露脸视频| 亚洲av无码牛牛影视在线二区| 日韩二区三区无| 国产精品一区二区不卡的视频| 人妻丰满熟妇αv无码| 久久美女精品国产精品亚洲| 久久公开视频| 欧美成人日韩| 国产第一页第二页| 九色免费视频| 国产高清在线观看91精品| 欧美区一区| 国产粉嫩粉嫩的18在线播放91|