999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于反饋式文本分類技術自動識別項目標簽

2021-04-05 08:04:31謝波何鳳
現代信息科技 2021年17期

謝波 何鳳

摘 要:為對廣東省投資項目在線審批監管平臺積累的近40萬個固定資產投資項目的產業類別進行分類,利于政府內部統計管理。在專家識別的人工打標簽的方法基礎上,進一步采用了線性支持向量機等分類算法,并基于反饋式文本分類機器學習原理再次識別了所有項目的標簽類別,項目標簽分類準確率由82%提升到91%。結果表明,反饋式文本分類技術,顯著提高了項目分類的準確性。

關鍵詞:項目標簽;文本分類、詞向量;分類器;線性支持向量機;反饋學習

中圖分類號:TP181? ? 文獻標識碼:A 文章編號:2096-4706(2021)17-0100-04

Abstract: In order to classify the industry categories of the nearly 400,000 fixed assets investment projects accumulated by the online approval and supervision platform for investment projects in Guangdong Province, it is conducive to the governments internal statistical management. Based on the manual labeling method recognized by experts, classification algorithms such as linear support vector machines are further adopted, based on the feedback text classification machine learning principle, the label categories of all items are recognized again, and the accuracy of project label classification has been improved by 82% to 91%. The results show that the feedback text classification technology significantly improves the accuracy of project labels classification.

Keywords: project label; text classification; word vector; classifier; linear support vector machine; feedback learning

0? 引? 言

長期以來,固定資產投資一直是推動經濟增長最重要的驅動力,固定資產投資項目的分類統計是宏觀經濟運行狀況的重要監測指標。廣東省發展和改革委員會牽頭建設的廣東省投資項目在線審批監管平臺,是投資項目統一辦理登記賦碼、在線審批、專項申報等服務的平臺,自2018年上線使用,截至2021年7月底,積累了近40萬個固定資產投資項目的賦碼信息,包括項目名稱、申報單位名稱、規模及描述、國民經濟行業類別,意向投資額等。這些項目信息由項目單位填報,難以準確的按領域、行業、產業等類別進行分類,不利于政府內部統計管理。并且固定資產投資分類統計一直較傳統,主要基于國民經濟行業,由于國民經濟行業包括20個門類,類別較多,較難從宏觀層面判別項目所屬投資領域,有必要新增符合新時代特點的可靈活調整的投資分類標簽,但是對40萬個項目人工打標簽,工作耗費低,本文將采用多類別文本分類技術,快速識別眾多投資項目的標簽類別,為項目自動打上基礎設施項目、公共服務項目、產業工程項目、房地產項目、工業投資項目等一級標簽,并對一級標簽進行細分,形成標簽體系。通過文本分類機器學習在投資項目領域的應用,不僅快速準確地為投資項目打上了標簽,還可結合項目的其他數據特征,持續監測廣東投資意向情況和相關行業投資運行情況,為完善投資宏觀管理提供了決策支持。

1? 研究方法概述

文本分類技術主要采用文本特征判斷所屬類別。對項目打標簽,主要利用項目名稱等文本信息判斷項目所屬類別。早期的文本分類方法主要為專家規則分類,通過匹配簡要關鍵詞或大量推理規則,判別文檔所屬類別。隨著統計學習方法和機器學習方法不斷改進,逐漸形成了將文本信息轉換為空間向量模型,抽取特征工程,根據分類算法判斷文本類別的方法。如文獻[7]基于 word2vec詞模型對中文短文本分類方法進行了研究,發現此方法可以有效進行短文本分類,最好情況下的F-度量提高45.2。文獻[9]采用樸素貝葉斯對中文文本進行了,發現樸素貝葉斯在中文本分類方面有較好的分類效果和時間效率,平均準確率達81.4%。文獻[12]基于SVM對中文文本分類反饋學習技術進行了研究,發現反饋學習是一種有效的學習方法,在少量反饋基礎上,能較快提高分類性能。

由于在廣東省投資項目在線審批監管平臺中,僅省重點項目具有明確的項目分類標簽,但這些分類標簽不具有普遍適用性,難以適用于所有投資項目。為滿足學習語料的充足性和適用性,需擴大樣本數量,本文首先使用專家規則識別了大量項目作為訓練和測試集,再采用邏輯回歸、多項式樸素貝葉斯、線性支持向量機、隨機森林等分類算法,構建最優的標簽識別分類器,自動識別項目標簽。這些分類算法本質上都是尋找最佳分類超平面,用差別對給定的一個數據進行分類,都屬于監督學習算法,需根據已知類別學習分類模式用來判斷新樣本所屬類別。但它們也有區別,邏輯回歸是一個參數統計方法,樸素貝葉斯根據先驗概率和后驗概率判斷樣本屬于某個類別的概率,SVM是一個幾何的非參數統計方法,通過少數點學習分類器。隨機森林是包含多個決策樹的分類器,用規則判斷所屬類別。

2? 基于文本分類的項目標簽識別

2.1? 基于文本分類技術識別投資項目標簽的流程

使用文本分類技術識別投資項目標簽的具體流程如圖1所示,首先通過專家規則法,識別了二十多萬個投資項目的標簽類別,以此作為樣本數據。將其中的三分之二項目作為訓練集,三分之一項目作為測試集,讀取數據,進行分詞、文本清洗后,將文本信息轉換為向量空間模型并降維,再利用邏輯回歸、樸素貝葉斯、支持向量機等分類算法構建項目標簽識別模型,并通過比較獲得了項目分類效果最好的算法。通過保存模型,識別全部項目標簽后,再人工判斷反饋,再次訓練、測試,比較模型準確度是否有提升,獲取分類準確度最高的模型,以此預測其他項目的標簽類別。

2.2? 項目標簽分類器的具體構建過程

2.2.1? 抽取項目標簽樣本

根據少量已知標簽的項目信息,如項目名稱、規模描述和建設單位名稱,統計分析各類型項目的高頻關鍵詞,根據高頻關鍵詞、組合詞和負面詞等構建專家規則判斷全部非個人投資項目的標簽類別,再經人工甄別,共獲得了216 826個樣本,其中2 241個產業工程項目,34 925個房地產項目,70 169個工業投資項目,24 292個公共服務項目,85 199個基礎設施項目,雖然項目類別分布不均衡,但適用于各類文本分類算法。將其中三分之二的項目數據作為訓練集,三分之一作為測試集,采用不同分類算法構建項目標簽識別模型,最后通過交叉統計驗證,使用準確性最高的算法應用于全部投資項目和新項目的標簽識別。

2.2.2? 項目文本信息分詞和文本清洗

為簡化項目標簽的機器學習過程,本文只采用項目名稱這單一信息識別項目標簽。第一步,先去除停用詞,包括一些副詞、地理信息詞、形容詞及其一些連接詞。然后采用JIEBA分詞技術,對清洗后的文本進行分詞,提取項目的基本特征,構建特征向量。如項目名稱為“粵西天然氣主干管網茂名-陽江干線項目”,通過分詞和文本清洗后只剩4個特征,為[天然氣'','主干','管網','干線',],最大程度提煉文本主干信息,降低向量維度,從而減少分類計算難度,提升模型訓練速度。

在對所有類別的項目進行分詞后統計,發現各類別之間的關鍵詞差異較大,組內一些關鍵詞具有關聯性,如基礎設施項目主要為污水處理、道路修建,環節整治、改造和提升等關鍵詞。工業投資主要為技術改造、生產線、年產、光伏、生產等關鍵詞。房地產主要為花園、社區、裝修、地塊等關鍵詞、公共服務主要為校區、學校、醫院、中心等關鍵詞,產業工程項目主要為現代農業、智慧、產業園等關鍵詞。各類型項目文本特征較明顯,相關關鍵詞可組合使用,提升識別概率,從項目名稱著手,能較好地建立分類算法識別項目類別。

2.2.3? 構建文本向量空間模型并降維

對項目文本提取特征值后,如果將所有特征都放進分類器用于判別文本類別,由于維度過高,過于稀疏,模型的效果并不佳。特別是在分類速度上,由于經過多個特征值的組合,特征空間將無限擴大,模型需要學習的參數數量也增加,導致耗時過多。本文采用卡方檢驗提取特征,卡方檢驗的目的是計算每個特征對分類結果的相關性,相關性越大則越有助于分類器進行分類,否則就可以將其作為無用特征拋棄。

經過對21.7萬樣本數據進行分詞后,通過卡方檢驗共獲取了53.6萬個特征,并用卡方檢驗找出了每個分類中關聯度最大的兩個詞語和兩個詞語對。如:與“基礎設施”關聯度最大的2個詞語為整治和道路,最有關的2個關聯詞語對為[綜合、整治]、[污水、處理廠]。與“工業投資”關聯度最大的2個詞語為生產線、技術改造,最有關的2個關聯詞語對為[光伏、發電]、[分布式、光伏]。與“房地產”關聯度最大的2個詞語為商業樓、花園,最有關的2個關聯詞語對為[老舊、小區]、[小區、改造]。與“公共服務”關聯度最大的2個詞語為醫院、中學,最有關的2個關聯詞語對為[學生、宿舍樓]、[人民、醫院]。 與“產業工程”關聯度最大的2個詞語為智慧、產業園,最有關的2個關聯詞語對為[冷鏈、物流園]、[現代農業、產業園]。

找出特征后,為了方便統計計算各類別之間的距離,需要將文本信息轉換為詞向量空間模型表示的數字格式,早期的詞袋模型,將所有文本的所有詞表示為向量維度,詞越多,維度越大,向量模型為每個文檔詞的頻率。且詞袋模型不考慮詞的語義和語序,會損失一些語義上的特征信息。為了克服詞袋模型無法表示文本語義的缺陷和維度災難,文本采用Word2Ve模型,將文本信息轉化為向量空間模型。該模型采用單層神經網絡將高維度的向量轉換成低維度的詞向量,將每個詞轉化為詞向量,能夠較好地考慮上下文語義信息,同時可以避免維度“災難”問題。

2.2.4? 構建多類別標簽識別算法

將各類投資項目的項目名稱轉換為詞向量空間模型后,分別使用邏輯回歸、多項式樸素貝葉斯、線性支持向量機、隨機森林4個分類算法構建項目多類別標簽識別模型,經測算后,線性支持向量機的分類算法模型準確度最高為74.7%,其次為邏輯回歸73.7%,多項式樸素貝葉斯為69.3%,隨機森林的準確率最低為39.3%。最終采用線性支持向量機模型對預先抽取的三分之一樣本進行測試,模型準確度為82.9%,分類效果良好,特別是工業投資、公共服務和基礎設施標簽的分類準確度,達85%左右,實際項目數和預測項目數如表1所示,支持向量機模型的預測準確性如表2所示。

2.3? 關于反饋學習后文本分類效果分析

通過對最初的216 826個樣本進行人工反饋,剔除了8個測試項目,最后只剩下216 818個樣本。并規范了標簽分類的定義,如燃氣管、供水管的鋪設屬于基礎設施項目,燃氣發電、水生產屬于工業投資,消防、公園、衛生站的建設屬于公共服務,舊村改造、加裝電梯、新建樓盤屬于房地產等,結合規則和機器學習判別的項目標簽,共反饋修正了4萬個項目的原始標簽,產業工程項目由之前的2 241個,反饋后為2 181個;房地產項目由之前的34 925個,反饋后為21 191個;工業投資項目由之前的70 169個,反饋后為65 270個;公共服務項目由之前的24 292個,反饋后為35 132個;基礎設施項目由之前的85 199個,反饋后為93 044個。

使用邏輯回歸、多項式樸素貝葉斯、線性支持向量機、隨機森林4個分類算法重新構建項目多類別標簽識別模型后,模型的準確度變化如表3所示。

通過實驗發現,反饋學習有效提高了文本分類的準確性,通過對少量項目的標簽反饋和修正,模型的分類性能顯著提升,線性支持向量機的分類算法由74.7%提升至88%,提升了13.3%。將模型訓練的分類規則應用至測試樣本,支持向量機在樣本反饋后的表現如表4所示。

經反饋學習后,再使用線性支持向量機分類算法判別項目標簽,各類別的準確率都有顯著提升,特別是房地產,標簽識別準確度由77%提升到87%,基礎設施、工業投資和公共服務的識別準確度,目前已提高至90%以上。由于產業工程的項目數量較少,易被判別到其他標簽,識別難度較大,準確率由65%僅提升至67%。后續過程中將進行有效反饋,持續提升標簽識別準確度。

3? 結? 論

綜上所述,本文基于文本分類技術研究了固定資產投資項目的分類,以多個標簽分類為例分析了固定資產投資項目分類模型的實際效果,結果表明,利用數據分析技術、分詞分析法等進行投訴工單文本挖掘,突破了既有分類模糊不清的限制。

經測算,投資項目的文本信息使用線性支持向量機算法進行標簽分類效果最佳,目前測試樣本總體識別準確率達90%以上。

本次在人工反饋的基礎上,模型準確度由74.7%提升至88%,在后續工作應用中,將繼續把人工反饋的信息增加至樣本集中,以修正學習源,訓練出更加準確的規則,提高模型準確度,經過不斷反饋學習,實現分類的最大提升。

在實現項目大類標簽的識別后,將再次對各類標簽進行細分,劃分為各領域各類型的二級標簽,同樣適用機器學習的訓練模式不斷識別、反饋、提升,快速識別各類二級標簽,為研究項目的細分領域提供分析維度。

參考文獻:

[1] 蘇金樹,張博鋒,徐昕.基于機器學習的文本分類技術研究進展 [J].軟件學報,2006(9):1848-1859.

[2] 楊麗華,戴齊,楊占華.文本分類技術研究 [J].微計算機信息,2006(15):209-211.

[3] 汪家成,薛濤.基于FastText和關鍵句提取的中文長文本分類 [J].計算機系統應用,2021,30(8):213-218.

[4] 于游,付鈺,吳曉平.中文文本分類方法綜述 [J].網絡與信息安全學報,2019,5(5):1-8.

[5] 馬思丹,劉東蘇.基于加權Word2vec的文本分類方法研究 [J].情報科學,2019,37(11):38-42.

[6] 孫桂煌.基于大數據技術的中文多標簽文本分類方法研究 [J].齊齊哈爾大學學報(自然科學版),2020,36(6):39-43.

[7] 高明霞,李經緯.基于word2vec詞模型的中文短文本分類方法 [J].山東大學學報(工學版),2019,49(2):34-41.

[8] 方秋蓮,王培錦,隋陽,等.樸素Bayes分類器文本特征向量的參數優化 [J].吉林大學學報(理學版),2019,57(6):1479-1484.

[9] 潘忠英.樸素貝葉斯中文文本分類器的設計與實現 [J].電腦編程技巧與維護,2021(2):37-39+70.

[10] 劉碩,王庚潤,李英樂,等.中文短文本分類技術研究綜述 [J].信息工程大學學報,2021,22(3):304-312.

[11] 栗征征.中文文本分類概述 [J].電腦知識與技術,2021,17(1):229-230.

[12] 孫晉文,肖建國.基于SVM的中文文本分類反饋學習技術的研究 [J].控制與決策,2004(8):927-930.

作者簡介:謝波(1983—),男,漢族,湖南常德人,投資項目部部長,高級工程師,碩士,主要研究方向:電子政務建設、信用體系建設、投資項目管理;何鳳(1988—),女,漢族,湖南汨羅人,信息系統項目管理師,高級工程師,碩士,研究方向:信息系統項目管理、數據分析和挖掘、數據治理、數據可視化。

主站蜘蛛池模板: 国产区免费| 人妻精品久久无码区| 久久semm亚洲国产| 亚洲精品无码高潮喷水A| 东京热av无码电影一区二区| 在线观看国产网址你懂的| 成人毛片免费在线观看| 欧美成人一级| 91在线精品免费免费播放| 1024国产在线| 日本一区二区三区精品视频| 亚洲资源站av无码网址| 美女国内精品自产拍在线播放| 一级毛片高清| 中文精品久久久久国产网址 | 久久婷婷五月综合97色| 欧美午夜网| 国产日本一区二区三区| 国产三级毛片| 538国产视频| 精品国产网| 中文字幕永久在线观看| 美女一级免费毛片| 青青草原国产免费av观看| 免费a在线观看播放| 97青草最新免费精品视频| 精品無碼一區在線觀看 | 伊人无码视屏| 国产视频a| 在线精品欧美日韩| 国产精品成人AⅤ在线一二三四| 嫩草影院在线观看精品视频| 999国内精品视频免费| 国产一级精品毛片基地| 国产AV无码专区亚洲精品网站| 久久精品国产一区二区小说| 亚洲精品自拍区在线观看| 在线播放真实国产乱子伦| 欧美日韩精品一区二区视频| 成人蜜桃网| 欧美激情视频二区| 91香蕉国产亚洲一二三区| 激情综合网激情综合| 激情爆乳一区二区| 四虎永久在线精品影院| 波多野结衣无码视频在线观看| 亚洲高清中文字幕在线看不卡| 午夜国产大片免费观看| 欧美黑人欧美精品刺激| 波多野结衣国产精品| 亚洲精品亚洲人成在线| 欧美一级在线| 国产成人综合久久精品尤物| 中文国产成人精品久久一| 国产成人亚洲欧美激情| 欧美午夜在线观看| 东京热av无码电影一区二区| 欧美一区二区三区香蕉视| 久久精品免费国产大片| 日本久久久久久免费网络| 91小视频版在线观看www| 亚洲无码不卡网| 国产91成人| 视频在线观看一区二区| 啦啦啦网站在线观看a毛片| 国产成人AV综合久久| 在线亚洲精品自拍| 在线观看亚洲人成网站| 国产成人艳妇AA视频在线| 日韩成人在线视频| 亚洲男人天堂久久| 亚洲国产欧美自拍| 天天综合色天天综合网| 欧美日韩动态图| 欧美一区二区丝袜高跟鞋| 尤物午夜福利视频| 欧美日韩成人在线观看| 中文字幕伦视频| 国产精品欧美亚洲韩国日本不卡| 亚洲精品视频免费看| 国产精品久久久久久影院| 亚洲无码37.|