999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SVM模型的濕法脫硫專利文本主題劃分

2021-07-12 07:09:32陶漢中
探索科學(學術版) 2021年4期
關鍵詞:詞匯分類利用

徐 巖 陶漢中

南京工業大學能源學院 江蘇 南京 210009

1 基于LDA的專利文本分類模型設計

利用LDA-SVM模型來進行分類,主要原因是能夠克服SVM模型在進行分類時需求空間太多,在使用過程中能夠避免文本考慮不全導致的分類不全面問題。利用LDA主題模型能夠自動分布語義相近的主題特點,從中改進SVM主題分類中語義特點重復問題。

1.1 LDA模型建模 LDA模型算法每次進行分類時,需要每次選擇概率向量,從而完成一個維度,保證其他的維度數值一致后,對新維度數值進行推算。不停的迭代讓其收斂后得出估計的數值。在整個創建模型中,對主題模型的最終模型結構中的數值K造成直接影響。主題的差異對實驗的最終結果也造成直接性的影響。

1.2 文檔的主題向量提取 在進行SVM訓練在前,首先要確定文本特征值的權重。通過了解準里文本的數據可知,專利文本的內容主要是將摘要、標題、主權等進行專利濃縮,其具有的特點詞匯成為代表,摘要表達的意義作為詞匯體現。在文檔中,位置不同呢,特點詞匯的代表程度也具有很大差異,例如在LDA模型中進行語料建模時,特點詞匯在文檔中的位置影響不做考慮時,文本的分類效果將受到嚴重的影響。因此,需要依據專利文本數據具備的特殊性,對特點詞匯在不同位置時體現的信息差異進行體現,利用某一個位置的詞匯加權來對文本主題向量進行計算。

2 分類器訓練

2.1 實驗數據獲取與處理 實驗中使用的數據主要來源為專利數據庫中,以這些專利數據作為本次實驗的文本數據,從中選擇一萬條與濕法脫硫相關的專利數據,然后從其中隨機選擇一定的文本數量,以選擇出來的文本數據進行模型測試與訓練樣本。其中五千條作為模型訓練數據,主要進行模型分類訓練;五千條作數據作為模型測試,主要利用其來對模型分類的準確率進行檢測。根據搜索,濕法脫硫文本中有16709條數據屬,從其中選擇1條至5500條當做實驗檢測數據。

2.2 實驗過程 對于全部的實驗文本數據進行處理與篩選時,專利文本中存在大量的連接性詞匯與計量單位數據,因此,在進行語料清洗過程中,必須依據中文詞匯表述來展開詞匯分類,同時必須將專利文本里無意義的固定詞匯添加帶停用表格中。以上個章節作為基礎,展開文本分類,對于摘要部分,依舊利用jieba分詞處理。以相同的方式清除其中的介詞、數量詞以及定冠詞等等,同時依據第四章節中的處理方式得出對其他特點造成影響的停用詞。

本文主題數為8,將實驗文本的數據和主題展開人為的調節,因此,本文以實驗得出的數據作為主題標準。并且在主題數據為8時,表示訓練數據和文本主題標準接近,因此,在LDA分析數據設立為:主題數K等于8,表示成50/K=6.25,超參數β表示成0.1,代數表示成500。

使用SVM進行數據分類時,必須設置參數設置。SVN屬于二類分類器,與上文中的8類分類方式成為一對一形式實現方式是四種類型中選擇兩種類型,并且設計相同的支持向量機SVM,所以得出28個不同的SVM。在展開數據分類檢測過程中,次數在其中最多的類型便稱之為所屬類型。本文利用LIBSVM進行方案分類。SVM中選擇函數來計算高維空間,因此,必須設置LIBSVM核函數數據。假如m維空間的計算中存在問題,核函數的計算公式變為,n維空間的輸入值表示為x和y,f(x)表示為x在m維中形成的映射,相同道理,f(y)也表示為y在m維中形成的映射。目前具有很多形式的函數值,例如線性、多項性、高斯以及Sigmoid等形式的核函數。因濕法脫硫具有不確定性,因此文本會使用高斯核函數來進行最終驗證。提取特點詞匯-主題概率的分布過程中,會對文本的特點詞匯空間-主題的概率分布利用RBF核函數計算,通過10次驗證后確定最終數據。

3 實驗結果分析

本文利用Gibbs抽樣方式選擇出最佳的LDA的主題數據,得出LDA提取主題的方式,然后使用文本特點來實現SVM分類模型訓練,最后得出LDA-SVM專利文本的分類模型。

LDA提取特點方式作為特點的分類方式,以主題為標簽進行分類檢測時,總體分類的準確率達到80%以上。依據F1數值的大小效果進行評價,數值越大,分類的效果就越標準,利用主題的特點展開分類能達到良好的效果。利用IPC標簽分類方式進行分類時,得出的結果非常差,準確率約為50%。實驗表明,利用IPC標簽分類方式對對主題展開的分類結果非常不準確,造成其主要是因素為:1、IPC分類方式不能全面表示文本中的信息,專利文本中具有多個不同的主題內容。2、IPC分類不能對主題進行統計,同時也不能深入分類文本中的內容信息,分類出來的主題非常粗糙。從中可見,利用LDA主題分類方式展開的主題特點提取,能夠將文本主題特點進行加密,從而了解文本特點中不具備語料的多種問題。在對專利文本展開文本分類時,利用專利文本中不同主題展開可行性分類,并且依據專利文本的主題數據展開詳細分析。

4 結論

本文主要利用濕法脫硫專利分類方式來實現自動化模型分類,依據模型分類方式對濕法脫硫主題進行劃分達到的效果。利用LDA模型分類方式來提取濕法脫硫摘要文本的特點,主要將文本主題的概率作為分類器的特點進行訓練。最后得出依據濕法脫硫摘要文本主題的模型分類,其分類結果具有確定性,對于之前使用的特點提取分類器更加明確,同時還能解決語義問題和準確性問題,并且實現了預期設置的濕法脫硫專利主題的分類任務。之后在依據主題展開詳細的文本分類,讓整個文本主題的分類更加快捷,結果更加明確科學。

猜你喜歡
詞匯分類利用
利用min{a,b}的積分表示解決一類絕對值不等式
中等數學(2022年2期)2022-06-05 07:10:50
分類算一算
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
利用一半進行移多補少
本刊可直接用縮寫的常用詞匯
分類討論求坐標
利用數的分解來思考
Roommate is necessary when far away from home
數據分析中的分類討論
主站蜘蛛池模板: 欧美视频二区| 91福利免费| 无码专区国产精品第一页| 3p叠罗汉国产精品久久| 国产亚洲一区二区三区在线| 精品一区二区三区四区五区| 国产精品所毛片视频| 欧美亚洲欧美区| 国产精品白浆无码流出在线看| 免费国产高清视频| 91在线高清视频| 国产成人亚洲欧美激情| 亚洲欧洲日韩综合色天使| 免费国产在线精品一区| 日韩中文无码av超清| 亚洲成在线观看| 老色鬼欧美精品| 国产中文一区二区苍井空| 91网红精品在线观看| 欧美日韩精品一区二区在线线| 在线免费观看AV| 欧美成人手机在线观看网址| 超清无码熟妇人妻AV在线绿巨人| 色综合天天视频在线观看| 波多野结衣一区二区三区AV| 色爽网免费视频| 亚洲一区二区在线无码| 中国特黄美女一级视频| 欧美成人日韩| 久久久亚洲色| 一级毛片在线免费视频| 91久久偷偷做嫩草影院| 色综合网址| 久久久久亚洲av成人网人人软件 | 99久久亚洲综合精品TS| 国产欧美视频综合二区 | 99青青青精品视频在线| 国产噜噜在线视频观看| 日韩在线观看网站| 在线观看无码av五月花| 国产精品尤物铁牛tv| 无码啪啪精品天堂浪潮av| 精品91视频| 免费毛片网站在线观看| 国产97公开成人免费视频| 成人午夜久久| 国产成人综合亚洲欧洲色就色| 亚洲精品无码不卡在线播放| 免费观看国产小粉嫩喷水| 色悠久久久久久久综合网伊人| 久久99国产视频| 国产99视频在线| 99在线观看免费视频| 91在线精品麻豆欧美在线| 亚洲人成人伊人成综合网无码| 国产精品网曝门免费视频| 成人福利在线免费观看| 久久久久久尹人网香蕉| 国产一级片网址| 久久精品人妻中文系列| 亚洲中文字幕无码爆乳| 成人亚洲国产| 国产微拍一区二区三区四区| 91视频精品| 中国丰满人妻无码束缚啪啪| 国产黑丝视频在线观看| 九九九久久国产精品| 天堂成人在线视频| 国产凹凸一区在线观看视频| 伊人色天堂| 亚洲一区二区三区国产精华液| 538国产视频| 久久这里只有精品8| 97精品伊人久久大香线蕉| 91福利免费| 永久免费精品视频| 嫩草国产在线| 亚洲AV无码精品无码久久蜜桃| 性欧美在线| 2021天堂在线亚洲精品专区| 日韩视频免费| 色婷婷视频在线|