999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SVM的書目數據自動分類設計與應用研究

2022-01-21 00:25:22
黑龍江科學 2021年24期
關鍵詞:分類特征文本

柴 源

(西安航空學院 圖書館,西安 710077)

目前,書目數據分類標引系統的算法模型主要依賴于詞表和知識庫,分類標引準確率較低[1]。圖書內容簡介屬于文本文檔,難以通過一個線性分類器(直線、平面)來實現分類。書目數據自動分類是采用機器學習算法,將圖書內容簡介經過自然語言處理后與《中國圖書館分類法》進行自動匹配的過程,支持向量機(Support Vector Machine,SVM)可以將低維空間數據通過核函數映射到高維空間中,獲得線性可分的特性,實現自動分類[2-3]。基于此,提出了一種基于SVM的書目數據分類算法模型并進行實驗研究。

1 支持向量機

SVM (Support Vector Machine,支持向量機)通過某種事先選擇的非線性映射,將輸入向量映射到一個高維空間中,構造最優分類超平面,將不同類別的樣本分開[4]。超平面是一個比原特征空間少一個維度的子空間,在二維情況下是一條直線,在三維情況下是一個平面[5]。研究表明,支持向量機在處理二分類任務時是非常成功的,解決實際問題時,它將多分類問題轉化為多次二分類問題,并進行最大值或投票決策,從而實現多分類[6],基本原理表述如下:

2 自動分類模型的設計

自動分類模型的設計主要包括書目數據預處理、文本特征提取、構造分類模型、模型性能評估等階段,具體流程如圖1所示。

圖1 系統設計Fig.1 System design

2.1 數據預處理

數據清洗。去除重復的文本,過濾掉沒有研究意義的各種符號,通過小寫化、詞干提取和詞形還原等規范化處理語料里的英文詞匯。

中文分詞。為了提高計算機對文本信息的識別和理解能力,實驗整合中文停用詞表(cn_stopwords.txt)、哈工大停用詞表(hit_stopwords.txt)、百度停用詞表(baidu_stopwords.txt)、四川大學機器智能實驗室停用詞庫(scu_stopwords.txt)等,形成停用詞表;數字化《中國分類主題詞表》,形成用戶詞典,并在此基礎上應用jieba工具進行分詞。

數據編碼。原始數據中的分類是列表標記,為了便于訓練分類模型,將其轉化為數值編碼,即給每一個分類設定一個數值。

2.2 文本向量表示

獲取詞匯表。將數據預處理結果按照一定比例劃分為訓練集和測試集,訓練集用于特征提取、模型構建和驗證,測試集用于模型性能測試。例如:[農村,醫療保障,待遇,水平,標準,統籌,發揮,醫療保險,大病,保險……]。

計算每個詞的TF-IDF值。TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆文檔頻度)是一種用于信息檢索與文本挖掘的常用加權技術[7],如果某個詞在一篇文章中出現的頻率TF高,且在其他文章中很少出現,則認為此詞具有很好的類別區分能力,適合用來分類。文本中每個詞的TF值是每個詞的詞頻/總詞頻,例如:人工智能的詞頻是1,總詞頻是9,所以“人工智能”的TF值是1/9;“人工智能”這個詞的IDF=log(2/(2+0.001))=-0.0005。

使用TF-IDF表示一個文本。將訓練集中每一個文本中的每一個詞對應詞匯表的索引進行填值,詞匯表中有的索引就用TF-IDF值填充,沒有的就用0填充。

2.3 卡方檢驗

文本向量表示后,所含的特征維度非常高,需要進行特征降維,去除一些與分類關系不大的無關特征,獲取更有價值的信息,降低算法的復雜度。

卡方檢驗(chi-square distribution,CHI)是一種統計學的工具,用來檢驗數據的擬合度和關聯度,是特征降維有效的方法[8]。假設特征項t和類別ci之間符合一階自由度的χ2分布,特征項t對于類別ci的χ2統計值越高,特征項t和類別ci的相關性越強,類別區分度越大,反之,類別區分度越小。計算公式如下:

式中,A為包含特征項t且屬于類別ci的文本數目,B為包含特征項t且不屬于類別ci的文本數目,C為不包含特征項t且屬于類別ci的文本數目,D為不包含特征項t且不屬于類別ci的文本數目。將每個特征項t的χ2統計值從大到小排序,選取前若干個作為特征項集合。

2.4 訓練分類器

scikit-learn是一個功能強大的通用機器學習庫,封裝了大量常用的機器學習算法,包括各種分類算法。設計采用scikit-learn的支持向量機模型訓練分類器,主要是將卡方檢驗后的特征向量輸入,使用支持向量機模型訓練分類器,并用訓練集數據驗證分類器的準確性。

2.5 分類器的性能評估

準確率(accuracy)、精確率(precision)、召回率(recall)、f1分數(f1-score)是分類器性能評估的重要指標。準確率是針對所有樣本而言的,表示所有樣本有多少被準確預測了,即:

精確率是針對預測結果而言的,表示預測為正的樣本中有多少是真正的正樣本,一種是把正類預測為正類(TP),另一種是把負類預測為正類(FP),即:

召回率是針對正樣本而言的,它表示正例樣本中有多少被預測正確了。一種是把原來的正類預測成正類(TP),另一種是把原來的正類預測為負類(FN),即:

f1分數(f1-score)是精確率和召回率的調和平均數,最大為1,最小為0,值越大意味著模型越好,即:

3 實驗結果與分析

實驗系統環境為Windows10,語言環境為Python,調用Python的第三方機器學習庫Scikit-learn來實現SVM的分類方法。

3.1 實驗數據

以西安航空學院2018-2020年的中文圖書書目數據為語料,共計36 046條。由于研究是通過圖書內容判別分類號的,所以刪除題名、ISBN、責任者、主題詞等字段,保留內容簡介和分類號。預處理后的數據如圖2所示。

圖2 數據預處理結果(部分)Fig.2 Data pre-processing results(part)

圖2中,category表示圖書類別A,B,C,...,Z;category_id表示類別的數值化,0表示A,1表示B...;content表示圖書內容簡介;clean_content表示清洗后的文本;cut_content表示每個文本的分詞結果。

3.2 TF-IDF特征提取

采用train_test_split()函數,設置size=0.25,將數據集劃分為訓練集和測試集。調用TfidfVectorizer類,ngram_range設置為(1,2),表示除了抽取每個詞語外,再抽取每個詞相鄰的詞并組成一個“詞語對”,擴展特征集的數量,提高分類的準確度。實驗結果可知,維度是(36 046,684 175),前者表示總共有36 046條數據,后者表示共有684 175個特征數量,特征數量包括所有詞語和詞語對。特征提取結果如圖3所示。

圖3 TF-IDF特征提取結果(部分)Fig.3 TF-IDF feature extraction results(part)

3.3 卡方檢驗降維

針對特征維度較高的情況,實驗使用sklearn中的chi2卡方檢驗法進行降維,參數n=4表示找出每個分類中關聯度最強的4個詞語和4個詞語對,加入到詞表中,將詞表中的詞作為保留特征。以TH類為例,部分檢驗結果如圖4所示。

圖4 卡方檢驗結果(TH類)Fig.4 Chi-square test results(TH type)

3.4 模型構建與訓練

實驗調用LinearSVC構造分類模型,設置kernel=“rbf”,表示使用rbf核;gamma=0.05,表示rbf核相對應的參數為0.05;degree=3表示模型的冪次方等于3次。得到模型后,使用訓練集對模型進行訓練,編寫函數myPredict,代碼如下,驗證訓練集內容的分類情況,并抽取不準確的分類進行增量訓練。

def myPredict(sec):

format_sec="".join([w for w in list(jieba.cut(remove_punctuation(sec))) if w not in stopwords])

pred_category_id=clf.predict(count_vect.transform([format_sec]))

print(id_to_category[pred_category_id[0]])

例如,當sec=“本書吸收了國內經濟學教材的優點,按照微觀經濟學和宏觀經濟學的構架,對經濟學的一些基本理論和專業知識、技術和研究方法進行講解與分析。”時,執行函數,結果顯示為F,驗證結果準確。

3.5 模型評估

模型在測試集上的精確率、召回率、f1分數及準確率等性能指標,如表1所示。

表1 模型評估指標Tab.1 Indexes of model evaluation

由表1可見,模型的精確率平均達到0.83,召回率平均達到0.83,F1分數平均值為0.82,超過80%。TE、TK、TL、Z各項指標低于0.8,一方面是因為分類的訓練數據少,模型學習不充分;另一方面是因為錯誤分類涉及多個主題,機器無法識別。總體上,模型準確率為0.85,達到預期目的。

3.6 比較試驗

采用邏輯回歸(Logistic Regression)、隨機森林(Random Forest Classifier)、樸素貝葉斯(Multinomial NB)與SVM進行對比實驗,不同模型對比實驗結果如表2所示。

表2 不同模型試驗結果Tab.2 Results of different model tests

Logistic Regression形式簡單,難以擬合數據的真實分布;Random Forest Classifier限于訓練集數據的驗證,在對特定噪聲的數據進行建模時會出現過擬合;Multinomial NB需要知道先驗概率,由于假設的先驗模型導致預測效果不佳。如表2所示,SVM的各項評估指標都高于其他模型。

4 結語

針對傳統分類標引系統算法模型準確率低、難以有效解決線性不可分數據的分類問題,引進了SVM模型,設計了基于SVM的書目數據智能分類檢測系統,以西安航空學院圖書館書目數據為樣本,通過數據預處理、TF-IDF特征提取、chi2特征降維、LinearSVC建模等完成分類器的初次訓練,在測試集上完成分類器的性能評估,并與邏輯回歸、隨機森林、樸素貝葉斯進行對比實驗。實驗結果表明,召回率為0.82,f1分數為0.82,精確率為0.83,準確率為0.85,高于其他機器學習模型,精度較高,泛化能力較強,具有良好的適用性。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 亚洲国产成人综合精品2020| 国产午夜精品一区二区三| 精品夜恋影院亚洲欧洲| 欧美一级色视频| 国产十八禁在线观看免费| 亚洲男人的天堂在线观看| 久久精品人妻中文系列| 亚洲无码A视频在线| 国产办公室秘书无码精品| 无码人中文字幕| 精品综合久久久久久97超人| 啪啪永久免费av| 国产精品久久自在自线观看| 亚洲国产精品日韩av专区| 呦女精品网站| 国产激情无码一区二区三区免费| av在线无码浏览| 日韩国产一区二区三区无码| 亚洲V日韩V无码一区二区| 国产区91| 朝桐光一区二区| 人人看人人鲁狠狠高清| 思思热在线视频精品| 天天色天天综合网| 亚洲成A人V欧美综合| 夜夜高潮夜夜爽国产伦精品| 国产成人资源| 国产福利在线观看精品| 亚洲第一区在线| 亚洲无限乱码一二三四区| 亚洲精品天堂自在久久77| 在线免费看黄的网站| 成年免费在线观看| 国产欧美日韩18| 日韩性网站| 国产精品美女在线| 国产美女视频黄a视频全免费网站| 毛片最新网址| 亚洲天堂网在线观看视频| 亚洲综合18p| www.99在线观看| 一边摸一边做爽的视频17国产| 99精品福利视频| 91原创视频在线| 九九热在线视频| 亚洲欧美在线综合一区二区三区| a天堂视频| 亚洲精品波多野结衣| 亚洲日韩精品无码专区97| 午夜激情婷婷| 亚洲精品无码久久毛片波多野吉| 亚洲不卡无码av中文字幕| 一本一道波多野结衣av黑人在线| 不卡的在线视频免费观看| 亚洲天堂精品在线观看| 91人妻日韩人妻无码专区精品| 视频一本大道香蕉久在线播放| 成人一级黄色毛片| 亚洲视频黄| 熟妇丰满人妻av无码区| 久久精品日日躁夜夜躁欧美| 国产视频入口| 欧美黄网站免费观看| 国产主播一区二区三区| 无码一区二区波多野结衣播放搜索| 97青青青国产在线播放| 国产精品久线在线观看| 午夜福利视频一区| 中文字幕日韩视频欧美一区| 亚洲综合精品第一页| 免费激情网站| 手机精品福利在线观看| 国产网站免费观看| 日本一区二区三区精品国产| 亚洲日韩图片专区第1页| 日韩A级毛片一区二区三区| 麻豆国产精品一二三在线观看| 51国产偷自视频区视频手机观看| 999福利激情视频| 91在线国内在线播放老师| 亚洲天堂.com| 91久久偷偷做嫩草影院电|