999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于AI深度學習的新聞文本分類法研究

2024-12-04 00:00:00龔靜鄭迪聰劉現芳
中國新技術新產品 2024年5期

摘 要:針對傳統機器學習未能考慮局部信息對新聞文本分類的影響以及無法及時捕獲長距離特征信息等問題,本文提出了一種基于AI深度學習的新聞文本分類方法。為進一步驗證新聞文本分類效果,該方法將徑向基函數模型與多層感知層模型結合,并進行深度學習訓練,通過樣本標記迭代試驗進行測試。結果表明,AI深度學習加快了模型訓練過程,提升了模型在迭代過程的正確率,降低了漏報率,顯著增強了分類效果。

關鍵詞:AI深度學習;新聞文本分類;自然語言處理;詞向量

中圖分類號:TP 391 文獻標志碼:A

隨著網絡信息大量增加,主流新聞網站每日需要提供海量新聞數據,這些數據為新聞網站帶來了很多挑戰。新聞文本分類能夠對文本進行快速分類,提升網站工作效率。新聞文本分類廣泛應用于各領域,例如網頁分類和用戶挖掘等。經常使用的新聞文本分類方法有2種,即傳統機器學習與AI深度學習。傳統機器學習主要通過手工提取特征輸入分類器進行訓練,但是通常存在提取不全和高緯度等問題[1],AI深度學習具有較好的分類效果,其可自動選擇數據的標注與訓練順序,能夠快速完成新聞文本分類任務,解決了在迭代訓練過程中由于標記時間限制,因此僅能在未標記文本數據內選擇樣本子集標注后作為訓練集來訓練的問題[2]。鑒于此,本文提出了一種基于AI深度學習的新聞文本分類方法,旨在解決信息紊亂的問題,能夠顯著提升模型在迭代過程中的正確率并降低漏報率。當存在海量數據時,可以幫助用戶高效、快速完成信息定位,篩選各類場景下最有價值的信息,從而更高效地進行數據分析。

1 理論研究

自然語言處理的快速發展提升了文本分類效率,已成為研究熱點。薛麗等[3](2023) 提出了用于學術文本分類的CNN-BiGRU模型,該模型篩選文本的局部信息,但是忽略了上下文語義關聯性信息。楊茜[4](2023)為了捕獲序列語義信息,繼續優化長短期記憶網絡(Long Short-Term Memory,LSTM)的網絡結構,并提出了Bi-LSTM模型,該模型能夠同時用向前與向后對序列進行掃描,但是當單獨文本分類時僅能捕獲文本的語義信息,無法捕獲局部特征信息。針對這些問題,本文提出基于AI深度學習的新聞文本分類法進行合理、有效的分類。

2 流程設計

深度學習是對未標記文本集內有價值的子集進行采樣,對其人工標記后再展開相關訓練的過程。該方式僅需標記與迭代訓練部分未標記文本,就可以提高模型質量,提升文本分類效果[5]。依托AI的學習方法是深度學習中的常見流程,本文也參考了該方法。維護未標記文本數據集合,通過采樣函數選取集合內需要進行標記或訓練的文本數據,對其標記后添加已標記的文本集合作為新的訓練集。采樣函數在該過程中發揮了重要作用,其目的是根據預測標記概率選取最有標記價值的一系列數據,具體流程如圖1所示。全量訓練能夠獲得更高的精度,特別是當進行深度網絡訓練時,因此在模型迭代訓練過程中直接使用該方法。

3 采樣設計

3.1 貝葉斯深度采樣

貝葉斯深度采樣適用于深度網絡處理,在模型激活層前添加隱藏層,就可以在訓練過程中對隱藏層權重的后驗分布使用馬爾科夫算法得到類別概率的后驗分布。在不同分類問題中,使用該算法求解后驗概率,如公式(1)所示。

P(A|B)=P(B|A)·P(A)/P(B) " "(1)

式中:P(A|B)為在B發生的情況下A出現的概率;P(B|A)為在A發生的情況下B出現的概率;P(A)為A發生的先驗概率;P(B)為B發生的先驗概率。這樣便可根據后驗概率,在迭代中通過貝葉斯深度采樣從文本數據內選擇合適數據展開訓練,從而形成優化后的AI深度學習法。

3.2 辨識性深度采樣

辨識性深度采樣是將AI深度學習轉化為分類任務,選擇特定文本樣本后進行標記,減少標記后與未標記的文本集差異,從中篩選具有代表性的文本訓練集。該方法定義了二值分類問題,擬設1個輸入空間與標記空間,輸入空間是到標記空間的一種映射,選取標記標簽與未標記標簽,計算特征值后經人工處理后得到代碼如下所示。

mean_on_train=X_train.mean(axis=0)##計算特征均值

std_on_train=X_train.std(axis=0)##計算特征標準差

X_train_scald=(X_train-mean_on_train)/std_on_train##減去均值,乘以標準差的倒數

X_test_scald=(X_test-mean_on_train)/std_on_train##對測試集做同樣處理

通過數據縮放可知,由于采集前后存在一定差距,甚至出現過度擬合,因此可通過調整其他參數來提高采集過程的泛化性能。

4 模型設計

模型設計是AI深度學習的基礎環節,與采樣設計共同構成了完善的深度學習方法。采樣設計對其匹配的模型有不同要求,例如貝葉斯深度采樣只需要模型在預測過程中輸出置信度,其他采樣方法則需要與內含嵌入表示的網絡模型相契合。

當表示新聞文本時AI深度學習模型使用雙向嵌入,同時在詞嵌入基礎上添加了句嵌入,在一定程度上優化了原模型,從而更好地把握整體信息與詞句之間的關系,在各類自然語言處理任務中表現得更突出。模型的主要框架是過渡層,由數個編碼器與解碼器構成。編碼器包括注意力機制、殘差網絡、前饋神經網絡以及歸一處理4層構件;解碼器在編碼器的基礎上添加了注意力層,由此實現了文本信息的解碼與序列化[6]。其中,注意力層是過渡層的內核,其主要作用是通過計算詞句關聯性調整權重系數,體現詞句之間的聯系,并在該過程中反映詞匯對所在句表達的重要性。

模型設計主要包括以下3個步驟。1)序列輸入后進入編碼器,經線性轉換后得到表示文本字符的初始化矩陣。2)經放縮點積獲得相關注意力值,據此體現當模型進行編碼時某個詞匯與所在句其他詞匯的關系。3)轉換注意力值,得到與模型輸入文本長度相同的輸出量,該輸出量能夠提高語義效果。

5 試驗分析

5.1 構建數據集

為驗證模型性能,使用爬蟲技術在20Newsgroups新聞文本數據集上進行比較,數據集包括18 000篇新聞文章,共涉及20個話題,通常用來進行文本分類。本次試驗使用語料庫包括經濟、娛樂、文化、房產、游戲、體育、時事、科學、生活和社會等類別,不同類別涵蓋的文本樣本有所差異。抽取16 000條新聞數據作為訓練集、1 000條數據作為測試集以及1 000條數據作為驗證集,每條新聞經人工標記判斷是否為所需要的新聞文本。因為AI深度學習需要數次查詢與標記,所以創設簡單的自動標記系統,能夠更便捷地將采樣設計選擇的標記文本發送至系統,經人工標記后對模型進行相應訓練。

5.2 具體參數

參數為模型內的配置變量,參數設置不同會對試驗結果產生一定影響。本次試驗中的較模型包括AI深度學習模型、徑向基函數模型和多層感知器模型等神經網絡模型,具體參數設置見表1。通過調整,AI深度學習模型訓練的初始設置與訓練參數均得到了顯著優化,在對不同模型進行深度訓練的過程中,應保持新增標記文本數據統一,這樣能夠比較迭代過程中的性能差異以及性能提升速率。在訓練的過程中還引入了“預先解除”策略,當驗證集的正確率停止上升時應即刻解除,避免出現收斂性降低、過度擬合等情況,從而使訓練效率顯著提升。

5.3 試驗環境

本次試驗環境見表2,為避免出現收斂性降低和過度擬合等情況,試驗采用“預先解除”策略,即如果多次迭代后損失值較小,那么再迭代數次后便無須優化參數。

5.4 評價指標

評價指標是評價數據表現情況的主要標準,對新聞文本分類來說,一般采用正確率(Accuracy)與漏報率(Missrate)2個評價指標,該指標經過計算,可直觀觀察模型在新聞文本分類過程中的具體性能,因此試驗決定采用上述指標進行研究。其中,正確率為不同類別正確率的均值,如公式(2)所示;漏報率為不同類別漏報率的均值,如公式(3)所示。

(2)

(3)

式中:TP為文本正樣本被正確識別的量;FP為文本負樣本被誤報的量;TN為文本負樣本被正確識別的量;FN為文本正樣本被漏報的量。正確率反映模型正確判斷整體樣本的能力,值越大,性能越好;漏報率反映模型正確預測負樣本純度的能力,值越小,性能越好。

5.5 結果分析

為體現設計效果,驗證本文提出的新聞文本分類法的有效性,筆者將AI深度學習模型與多層感知器模型、徑向基函數模型進行比較。

各模型的訓練正確率如圖2所示,AI深度學習模型的正確率最高,當迭代300次時精度達到了95.6%,遠高于多層感知器模型的83.2%和徑向基函數模型的91.5%。其中,多層感知器模型的精度最低,說明其雖然可以雙向傳輸記憶距離較遠的文本信息,但是當處理長文本序列時遺忘門易丟失時間較久的序列信息,因此導致精度顯著降低;雖然徑向基函數模型具有提取局部特征信息的能力,但是提取上下文序列特征的能力不顯著,徑向基函數模型的正確率低于 AI 深度學習模型,當提取整體文本時仍落后于 AI 深度學習模型。

各模型的訓練漏報率如圖3所示,3個模型起始均存在漏報情況,但是遺漏速度存在顯著差異。由試驗可知,AI深度學習模型不僅漏報率更低,而且數據浮動情況較少,當迭代 300 次時,其漏報率為25.3%,遠低于多層感知器模型的41.7%和徑向基函數模型的35.5%。

3個模型在測試集中的訓練分類結果見表3。由表3可知,AI深度學習模型在新聞文本測試集的召回率達到了92%,顯著優于徑向基函數模型與多層感知器模型,分別提升了3%與9%。AI深度學習模型的F1分數也較為優秀,達到了91,說明其能夠學習更多的文本分類特征,與徑向基函數模型、多層感知器模型相比具有較大優勢。

6 結語

綜上所述,文本分類是自然語言處理領域的經典任務,本研究將AI深度學習應用于新聞文本分類任務中。利用AI深度學習模型,以爬蟲收集的新聞文本數據信息為資料,以篩選所需新聞為目標,驗證了AI深度學習模型、多層感知器模型和徑向基函數模型對深度神經網絡的模型訓練效果,為新聞文本分類的深度學習提供了可操作的實踐經驗。試驗結果表明,AI深度學習加快了模型訓練過程,提升了模型在迭代過程中的正確率,降低了漏報率,顯著增強了分類效果,尤其是AI深度學習模型與采樣設計緊密配合,成為較好的新聞文本分類深度學習策略。在后續研究中,可通過強化新聞文本數據與外部知識、構建優秀詞向量模型和提高新聞文本特征表示等方法進一步優化新聞文本分類工作。

參考文獻

[1]胡容波,郭誠,王錦浩,等. 基于深度學習的自然資源政策文本分類研究[J]. 高技術通訊,2023,33(7):692-703.

[2]侯震,童惟依,鄧靖飛,等. 融合深度學習模型和上下文特征的健康話題短文本分類[J]. 電視技術,2023,47(7):18-23,27.

[3]薛麗,鄭含笑,吳昊辰. 基于CNN-BiGRU的學術文本分類研究[J]. 鄭州航空工業管理學院學報,2023,41(3):61-68.

[4]楊茜.基于Bi-LSTM和圖注意力網絡的多標簽文本分類算法[J]. 計算機應用與軟件,2023,40(9):145-150,183.

[5]林子洛. 基于深度學習語言模型的心理學領域文本分類[J]. 軟件,2023,44(7):112-118.

[6]張震.深度遷移學習在文本分類問題中的應用研究綜述[J]. 信息技術與信息化,2023(6):121-124.

主站蜘蛛池模板: 午夜不卡视频| 99国产精品国产| 亚洲一道AV无码午夜福利| 久久精品最新免费国产成人| 日韩小视频在线观看| 青青青视频免费一区二区| 国产成人免费视频精品一区二区| 综合亚洲色图| 免费99精品国产自在现线| 国产精品自拍露脸视频 | 中文字幕久久波多野结衣| 91欧美在线| 精品国产网| 色哟哟国产成人精品| 免费国产黄线在线观看| 亚洲三级视频在线观看| 又爽又大又黄a级毛片在线视频 | 2021天堂在线亚洲精品专区| 久久五月视频| 国产视频入口| 欧美成人aⅴ| 亚洲成人黄色在线| 在线观看免费黄色网址| 无码免费试看| 国产精品无码影视久久久久久久| 欧美在线视频不卡第一页| 91丨九色丨首页在线播放| 日韩av在线直播| 日韩中文无码av超清 | 国产鲁鲁视频在线观看| 亚洲中文字幕在线观看| 国产无人区一区二区三区| 欧美区国产区| 中文字幕天无码久久精品视频免费| yjizz国产在线视频网| 国产在线无码av完整版在线观看| 亚洲精品波多野结衣| 色婷婷成人网| 凹凸国产分类在线观看| 波多野结衣一区二区三区四区视频| 免费人成网站在线观看欧美| 91成人在线免费观看| 亚洲中文字幕国产av| 成人午夜免费观看| 日韩高清一区 | 国产极品美女在线播放| 国产精品视频第一专区| 成人在线视频一区| 99久久免费精品特色大片| 欧美性精品不卡在线观看| 欧美不卡视频在线| 9啪在线视频| 四虎影视库国产精品一区| 第九色区aⅴ天堂久久香| 国产91高清视频| 欧美日本在线一区二区三区| 中文字幕永久视频| 亚洲成在人线av品善网好看| 最新日韩AV网址在线观看| 婷婷中文在线| 三级国产在线观看| 一区二区三区精品视频在线观看| 午夜啪啪网| 欧美日韩久久综合| 欧美日韩动态图| 欧美不卡二区| 91成人在线观看视频| 国产精品久久久久久影院| 日韩不卡免费视频| 毛片网站观看| 91精品国产91久无码网站| 久久天天躁狠狠躁夜夜2020一| 美女潮喷出白浆在线观看视频| 伊人久久福利中文字幕| 亚洲av无码人妻| 国产成人啪视频一区二区三区| 8090午夜无码专区| 日韩a级毛片| 国产原创第一页在线观看| аⅴ资源中文在线天堂| 久久这里只有精品66| vvvv98国产成人综合青青|