999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

航行通告中自然語言理解算法研究

2021-05-23 09:42:53鄧益鵬羅銀輝
電腦知識與技術 2021年11期

鄧益鵬 羅銀輝

摘要:航行通告機器識別,對于規范化的代碼處理相對簡單,但對于自然語言處理起來相對困難。針對航行通告中類別多,數據分布不平衡,中英文混合等問題,提出基于word2vec文本向量化技術的文本分類方法,針對小樣本數據采用smote算法對數據重采樣,經過重采樣后的數據選擇使用XGBoost繼承算法模型完成分類。由中航材導航技術公司提供的航行通告標簽原始數據,經實驗表明,能夠有效規避樣本數據分布極不平衡,分類數量過多的問題,同時模型的主要評價指標都有提高,包括模型的準確率、召回率及F1值。

關鍵詞:航行通告;數據分布不平衡;word2vec;smote;XGBoost

中圖分類號: TP31? ? ?文獻標識碼:A

文章編號:1009-3044(2021)11-0206-04

在運用傳統機器學習文本分類的領域,文本分類的模型算法整體上已經成熟,在文本分類技術從理論研究到實際應用上面臨著多方面的挑戰,與實驗室文檔比較,互聯網傳播的電子文本信息則表現出分類多樣,關系復雜,數據分布極為不平衡等特點,由中航材導航技術公司提供的通告標簽原始數據同樣標簽數據分布極為不均衡,部分原始數據如表1所示。

傳統的文檔表示方法以詞袋法BOW為主[1],詞袋法將文檔看作是單個詞的集合,每個詞被認為是相互獨立的。BOW將一篇文檔都表示成和訓練詞匯文檔一樣大小的向量,向量的每個位置代表該位置所代表的詞出現了幾次,出現新的詞匯文檔,則向量維度增加。這就意味著幾個重大缺陷:1)維度過高;2)短文本的詞匯數通常是幾個到幾百,詞向量的維度卻高達數十萬,利用率不到千分之一;3)詞袋法不能很好地表示短文本的語義,忽視掉其中的順序、語義等關鍵的信息。

深度學習發展越來越好[2],2013年Mikolov提出了word2vec模型[3]來表示詞向量。word2vec模型計算文檔中詞的上下文信息并將其轉化為一個低維向量,越相似的句子則在向量空間種越接近。word2vec模型在自然語言處理領域應用相當成功。包括中文分詞[4]、情感分類[5]等。

smote算法[6]是改善數據不平衡分布的一種重采樣算法。核心是通過對少數類樣本進行過采樣,不是直接簡單復制少數類樣本,是利用歐氏距離對少數類樣本進行分析合成新的樣本。經實驗,smote算法對數據的預處理更有效,能夠有效預防模型出現過擬合。

基于樹模型的XGBoost訓練模型是目前在傳統機器學習當中優秀的集成學習模型,主要思想是訓練多個準確率較低的弱學習器,然后通過某種機制集成為一個強學習器[7]。調整參數方便,訓練時長較短,結果較為優秀,代價函數加入了正則項防止模型出現過擬合。

1 方法

文章為了能夠有效提高文本分類的精度,使用一種基于word2vec向量化和XGBoost的文本分類方法。其流程圖如圖1所示。

1.1 數據清洗

針對本文的中文數據采用的哈工大的jieba分詞技術,停用詞庫來自哈工大數據源,經處理過后的如表2所示。

1.2 文本向量化

詞的向量化表示是將語言中的詞進行數學化表示,詞的向量化表示主要有四種方式:(1)one-hot文本表示;(2)分布式表示;(3)TF-IDF權重文本表示;(4)word2vec模型神經網絡模型表示。

本文主要采用第四種。word2vec表示主要是兩種,包括CBOW和Skip-gram模型。圖2所示,CBOW模型利用詞w(t)前后n個詞去預測當前詞;Skip-gram模型則反之利用當前詞w(t)去預測前后n個詞。圖3所示Skip-gram模型。

1.3 smote數據重采樣

smote算法[8]是過采樣中提出的新算法,分析少數類樣本的特點,模擬生成新的樣本,將新的樣本插入到數據集中,不均衡的數據集變成均衡數據集來防止模型出現過擬合。采樣原理如圖4所示。

1.4 XGBoost算法

XGBoost【9】是陳天奇在基于GBDT的基礎提出集成算法,與之相比,XGBoost對損失函數利用二階泰勒展開式增加正則項尋求最優解避免過擬合,有效構建增強樹,能在cpu上進行并行運算。樹的集成模型如下:

[yi=k=1Kfkxi fk∈F]? ? ? ? ? ? ? ? ? ? ? ? ? ?[1]

K是樹的數量,F是樹的集合空間,[yi]是模型的預測值,[xi]是第i個數據點的特征向量,[fk]是第k棵樹,與葉子節點的權重w有關。

XGBoost模型由三部分組成,包括學習模型,參數調整和優化目標函數。目標函數優化程度決定模型的準確率,提高模型的泛化能力。故要通過損失函數最小化,增加模型復雜度的懲罰項實現對目標函數的優化。XGBoost模型目標損失函數由下兩部分組成:

[L=i=1nlyi,yi+k=1KΩfk]? ? ? ? ? ? ? ? ? ? ? (2)

第一部分由真實值[yi]和預測值[yi]之間的誤差組成,第二部分[k=1KΩfk]是樹的復雜度函數,用于控制模型復雜度正則項。[Ωfk]可表示為:

[Ωf=γT+0.5λw2]? ? ? ? ? ? ? ? ? (3)

[γ]和[λ]為懲罰因子;T為樹上的葉子數。式3在最小化序列的過程當中,每一輪訓練增加增量函數[fi(xi)]。因此目標函數可以改為:

[Lt=i=1Nlyi,yit-1+fixi+Ωft]? ? ? ? ? ?(4)

t表示訓練第t輪,對于式(4),使用二階泰勒級數展開式將第j棵樹的每片葉子中的樣本集合定義為[Ij=i|q(xi=j)]。目標損失函數的一階導數是:

[gi=?yit-1lyi,yit-1]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? [5]

二階導數是:

[hi=?2yit-1lyi,yit-1]? ? ? ? ? ? ? ? ? ? ? ? ? (6)

由此可得:

[Lt?i=1ngiftxi+0.5hif2txi+Ωft?j=1Ti∈ Ijgiwj+0.5i∈ Ijhiλw2j+γT#]

(7)

定義公式[Gj=i∈ Ijgi]、[Hj=i∈Ijhi],式7簡化為:

[Lt?j=1TGjwj+0.5Hj+λw2j+γT]? ? ? ? ? ? ? ?(8)

[wj]的偏導數為:

[w`j=-GjHj+λ]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(9)

權重向量w帶入到目標損失函數得:

[Lt?-0.5j=1TG2jHj+λ+γT]? ? ? ? ? ? ? ? ? (10)

由式10可得目標函數損失越小,模型的分類效果就越好,泛化能力越強。

2 實驗

本文實驗基于GPU圖形工作站搭建實驗環境:操作系統是windows7,內存48GB,顯卡為GTX1080Ti,編程語言為Python3.7。

2.1文本分類模型主要指標

評估模型的指標主要包括準確率Precision、召回率Recall、F1指標。準確率是指文本分類正確的樣本數與所有分類樣本數的比例:

[Precision=aa+b]? ? ? ? ? ? ? ? ? ? ? ? ? [11]

[Recall=aa+c]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(12)

a代表被正確分類的樣本數,b代表被錯誤分類的樣本數,c代表屬于該類卻沒有被分類出來的樣本數。準確率和召回率是兩個矛盾的指標,為能夠真正反映模型的好壞,引入F1召回率指標,是文章主要考慮的指標。

[F1=2Precision*RecallPrecision+Recall]? ? ? ? ? ? ? ? ? ? ? (13)

2.2 實驗結果與實驗分析

實驗選擇的數據集來自中航材導航技術公司提供的航行通告數據集,有883093條數據,類別高達1434種,類別最多的樣本數有87081個,最少的僅有1個,為保證模型質量,篩選出樣本數大于5的類別樣本,剩下871010條數據,992個類別。word2vec的計算采用的gensim開源軟件實現。主要超參數選擇為sg=1,選擇Skip-gram算法,特征向量維度為50,窗口為5,min_count為10。訓練次數為30,最后訓練出來的維度是50維稠密實數向量。經過word2vec詞向量化后的數據進行smote算法重采樣,對類別樣本數小于5000大于5的數據使用smote重采樣,將小樣本數據構造成每種類別在10000條,保證數據集的相對均衡。XGBoost選擇基于樹的模型,分類器基分類器數量為100,最大深度為5,實驗采用了5折交叉驗證,評估準確性是交叉驗證的平均值處理后的數據經模型處理其模型結果指標如圖5-圖7所示。

3 結論

本文研究了經word2vec神經網絡向量化后的原始數據在smote算法重采樣以及XGBoost集成算法處理后的模型。與沒有經歷過smote算法重采樣的原模型相比較,F1等關鍵指標有了明顯的提升。證明word2vec神經網絡向量化算法在結合smote算法,能夠很好能夠對少數類數據進行一個良好的識別處理。

但研究本身存在一定的局限,首先模型運行時長相當緩慢,僅訓練word2vec詞向量時間就達數小時,使用XGBoost算法完成分類訓練評估時間也接近半小時,模型的參數優化有著進一步優化的可能。其次本次模型沒有使用樸素貝葉斯、SVM等機器學習常見的十分成熟的模型,僅僅考慮XGBoost算法,沒有考慮全面。最后分類模型沒有使用深度學習來做,如若未來能夠使用深度學習等方法,無論是模型評價指標還是模型運行時間應該有進一步提高的空間。

參考文獻:

[1] Baeza-Yates R,Ribeiro-Neto B.Modern Information Retrieval [M].New York:ACM press,1999.

[2] Gullo F,Ponti G,Tagarelli A.Clustering uncertain data via K-medoids[M]//Lecture Notes in Computer Science.Berlin,Heidelberg:Springer Berlin Heidelberg,2008:229-242.

[3] Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[EB/OL].2013.

[4] Reynolds A P,Richards G,Rayward-Smith V J.The application of K-medoids and PAM to the clustering of rules[M]//Lecture Notes in Computer Science.Berlin,Heidelberg:Springer Berlin Heidelberg,2004:173-178.

[5] 周世兵,徐振源,唐旭清.新的K-均值算法最佳聚類數確定方法[J].計算機工程與應用,2010,46(16):27-31.

[6] Fernandez A,Garcia S,Herrera F,et al.SMOTE for learning from imbalanced data:progress and challenges,marking the 15-year anniversary[J].Journal of Artificial Intelligence Research,2018,61:863-905.

[7] 蘇兵杰,周亦鵬,梁勛鴿.基于XGBoost算法的電商評論文本情感識別模型[J].物聯網技術,2018,8(1):54-57.

[8] Chawla N V,Bowyer K W,Hall L O,et al.SMOTE:synthetic minority over-sampling technique[J].Journal of Artificial Intelligence Research,2002,16:321-357.

[9] Chen T Q,Guestrin C.XGBoost:a scalable tree boosting system[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.San Francisco California USA.New York,NY,USA:ACM,2016:785-794.

【通聯編輯:梁書】

主站蜘蛛池模板: 夜夜拍夜夜爽| 漂亮人妻被中出中文字幕久久| a色毛片免费视频| 精品一区二区三区无码视频无码| a级毛片免费在线观看| 91精品啪在线观看国产60岁| 日韩在线欧美在线| 日韩 欧美 小说 综合网 另类| 国产精品夜夜嗨视频免费视频| 99热线精品大全在线观看| 2020久久国产综合精品swag| 国产精品伦视频观看免费| 日韩av高清无码一区二区三区| 人妻精品全国免费视频| 国产欧美精品一区aⅴ影院| 永久免费无码日韩视频| 免费毛片网站在线观看| 成人在线综合| 国产精品无码久久久久AV| 日本道中文字幕久久一区| 色婷婷丁香| 亚洲综合一区国产精品| 91在线精品免费免费播放| 成人一级免费视频| 2024av在线无码中文最新| 91青青草视频在线观看的| 亚洲清纯自偷自拍另类专区| 永久免费无码成人网站| 这里只有精品在线播放| 国产99视频精品免费视频7| 国产美女叼嘿视频免费看| 在线日本国产成人免费的| 在线视频精品一区| 午夜啪啪网| 国产精品久久精品| 国产精品第5页| 亚洲最大情网站在线观看| 国产精品免费福利久久播放| 亚洲狠狠婷婷综合久久久久| 久久视精品| 一级毛片免费的| 中国国产A一级毛片| 人与鲁专区| 国产区免费| 无码人妻热线精品视频| 国产精品中文免费福利| 成人精品在线观看| 99久久免费精品特色大片| 福利一区在线| 亚洲欧美成人综合| av一区二区无码在线| 一级毛片免费高清视频| 国产日韩精品欧美一区灰| 波多野结衣无码AV在线| 浮力影院国产第一页| 欧美激情首页| 欧美成人综合在线| 国产在线观看人成激情视频| 久久国产精品夜色| 国产成人欧美| 国产高清又黄又嫩的免费视频网站| 久久亚洲欧美综合| 亚洲人精品亚洲人成在线| 久久久久青草大香线综合精品| 日韩东京热无码人妻| 久久综合五月婷婷| 午夜国产大片免费观看| 亚洲欧美综合在线观看| 亚洲视频四区| 国产精品毛片一区| 岛国精品一区免费视频在线观看| 波多野结衣一区二区三区88| 亚洲国产高清精品线久久| 18黑白丝水手服自慰喷水网站| 天天操精品| 亚洲欧美精品在线| 亚洲电影天堂在线国语对白| 狠狠色综合网| 欧美日韩资源| 亚洲日本中文字幕乱码中文 | 青青草国产一区二区三区| 欧美色香蕉|