999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

NLP文本分類引擎的解決方案

2018-05-16 12:52:46王悅林
科學與技術 2018年16期
關鍵詞:分類人工智能文本

王悅林

摘要:人工智能應用最廣的兩個領域就是計算機視覺(CV)和自然語言處理(NLP)。計算機視覺的高速發展期是2012至2017年,目前研究的重點已經從靜態的圖片進入動態的視頻領域,而自然語言處理的發展相對較慢,從2018年起,以BERT等句子級別預訓練模型為代表,才進入高速發展期。

自然語言處理領域的應用很豐富,例如語言翻譯、情感分析、客服機器人、新聞生成、輿情監控、文檔歸類、簡歷篩選等等。而從技術的角度,最多的應用就是文本分類,包括多元分類、多級別分類、多標簽分類等。

針對層出不窮的文本分類需求,有必要設計出分類專用引擎,以提高效率和降低成本,并增強復用性。

一、整體設計

對于一個文本分類項目,在架構上分為數據處理、文本分類、文本挖掘和結果展現四個部分。本文著重在分類引擎的設計上。

引擎需要考慮的因素很多,基于目前的技術發展,以下幾點需要重點考慮并解決:

1、如何選擇基礎算法

2、如何減少標簽數據量

3、如何處理訓練數據的不均衡

4、如何處理多達幾十上百的類別

二、NLP基礎算法選擇

從2013年Word2Vec開始,可以選擇的常用基礎算法有GloVe,FastText,ELMo,GPT1.0,BERT,Bert as a service,MT-DNN,GPT2.0等等,最近一段時間發展的速度令人咋舌。具體如何進行選擇呢?

首先要選擇句子級別的算法,因為詞級別算法沒有考慮詞之間的關系和語序,不僅處理不了語義組合、多義詞、轉折、依賴等各種語言學上的語法現象,連簡單的語序也處理不了,我欠你一百萬和你欠我一百萬這種在語義上/現實社會中巨大的差異被忽視,語言處理能力較低。

其次要選擇預訓練模型,而不是從零開始構建。動輒幾億參數的預訓練模型以多層的神經網絡結構和巨大的訓練數據量,已經學會了大量的語言知識,具有了超凡的語言理解能力。而且這類模型很多公司從成本角度是無法自己訓練的,站在巨人的肩膀上會是明智的選擇。

再次,從實際應用的角度,算法是否易用,網絡資料是否齊全,也是要考慮的因素。因此上述的各種選擇中,基于Transformer/Self-Attention,并能提供下游任務接口的BERT就成為不讓之選。

三、令人頭痛的數據標注

AI目前整體上還是處于弱人工智能階段,簡單說就是有人工才有智能,只有人類教會機器/算法如何工作,機器/算法才能分辨出不同的類別。這個教的具體動作,就是提供打好標簽的數據來訓練模型。大家常說的數據是基礎,數據是燃料,數據是動力都是這個意思。

而給數據打標簽的工作,也是目前人工智能領域的痛點之一,還催生了專門做數據標注的公司。常有人抱怨人工智能的項目一半以上的時間和費用都投入到了做數據標注上。

那么有沒有技術上的方法來減少這種痛苦呢?有,那就是主動學習(Active Learning),其目的不是不再標注數據,而是大大減少標注的數據量。其基本的原理是,通過人工智能的方法來主動選擇出標注意義更大的數據,以達到用一半的數據標注就能訓練出滿意效果的目的。

此方法的理論依據是標注數據量和模型正確率之間的關系。人們往往以為隨著數據量的增長,準確率會持續提升,其關系是向右上方升起的一根直線,即線性關系。而根據實際試驗,兩者的關系是一條弧線,在初始階段隨著標注數據量的增長,多次訓練的準確率會大幅提升,之后增幅就逐漸減小,效果越來越不明顯。

如何主動學習呢?方法很多,使用算法和信息熵迭代操作會大大提升效率。具體步驟說明如下:

第一個啟動模型采用遷移學習的思路,選擇其它項目的成熟模型作為啟動點。由于每個項目的具體分類不同,模型不能重用,但舉例來說,對洗衣機的負面評價判別模型,用在冰箱評價上也是一個好的起點,比起從零開始構造模型,會大大減輕工作量和縮短項目時間。

以遷移過來的模型作為初始模型,對全部沒有標注的數據直接分類。由于沒有標注,分類結果無法判斷對錯,但是每一行數據的分類結果可以生成總和為一的概率分布,而排在第一位的概率數字代表了模型對于分類的信心。概率越高,確定性越大,則信息熵越小,而我們需要挑選出來的是信息熵最大的那一批數據,對其進行標注。如果最難分類的數據都被成功歸屬到了正確的類別,那么其它數據就更容易分類了。這樣標注的數據就不再是隨機進行選擇,而是被精準定位,從而大大降低標注量。

用第一批標注的數據來訓練出第一個真實模型,而用此模型來挑選出下一批需要標注的數據,多次重復此過程,直至準確率曲線不再升高,或升高的幅度不值得再投入人員和時間進行標注,就結束模型訓練,完成分類任務。

四、如何處理數據的不均衡

在進行文本分類時,訓練和測試數據量對于不同的類別往往并不均衡,有的類別多,有的類別少。這會導致訓練出來的模型對于不同的類別區分的能力不同,對于數據量較大的類效果較好,也會把很多其它類數據誤判為這個類別。其技術原因是模型訓練時的唯一目的是最小化損失函數,而數據量較大類的數據對損失函數影響更大。

如果已知測試數據集的數據分布,并且確定真實數據集與測試數據集的分布相同,那么可以按此分布來調整訓練數據。如果無法得知真實數據的分布,則應該訓練出對每一個類別都有相同分辨能力的模型,因此需要處理數據的不均衡問題。

處理的技術方法中最常用的是上采樣和下采樣,即對超過平均數的類減少數據量,對不足平均數的類增加數據量。下采樣時隨機減少即可,上采樣時對于文本可以用翻譯軟件進行多種語言間的來回翻譯,或者直接拷貝數據成多份,再隨機打亂。

那么除了數據的上下采樣以外,還有沒有其它的方法呢?既然技術原因是由于損失函數僅僅按照每類訓練數據量的大小對待不同類別,那么完全可以調整損失函數,按照類別數量差異區別對待。其具體方法有靜態調整和動態調整兩種。

猜你喜歡
分類人工智能文本
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
人工智能與就業
IT經理世界(2018年20期)2018-10-24 02:38:24
數據分析中的分類討論
教你一招:數的分類
數讀人工智能
小康(2017年16期)2017-06-07 09:00:59
下一幕,人工智能!
南風窗(2016年19期)2016-09-21 16:51:29
主站蜘蛛池模板: 欧美天堂在线| 国产第三区| 精品伊人久久久香线蕉| 久一在线视频| 久久a级片| 免费高清a毛片| 米奇精品一区二区三区| 99在线国产| 国产经典免费播放视频| 亚洲国产成人自拍| 国产美女在线观看| 黄网站欧美内射| 欧美日本在线播放| 日韩久久精品无码aV| 中文字幕日韩久久综合影院| 久久人人妻人人爽人人卡片av| 在线一级毛片| 国产v精品成人免费视频71pao | 精品国产成人高清在线| 天天综合网站| 久久五月天国产自| 激情無極限的亚洲一区免费| 欧美区一区二区三| a亚洲天堂| 亚洲黄网视频| 丰满少妇αⅴ无码区| 一级毛片中文字幕| 国产爽妇精品| 日本91在线| 国产视频一二三区| 2021国产精品自拍| 中文字幕乱妇无码AV在线| 人与鲁专区| 国产欧美高清| 亚洲国产AV无码综合原创| 国产成人1024精品| 91视频首页| 国产精品香蕉在线| 蜜芽一区二区国产精品| 国产美女91视频| 色天堂无毒不卡| 欧美成人亚洲综合精品欧美激情| 浮力影院国产第一页| 亚洲国产天堂久久综合| 国产精品不卡永久免费| 成人福利在线免费观看| 国产噜噜噜| 国产午夜福利片在线观看| AV无码国产在线看岛国岛| 国产欧美日韩综合一区在线播放| 99久久国产综合精品女同| 2021精品国产自在现线看| 国产在线视频自拍| 国产主播在线一区| 久久婷婷综合色一区二区| 黄色成年视频| 视频二区中文无码| 日韩精品毛片人妻AV不卡| 91视频99| 国产成人免费观看在线视频| 色久综合在线| 一本色道久久88综合日韩精品| 亚洲第一成网站| 成年人福利视频| 色婷婷视频在线| jizz在线观看| 岛国精品一区免费视频在线观看 | 国产人碰人摸人爱免费视频| AV天堂资源福利在线观看| 99视频全部免费| 久久久久国色AV免费观看性色| 午夜国产精品视频| 国产精品视频a| 亚洲精品成人福利在线电影| 日韩A级毛片一区二区三区| jizz国产在线| 国产91视频观看| 色播五月婷婷| 久久久精品无码一区二区三区| 午夜人性色福利无码视频在线观看| 久久久久国产一区二区| 伊人五月丁香综合AⅤ|