999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

NLP文本分類引擎的解決方案

2018-05-16 12:52:46王悅林
科學與技術 2018年16期
關鍵詞:分類人工智能文本

王悅林

摘要:人工智能應用最廣的兩個領域就是計算機視覺(CV)和自然語言處理(NLP)。計算機視覺的高速發展期是2012至2017年,目前研究的重點已經從靜態的圖片進入動態的視頻領域,而自然語言處理的發展相對較慢,從2018年起,以BERT等句子級別預訓練模型為代表,才進入高速發展期。

自然語言處理領域的應用很豐富,例如語言翻譯、情感分析、客服機器人、新聞生成、輿情監控、文檔歸類、簡歷篩選等等。而從技術的角度,最多的應用就是文本分類,包括多元分類、多級別分類、多標簽分類等。

針對層出不窮的文本分類需求,有必要設計出分類專用引擎,以提高效率和降低成本,并增強復用性。

一、整體設計

對于一個文本分類項目,在架構上分為數據處理、文本分類、文本挖掘和結果展現四個部分。本文著重在分類引擎的設計上。

引擎需要考慮的因素很多,基于目前的技術發展,以下幾點需要重點考慮并解決:

1、如何選擇基礎算法

2、如何減少標簽數據量

3、如何處理訓練數據的不均衡

4、如何處理多達幾十上百的類別

二、NLP基礎算法選擇

從2013年Word2Vec開始,可以選擇的常用基礎算法有GloVe,FastText,ELMo,GPT1.0,BERT,Bert as a service,MT-DNN,GPT2.0等等,最近一段時間發展的速度令人咋舌。具體如何進行選擇呢?

首先要選擇句子級別的算法,因為詞級別算法沒有考慮詞之間的關系和語序,不僅處理不了語義組合、多義詞、轉折、依賴等各種語言學上的語法現象,連簡單的語序也處理不了,我欠你一百萬和你欠我一百萬這種在語義上/現實社會中巨大的差異被忽視,語言處理能力較低。

其次要選擇預訓練模型,而不是從零開始構建。動輒幾億參數的預訓練模型以多層的神經網絡結構和巨大的訓練數據量,已經學會了大量的語言知識,具有了超凡的語言理解能力。而且這類模型很多公司從成本角度是無法自己訓練的,站在巨人的肩膀上會是明智的選擇。

再次,從實際應用的角度,算法是否易用,網絡資料是否齊全,也是要考慮的因素。因此上述的各種選擇中,基于Transformer/Self-Attention,并能提供下游任務接口的BERT就成為不讓之選。

三、令人頭痛的數據標注

AI目前整體上還是處于弱人工智能階段,簡單說就是有人工才有智能,只有人類教會機器/算法如何工作,機器/算法才能分辨出不同的類別。這個教的具體動作,就是提供打好標簽的數據來訓練模型。大家常說的數據是基礎,數據是燃料,數據是動力都是這個意思。

而給數據打標簽的工作,也是目前人工智能領域的痛點之一,還催生了專門做數據標注的公司。常有人抱怨人工智能的項目一半以上的時間和費用都投入到了做數據標注上。

那么有沒有技術上的方法來減少這種痛苦呢?有,那就是主動學習(Active Learning),其目的不是不再標注數據,而是大大減少標注的數據量。其基本的原理是,通過人工智能的方法來主動選擇出標注意義更大的數據,以達到用一半的數據標注就能訓練出滿意效果的目的。

此方法的理論依據是標注數據量和模型正確率之間的關系。人們往往以為隨著數據量的增長,準確率會持續提升,其關系是向右上方升起的一根直線,即線性關系。而根據實際試驗,兩者的關系是一條弧線,在初始階段隨著標注數據量的增長,多次訓練的準確率會大幅提升,之后增幅就逐漸減小,效果越來越不明顯。

如何主動學習呢?方法很多,使用算法和信息熵迭代操作會大大提升效率。具體步驟說明如下:

第一個啟動模型采用遷移學習的思路,選擇其它項目的成熟模型作為啟動點。由于每個項目的具體分類不同,模型不能重用,但舉例來說,對洗衣機的負面評價判別模型,用在冰箱評價上也是一個好的起點,比起從零開始構造模型,會大大減輕工作量和縮短項目時間。

以遷移過來的模型作為初始模型,對全部沒有標注的數據直接分類。由于沒有標注,分類結果無法判斷對錯,但是每一行數據的分類結果可以生成總和為一的概率分布,而排在第一位的概率數字代表了模型對于分類的信心。概率越高,確定性越大,則信息熵越小,而我們需要挑選出來的是信息熵最大的那一批數據,對其進行標注。如果最難分類的數據都被成功歸屬到了正確的類別,那么其它數據就更容易分類了。這樣標注的數據就不再是隨機進行選擇,而是被精準定位,從而大大降低標注量。

用第一批標注的數據來訓練出第一個真實模型,而用此模型來挑選出下一批需要標注的數據,多次重復此過程,直至準確率曲線不再升高,或升高的幅度不值得再投入人員和時間進行標注,就結束模型訓練,完成分類任務。

四、如何處理數據的不均衡

在進行文本分類時,訓練和測試數據量對于不同的類別往往并不均衡,有的類別多,有的類別少。這會導致訓練出來的模型對于不同的類別區分的能力不同,對于數據量較大的類效果較好,也會把很多其它類數據誤判為這個類別。其技術原因是模型訓練時的唯一目的是最小化損失函數,而數據量較大類的數據對損失函數影響更大。

如果已知測試數據集的數據分布,并且確定真實數據集與測試數據集的分布相同,那么可以按此分布來調整訓練數據。如果無法得知真實數據的分布,則應該訓練出對每一個類別都有相同分辨能力的模型,因此需要處理數據的不均衡問題。

處理的技術方法中最常用的是上采樣和下采樣,即對超過平均數的類減少數據量,對不足平均數的類增加數據量。下采樣時隨機減少即可,上采樣時對于文本可以用翻譯軟件進行多種語言間的來回翻譯,或者直接拷貝數據成多份,再隨機打亂。

那么除了數據的上下采樣以外,還有沒有其它的方法呢?既然技術原因是由于損失函數僅僅按照每類訓練數據量的大小對待不同類別,那么完全可以調整損失函數,按照類別數量差異區別對待。其具體方法有靜態調整和動態調整兩種。

猜你喜歡
分類人工智能文本
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
人工智能與就業
IT經理世界(2018年20期)2018-10-24 02:38:24
數據分析中的分類討論
教你一招:數的分類
數讀人工智能
小康(2017年16期)2017-06-07 09:00:59
下一幕,人工智能!
南風窗(2016年19期)2016-09-21 16:51:29
主站蜘蛛池模板: 国产高清在线丝袜精品一区 | 国产精品蜜芽在线观看| 亚洲水蜜桃久久综合网站| 国产区网址| 伊人久久大香线蕉aⅴ色| 国产日韩欧美视频| 亚洲日韩精品伊甸| 国产视频你懂得| 中国丰满人妻无码束缚啪啪| 色网站免费在线观看| 亚洲二区视频| 亚洲欧美综合在线观看| 无码专区国产精品第一页| 国产亚洲欧美在线专区| 日韩AV无码免费一二三区| 丁香六月激情综合| 精品国产免费人成在线观看| 日韩福利在线视频| 69免费在线视频| 少妇被粗大的猛烈进出免费视频| 亚洲无线一二三四区男男| 91成人免费观看在线观看| 在线日韩日本国产亚洲| 精品一区二区三区自慰喷水| 亚洲精品另类| 99精品在线视频观看| 国产v精品成人免费视频71pao| 国产精品99在线观看| 99视频在线免费| 国产全黄a一级毛片| 亚洲第一极品精品无码| 日韩无码黄色| 日韩免费毛片视频| 国产精品福利在线观看无码卡| 女人天堂av免费| 亚洲人成网站观看在线观看| 日本亚洲成高清一区二区三区| 成人在线亚洲| 亚洲成aⅴ人在线观看| 欧美第二区| 亚洲黄色网站视频| 丰满人妻久久中文字幕| 狠狠色噜噜狠狠狠狠色综合久 | 国产精品成人久久| 亚洲aaa视频| 在线观看网站国产| 97在线免费| 国产网站黄| 国产成人精品免费视频大全五级 | 国产精品99久久久久久董美香| 韩日午夜在线资源一区二区| 日本黄色不卡视频| 久久久噜噜噜| 日本道综合一本久久久88| 日本人又色又爽的视频| 丰满人妻中出白浆| 日本久久网站| 99re在线免费视频| 国产黄色爱视频| 狠狠色综合久久狠狠色综合| 国产主播喷水| 草草影院国产第一页| 2022精品国偷自产免费观看| 国内丰满少妇猛烈精品播| 国产亚洲精品自在线| 国产亚洲精| 国产综合亚洲欧洲区精品无码| 国产日韩精品一区在线不卡| 一区二区三区国产精品视频| 真人免费一级毛片一区二区| 亚洲人成人伊人成综合网无码| 国产剧情国内精品原创| 亚洲美女视频一区| 亚洲第一成年免费网站| 中文字幕久久亚洲一区| 免费99精品国产自在现线| 98超碰在线观看| 日韩天堂视频| 国产正在播放| 国产91丝袜| 亚洲综合精品香蕉久久网| 亚洲av日韩综合一区尤物|