999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

對(duì)文本分類算法選擇和數(shù)據(jù)標(biāo)注的研究

2019-07-20 13:24:35王悅林
電子技術(shù)與軟件工程 2019年10期
關(guān)鍵詞:主動(dòng)學(xué)習(xí)

王悅林

摘要:本文針對(duì)層出不窮的文本分類需求,重點(diǎn)針對(duì)基礎(chǔ)算法和數(shù)據(jù)標(biāo)注進(jìn)行了研究。

[關(guān)鍵詞]自然語言處理 文本分類 主動(dòng)學(xué)習(xí)

1 文本分類引擎

對(duì)于一個(gè)文本分類項(xiàng)目,在架構(gòu)上分為數(shù)據(jù)處理、文本分類、文本挖掘和結(jié)果展現(xiàn)四個(gè)部分。本文著重在分類引擎的設(shè)計(jì)上。

引擎需要考慮的因素很多,基于目前的技術(shù)發(fā)展,以下幾點(diǎn)需要重點(diǎn)考慮并解決:

(1)分類效果如何評(píng)價(jià)。

(2)如何選擇基礎(chǔ)算法。

(3)如何減少標(biāo)簽數(shù)據(jù)量。

(4)如何處理訓(xùn)練數(shù)據(jù)的不均衡。

(5)如何處理多達(dá)幾十上百的類別。

篇幅所限,本文重點(diǎn)關(guān)注算法選擇和數(shù)據(jù)標(biāo)注

2 自然語言處理算法選擇

從2013年Word2Vec開始,可以選擇的常用基礎(chǔ)算法有GloVe,F(xiàn)astText,ELMo,GPT1.0,BERT,Bert as a service,MT-DNN,GPT2.0等等,最近一段時(shí)間發(fā)展的速度令人咋舌。具體如何進(jìn)行選擇呢?

首先要選擇句子級(jí)別的算法,因?yàn)樵~級(jí)別算法沒有考慮詞之間的關(guān)系和語序,不僅處理不了語義組合、多義詞、轉(zhuǎn)折、依賴等各種語言學(xué)上的語法現(xiàn)象,連簡單的語序也處理不了,我欠你一百萬和你欠我一百萬這種在語義上/現(xiàn)實(shí)社會(huì)中巨大的差異被忽視,語言處理能力較低。

其次要選擇預(yù)訓(xùn)練模型,而不是從零開始構(gòu)建。動(dòng)輒幾億參數(shù)的預(yù)訓(xùn)練模型以多層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和巨大的訓(xùn)練數(shù)據(jù)量,已經(jīng)學(xué)會(huì)了大量的語言知識(shí),具有了超凡的語言理解能力。而且這類模型很多公司從成本角度是無法自己訓(xùn)練的,站在巨人的肩膀上會(huì)是明智的選擇。

再次,從實(shí)際應(yīng)用的角度,算法是否易用,網(wǎng)絡(luò)資料是否齊全,也是要考慮的因素。因此上述的各種選擇中,基于Transformer/Self一Attention,并能提供下游任務(wù)接口的BERT就成為不讓之選。

3 高成本的數(shù)據(jù)標(biāo)注

AI目前整體上還是處于弱人工智能階段,簡單說就是有人工才有智能,只有人類教會(huì)機(jī)器/算法如何工作,機(jī)器/算法才能分辨出不同的類別。這個(gè)教的具體動(dòng)作,就是提供打好標(biāo)簽的數(shù)據(jù)來訓(xùn)練模型。大家常說的數(shù)據(jù)是基礎(chǔ),數(shù)據(jù)是燃料,數(shù)據(jù)是動(dòng)力都是這個(gè)意思。

而給數(shù)據(jù)打標(biāo)簽的工作,也是目前人工智能領(lǐng)域的痛點(diǎn)之一,還催生了專門做數(shù)據(jù)標(biāo)注的公司。常有人抱怨人工智能的項(xiàng)目一半以上的時(shí)間和費(fèi)用都投入到了做數(shù)據(jù)標(biāo)注上。

那么有沒有技術(shù)上的方法來減少這種痛苦呢?有,那就是主動(dòng)學(xué)習(xí)(Active Learning),其目的不是不再標(biāo)注數(shù)據(jù),而是大大減少標(biāo)注的數(shù)據(jù)量。其基本的原理是,通過人工智能的方法來主動(dòng)選擇出標(biāo)注意義更大的數(shù)據(jù),以達(dá)到用一半的數(shù)據(jù)標(biāo)注就能訓(xùn)練出滿意效果的目的。

此方法的理論依據(jù)是標(biāo)注數(shù)據(jù)量和模型正確率之間的關(guān)系。人們往往以為隨著數(shù)據(jù)量的增長,準(zhǔn)確率會(huì)持續(xù)提升,其關(guān)系是向右上方升起的一根直線,即線性關(guān)系。而根據(jù)實(shí)際試驗(yàn),兩者的關(guān)系是一條弧線,在初始階段隨著標(biāo)注數(shù)據(jù)量的增長,多次訓(xùn)練的準(zhǔn)確率會(huì)大幅提升,之后增幅就逐漸減小,效果越來越不明顯。

如何主動(dòng)學(xué)習(xí)呢?方法很多,使用算法和信息熵迭代操作會(huì)大大提升效率。具體步驟說明如下:

第一個(gè)啟動(dòng)模型采用遷移學(xué)習(xí)的思路,選擇其它項(xiàng)目的成熟模型作為啟動(dòng)點(diǎn)。由于每個(gè)項(xiàng)目的具體分類不同,模型不能重用,但舉例來說,對(duì)洗衣機(jī)的負(fù)面評(píng)價(jià)判別模型,用在冰箱評(píng)價(jià)上也是一個(gè)好的起點(diǎn),比起從零開始構(gòu)造模型,會(huì)大大減輕工作量和縮短項(xiàng)目時(shí)間。

以遷移過來的模型作為初始模型,對(duì)全部沒有標(biāo)注的數(shù)據(jù)直接分類。由于沒有標(biāo)注,分類結(jié)果無法判斷對(duì)錯(cuò),但是每一行數(shù)據(jù)的分類結(jié)果可以生成總和為一的概率分布,而排在第一位的概率數(shù)字代表了模型對(duì)于分類的信心。概率越高,確定性越大,則信息熵越小,而我們需要挑選出來的是信息熵最大的那一批數(shù)據(jù),對(duì)其進(jìn)行標(biāo)注。如果最難分類的數(shù)據(jù)都被成功歸屬到了正確的類別,那么其它數(shù)據(jù)就更容易分類了。這樣標(biāo)注的數(shù)據(jù)就不再是隨機(jī)進(jìn)行選擇,而是被精準(zhǔn)定位,從而大大降低標(biāo)注量。

用第一批標(biāo)注的數(shù)據(jù)來訓(xùn)練出第一個(gè)真實(shí)模型,而用此模型來挑選出下一批需要標(biāo)注的數(shù)據(jù),多次重復(fù)此過程,直至準(zhǔn)確率曲線不再升高,或升高的幅度不值得再投入人員和時(shí)間進(jìn)行標(biāo)注,就結(jié)束模型訓(xùn)練,完成分類任務(wù)。

參考文獻(xiàn)

[1]AshishVaswani et al.Attention is All You Need. arXiv 1706.03762.

[2]Jonas Gehring et al.Convolutional sequence to sequence learning.arXiv:1705.03122.

[3]Yonghui Wu et al. Googles neural machine translation system:Bridging the gap between human and machine translation. arXiv:1609.08144.

[4]Christian Szegedy et al.Rethinking the inception architecture for computer vision.CoRR,abs/1512.00567.

[5]Jacob Dev1in et al.BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv 1810.04805.

[6]Denny Britz et al. Massive exploration of neural machine translation architectures.CoRR,abs/1703.03906.

猜你喜歡
主動(dòng)學(xué)習(xí)
淺談《住宅空間設(shè)計(jì)專題》的教學(xué)改革
幼兒教育中實(shí)施素質(zhì)教育的研究
成才之路(2016年36期)2016-12-12 14:17:24
小組合作學(xué)習(xí)在小學(xué)音樂課堂教學(xué)中的運(yùn)用
如何在美工活動(dòng)中引導(dǎo)幼兒主動(dòng)學(xué)習(xí)
促進(jìn)小學(xué)生主動(dòng)學(xué)習(xí)
打造快樂體育課堂引導(dǎo)主動(dòng)體育學(xué)習(xí)
淺談音樂課堂中的教與學(xué)做到合一
東方教育(2016年16期)2016-11-25 03:06:31
化學(xué)教與學(xué)(2016年10期)2016-11-16 13:29:16
高中生物教學(xué)中學(xué)生主動(dòng)學(xué)習(xí)策略研究
人間(2016年28期)2016-11-10 22:12:11
數(shù)字電路課程的翻轉(zhuǎn)課堂教學(xué)及調(diào)研
主站蜘蛛池模板: 午夜天堂视频| 欧美色图久久| 在线观看精品自拍视频| 日韩人妻精品一区| 国产毛片基地| 国产精品九九视频| 91无码网站| 免费一级成人毛片| 国产在线观看精品| 影音先锋亚洲无码| 亚洲香蕉久久| 免费观看成人久久网免费观看| 国产内射一区亚洲| 视频二区中文无码| 三上悠亚精品二区在线观看| 玖玖精品在线| 午夜视频在线观看免费网站 | 免费视频在线2021入口| 国产精品自在在线午夜区app| 又黄又湿又爽的视频| 日韩在线中文| 亚洲动漫h| 久热这里只有精品6| 成年av福利永久免费观看| 秋霞国产在线| 人妻21p大胆| 亚洲欧洲天堂色AV| 一区二区三区高清视频国产女人| 91热爆在线| 伊人久久婷婷| 亚洲无码在线午夜电影| 亚洲不卡影院| 久久人搡人人玩人妻精品 | 日本爱爱精品一区二区| 国产在线自揄拍揄视频网站| 少妇精品网站| 国产亚洲欧美在线视频| 欧美日韩成人在线观看| 国产成人三级| 色综合五月婷婷| 亚洲一级毛片免费观看| 青青极品在线| 亚洲综合色婷婷| 免费中文字幕在在线不卡| 亚洲欧洲日韩综合色天使| 精品无码国产一区二区三区AV| 国产99久久亚洲综合精品西瓜tv| 玖玖精品在线| 国产主播一区二区三区| 二级毛片免费观看全程| 无码中文字幕加勒比高清| 精品国产Av电影无码久久久| 亚洲午夜福利精品无码| 色欲不卡无码一区二区| 最近最新中文字幕免费的一页| 亚洲欧美成aⅴ人在线观看 | 亚洲品质国产精品无码| 亚洲午夜国产精品无卡| 天堂成人在线视频| 国产高潮视频在线观看| 国产a v无码专区亚洲av| 九色视频最新网址| 中文字幕亚洲另类天堂| 手机永久AV在线播放| jizz亚洲高清在线观看| 国产中文在线亚洲精品官网| 亚洲不卡av中文在线| 亚瑟天堂久久一区二区影院| 日韩精品一区二区三区免费在线观看| 亚洲国产综合自在线另类| 国产第二十一页| 国产精品视频久| 在线欧美日韩国产| 亚洲免费播放| 一本大道视频精品人妻 | 国产第八页| 国产黄网站在线观看| 国产精品免费电影| 日韩无码白| 国产91丝袜在线观看| 亚洲欧美日韩成人高清在线一区| 久久久久国色AV免费观看性色|