999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自然語言處理中半監督算法的應用

2017-03-15 11:44:27柏藝珊黃展原
電子技術與軟件工程 2017年2期
關鍵詞:主動學習

柏藝珊++黃展原

摘 要 自然語言處理技術在快速發展中,為人們的生活帶來了一定的便捷。監督學習方法在自然語言處理技術發展過程中起到了推動型作用,但是監督學習方法在落實過程中對于有關資料的依賴性較高,非常容易出現標注預料缺乏的問題。在這種情況下,半監督學習就是一種最為的選擇。半監督學習主要是對于標記數據與無標記數據同時進行應用,這樣能夠充分利用標記數據,進而推動自然語言處理技術的發展。

【關鍵詞】半監督學習 跨語言詞性標注 主動學習

半監督學習是近幾年機器學習領域內最為熱點的一個課題,主要就是對于標記數據與無標記數據利用進行分析研究,進而獲得比原有有監督學習方法更加優良的功能。半監督學習理念只從推出之后,科研人員研究了較多的方法,但是現在實際應用過程中還是存在較多并未標注的數據,在標注數據獲取上面具有較高的難度,未標記數據數量遠遠超過標記數據數量。就以生物學角度而言,科研人員在蛋白質結構分析上面可以花費多年的研究時間,其中無標記樣本數量占據大部分。

1 基于主動學習的半監督支持向量機研究與應用

1.1 半監督支持向量機的定義

半監督支持向量機是一種具有代表性的半監督機器學習算法,是支持向量機算法內的一個分支結構。分類準測也就是對于最大與最小風險數值對于標準進行檢測。半監督支持向量機與聚類假設十分吻合,聚類假設主要表示在將分類界面內的數據最大程度進行分析之后,所劃分得到的區域。

1.2 最優化方法

半監督支持向量機在對于最優化目標尋找過程中,只有一個目的就是對于非凸優化問題進行分析,大部分科研人員在研究過程中都是應用求近似解的方式,通過迭代的形成,逐漸尋找到優化目標。在對于非凸優化問題計算過程中,最為主要的限制因素就是半監督支持向量機。本文在最優化方法分析研究過程中,利用平均隨機梯度下降的方法進行分析。

隨機梯度下降算法是隨機近似算法被的重要組成部分,在機器學習結構內應用十分廣泛,例如支持向量機。隨機梯度下降算法應用最為主要的一個優勢就是能夠對于權重向量進行在線更新。

就隨機近似算法理論而言,在實際應用過程中無法計算到最佳結果,但是伴隨著近幾年科研人員對其深入性研究分析,科研人員研究發現,訓練數據在保證充足的情況下,在迭代計算過程中,隨機梯度下降類算法能夠計算得出最優結果。這個發現對于開展大規模訓練活動而言,對于整個活動開展具有促進性意義。平均隨機梯度下降與原有隨機梯度下降在應用效果上面相比較,所具有的收斂速度更加快速,計算穩定性也得到了顯著提高。

正常情況下,對于樣本進行梯度計算求和結果,等同于每次對于樣本的隨機性選擇,對于梯度進行計算,權重也能夠在線更新。

2 基于圖的半監督算法在自然語言處理中的應用

近幾年,科研人員對于圖的半監督算法給與了較高的關注,主要原因是由于圖的半監督算法與一般假設相比較,應用更加便捷,解釋十分容易,在應用的領域內都取得了良好的效果。但是,圖的半監督算法在應用過程中十分繁瑣,同時由于計算流程屬于直推式的,這樣也就表示在對于測試集更換之后,需要重新進行計算。圖的半監督算法在小數據集上面雖然取得了一定成果,但是在大規模數據上面應用還存在一定不足。基于圖的半監督算法在自然語言處理中應用,主要原因有兩個,分別是復雜度較高與計算代價。

2.1 基于圖的半監督算法

基于圖的半監督算法在實際應用過程中,就是將樣本內全部數據構建成為一個相似性較高的圖,圖上面所具有的每一個點都能夠代表一個樣本內的數據,兩個節點之間的間距一般情況下標示樣本之間所具有的相似度,表示出兩個樣本之間所具有的關聯。在對于相似性進行定義過程中,主要有兩種方法,年分別是高斯核與K緊鄰。

2.2 NLP任務中圖算法數據稀疏問題的解決方法

2.2.1 詞向量簡介

近幾年,詞向量在自然語言內得到了顯著關注。詞向量主要是在深度學習算法之后計算得出,詞向量應用到自然語言處理領域內,最為關鍵的一個技術就是詞語用法。

在自然語言處理領域內,統計方法已經成為主流方法,自然語言問題在轉變為機器學習問題的時候,首先就需要應用數學符號對于自然語言問題進行表示。

在詞向量沒有產生之前,自然語言處理應該最為廣泛的方式為one-hot,這種表示方法主要就是將自然語言轉變為o/l向量,向量的長度就是詞語長短。

2.2.2 詞匯化特征與詞向量特征的使用方式

在對于詞匯化特征與詞向量特征使用方式分析研究過程中,就以詞性標注任務作為研究對象,對于詞向量特征怎樣提高標準精確性進行分析研究。

在自然語言處理領域內,最為基礎性技術就是詞性標注,為每個詞匯標注針對性信息。正常情況下,在對于詞性標注過程中,可以將其看成序列標注問題,部分科研人員還將其看成分類問,本文在分析研究中,就將其看稱為分類問題。要是文內一共具有n個詞性,在對于每一個詞進行標注過程中,一共能夠劃分為n類,這樣詞性標注就能夠成為一個多分類問題。在對于不同分類問題解決過程中,很多現有機器學習模型都能夠得到有效應用。

3 結論

機器學習方法在自然語言處理過程中已經得到了廣泛應用,半監督算法在自然語言基礎性問題處理上面得到了廣泛應用,例如詞性標注等,取得了顯著成績。原有監督算法在實際應用過程中對于標注資料具有較高的依賴性,但是標注預料對于人力資源需求數量較高,進而造成標注語料在擴展上面存在較大難度。半監督算法就是在這種條件之下產生,已經成為機器學習領域內的主要發展趨勢,主要是就是將標記數據與無標記數據進行利用,進而對于全部數據進行有效利用。

參考文獻

[1]T?ckstr?m O,Mc Donald R,Uszkoreit J.Cross-lingual word clusters for direct transfer of linguistic structure[C]//Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Association for Computational Linguistics,2012:477-487.

作者單位

對外經濟貿易大學 北京市 100029

猜你喜歡
主動學習
淺談《住宅空間設計專題》的教學改革
幼兒教育中實施素質教育的研究
成才之路(2016年36期)2016-12-12 14:17:24
小組合作學習在小學音樂課堂教學中的運用
如何在美工活動中引導幼兒主動學習
促進小學生主動學習
打造快樂體育課堂引導主動體育學習
淺談音樂課堂中的教與學做到合一
東方教育(2016年16期)2016-11-25 03:06:31
發揮家庭小實驗的功能 提高學生的實驗能力
高中生物教學中學生主動學習策略研究
人間(2016年28期)2016-11-10 22:12:11
數字電路課程的翻轉課堂教學及調研
計算機教育(2016年7期)2016-11-10 08:44:58
主站蜘蛛池模板: 中文字幕免费在线视频| 国产成人福利在线| 亚洲免费黄色网| 久久香蕉国产线看观看式| 99久久国产综合精品2020| 久久国产亚洲偷自| 国产xx在线观看| 色一情一乱一伦一区二区三区小说| 欧美成人看片一区二区三区| 亚洲综合色在线| 久久香蕉国产线看观看亚洲片| 亚洲区第一页| 欧美一级99在线观看国产| 国产欧美日韩免费| 精品视频福利| 久青草免费在线视频| 九月婷婷亚洲综合在线| 国产精品九九视频| 久久久久九九精品影院 | 欧美午夜一区| 欧美区一区| 萌白酱国产一区二区| 亚洲综合久久成人AV| 区国产精品搜索视频| 国产AV毛片| 亚洲侵犯无码网址在线观看| 亚洲国产精品无码久久一线| 亚洲熟妇AV日韩熟妇在线| 国产成人一二三| 美女潮喷出白浆在线观看视频| 日韩一区二区三免费高清| 日韩欧美亚洲国产成人综合| 色成人综合| 天堂亚洲网| 91精品综合| 91亚洲精选| 国产精品亚洲va在线观看| 精品国产美女福到在线直播| 欧美色综合网站| 国产成人精品无码一区二| 久久不卡国产精品无码| 国产欧美专区在线观看| 国产第一页屁屁影院| 一本大道AV人久久综合| 国产91视频观看| 日韩精品无码不卡无码| 成人免费一区二区三区| 毛片手机在线看| 人妻无码中文字幕第一区| 国产精品内射视频| 天天做天天爱夜夜爽毛片毛片| 午夜精品一区二区蜜桃| 另类专区亚洲| 91久久大香线蕉| 91欧美在线| 99性视频| 亚洲精品欧美重口| 久久窝窝国产精品午夜看片| 国产主播福利在线观看| 精品综合久久久久久97| 欧美一区二区三区欧美日韩亚洲 | 日韩精品专区免费无码aⅴ| 亚洲AV色香蕉一区二区| 成人小视频网| 日本久久网站| 美女扒开下面流白浆在线试听| 99久久99视频| 毛片基地视频| 亚洲国产成人综合精品2020| 999精品色在线观看| 亚洲三级色| 国产精品一区在线麻豆| 欧美一区中文字幕| 欧美在线三级| AV网站中文| 国产一区亚洲一区| 全免费a级毛片免费看不卡| 婷婷伊人久久| 在线免费不卡视频| 欧美狠狠干| AV片亚洲国产男人的天堂| 久久精品免费看一|