柏藝珊++黃展原
摘 要 自然語言處理技術在快速發展中,為人們的生活帶來了一定的便捷。監督學習方法在自然語言處理技術發展過程中起到了推動型作用,但是監督學習方法在落實過程中對于有關資料的依賴性較高,非常容易出現標注預料缺乏的問題。在這種情況下,半監督學習就是一種最為的選擇。半監督學習主要是對于標記數據與無標記數據同時進行應用,這樣能夠充分利用標記數據,進而推動自然語言處理技術的發展。
【關鍵詞】半監督學習 跨語言詞性標注 主動學習
半監督學習是近幾年機器學習領域內最為熱點的一個課題,主要就是對于標記數據與無標記數據利用進行分析研究,進而獲得比原有有監督學習方法更加優良的功能。半監督學習理念只從推出之后,科研人員研究了較多的方法,但是現在實際應用過程中還是存在較多并未標注的數據,在標注數據獲取上面具有較高的難度,未標記數據數量遠遠超過標記數據數量。就以生物學角度而言,科研人員在蛋白質結構分析上面可以花費多年的研究時間,其中無標記樣本數量占據大部分。
1 基于主動學習的半監督支持向量機研究與應用
1.1 半監督支持向量機的定義
半監督支持向量機是一種具有代表性的半監督機器學習算法,是支持向量機算法內的一個分支結構。分類準測也就是對于最大與最小風險數值對于標準進行檢測。半監督支持向量機與聚類假設十分吻合,聚類假設主要表示在將分類界面內的數據最大程度進行分析之后,所劃分得到的區域。
1.2 最優化方法
半監督支持向量機在對于最優化目標尋找過程中,只有一個目的就是對于非凸優化問題進行分析,大部分科研人員在研究過程中都是應用求近似解的方式,通過迭代的形成,逐漸尋找到優化目標。在對于非凸優化問題計算過程中,最為主要的限制因素就是半監督支持向量機。本文在最優化方法分析研究過程中,利用平均隨機梯度下降的方法進行分析。
隨機梯度下降算法是隨機近似算法被的重要組成部分,在機器學習結構內應用十分廣泛,例如支持向量機。隨機梯度下降算法應用最為主要的一個優勢就是能夠對于權重向量進行在線更新。
就隨機近似算法理論而言,在實際應用過程中無法計算到最佳結果,但是伴隨著近幾年科研人員對其深入性研究分析,科研人員研究發現,訓練數據在保證充足的情況下,在迭代計算過程中,隨機梯度下降類算法能夠計算得出最優結果。這個發現對于開展大規模訓練活動而言,對于整個活動開展具有促進性意義。平均隨機梯度下降與原有隨機梯度下降在應用效果上面相比較,所具有的收斂速度更加快速,計算穩定性也得到了顯著提高。
正常情況下,對于樣本進行梯度計算求和結果,等同于每次對于樣本的隨機性選擇,對于梯度進行計算,權重也能夠在線更新。
2 基于圖的半監督算法在自然語言處理中的應用
近幾年,科研人員對于圖的半監督算法給與了較高的關注,主要原因是由于圖的半監督算法與一般假設相比較,應用更加便捷,解釋十分容易,在應用的領域內都取得了良好的效果。但是,圖的半監督算法在應用過程中十分繁瑣,同時由于計算流程屬于直推式的,這樣也就表示在對于測試集更換之后,需要重新進行計算。圖的半監督算法在小數據集上面雖然取得了一定成果,但是在大規模數據上面應用還存在一定不足。基于圖的半監督算法在自然語言處理中應用,主要原因有兩個,分別是復雜度較高與計算代價。
2.1 基于圖的半監督算法
基于圖的半監督算法在實際應用過程中,就是將樣本內全部數據構建成為一個相似性較高的圖,圖上面所具有的每一個點都能夠代表一個樣本內的數據,兩個節點之間的間距一般情況下標示樣本之間所具有的相似度,表示出兩個樣本之間所具有的關聯。在對于相似性進行定義過程中,主要有兩種方法,年分別是高斯核與K緊鄰。
2.2 NLP任務中圖算法數據稀疏問題的解決方法
2.2.1 詞向量簡介
近幾年,詞向量在自然語言內得到了顯著關注。詞向量主要是在深度學習算法之后計算得出,詞向量應用到自然語言處理領域內,最為關鍵的一個技術就是詞語用法。
在自然語言處理領域內,統計方法已經成為主流方法,自然語言問題在轉變為機器學習問題的時候,首先就需要應用數學符號對于自然語言問題進行表示。
在詞向量沒有產生之前,自然語言處理應該最為廣泛的方式為one-hot,這種表示方法主要就是將自然語言轉變為o/l向量,向量的長度就是詞語長短。
2.2.2 詞匯化特征與詞向量特征的使用方式
在對于詞匯化特征與詞向量特征使用方式分析研究過程中,就以詞性標注任務作為研究對象,對于詞向量特征怎樣提高標準精確性進行分析研究。
在自然語言處理領域內,最為基礎性技術就是詞性標注,為每個詞匯標注針對性信息。正常情況下,在對于詞性標注過程中,可以將其看成序列標注問題,部分科研人員還將其看成分類問,本文在分析研究中,就將其看稱為分類問題。要是文內一共具有n個詞性,在對于每一個詞進行標注過程中,一共能夠劃分為n類,這樣詞性標注就能夠成為一個多分類問題。在對于不同分類問題解決過程中,很多現有機器學習模型都能夠得到有效應用。
3 結論
機器學習方法在自然語言處理過程中已經得到了廣泛應用,半監督算法在自然語言基礎性問題處理上面得到了廣泛應用,例如詞性標注等,取得了顯著成績。原有監督算法在實際應用過程中對于標注資料具有較高的依賴性,但是標注預料對于人力資源需求數量較高,進而造成標注語料在擴展上面存在較大難度。半監督算法就是在這種條件之下產生,已經成為機器學習領域內的主要發展趨勢,主要是就是將標記數據與無標記數據進行利用,進而對于全部數據進行有效利用。
參考文獻
[1]T?ckstr?m O,Mc Donald R,Uszkoreit J.Cross-lingual word clusters for direct transfer of linguistic structure[C]//Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Association for Computational Linguistics,2012:477-487.
作者單位
對外經濟貿易大學 北京市 100029