摘要:針對中文組織機構名識別中的標注語料匱乏問題,提出了一種基于協同訓練機制的組織機構名識別方法。該算法利用Tritraining學習方式將基于條件隨機場的分類器、基于支持向量機的分類器和基于記憶學習方法的分類器組合成一個分類體系,并依據最優(yōu)效用選擇策略進行新加入樣本的選擇。在大規(guī)模真實語料上與cotraining方法進行了比較實驗,實驗結果表明,此方法能有效利用大量未標注語料提高算法的泛化能力。
關鍵詞:中文組織機構名; 半監(jiān)督學習; 協同訓練; Tritraining
中圖分類號:TP391文獻標志碼:A
文章編號:10013695(2010)01019303
doi:10.3969/j.issn.10013695.2010.01.057