趙 煜 蔡皖東 樊 娜 劉 念
摘要:針對短篇幅文本數據稀疏的特性,提出了一種利用外部語料庫知識提高短篇幅文本分割準確率的方法。該方法分2個步驟完成:①利用Gibbs采樣方法估計語料庫對應的潛在狄利克雷分配(LDA)模型,并利用該模型推斷目標文本的潛在語義結構信息;②通過定義語義段落內凝聚性和語義段落間發散性2個目標函數,將文本分割問題轉化為多目標優化問題。采用一種針對文本分割的并行遺傳算法,獲得全局最優解。通過實驗,在文本數據稀疏的情況下,該算法在準確率方面優于多元判別分析(MDA)方法和基于LDA的文本分割方法,對于提高文本分割的準確率是可行和有效的。