王澍 鄭德權 趙鐵軍
摘要: 從互聯網上挖掘大量雙語平行句對,可以快速有效地構建大規模雙語資源,服務于統計機器翻譯。從挖掘對象的不同,將網絡數據源分成對照網頁和平行網頁兩類,提出一種抽取雙語句對的方法。首先,從上述兩類網頁中分別抽取平行文本段,對照網頁文本段抽取的主要方法為頁面過濾和模板匹配,而平行網頁依賴于網頁結構的相似,采用對應節點匹配方法;其次,采用Gale-Church算法進行句對齊,得到平行句對;最后統一進行后處理。實驗結果表明,從對照網頁獲取平行句對的準確率達到93.3%,平行網頁為93.5%。