摘 要:針對中西文混合字符串,采用了將漢字作為西文字符的等價單位計算編輯距離的方法,并從輸入法的角度提出了采用拼音編碼和五筆編碼計算編輯距離的方法,最后給出了融合三種編輯距離計算字符串相似度的算法。仿真結果表明,該方法在提高相似重復記錄檢測的查全率的同時,也能獲得較高的查準率。關鍵詞:數據清洗;相似重復記錄;字符串匹配;字符串相似度;編輯距離
計算機應用研究2010年12期
1《師道·教研》2024年10期
2《思維與智慧·上半月》2024年11期
3《現代工業經濟和信息化》2024年2期
4《微型小說月報》2024年10期
5《工業微生物》2024年1期
6《雪蓮》2024年9期
7《世界博覽》2024年21期
8《中小企業管理與科技》2024年6期
9《現代食品》2024年4期
10《衛生職業教育》2024年10期
關于參考網