摘要:通過研究有關基因的生物學文獻特征,提出了一種能對生物基因文獻進行自動標注與分類的方法.在K最鄰近算法的基礎上,采用了chi-Square特征選擇方案,并且在加權算法中突出了Chi-Square的選擇特點.另外,采用文檔邏輯分塊法,將額外的生物受控詞匯表中的信息所形成的向量直接引入到了分類算法中,以提高分類和標注的效果.實驗表明,所提算法優于常用的單詞頻率/逆文檔頻率加權方法,其在文本檢索大會(TREC)數據集上的分類、標注效果分別比TREC公布的最好結果提高了3.14%和4.12%。
西安交通大學學報2008年2期
1《師道·教研》2024年10期
2《思維與智慧·上半月》2024年11期
3《現代工業經濟和信息化》2024年2期
4《微型小說月報》2024年10期
5《工業微生物》2024年1期
6《雪蓮》2024年9期
7《世界博覽》2024年21期
8《中小企業管理與科技》2024年6期
9《現代食品》2024年4期
10《衛生職業教育》2024年10期
關于參考網