宋立峰
?
中文分詞算法在專利文獻中的應用研究*
宋立峰
福建省知識產權信息公共服務中心
介紹了專利文獻中中文分詞的基本方法,主要分析了基于詞類的錯誤驅動學習方法、條件隨機場方法、期望最大值方法在分詞方面的應用,并進行了對比實驗。
專利文獻 中文 分詞
專利文獻包含全世界科學技術信息內容的90%[1],其中不僅包含技術也包括法律和經濟信息,除了某些需要保密的領域,如軍工行業,專利文獻涉及了絕大部分工程技術領域,如果能有效利用這些信息,就可以避免重復研發,減少開發時間,降低開發成本,也可以有效防止侵犯他人合法權益,降低企業風險。
怎樣才能高效地利用海量專利文獻信息,從這些信息中查找到需要的資料,解決這個問題的關鍵是對專利文獻進行精確快速的檢索,而進行檢索的最重要一步是對海量專利文獻進行索引,沒有索引就無法快速精確地檢索到需要的信息,索引的基礎則是對文獻進行分詞,分詞的質量決定了索引的質量,一種好的分詞方法可以大幅提高文獻的查準率。中文分詞有兩塊難點,一個是分詞的歧義,一個是未收錄詞的判斷[2],專利文獻的用詞,有其自己的特點,存在著大量未收錄的專業術語,而歧義詞語僅占很小的一部分,在分詞的時候必須重點考慮專業術語的切分,因為其對整體性能的影響是歧義影響的5倍[3]。下節將重點描述這方面的內容。
我們首先需要研究專利文獻的用詞特點,通過了解掌握這些特點,可以利用這些規律,更好地進行分詞處理,提升分詞效率。……