尹夢巖 王夢霞
(國家知識產權局專利局審查協作廣東中心,廣東 廣州 510000)
檢索是專利行政審批中非常關鍵的環節,而檢索離不開檢索系統,傳統的檢索系統如中文摘要庫、中文全文庫、DWPI數據庫,一些新的語義檢索系統如Patentics、Incopat也為人們熟知,智能語義檢索系統的特點在于基于語義檢索模型與模型構建后的向量空間矩陣計算[1],并不局限于關鍵詞的比對,而是整個文獻之間的關系,依托于大數據的處理,從而更快更好地得到對比文件。
相應的,國家知識產權局也推出了自己的智能檢索環境,在保留原有S系統核心功能的基礎上,新增加了語義檢索、語義排序等智能化檢索模塊[2]?;谏鲜龉δ?,智能檢索環境提供了四種常用的檢索策略,分別為純語義檢索、先語義后布爾限定、先布爾檢索后語義排序和純布爾檢索[3],其中語義排序是智能檢索環境的核心功能。語義排序功能的實現和其他智能檢索環境類似,先提取本申請或者自定義文本中的關鍵詞等作為語義分詞,然后生成詞典,計算詞向量,得到語義分詞的關系矩陣,對相關的文獻根據關系矩陣計算相關度并進行排序。由此可見,語義分詞對于文獻的檢索是非常關鍵的。一般情況,智能檢索環境會給出約20個語義分詞以及相關的權重,審查員在檢索時可對語義分詞進行增加、刪減和/或更改權重,以期望更快地得到可用對比文件,然而,語義分詞的調整方向有很多,如何干預分詞才能夠更加準確快速地定位對比文件,是值得探討的問題,本研究結合兩個案例對語義檢索過程中語義分詞調整的調整策略進行初步探討。
如前所述,語義分詞可以增加、刪減和/或更改權重,下面主要從增加關鍵分詞、刪除部分分詞、僅保留關鍵分詞這三個情況進行探討,并相應地調整關鍵分詞的權重,進而得到這三種情況下分詞對對比文件的排序影響。
一種可降解環???。權利要求1范圍如下。其特征在于,包括以下重量份數配比的原料:PLA和增塑劑。根據記載,本發明提供了一種可降解環??奂捌渖a工藝,具備可降解環保等優點,該種漸變色樹脂紐扣以及其他塑料紐扣無法進行自然降解,不能夠形成二氧化碳和水等自然界常見形態的化合物,對地球環境造成巨大的威脅,故而提出一種可降解環??奂捌渖a工藝解決上述問題。因此,本申請的要點在于使用聚乳酸制備成可降解的紐扣,關鍵詞為聚乳酸+紐扣。
首先進行純語義檢索,在智能檢索數據庫中選擇中文全文庫,語義基準為本申請的申請號,瀏覽前5頁給出的100篇文獻,其中無可用對比文件。然后進行布爾檢索后語義排序,數據庫不變,限定關鍵組分進行檢索,檢索式如下:(聚乳酸or PLA or聚丙交酯or P?LA)p(紐扣or扣or紐)檢索結果共851篇,瀏覽得到文獻CN101902932A,其公開了由生物質原料制成的鈕或鍵,其具有160℃以上的熱變形溫度。所述的鈕或鍵將含有樹脂的成型材料成型而成,其中所述樹脂包含聚乳酸;通過適用JIS-S-4025,具有230 N以上的強度。該文獻出現在第38位,不算靠前,但經分析可知,此對比文件和本申請相關度很高,已經公開了本申請的發明構思,按照上述思路調整檢索的語義分詞,嘗試分析語義分詞和文獻排序的關系。
1.1.1 增加關鍵分詞。展開系統中給出的語義分詞,分別為固相聚合、二甲酸二丁酯、烘料、磷酸三甲酚酯、丙交酯、減水、精化、抗拉伸、切粒、攪拌釜、聚乳酸、可降解、開環、自然界、淀粉,而從前面的分析可知,關鍵的分詞為聚乳酸、紐扣/鈕扣,因此添加語義分詞紐扣、鈕扣,并將紐扣、鈕扣和聚乳酸的權重調整為5,對比文件出現在第43位,相關度反而降低。
降低上述語義分詞的權重為4,發現該對比文件出現在第39位,相關度增加;繼續調整權重為3,相應對比文件出現在第27位;調整為2/1,相應排在第14/22位。除去前面一些時間不可用的文獻,這樣的排序已經很靠前了。
1.1.2 刪除部分分詞。從前面給出的分詞中可以看出有些分詞如攪拌釜、固相聚合在該申請中只是泛泛提及,和該申請關鍵的發明點關系不大,將這些分詞刪除,并將分詞聚乳酸、紐扣權重調整為5,以申請號為基準進行語義排序,上述對比文件排序為第47位;將分詞權重調整為4,對比文件排序為第36位;繼續權重調整為3,對比文件排序為第24位。權重調整為2,對比文件排序為第15位;權重調整為1,對比文件排序為第17位。
1.1.3 僅保留關鍵分詞。將認為不相關的分詞全部刪除,僅保留關鍵的聚乳酸、紐扣/鈕扣,并將權重設置為5,語義排序后該文獻排在第43位。隨后將分詞權重依次調整為4→3→2→1,對比文件相應的排序依次為41→33→12→24。
目前分詞中僅含有上述三個分詞,可以進一步探討哪個分詞對結果影響最大,設置分詞聚乳酸和鈕扣的權重使其不同,調整聚乳酸分詞權重為5,其他分詞權重為1,結果對比文件直接降到了第116位;調整紐扣分詞權重為5,聚乳酸權重為1,對比文件排序為第46位。從上面的結果可以知道,分詞聚乳酸對對比文件排序產生是負向影響,而紐扣則產生正向影響的。調整紐扣分詞權重為3,聚乳酸等分詞權重為2,對比文件排序為第23位。刪除分詞聚乳酸,對比文件排序變為第19位。
對上文中探究過程進行總結,見表1。
從表1可以看出,是否刪除分詞對排序影響不大,三種情況下對比文件的排序和分詞權重的關系是相似的,分詞權重從5變化到1時,對比文件的排序都是先變得更加靠前然后有所下降,因此設置分詞權重為2或3時,對比文件排序更為靠前,有更大可能更快獲得對比文件。

表1 分詞調整的探究過程總結
上述語義分詞的調整結果和預想有所差別,比如關鍵特征的分詞權重很高,刪除無關分詞僅保留關鍵分詞,反而對比文件的排序較低,這可能是因為智能檢索環境下,以申請號作為語義基準時,對一篇文獻標引的語義分詞是非常多的,可能有幾百個,審查員能看到的僅有前20個,存在大量看不到無法調整的語義分詞,而對于對比文件的排序,并不是一兩個分詞決定的,而是多個分詞的組合決定的,每篇文獻都有大量的分詞組成的組合,在這兩個文獻之間進行相似度的匹配,因此,在調整分詞的時候,部分分詞的刪除可能并不是必要的,而分詞的權重也并不是越重越好。
為了驗證該猜測,下面調整語義排序基準為自定義文本,排除看不到的分詞的影響,和前面類似的只保留分詞聚乳酸、紐扣/鈕扣,并設置權重為5,對比文件排序在第192位,將權重依次調整為4→3→2→1,排序位置均為192位,并無變化。這說明貌似不相關的語義分詞其實對對比文件的排序篩選是有效果的,為了驗證這些分詞的效果,在上述基礎上手動添加系統給出的并不關鍵的分詞,即添加固相聚合、二甲酸二丁酯、烘料、磷酸三甲酚酯、丙交酯、減水、精化、抗拉伸、切粒、攪拌釜、可降解、開環、自然界、淀粉,并且設置權重和原有的相同,語義排序后對比文件為第158位。類似地刪除攪拌釜、固相聚合,對比文件變為第185位。這說明確實存在其他分詞也在影響對比文件的排序,相關對比文件的排序是多個分詞的組合決定的,刪除不相關的分詞反而會影響對比文件的位置。
系統中對比文件給出的語義分詞為酒石黃、氫氧化鉍、紐扣、氧化鐵棕、碳酸鉛、染色性、青藍、光澤、分散染料、JIS、半透明、珠光粉、高品質、強度高、樹脂、酞青藍、擠壓、氧化鐵黃、立構、透明,可以看到分詞中存在著紐扣,因此上述分詞調整中紐扣權重的調整對于對比文件的排序是正相關的。
不過相關的分詞和該申請差別也很大,而且和對比文件主要公開的內容也不相符,對比文件的語義分詞存在著大量顏料相關的關鍵詞,其實這只是對比文件泛泛提及的技術特征,所以直接語義檢索無法得到該對比文件,這也說明了布爾檢索的必要性。進一步的,該結果也說明了將看似無關的分詞全部或部分刪除后,對比文件反而不容易獲得。
故從案例1來看,對分詞的調整建議如下:①不進行調整,也可以比較快速地得到對比文件;②在進行調整時,可以先嘗試增加關鍵的分詞,相應的權重設置為2或3即可,不要進行分詞的刪除,因為從前面的結果來看,無關分詞的存在反而提高了對比文件的順次,這可能是因為這部分分詞只是看似不相關,其實在整體上影響申請文件和對比文件之間的相似程度。
下面結合案例2來看一下上述結論是否準確。
一種PPE/PS合金及其制備方法和應用。權利要求1:一種PPE/PS合金,其特征在于,按重量份計,包括以下組分:PPE樹脂和PS樹脂總重量份為100份,重量比PPE∶PS=6∶1至1∶1;碳納米管2~10份。根據說明書的記載,該申請要解決的技術問題為提供一種同時具有表面無脫碳、熱變形溫度高、電阻值大于E5的PPE/PS合金。主要的發明點在于通過復配一定比例的PPE/PS合金、采用碳納米管代替導電炭黑,解決了PPE/導電炭黑的制件表面脫碳的技術缺陷。同時,具有熱變形溫度高、當添加玻璃纖維時,該發明PPE/PS合金還具有制件表面無浮纖的優點,滿足ICTRAY盤行業的使用需求??梢钥闯霰旧暾埖臋z索要點在于組成,即聚苯醚+聚苯乙烯+碳納米管,因此,首先想到先進行語義檢索,并對語義分詞進行調整。
類似地先進行語義檢索,但前200條結果均未獲取對比文件。然后布爾檢索后語義排序,數據庫選擇為CNTXT,排序基準為申請號,布爾檢索式為:(聚苯醚or PPS)and(聚苯乙烯or PS)and(碳納米管or CNT),檢索結果為2 594篇,對比文件CN101580243A排序第168位。調整語義分詞,僅在原有語義分詞的基礎上,增加分詞聚苯醚、聚苯乙烯,權重調整為3,該對比文件排序在第46位。
如若將上述關鍵詞權重增加,調整為4,該對比文件排序在第110位,接著調整權重為5,對比文件排序為第150位??梢钥闯鲈摯螜z索和案例1的規律相符,當然,以上的探討并不嚴謹,也無法僅通過兩個案例得到確定的結論。不過,從上述案例可以得到一種傾向,即為分詞的權重先嘗試調整為2或3,有更大的期望能夠快速得到對比文件。
從以上的探究可知,在智能檢索環境中下以申請號為語義基準進行檢索時,對文獻標引了大量語義分詞,但受限于實際應用僅能給出一小部分的分詞進行調整,因此,在調整分詞的時候需要謹慎,刪除部分分詞的必要性不大甚至有相反效果,可增加部分關鍵分詞,而分詞的權重也不宜過高,建議調整為2或3即可。