曹東朝
黑龍江省科學技術情報研究院 黑龍江 哈爾濱 150001
隨著祖國科技日新月異的變化,科研技術的重要性被強勢彰顯。以科研技術為依托的經濟產業發展迅猛,知識產權已然成為各個國家﹑各個企業間競爭的手段和成功的奠基石。專利的發展已成為科技發展的組成部分,基于此背景,專利檢索與分析研究的工作重點包括專利的可專利性檢索﹑技術現狀檢索和相關性檢索方法等。專利以其內容類別的復雜性﹑抽象性和獨一無二的專屬性等特點,使傳統的專利檢索與分析受到了巨大的阻力,因此,支持技術創新的專利檢索與分析勢在必行。
所謂專利檢索,就是從數量密集的專利大數據中獲取所需的信息或資料。對于專利相關工作者而言,專利檢索是一項持續性長且使用頻繁的工作環節,無論在任何工作節點都能使用檢索功能,如技術交底書的背景技術撰寫,發明﹑實用新型及外觀設計的專利權評價報告,PCT或PPH的審查,相關專利的查找,專利侵權,等等,均離不開專利檢索。另外,專利檢索在審查工作中也占有舉足輕重的地位,利用專利檢索優先審查導向也同時備受關注。專利檢索質量的好壞,是對審查效率﹑周期及專利權保護范圍的一種直觀體現。與此同時,在全球專利迅猛增長的時局下,專利檢索還代表著對“中國專利”聲譽的一種肯定﹑“專利強度”形象的一種認可以及在國際上至高的影響程度。
2014-2019年的6年時間,中國3種專利有效量持續增長(如圖1所示)。有數據顯示,在全球知識產權的專利文獻中涵蓋了全球95%的科技成果。試想,如果把有價值的專利信息合理高效地利用起來,研發時間就可以縮減很多,甚至大大降低研發經費的成本。這就說明,專利的本身潛藏著無限的潛能,值得各界學者深入的探索與更多的關注。
圖1 2014-2019年中國三種專利有效情況
專利檢索是信息檢索中的一小部分,常用的方法是準確率和召回率對算法。在實際檢索中,準確率和召回率是相互制約的,最佳的狀態是二者的值都高。可是在正常情況下,二者是對立的,一方高,則另一方就低,反之亦然。若二者數值想固定其一,更看重的往往是召回率。為了使算法的綜合性效值更高,設計專利檢索評價值PRES=1-{∑ri/n-(n+l)}/2/Nmax,i表示第幾個相關專利文檔的排名,n表示專利文獻數據中相關專利的數值,Nmax表示客戶檢索的專利數最大值。以此公式得出的設計專利檢索評價值(PRES)越高,則召回率越高,即檢索的相關信息或資料排名就越居前列。
專利檢索不同于其他科技文獻檢索,它具有獨有的特殊性。
2.1.1 專利數據內容格式不一。專利中有分類號﹑權利聲明等大量信息內容。分類號的作用是對專利文獻劃分歸類的標注,合理使用專利分類號,可以加大檢索結果的精準率。
2.1.2 對于專利檢索而言,精準率的重要性不言而喻,但與召回率相較,還有些差距。假設在海量專利中一旦有極具重要的專利產生漏檢現象,那么,對于一個企業造成的損失則是無法估量的。
2.1.3 撰寫形式的獨特性。舉個例子,對于論文的寫作方式,作者通常會站在大眾的視角進行文章的描述,這么做的目的是使讀者清晰文章表達的主旨和想要和大家講解的內容,簡單﹑易懂。而在專利撰寫過程中,專利申請人會使用一些更專業的詞匯,含糊的術語或是網絡新型的詞匯,概括地表達專利中所要講述的內容,目的是想以此將專利申請的保護范圍不局限于某一個點,體現出專利的獨特性,提升專利授權的成功概率。
2.1.4 專利檢索條件長度各異。作為一個專利申請人或是專利審查員,站在他們的角度,祈盼的是對全文的檢索功能,但卻受到基于此專利檢索的文本有成百上千的關鍵字的困擾。然而目前的檢索功能技術,如即席檢索﹑文獻和Web檢索等,其檢索信息文本的條件長度很短,舉個例子,目前網絡知名的Google搜索,最佳檢索長度僅有155個英文字符。
專利檢索按照所要檢索的目的大體上可歸結成[1]:可專利性檢索,同時也稱之為新穎性檢索﹑專利技術現狀檢索以及相關性檢索等。
2.2.1 專利的可專利性檢索(新穎性檢索)。專利檢索的一個特點就是需要檢索的文本長度相對很大,所以從根本上解決這一問題,最直接的方法就是縮短所要檢索的文本。以往最普遍的方法就是逐一統計專利文本每個詞的出現頻率,即利用一個高頻詞取代原始詞匯的查詢檢索。近幾年,通過大量研究數據得出采用高頻詞檢索的方式,效果不好,不能滿足目前專利檢索的需求。基于此背景,有人提出逆向文件頻率,即將二者結合衡量檢索詞語的重要程度。TF-IDF是適用在信息檢索與探勘的加權手段。然而,在實際專利的撰寫過程中,撰寫者需要避開對原有技術的覆蓋,撰寫新的詞匯。這便導致TF-IDF值增高,檢索受阻,無法進行大量專利詞匯的檢索,給高效工作帶來了阻礙。
2.2.2 專利的技術現狀檢索。專利技術現狀檢索的概念是已知一項技術背景(如一份專利),從大量專利數據中找到與其相近的專利。技術現狀檢索可以快速便捷地幫助所需客戶知悉相關技術領域中最新的發展動態,為其對未來確定新的發展方向提供技術支持,對于技術資源的分配更有效合理。而對于技術現狀檢索最基本也是最關鍵的制約因素是檢索條件的采樣。基于召回率對專利檢索的重要性,需采取查詢擴展的方法來加快檢索的成效,所以,搜索查找有效的擴展詞成為整個檢索中的重要環節。
2.2.2 .1 第三方知識庫的擴展方法[2]。目前,專利現狀查詢需要突破解決以下兩點問題,第一,基于提供檢索的詞為組關鍵詞,加之每一個關鍵詞歸屬的題目分類各異,故不能鎖定出某一個精準的查詢結果。第二,在對需要的詞匯進行檢索時,常有“同詞不同議”的情況出現,如“平安”可能表示某個人或某件事的一種狀態定義,也可能是一個企業“平安保險公司”。大量研究數據表明,利用維基百科這類公共知識庫可以促進檢索過程中準確率和召回率更高效。世界上比較常見的專利分類法是IPC分類法,它能夠對專利的特點與功能進行詳細的描述。因此,可將IPC分類描述視為一個知識存儲庫,利用IPC消除同詞不同譯的弊端,進一步提高專利檢索的準確率和召回率。
2.2.2 .2 基于主題的檢索。眾所周知,專利是以一種文檔的形式展現出來的,主題是必須存在的重要組成部分。如何判定兩個文檔是否存在相似之處,以往的方法是檢索共同存在的詞匯量,但此方法,欠缺的是同詞不同譯的考量,另外,也會出現雖共用的詞匯不多,但也可能是相似文檔的情況。基于此問題,LDA模型對其可以做到更深入的排查與檢索,進而提高檢索的準確性。也正因為LDA模型精準性高的特點,得到各界知識產權學者的高度認可,在信息檢索和自然語言處理中利用率極高。
表1 基于LDA的專利檢索對比
2.3.3 專利的相關性檢索。專利的相關性是指專利和專利之間存在的有關聯系。英文專利中覆蓋了專利與專利之間的引用關聯。它區別于論文中的引用,二者不同。專利與專利間的引用,實際的意義是代表著該專利的權利聲明局限于另外的專利,換言之,引用的專利技術含金量低于被引用的專利。所以專利發明人在執行引用部分時,會酌情考慮,盡量減少引用范圍或引用項。這么做,其實對原有的專利來說也是厚此薄彼的。
對于專利的研究,全球各國為促進科技發展,最常用的辦法就是把先進的技術引進自己國家。通過對專利申請和專利權的轉讓﹑專利實施許可等方式具體實施。在技術引進階段,需要對專利檢索的如下要點加以重視[3]:①對專利的申請時間和授權時間以及區域的相關信息,通過專利檢索的方式仔細核實其有效性和真實性,確保專利的真實有效,避免遇見專利詐騙的現象;②檢索專利授權方,核查其身份信息,如其身份是否為合法權利人,以及國內外所有專利中在技術層面上是否存有類同相似的專利權,確保專利權的專屬性,避免侵權官司與風險;③深入進行檢索分析,真實評估所申請的專利中技術交底部分在國內外的技術水平是否領先,具有可申請的價值,避免資金的浪費與前期的人力物力的投入。
目前,世界各國和企業對知識產權的關注度與重視度越來越高,對知識產權的相關研究也大力提倡和支持。知識產權給各國各企業科技發展帶來的經濟效益和未來發展的前景意義重大。加大對知識產權的保護,深入對專利檢索的研究與分析,能夠降低各國各企業知識產權的泄露風險與投資成本的有效利用,高效快速地解鎖各科學領域對先進技術的研究實況,瞄準技術發展的正面方向,做出科學合理的決策。在專利檢索方面,相關學者們已經研究出了一點成績,如利用可專利性檢索﹑專利技術現狀檢索及相關檢索等方法,但在準確率和召回率的問題上研究深度還是遠遠不夠,有待進一步細究。另外,在專利分析方面,也取得了一定成績,但對專利數據的分析考慮仍有欠缺,不是很全面,例如,在專利中常被忽略的引用關系問題。對于未來技術創新專利檢索方面,如將引用關系合理融入研究與分析中,可使檢索和分析的結果更加可靠精準,為各國各企業提供更高效快捷的服務。