于 雷,夏 鵬
(國家知識產權局專利局 專利審查協作北京中心,北京 100190)
隨著科技的發展,世界范圍內的技術競爭愈發激烈,專利作為最主要的科技文獻,在技術競爭中扮演的角色越來越重,因此專利戰略研究顯得尤為重要。有研究表明一個優質的專利分析可以減少近60%的研發(R&D)時間,同時節約近40%的研發成本[1]。然而,專利數量浩如煙海,因此如何從如此海量的文獻中提取信息,完成可視化的專利分析,就變得尤為重要。本文將從實際應用的角度,來討論視頻編解碼領域的專利數據的概念提取、分類,以及挖掘模型建立、評估,以期能對相關領域研究人員有所幫助。
本文中的概念提取主要采用高級語義技術以及自然語言處理技術(NLP)[2]。高級語義學實際上是由本生詞典、近義詞、庫以及模板構成的,其最為核心的一點在于其本生詞等構成的詞典,詞典中反映的信息越多,那么由其構成的概念提取模板質量也就越高,如圖1所示,為視頻編解碼領域構建的本生詞典、近義詞、庫以及模板[3]。
概念提取模版構建完成后即可進行概念提取,同時對概念進行分類,此處的分類可以使一個標識關鍵主題、關鍵知識點等需要提取的分類,實際上可以由概念、類型以及規則構成,如圖2所示,為視頻編解碼領域的部分概念提取以及分類,需要注意的是這個過程是一個交互的過程,以保證概念提取和分類的準確性和適用性。


反復調整概念、分類以后,即可生成概念提取模型以及分類模型,評估流程如圖3所示,其中由于本次選取的專利樣本為6000份,為了節省時間,從中隨即抽樣50%作為模型生成樣本,將沒有使用概念提取以及分類的模型以及使用概念提取以及分類的模型,同樣進行C5.0決策樹分析,比對分析結果如圖4所示。


可見,使用概念提取的模型(線a)要比不使用概念提取的模型(線b)的準確率有較大的提高。如果需要定量分析,可以通過同一輸入字段進行分析的方式,比較兩者之間的正確率以及一致性,來得到定量結果。
當模型通過評估后,即可用于對6000篇視頻編解碼專利文獻樣本進行概念提取和分類挖掘(見圖5),并以廣電網、電信網、計算機網三網應用的角度,觀察視頻編解碼技術在上述三方面的應用,同時考慮上述專利在國家中的分布情況。如圖6所示,可以發現,在三網應用中視頻編解碼技術分布最多的是電視網,位于800的數量級,而電信網和計算機網則像差不大,基本位于200這一個數量級。
令人意外的是,這一領域(在電視網中應用視頻編解碼技術)最熱門的專利布局國家是印度(國家代碼:IN),大約有600篇相關專利文獻進入印度布局,占整個專利樣本的1/10,其次是美國(國家代碼:US),大約位于400這一數量級,中國、日本、韓國大概位于200這一數量級(國家代碼:CN,JP,KR)。


進一步觀察視頻編解碼在電視網中應用的兩大專利布局國家——印度與美國(見圖7),可以發現在這方面,同時進入美國與印度的專利文獻有200~300篇,這實際上給出了從中挖掘重要專利的一個思路。而在整個三網領域視頻編碼技術綜合布局熱門前三位分別是印度、美國、日本,比利時位于第四位,同時可以看到在美、日、歐三方面均有400和200篇不等量的專利同時布局在了印度(如圖8所示)。


此外,從能耗、價格、解碼質量的角度考慮,可以發現,能耗因素實際上已經遠遠超過了價格因素,是最為熱門的研發方向(見圖9)。特別是在移動網絡領域中,降低視頻編解碼的能耗是重中之重,其次是電視網絡領域,最后是計算機網絡領域。此外,有近20篇左右的專利文獻可以在降低能耗的同時兼顧價格,因此其中可能存在價值比較高的專利。

可以初步得出一些定性的結論:印度作為一個人口眾多、影視產業發達、國家發展速度快的新興國家,其在視頻編解碼領域的市場被大多數國際以及公司所看好,是產業布局應該首要考慮的國家,特別是中國公司,在印度的布局數量還是比較少的;能耗因素是視頻編解碼產業的研發重點,產品價格并不是研發應該考慮的首要因素,特別是在移動視頻編解碼領域,研發節能環保的新技術將是絕對值得投資的一個方向。
[1]XU Yuanhao.Apply text mining in analysis of patent document[C]//Proc.IEEE 10th International Conference on CAID&CD.[S.l.]:IEEE Press,2009:2350-2352.
[2]AKAM N,AL-DABASS D.Semantic mining for language text analysis[C]//Second Asia International Conference on AICMS.[S.l.]:IEEE Press,2008:415-420.
[3]KNIME-Professional Open-Source Software[EB/OL].[2012-05-01].http://www.knime.org.