李嘯穎 陳瑞瀧
摘要:本文闡述了在使用excel進行專利分析時,字符截取函數--LEFT、RIGHT、MID函數以及邏輯函數IF函數條件統計函數--COUNTIF和COUNTIFS函數的使用方法和作用。通過使用上述的函數可以快速、批量地進行信息提取和初步處理,可以方便地得到年份-總專利申請量表格、年份-不同國家專利申請量表格、地域-申請量表格等,從而可以快速準確地得到統計結果、繪制可視化圖表并形成專利分析報告。
關鍵詞:專利分析;Excel;函數;數據處理
1.緒論
專利分析是目前常用的一種技術情報分析手段,是對專利文獻中包含的海量但零碎的信息進行提取、分析、加工等,并利用統計學方法和分析技巧將這些信息轉化為具有總攬全局及預測功能的競爭情報,從而為企業的經營者和管理者在技術研究、產品研發和服務開發中的決策提供參考[1]。本文期望通過使用excel來對專利數據庫進行批量化處理能夠極大地提高專利分析人員的工作效率,并減小因人工處理帶來的錯誤。
2. 專利分析中使用到的函數
2.1信息提取和初步處理過程中的函數
提取出的專利數據庫通常都會包含有專利的“標題”、“申請號”、“申請日”“分類號”、“發明人”、“申請人”、“申請人國籍”、“申請人地址”、“專利文獻號”等著錄項目信息。從專利的著錄項目信息中可以提取出每件專利申請的年份、申請國家和專利類型,提取信息時采用字符截取函數--LEFT、RIGHT、MID函數以及邏輯函數IF函數即可實現。
LEFT函數的作用是將單元格從左起開始截取指定的字符數,使用方法為LEFT(位置單元格,截取的字符數)。RIGHT函數的作用是將單元格從右起開始截取指定的字符數,使用方法同LEFT函數。MID函數作用是從單元格中的一個字符串的中間位置開始截取出指定數量的字符。其使用方法為MID(位置單元格,指定的起始位置,截取的字符數)。IF函數可以根據指定的條件來判斷其為“真”(TRUE)還是“假”(FALSE),其使用方法為“=IF(條件判斷,結果為真時的返回值,結果為假時的返回值)”。
2.2數據統計過程中的函數
專利數據統計通常需要繪制專利申請量趨勢圖、國家申請量趨勢圖、地域申請量分布圖等,因而需要按照年份或者其它信息對申請的國家、申請年份、申請人等信息進行統計,以先得到年份-總專利申請量表格、年份-不同國家專利申請量表格、地域-申請量表格等。統計方法除了常規使用篩選功能來計數外,還可以直接使用兩個條件統計函數--COUNTIF和COUNTIFS函數。
單個條件下的統計使用COUNTIF函數,COUNTIF函數的使用方法為COUNTIF(條件區域,條件)。當要統計多個條件下的量時則要用到COUNTIFS函數,其使用方法為COUNTIFS(第一條件區域,第一條件,第二條件區域,第二條件……),該函數的條件可以為任意多個且沒有順序要求,因而可以進行更加復雜的篩選計數。
在COUNTIF和COUNTIFS中的“條件”中也可以使用通配符來實現模糊查詢,即問號(?)和星號(*)。問號匹配任意單個字符,星號匹配任意一系列字符。若要查找實際的問號或星號,請在該字符前鍵入波形符(~)。另外,COUNTIF和COUNTIFS中的“條件”也可以為引用某個單元格的數據(跨工作表引用還需要加上“工作表名稱!”)。值得說明的是,函數在引用單元格時不需要引號,而具體的某個值時必須加上引號。[2]
2.3使用實例
通過關鍵詞和分類號檢索得到的專利分析數據樣本,其中包括標題、公開號(公告號)、申請號、申請日、申請人、發明人等信息。其中申請日、申請號、公開號/公告號中含有申請年份、申請類型、申請國別的信息。
申請年份和國家代碼的提取均需要使用到LEFT函數,申請年份為申請日內容從左邊開始起的4位數字,因此函數中“截取的字符數”為4,申請年份在E列,另取一列,在與序號1同行的單元格內鍵入函數表達式“=LEFT(E2,4)”,然后將該函數表達式復制到同列的其他單元格內。國家代碼為公開/公告號從左邊開始起兩個字符,函數中“截取的字符數”為2,公開/公告號在C列,函數表達式為“=LEFT(C2,2)”。使用LEFT函數還可用于提取申請人地址中前兩個字符就可以得到申請人的省份信息,以方便對中國申請的地域進行分析。
使用RIGHT函數提取出中國專利公開/公告號的最后一位,中國專利公開/公告號的最后一位為“A”時表示公開文本,最后一位為“B”時表示授權文本,此時,函數中“截取的字符數”為1,公開/公告號在C列,函數表達式為“=RIGHT(C2,1)”。
要直觀地區分專利申請是國內申請還是國外申請,還可以使用邏輯函數,另取一列,輸入并復制函數表達式“=IF(LEFT(C2,2)=”CN”,“國內申請”,“國外申請”)”,當C2單元格內容的前兩個字母為CN時,則顯示為“國內申請”,否則就會顯示為“國外申請”。
區分了國內外申請后,可以對中國專利類型進行分析,由于中國專利申請號的從左數第五位數字即標示著專利類型,其中1代表發明、2代表實用新型、3代表外觀設計、8代表通過PCT進入我國的發明,9代表通過PCT進入我國的實用新型,因此要獲取中國專利的專利類型,只需截取專利申請號的第五位數字即可得知專利申請類型,函數表達式中“指定的起始位置”為5,“截取的字符數”為1,函數表達式為“=MID(D2,5,1)”。
使用IF函數可以直接對中國專利申請的類型進行判斷輸出,新的申請號編排方式下的公式為“=IF(MID(D2,5,1)="1","發明",IF(MID(D2,5,1)="2","實用新型",IF(MID(D2,5,1)="8","PCT發明",IF(MID(D2,5,1)="9","PCT實用新型",""))))”,該公式使用了嵌套公式的方式直接輸出了專利申請的類型。
要統計不同年份的專利申請量時,要統計不同年份的中國的專利申請量時,其函數表達式為“=COUNTIFS(年份列:年份列,"year",國家列:國家列,”CN”)”,其中公式中的year為表示年份的數字。
3.結論
使用excel進行專利分析時,在信息提取和初步處理過程中,通過使用字符截取函數--LEFT、RIGHT、MID函數以及邏輯函數IF函數可以批量地從專利的著錄項目信息中可以提取出每件專利申請的年份、申請國家和專利類型等信息。在數據統計的過程中使用條件統計函數--COUNTIF和COUNTIFS函數,可以方便地得到年份-總專利申請量表格、年份-專利申請量-國家表格、年份-專利申請量-技術功效統計表格、地域-申請量表格等。通過使用函數可以加快專利分析的數據處理過程和準確性,方便得到最終可視化圖表,形成專利分析報告。
參考文獻
[1]唐煒 劉細文.專利分析法及其在企業競爭對手分析中的應用.《現代情報》.2005.9.178~182
[2]Excel Home .《Excel 2010函數與函數表達式實戰技巧精粹》.2014-1-1
(作者單位:1國家知識產權局專利局專利審查協作江蘇中心;
2蘇州知途知識產權代理事務所)