林贊磊



摘 要:隨著計算機技術和網絡技術的迅猛發展以及人類管理與知識水平的提高,信息技術發展的瓶頸已不僅僅存在于數據的獲取、存儲與傳輸,而更受限于數據的加工、分析和利用。采用有效的人工智能技術從大數據中獲取抽象信息并將其轉換為有用的知識,是當前大數據分析所面臨的核心問題之一。本文從我國現有專利審批現狀入手,分析當前審批業務中存在的圖像審查需求,闡述采用深度學習技術進行專利圖像智能識別與分類的可行性。
關鍵詞:深度學習;人工智能;審查質量
中圖分類號:TP751 文獻標志碼:A
0 引言
最近幾年,隨著我國創新能力和創新水平的不斷提高,我國專利申請量保持著快速增長的態勢。按照當前的審批現狀,申請文件需要經過人工加工,形成代碼化數據后才能供審查員使用。隨著越來越多的智能審查系統應用于專利審批工作,通過人工識別專利申請文件圖像的方式已經無法支撐現有專利審批的智能審查體系,如何在提高審查效率的同時,保證審查質量,成為專利審批管理工作面臨的問題。
1 深度學習技術
深度學習技術是新興的機器學習研究領域,旨在研究如何從數據中自動提取多層特征表示,其核心思想是通過數據驅動的方式,采用一系列的非線性變換,從原始數據中提取由低層到高層、由具體到抽象、由一般到特定語義的特征。深度學習不僅改變著傳統的機器學習方法,也影響著本文對人類感知的理解,迄今已在語音識別、圖像理解、自然語言處理等應用領域引發了突破性的變革。
2 人工智能
人工智能(Artificial Intelligence),英文縮寫為AI。它是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統等。人工智能從誕生以來,理論和技術日益成熟,應用領域也不斷擴大,可以設想,未來人工智能帶來的科技產品,將會是人類智慧的“容器”。
3 我國專利審批現狀
3.1 專利審批業務現狀
根據《專利審查指南》的審查要求規定,專利審查員需要對權利要求書、說明書這類申請文件中是否存在除化學式、數學式、表格之外的插圖做出正確的判斷。
2016年專利申請文件總量達2000多萬件,其中,發明專利申請中含圖像約60萬張,而且圖像種類繁多,經過統計,專利申請文件中至少存在12種可識別的圖像種類,其中,僅化學式、數學式及表格3種類型的圖像占比約20%。
3.2 專利審批系統現狀
2010年2月電子審批系統的上線,專利局實現了全流程、無紙化審查,提升了工作效率,規范了信息流程。專利申請文件的遞交存在兩種方式,一種是通過離線客戶端編輯并遞交的電子申請方式,另一種是遞交量較少的紙件申請。專利申請文件的遞交類型主要包括XML結構化文件和PDF/WORD非結構化文件兩種,其中,以XML結構化文件類型為主,2016年新申請文件中,XML文件類型占比約68%,PDF/WORD文件類別占比約32%。
4 專利申請文件圖像審查存在的問題
4.1 專利申請文件圖像種類繁多,缺乏輔助手段
專利文件中的對于圖像的審查是審查工作的一項難點,由于專利文件中存在大量的插圖,而且這些插圖類別不同,常見的插圖有表格、數學式、化學式和文檔截圖等,專利審批系統對于圖像的處理分為圖像加工和圖像審查兩部分,圖像加工是通過人工的方式對圖像進行識別并分類,圖像審查是對圖像的準確性和合理性進行審批,這兩部分工作都缺乏相應的輔助手段,在當前專利審批智能化程度日益強化的形式下,專利申請文件圖像處理技術相對落后,可能會影響到其他審查流程的處理效率,隨著逐年專利申請量的不斷遞增,審查員的審查壓力變得越來越大,為了有效提升審查效率,對于專利申請文件中圖像的處理需要增加相應的輔助手段。
4.2 專利申請文件圖像處理需要統一的數據標準
專利審批系統對于圖像加工和圖像審查都采用人工的方式進行,圖像加工需要人工識別圖像并對不同的圖像進行分類,由于數據加工人員水平各異,數據加工標準分類比較粗,分類不夠細化,導致數據加工存在加工分類不規范或錯誤的情況,加工周期也比較長,在審查員對圖像進行審查時,需要對圖像分類的準確性進一步進行核實,審查員和數據加工人員的工作重復工作,對于圖像的審查嚴重影響了案件的審查效率,為了保證審查質量,專利申請文件圖像處理需要建立統一的數據標準。
5 將深度學習技術應用于專利圖像識別與分類的可行性
傳統的圖像識別技術主要應用于樣本需求量小的領域,對于專利圖像上萬級的數據領域,傳統圖像識別技術已經不是很適用。
與傳統的圖像識別技術相比,采用深度學習技術,從專利申請文件中常見的圖像入手,自動提取圖像特征,增加了泛化性,采用歸一化的方式,減少了過多的人為因素,通過CNN(卷積神經網絡)和RNN(循環神經網絡)方式,自行搭建網絡,使用訓練成功的分類模型,實現專利申請文件中圖像的自動識別和自動分類,最終實現申請文件的中插圖的自動比對審查,提高審查效率和審查質量。
5.1 圖像識別結果精確,提高圖像審查效率
深度學習技術采用神經網絡對專利圖像信息進行構型,進行圖像特征的提取與對比,能夠大幅提升機器對專利圖像信息的辨識能力,面對海量專利圖像信息時,使圖像識別的結果更為精確,提高了數據加工及圖像審查效率。例如:通過搭建RNN(循環神經網絡)方式,識別專利申請文件中的一個表格,能夠在申請文件中精確的確定表格的如下幾類特征:
(1)僅包括水平直線且列之間排列整齊;
(2)包括全部的表格線;
(3)橫排表格;
(4)表格邊線不全、不連續;
(5)彩色邊線;
(6)帶灰度、漸變圖像特征的表格;
(7)含viso、UI元素、表格的組合;
(8)帶灰度漸變圖像特征的表格。
5.2 形成圖像分類標準,提高圖像審查質量
通過采用卷積神經網絡方式可以在專利圖像分類方面取得很好的效果,準確的選擇網絡結構及參數對圖像分類的效果和效率有很大的提高。專利申請文件中的圖像種類繁多,目前僅有表格、化學式、數學式等主要類型,采用深度學習技術識別圖像特征,可以根據圖像特征形成圖像分類的標準,經過理論分析及實際實驗,采用卷積神經網絡方式,專利申請文件按照圖像特征分為12類圖像種類,分別包括:表格、化學式、數學式、文字類的程序源代碼、文檔截屏或者序列表、電路圖、機械圖及零件圖、流程圖及框架圖、示意圖、圖表、照片、UI界面等。
準確地對專利申請文件中的圖像進行自動分類,形成專利領域的圖像分類標準,在專利數據加工環節,紙件專利申請及WORD/PDF提交的專利數據可以按照約定標準加工復雜單元數據生成XML數據,供后端智能審查引擎使用,對比當前審查識別圖像的現狀,審查員對已經進行準確分類的圖像做出的審查結論質量更高。
參考文獻
[1]中華人民共和國專利法(2008年修訂版)[S].
[2]中華人民共和國專利法實施細則(2010年修訂版)[S].
[3]中華人民共和國國家知識產權局.專利審查指南(2010)[S].