999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

在線專利檢索分析系統的設計與實現

2016-05-30 21:13:57溫家凱農強
企業科技與發展 2016年6期

溫家凱 農強

(廣西達譯商務服務有限責任公司,廣西 南寧 530007)

【摘 要】文章介紹了一個在線專利檢索分析系統,闡述了系統的體系結構、各模塊的功能、關鍵技術。該系統在分布式大數據采集、基于Lucene與Mysql數據庫結合的全文索引、基于Mina框架的分布式在線分析架構等基礎上實現的專利信息檢索和統計分析,在大規模數據方面體現出較好的效率,并提供檢索結果自動翻譯、檢索詞智能擴展和產業分類導航等特色功能,可以幫助普通用戶更便捷地利用專利信息。

【關鍵詞】專利檢索自動翻譯;檢索擴展;專利分析;分布式;全文檢索Lucene Mina

【中圖分類號】TP311 【文獻標識碼】A 【文章編號】1674-0688(2016)06-0034-05

0 引言

隨著知識經濟的深入發展,專利已成為企業市場競爭力的核心要素和最重要的資產構成。進入新世紀以來,許多企業特別是西方跨國公司通過“專利圈地”,壟斷高端技術領域,排擠競爭對手,攫取了巨大的市場利益。可以說,對于后發展欠發達地區的企業而言,加強技術創新并及時將創新成果申請專利保護,既是保護自身利益的迫切需要,也是躋身市場競爭制高點的必然選擇,更是其發展和壯大的必由之路。本文開發了一個在線專利數據檢索分析系統PatentOnline,為廣西重點產業提供以產業細分為基礎的專利檢索及分析服務,幫助企業了解競爭對手的技術水平和跟蹤最新技術發展動向,提高研發起點、加快產品升級和防范知識產權風險。

1 總體設計

系統采用MVC 3層結構:展示層、邏輯層和數據服務層(如圖1所示)。展示層負責基于Web界面的用戶交互與展示;邏輯層負責對數據進行處理,并與數據服務層進行交互;數據服務層負責采集與專利相關的數據,進行數據清洗、數據抽取轉換等操作,并為上層提供數據訪問的接口。

1.1 在線專利檢索子系統

1.1.1 快捷檢索模塊

快捷檢索模塊提供類似搜索引擎的簡潔界面(僅一個檢索框)給用戶進行檢索。快捷檢索功能提供2種檢索行為。

(1)專利號檢索。用戶輸入申請號或公開公告號進行檢索。

(2)關鍵詞檢索。用戶輸入關鍵詞,系統對發明名稱、摘要、發明人進行全文檢索查詢,返回查詢結果。可以輸入多個關鍵詞,用空格隔開,默認是“邏輯與”的關系。

1.1.2 表格檢索模塊

表格檢索模塊提供給用戶同時對多個檢索字段進行檢索的功能,檢索字段包括申請號、發明名稱、公開(公告)號、公開(公告)日、IPC分類號、申請人、申請日、發明人、主題詞、摘要、主權利要求、優先權項、國別省市代碼、代理機構代碼、申請人地址。字段內支持檢索詞使用“and”和“or”運算。

1.1.3 自定義表達式檢索模塊

用戶可根據自己定義的表達式來進行檢索。支持“and”“or”“not”“xor”等多條件查詢。單擊“》”顯示更多的邏輯關系。鼠標移至“?”顯示幫助說明文檔。對每個查詢條件的字段名稱有相應的字母對應,點擊“字段名稱”可查看。單擊某個字段名稱,自動在自定義表達式輸入框中填充,用戶輸入自己想要查詢的表達式,點擊“檢索”按鈕,就會檢索到相應的數據。單擊“檢索歷史”,顯示之前檢索的歷史記錄。在檢索歷史記錄中點擊某條檢索表達式,會自動填充在自定義表達式的輸入框中,方便操作。

1.1.4 主題檢索模塊

主題檢索模塊是根據中國分類主題詞表實現的關聯性搜索功能。用戶可以通過“主題檢索”-“查看主題內容”來查看所輸入檢索詞的主題詞信息。信息包括主要類目相關內容和次要類目相關內容。通過點擊“主題檢索”—“生成主題表達式”來生成專利檢索表達式。主題檢索模塊提供了3種專利檢索方式:{1}根據檢索詞的正式和非正式主題詞來進行專利搜索的“精準檢索”。{2}根據檢索詞的正式主題詞、非正式主題詞、下位詞來進行專利搜索的“模糊檢索”。{3}將檢索詞的正式主題詞、非正式主題詞翻譯成英文的“英文檢索”。

1.1.5 同義詞檢索模塊

同義檢索模塊是根據同義詞詞庫來實現的相關搜索功能。用戶可以通過“同義檢索”—“查看同義詞內容”來查看所輸入檢索詞的同義詞信息。通過點擊“同義檢索”—“生成同義詞表達式”來生成專利檢索表達式。同義檢索模塊提供了3種專利檢索方式:{1}根據檢索詞的同義詞進行專利搜索的“同義檢索”。{2}根據同義詞的相關主題詞進行專利檢索的“同義擴展檢索”。{3}將檢索詞的同義詞翻譯成英文的“英文檢索”。

1.1.6 自動翻譯模塊

該模塊提供對檢索結果的自動翻譯。系統調用外部專利機器翻譯系統接口,將英文檢索結果中的專利信息(標題和摘要)自動翻譯成中文,以幫助用戶快速地了解檢索結果信息。

1.1.7 IPC分類導航模塊

IPC分類導航顯示各IPC分析的信息,可點擊展開節點來查看各分類節點的子項信息,包含有中國專利和外國專利的選擇,點擊某項可進行查看信息。用戶可以選擇對指定分類的專利集合進行檢索(有數量限制)。

1.1.8 行業分類導航模塊

行業分類導航功能和IPC分類導航功能相同,只是分類不同。可點擊展開節點來查看各分類節點的子項信息,包含有中國專利和外國專利的選擇,點擊某項可進行查看信息。對選擇的某個分類專利集合進行檢索。

1.1.9 專利管理模塊

該模塊由“表達式”“標引”“專題庫”和“模板”4個部分組成。該模塊可幫助用戶在日常使用中積累自己的專利檢索表達式,對感興趣的專利進行標引,建立自己的專利專題庫。

1.1.10 用戶管理模塊

用戶分為普通用戶和高級用戶。系統對不同用戶賦予不同的使用和管理權限。例如,高級用戶可放寬進行專利分析的數量限制。

1.2 在線專利分析子系統

對專利數據進行多元統計和指標分析是指對專利文獻的有關特征進行統計或按照指標算法進行分析。該子系統能夠實時對用戶選擇的專利集合(專利檢索結果集或是專利專題庫)進行各種專利分析操作,并顯示分析結果。

1.2.1 總體趨勢分析

總體趨勢分析按專利申請日期或專利公開日期統計專利數量。

1.2.2 國省分析

通過專利信息的國省分析,可以了解行業發展的重點區域及不同區域內專利研發的重點方向和各區域之間技術的差異性、不同區域內專利技術的主要競爭者(申請人)和發明人。國省分析包括國省分布狀況、國省申請人分析、國省發明人分析及國省技術分類分析。

1.2.3 申請人分析

申請人分析包括申請人趨勢分析、申請人構成分析、申請人國省分析、申請人技術分類構成、申請人綜合比較、合作申請人分析及申請人區域構成。

1.2.4 發明人分析

發明人分析包括發明人趨勢分析、發明人構成分析、發明人國省分析、合作發明人分析。

1.2.5 技術分類分析

技術分類分析包括技術分類趨勢分析、技術分類構成分析、技術分類國省分析、技術分類申請人構成、技術關聯度分析及技術分類區域構成。

1.2.6 中國專項分析

針對于中國的專利數據進行的分析,它主要包括專利類型分析、國省分布狀況。

1.2.7 區域分析

區域是指專利的受理國信息,包括國家、組織,比如美國、德國、WIPO等。區域分析用于了解不同區域產業產品及其技術的特點和差異,包括區域趨勢分析、區域構成分析、區域技術領域構成(IPC構成)、區域申請人構成。

1.2.8 自動生成分析報告

將上述分析結果形成報告,可導出成Word格式。分析報告模板可以自定義,并可以定制分析報告模板。

2 關鍵技術

2.1 分布式專利大數據采集

本系統平臺的專利數據來源于互聯網的多個國內外數據源,數據格式多樣,數據總量龐大,需要用程序自動化進行持續性的長期采集抽取。以下為系統設計與實現的要點。

2.1.1 編程語言

使用Perl或Python這種腳本語言來實現。Perl和python都擅長處理文本,無需編譯,修改方便,入門容易,擁有強大、豐富的模塊擴展。

2.1.2 增量式采集

由于專利數據量極其龐大,全世界中英文專利共約1億份,所以將其全部采集是個長期的過程。因此,整個流程中每個步驟都是以增量的方式來處理,每個步驟都要識別上一步驟傳遞來的增量數據包進行轉換處理,并記錄處理日志,以便以后能夠根據日志恢復全部數據。系統以定時或不定時方式生成增量采集到數據包,導入平臺。

2.1.3 并行采集方式

為提高采集的帶寬利用率和采集效率,系統以并行進程或多線程的方式進行采集。為了避免對數據源服務器造成壓力,需要限制訪問的頻率,同時使用多個IP出口輪換。

2.1.4 魯棒性

系統核心進程可以任意中斷,不影響后繼重啟后采集。

2.1.5 自動化

整個系統要求有較高的自動化程度,不需要專門安排人員來監控,失敗操作能夠自動重啟,并有較完善的日志記錄,以便發現和修復問題。

2.2 基于Lucene與Mysql數據庫結合的中文專利信息全文檢索

本系統平臺的數據庫是使用Mysql管理的,雖然能夠較方便地對專利數據進行組織和操作,但是用戶無法控制其信息索引的方式。由于是針對西文字符開發的,Mysql在對中文信息進行全文索引時問題較大,因此本系統平臺采用了目前流行的Lucene技術,并與Mysql結合使用一起管理專利數據庫。通過Lucene為專利數據庫中的海量專利信息建立索引,實現全文檢索,可以較好地解決海量專利信息在檢索方面的效率問題。

2.2.1 Lucene介紹

Lucene[1]是Apache軟件基金會jakarta項目組的一個子項目,是一個開放源代碼的全文檢索引擎工具包。它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構,提供了完整的查詢引擎和索引引擎,部分文本分析引擎(英文與德文2種西方語言)。Lucene的目的是為軟件開發人員提供一個簡單易用的工具包,以方便在目標系統中實現全文檢索的功能,或者是以此為基礎建立起完整的全文檢索引擎。

2.2.2 倒排索引

Lucene像其他主流Web搜索引擎一樣,采用的是倒排索引技術。倒排索引在實際應用中需要根據屬性的值來查找記錄。這種索引表中的每一項都包括一個屬性值和具有該屬性值的各記錄的地址。由于不是由記錄來確定屬性值,而是由屬性值來確定記錄的位置,因此稱為倒排索引(inverted index)。帶有倒排索引的文件我們稱為倒排索引文件,簡稱倒排文件(inverted file)。

搜索引擎的關鍵步驟就是建立倒排索引,倒排索引一般表示為一個關鍵詞,然后是它的頻度(出現的次數)、位置(出現在哪一篇文章或網頁中,及有關的日期、作者等信息),它相當于為互聯網上幾千億頁網頁做了一個索引,好比一本書的目錄、標簽一般。在本系統中,我們以字段文本分詞并過濾掉停用詞后得到詞語作為關鍵詞,為需要全文檢索的專利信息字段建立倒排索引。專利檢索時就能夠快速查找到關鍵詞所在的專利。

2.2.3 中文分詞

分詞就是將連續的字序列按照一定的規范重新組合成詞序列的過程。漢語的句子不同于英文句子,英文單詞之間有間隔,漢語文本中詞與詞之間沒有明確的分隔標記,而是連續的漢字串。詞是構成句子的基本單位。若要計算機智能地理解漢語中的每一句話,則必須讓計算機明白該句子的各個詞的含義。也就是說,需要計算機智能地把每一句話都正確地切分出來,才不會造成理解上的偏差。以詞為單位作為搜索引擎索引的Key值,會大大提高搜索引擎結果的準確性。

目前,現有的分詞算法主要可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統計的分詞方法。考慮到技術的可行性,我們選擇易于實現的基于字符串匹配的分詞方法。

為了提高分詞的正確率,我們將主題詞表及各行業的專業詞加入分詞詞典中。

2.3 基于Mina框架的分布式專利在線分析架構

考慮到專利數據庫沉重的存儲壓力,以及實現分析算法的SQL語句復雜度,本系統主要設計思路是將分析算法主要實現在應用層,數據庫只是單純作為存儲。并且,將該部分功能實現成獨立服務,支持任意擴展。

上層分析系統使用Apache Mina[2]遠程服務調用分析服務,傳遞參數和分析結果。Apache Mina是一個能夠幫助用戶開發高性能和高伸縮性網絡應用程序的框架。它通過Java nio技術基于TCP/IP和UDP/IP協議提供了抽象的、事件驅動的、異步的API。

為了提高性能,在Mysql存儲層與應用層間可使用memcache、redis等作為緩存,如取專利數據、緩存分析計算結果等。

3 系統運行效果

在對上述技術研究的基礎上,本文設計和實現了一個在線專利檢索分析系統。以下簡單展示一下特色功能。

3.1 高級檢索

用戶可根據自己定義的表達式來進行檢索。支持“and”“or”“not”“xor”等多條件查詢(如圖2所示)。

3.2 檢索詞智能擴展

用戶單擊高級檢索頁面右側的“檢索詞智能擴展”(如圖3所示),可展開檢索詞智能擴展功能區,在“檢索詞”文本框中輸入關鍵字,如“電腦”,然后可在右側選擇“主題檢索”或“同義檢索”。

3.3 自動翻譯英文專利

在使用英文關鍵詞檢索得到的英文專利檢索結果頁的上方,用戶點擊“自動翻譯”鏈接,系統會自動將結果頁中的專利標題和摘要信息翻譯成中文,以便用戶閱讀理解(如圖4所示)。

3.4 產業分類導航和IPC分類導航

產業分類導航和IPC分類導航分別如圖5、圖6所示。

3.5 在線分析

申請人分析圖如圖7所示;專利趨勢分析圖如圖8所示。

4 結語

本文開發了一個在線專利檢索分析系統,闡述了系統的體系結構、各模塊的功能、關鍵技術。系統在系統架構、全文索引等基礎上實現的專利信息檢索和統計分析在大規模數據方面體現出較好的效率;系統提供自動翻譯檢索結果、產業分類導航、檢索詞智能擴展等具有特色能夠有效幫助普通用戶使用的功能,在用戶體驗、可視化界面和交互性等方面取得較好的效果。系統具有較大的使用價值,未來將應用在自然語言處理和語義分析等技術領域,從而進一步提升系統的性能。

參 考 文 獻

[1]Lucene.Welcome to Apache Lucene[EB/OL].http://lucene.apache.org,2016-03-17.

[2]Mina.Welcome to Apache MINA[EB/OL].http://mina.apache.org,2016-03-12.

[責任編輯:鐘聲賢]

【作者簡介】溫家凱,男,任職于廣西達譯商務服務有限責任公司,研究方向:自然語言處理(深度學習、機器翻譯、輔助翻譯、垂直搜索、跨語言搜索等)和互聯網應用;農強,男,任職于廣西達譯商務服務有限責任公司,研究方向:自然語言處理(深度學習、機器翻譯、輔助翻譯、垂直搜索、跨語言搜索等)和互聯網應用。

主站蜘蛛池模板: 97视频在线精品国自产拍| 在线观看亚洲精品福利片| 亚洲精品自在线拍| a级毛片毛片免费观看久潮| 久久91精品牛牛| 久久动漫精品| 国内精品九九久久久精品| 亚洲天堂日韩av电影| 国产高清又黄又嫩的免费视频网站| 久久婷婷五月综合97色| 69综合网| 国产成人久久综合一区| 国产激情无码一区二区APP| 亚洲无线国产观看| 亚洲一区波多野结衣二区三区| 国产制服丝袜91在线| 无码专区国产精品第一页| 97精品国产高清久久久久蜜芽| 中文字幕佐山爱一区二区免费| 日韩高清成人| 综合色区亚洲熟妇在线| 久久www视频| 成人韩免费网站| 国产一区二区三区在线精品专区| 黄色网页在线播放| 666精品国产精品亚洲| 大陆精大陆国产国语精品1024| 人妻丰满熟妇av五码区| av一区二区无码在线| 国产H片无码不卡在线视频| 伊人久久久大香线蕉综合直播| 久久久波多野结衣av一区二区| 亚洲天堂在线视频| 日韩毛片基地| 国产精品30p| 成人年鲁鲁在线观看视频| 国产成人永久免费视频| 欧美午夜视频| 久久a级片| 天天色天天综合| 国产成人亚洲无码淙合青草| 97se亚洲综合在线| 2020久久国产综合精品swag| 免费观看精品视频999| 在线播放国产一区| 朝桐光一区二区| 亚洲va欧美ⅴa国产va影院| 欧美日韩国产综合视频在线观看| 71pao成人国产永久免费视频| 欧美成人在线免费| 呦视频在线一区二区三区| 亚洲色图欧美激情| 欧美日韩亚洲国产主播第一区| 中文字幕一区二区视频| 另类综合视频| 免费啪啪网址| 91色在线视频| 狠狠干欧美| 色噜噜狠狠狠综合曰曰曰| 国产无遮挡猛进猛出免费软件| 国产一区成人| 久久永久免费人妻精品| 国产av无码日韩av无码网站| 欧美 国产 人人视频| 免费jizz在线播放| 香蕉久人久人青草青草| 亚洲av无码片一区二区三区| 男人的天堂久久精品激情| 欧美专区在线观看| 亚洲综合亚洲国产尤物| 操国产美女| 黄色网址手机国内免费在线观看 | 亚洲中文无码h在线观看| 色天天综合| 午夜福利网址| 欧美午夜在线视频| 456亚洲人成高清在线| a级毛片网| 毛片免费试看| 国产男女XX00免费观看| 午夜天堂视频| 欧美一区精品|