999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

專利檢索系統中專利信息采集模塊的研究

2012-12-31 00:00:00田素端
科技致富向導 2012年8期

【摘 要】在專利檢索系統中,專利信息采集模塊是最重要的模塊,它能保證查詢到的專利信息是網絡中最新的。本文詳述了專利檢索系統中專利信息采集模塊的設計和實現方法,其中對采集流程和用到的網絡爬蟲技術做了詳細的介紹。

【關鍵詞】專利信息采集;網絡爬蟲;索引;分詞處理

在當今社會,專利技術作為一種無形資產與社會財富,它和材料、能源等資源同等重要,在當今知識爆炸的社會中有著重要的作用。目前,社會上有許許多多的專利檢索系統,功能各不相同,但專利信息采集模塊是十分重要的一個模塊,它從Internet上獲取專利信息,讓專利查詢者可以更好及時的獲取網絡上最新的專利信息,對專利查詢者的專利研究起到很好的作用。

根據專利檢索與服務實際應用,我們可以將系統分為專利利用、競爭對手專利分析、專利信息采集、專利檢索、專利的受理、系統管理6個功能模塊,系統的結構圖如圖1所示。

圖1 系統功能結構

專利受理模塊是實現用戶提交專利申請、回復以及相關信息的管理。競爭對手專利分析模塊為用戶提供一個對產品信息快速技術分析的工具,用于監視競爭對手技術動向;模仿創新,產生更富有競爭力的新產品和新工藝。專利利用模塊主要為專利的使用者提供一個交流平臺。專利檢索模塊實現面向專利信息的全文檢索功能。系統管理模塊主要包括系統初始化工作、用戶權限管理、數據備份、回復、日志等功能。專利信息采集模塊實現對互聯網上最新專利信息的獲取。

在專利檢索與服務系統的六大模塊中,專利信息采集模塊是系統實現的難點也是一個重點,它在開發中應用到網絡爬蟲技術,它實際上是一個基于Web的程序,它從一個初始網頁出發遍歷互聯網自動地采集網上信息。當其進入某個超文本頁面時,它利用Html語言的標記結構來搜索信息和獲取指向其他超文本的URL鏈接,通過一定的算法選擇下一個要訪問的站點繼而轉向另一個站點繼續搜集信息,其處理流出如圖2所示。

圖2 專利信息采集處理流程圖

網絡爬蟲的系統一般由控制器,解析器,資源庫三部分組成。三部分協調工作,共同完成爬行搜索任務。控制器是網絡爬蟲的中央控制器,它主要是負責根據系統傳過來的URL鏈接,分配一個線程,然后啟動線程調用爬蟲爬取網頁的過程;解析器是負責網絡爬蟲的主要部分,其負責下載網頁的功能,對網頁的文本進行處理,分析數據功能;資源庫主要是用來存儲網頁中下載下來的數據記錄的容器,并提供生成索引的目標源。

系統中專利信息采集引擎采用主題型搜索引擎技術,即以構筑某一專利主題的網絡信息資源庫為目標,智能地在互聯網上搜集符合這一專題的信息資源。搜索引擎結構圖如圖3所示。

圖3 專利搜索引擎模塊組成部分

采用基于內容的搜索技術,其主要實現方式就是在搜索引擎內部建立一個針對主題的詞表,搜索引擎的爬行器根據其內設的詞表對網上的信息進行索引。各個不同的系統詞表建設的復雜度也大不相同。可以較好地解決了信息檢索過程中的詞匯不匹配問題以及信息過載問題,大大提高了信息檢索的效率和質量。

專利信息采集模塊由Spider、索引器、分析器、檢索器、任務管理器五個部分組成。首先通過Spider程序,訪問網站并搜集專利信息和專利影像檔案信息。專利信息保存為xml格式的文件,然后由分析器對專利信息的xml文件進行分詞,詞法分析器根據專利信息的特點,分別進行英文、亞洲文字的分詞處理。索引器將經過分詞處理后的專利信息創建索引,并計算出token值。使用Appache+Tomcat發布系統的檢索網站,當用戶通過入口網站進入檢索頁面,并提交檢索關鍵字,檢索關鍵字經過分析器進行詞法分析器進行分詞處理;經過語法分析器生成語法解析樹。檢索關鍵字被傳送到檢索器,檢索器從索引中檢索出結果,并高亮顯示后返回給用戶。

該模塊利用服務器端操作系統的任務計劃功能,定時運行數據采集程序,初始設定采集周期為一個星期,用戶可以根據需要對此進行修改。專利信息采集分為單個目標網站采集和私人用戶信息采集兩種方式。

(1)單個目標網站采集流程,該模塊首先從公共主題詞表P_KEY_PUB中逐條獲取記錄。針對某個網站對每條記錄進行如下采集操作。他的采集步驟如下:

首先解析采集對象網站對應的xml文件,其次根據解析結果利用Http Client工具進行數據采集,再根據xml文件提供的格式解析數據,獲取所需要的專利信息。最后依據黑名單對采集的信息進行篩選,將需要的數據存入公共臨時專利數據庫表P_TMP_PUB中。

(2)私人用戶信息采集與單個目標網站采集流程類似。但是也有區別,主要區別如下:

一是所有私人用戶的信息采集參數都先放在私有主題詞表P_KEY_PRI中。私人用戶可以添加、刪除主題詞。

二是所有私人用戶采集的專利信息存放在私有專利數據庫P_TMP_PRI表中。

三是信息采集的周期初始化為1天,比如每天晚上12點進行采集。

四是私人用戶可以對采集到的專利信息記錄進行刪除、推薦。推薦的專利記錄添加到公共臨時專利表:P_TMP_PUB,由管理員進行審核。

專利信息采集模塊功能主要實現關鍵詞管理、黑名單管理和新采集專利管理三個功能。關鍵詞管理主要為管理員提供管理采集關鍵詞的功能,可以執行添加、刪除和修改的操作。黑名單管理功能主要對被加入黑名單的專利進行處理,包括:入庫、刪除、快速檢索等。

我們只有掌握了專利檢索系統中專利信息采集模塊的設計,才能更好地對這個模塊進行實現。通過使用合適的網絡爬蟲技術和全文檢索技術,我們就能更好的在網絡上對專利信息進行爬取,使得爬取的專利信息更好的為專利查詢者服務,達到設計系統的目的。

【參考文獻】

[1]劉佳佳,董旻,方曙.國外專利分析工具的比較研究[J].現代圖書情報技術,2007,(02).

[2]楊洋.基于多Agent系統的專利采集系統研究[D].北京工業大學,2010.

[3]劉晨.專利信息獲取與分析系統關鍵技術研究[D].北京工業大學,2009.

主站蜘蛛池模板: 日韩精品一区二区三区免费| 久久a级片| 91极品美女高潮叫床在线观看| 在线无码九区| 国产va免费精品| 狠狠综合久久| 丰满少妇αⅴ无码区| 日韩国产一区二区三区无码| 九九热视频精品在线| 日韩在线观看网站| 成人在线天堂| 日韩精品少妇无码受不了| 亚洲无码高清一区| 久久五月视频| 国产精品视频第一专区| 国产精品香蕉在线| 国产拍揄自揄精品视频网站| 亚洲精品视频免费| 青青草国产免费国产| 国产男女XX00免费观看| 亚洲欧美不卡视频| 老色鬼欧美精品| 日韩毛片基地| 国产丝袜丝视频在线观看| 欧美色99| 国产精品区视频中文字幕| 999福利激情视频| 2021国产精品自产拍在线| 久久精品人妻中文系列| 色香蕉网站| 欧美一区二区丝袜高跟鞋| 亚洲综合天堂网| av在线无码浏览| 极品国产在线| 91久久精品国产| 视频二区中文无码| 亚洲一级毛片在线观| 欧美人人干| 欧美日韩第三页| 91av成人日本不卡三区| 亚洲,国产,日韩,综合一区| 国产污视频在线观看| 亚洲av无码人妻| 一级看片免费视频| 亚洲香蕉在线| 真实国产精品vr专区| 亚洲免费播放| 99久久免费精品特色大片| 国产精品99在线观看| av天堂最新版在线| 精品久久高清| 91免费国产在线观看尤物| 婷婷成人综合| 日本在线欧美在线| 成人在线亚洲| 中日韩一区二区三区中文免费视频 | 亚洲最新在线| 啪啪啪亚洲无码| 国产凹凸一区在线观看视频| 亚洲性视频网站| 丁香六月综合网| 国产尤物在线播放| 亚洲码在线中文在线观看| 亚洲国产亚洲综合在线尤物| 欧美国产日韩在线观看| 99久久精品无码专区免费| 五月天在线网站| jijzzizz老师出水喷水喷出| 亚洲国产日韩一区| 久久中文电影| 自偷自拍三级全三级视频| 五月六月伊人狠狠丁香网| 亚洲自偷自拍另类小说| 欧美区在线播放| 日本久久免费| 午夜无码一区二区三区在线app| 国产网站免费观看| 欧美日韩va| 成人毛片在线播放| 久草视频福利在线观看| 日本黄色a视频| 国产哺乳奶水91在线播放|