[摘 要]本文根據文本挖掘技術、可視化技術、優勢及局限性等特征,對國外12種典型的專利分析工具進行了比較研究,同時對這些工具的適用性進行了評價并提議哪些用戶組可以從中受益。本文所討論的工具實例包括成熟的文本挖掘軟件包,一些較簡單的全文搜索工具,以及少數集成了更多成熟的軟件包和全文搜索功能的數據可視化工具。希望能為專利分析人員選取適當的工具及軟件公司改進專利分析工具提供參考。
[關鍵詞]專利分析工具;文本挖掘;聚類;統計分析;語義分析
[中圖分類號]G255.53 [文獻標識碼]A [文章編號]1008-0821(2010)04-0008-04
Study on the Foreign Patent Analysis Tools in Text MiningGe Xiaopei1 Sun Yong1,2 Ma Yulong3 Chen Xiangrong1
(1.School of Computer Science Technology,Soochow University,Suzhou 215006,China;
2.Key Lab of Computer Information Processing Technology of Jiangsu Province,Suzhou 215006,China;
3.Office of Computer Teaching and Researching,First Aeronautical Instieute of Airo Force,Xinyang 464000,China)
[Abstract]Twelve typical foreign patent analysis tools were presented in this paper to provide a comparison of text mining capabilities,visualization technology,perceived strengths,potential limitations,output of results etc,while the applicability of these tools were evaluated and suggestions as to which user groups may benefit from it.Summarized some valuable information for patent information analysts to choose proper tools and for software analysis tool provider to improve these tools.
[Keywords]patent information analysis tool;text mining;clustering;statistical analysis;semantic analysis
1 專利分析工具比較本文選取了12種國外主要的專利分析工具或專利分析技術提供商,分別是ClearForest[6]、Goldfire Innovator[7]、Inxight[8]、TEMIS[9]、Quosa[10]、RefViz[11]、STN AnaVist[12]、VantagePoint[13]、Aureka[14]、M-CAM Doors[15]、Wisdomain[16]、Derwent Analytics[17]。根據其處理不同結構的數據將這些工具分為三類:第一類主要處理非結構化數據,第二類主要處理結構化文本,第三類用于處理混合數據(包括結構化和非結構化)。并從工具的類型、性能、數據源、輸出結果、優勢及局限性等方面具體討論比較。
1.1 第一類工具此類工具主要用于處理如專利全文、郵件、新聞、期刊論文、網頁等非結構化數據,包括:ClearForest、Goldfire Innovator、Inxight、TEMIS。
1.1.1 ClearForestClearForest是一個專利分析工具,具有文本挖掘功能。應用時從非結構化文本(如新聞報道、網絡調查和HTML文檔)中抽取相關特征項,然后自動分類并導入到分類系統。該工具實現了從分類系統搜集到信息抽取之間關系的可視化,這樣可以通過把大量基于全文內容的信息轉化為積極的商業情報來做出更好的商業決策。其優點是在文本分析過程中使用配套的工具將大量的非結構化數據轉化為可操作利用的結構化數據。
1.1.2 Goldfire InnovatorGoldfire Innovator是一個文本挖掘工具,使用復雜的語義分析技術,可以將非結構化的文本轉換為可檢索的語義索引。還提供基于關鍵字概念的靜態分類,動態文件摘要,能夠方便地進行知識跟蹤、競爭情報分析、技術趨勢分析和引文分析。該工具操作復雜且費用極高,為此限制了很多人對它的使用。
1.1.3 InxightInxight是一家專注于數據可視化,信息檢索及自然語言處理的軟件公司,企業數據大約有80%都是非結構化數據,主要是非結構化的文本、元數據和實體,使用NLP進行全文抽取,文件則根據預先確定好的層次分類標準進行分析。其優點是同時提供多個在線數據庫檢索,且擁有該領域最強大的語言算法,能提供32種語言[2]。但在定義分類時要求太高,一般很難(如醫療、科學和新聞)被實際使用。
1.1.4 TEMISTEMIS[2]采用語義分析的方案,其功能包括抽取、分類和聚類。該工具整合了Insight Discover Extractor、Insight Discover Categorizer、Insight Discover Cluster、a multilingual engine XeLDATM and Skill Cartridges。文本首先經過多語種引擎XeLDA處理后轉換成基于上下文的單詞,然后Discover Extractor使用Skill Cartridges對這些單詞進行抽取。該工具可以對任何格式的文件做分析操作,其輸出結果包括聚類、排序、引用文獻列表等。另外,還提供了一個化學文檔瀏覽器,此瀏覽器有專門抽取模塊,可以把化學名稱轉換成化學結構。TEMIS不足之處是缺乏多樣化的可視化選擇方法,成本高可能也是限制其使用另外一個因素。
期基于文本挖掘的專利分析工具的比較研究Apr.,2010Vol.30 No.41.2 第二類工具這類工具主要處理數據庫中存儲的專利扉頁和參考文獻信息等結構化數據,包括Quosa、RefViz、STNAnaVist、VantagePoint。
1.2.1 QuosaQUOSA是查詢(Query)、組織(Organize)、儲存和共享(SaveShare)及分析(Analysis)這幾個單詞首字母的組合,是一個基于概念抽取和聚類的文本挖掘工具,提供全文分析,其統計分析包括特征項抽取和詞頻排序,概念抽取使用由麻省理工學院和哈佛大學的數學家改進的動態抽取算法。該工具的管理界面劃分為3個區:檢索瀏覽區(Browser Pane),檢索結果區(ResultsPane),文獻管理區(Organizer Pane)。其優點是全文搜索、批量下載大量的期刊文章和專利全文。文本還可下載到EndNote作進一步研究。但其在專利信息源方面的應用不如非專利信息源有優勢。
1.2.2 RefVizRefViz是OmniViz公司的產品,但只有OmniViz的部分功能,是專門為參考文獻的引用而設計的。該軟件用于統計和語言分析,只適用于結構化數據,采用K-means聚類算法進行有結構數據聚類,選用Galaxy視圖輸出結果[3-4]。其主要特征是引用Retriever(可用于多個在線資源同時進行檢索)。其優點是對參考文獻信息的后期處理,文件按主題內容為索引組織分類。
1.2.3 STN AnaVistSTN AnaVist根據頻率進行分析,提供多種分析方式的可視化。它遵循K-means等常規聚類算法[2],采用Research Landscape視圖來表示聚類結果。目前的STN AnaVist(2.0版)僅用于處理CAPLUS數據庫、PCTFULL全文數據庫、USPATFULL全文數據庫,近年來更多的是處理Derwent DWPI下載的參考文獻。雖然它處理參考文獻信息的結果很好,但對全文信息的文本挖掘功能并不顯著。
1.2.4 Vantage PointVantage Point主要通過模型匹配、基礎規則和自然語言處理(NLP)針對題錄數據庫數據進行文本挖掘,該工具提供數據清洗和整理,允許用戶創建用戶管理詞典。其最佳工作環境是幾百條數據,當然也可以對幾千條數據加以分析,并提供多維分析。Vantage Point在提取數據后采用factor map和cross-correlation map模型進行聚類[3-4],并允許用戶只標記出文檔中的一部分用于聚類。該工具支持對VBscript的擴展,它添加了5個VB類以及50余個VB方法,用戶可編輯VBscript腳本,實現一些特殊的定制分析功能[4]。
1.3 第三類工具此類工具主要處理混合數據,包括Aureka、MCAM Doors、Wisdomain、PatAnalyst和Derwent Analytics,都提供本地化專利數據庫。
1.3.1 AurekaAureka是專利文本挖掘和可視化領域的先驅,允許組織和知識產權管理。該文本挖掘功能是基于關鍵字和統計分析。該平臺提供本地專利數據庫,數據范圍包括US、EP、PCT、JP(英文),專利數據定期更新[5]。平臺中的ThemeSape software文本分析軟件依據專利a樣本中的相關詞頻,應用聚類分析生成詞匯地圖來描述專利技術主題分布情況;引用樹軟件(Aureka citation tree)利用專利引證信息構建雙向引證樹,形象化的顯示出研究對象引用在先專利和被其后專利引證的信息;報告工具(Aureka Reporting Tool)可提供3種類型的報告:一是信息摘要;二是詳細文本式報告;三是圖表式報告。采用ThemeScape繪制技術地圖時,用戶不能加入同義詞詞組或希望關注的主題概念是平臺的一個缺陷。此外,引用樹軟件只顯示直接引用關系,無法顯示整個引用鏈,且只適用于美國專利,及系統使用費十分昂貴都制約了它的使用和發展。
1.3.2 M-CAM DOORSM-CAM DOORS[2]采用語義分析和引證分析相結合的方法進行技術分析,最大特色在于語義分析方面。系統不僅能檢索相同主題的專利文獻,還能借助于系統自建的同義詞庫自動搜索與主題相似的專利文獻。用戶可通過M-CAM網站進行專利分析,尋找在先技術獲得專利情報。從整體上看,它主要側重于專利和技術的侵權分析。分析用的數據僅限于美國專利數據,同時圖表的選擇范圍不多,且需要同義詞庫來支持,這增加了運行成本和用戶使用成本。
1.3.3 WisdomainWisdomain公司研發了Focust和PatentLab-Ⅱ等產品進行專利檢索和分析,數據范圍包括US、EP、JP、PCT和INPADOC的專利數據[1]。PatentLab-Ⅱ為客戶提供專利數據可視化分析,其主要功能如下:提供幾種類型的HTML報告格式、Analysis Wizard為用戶提供操作簡單功能強大的專利分析、Patent Viewer方便用戶隨時查看專利全文、Chartsgraphs增強了用戶可視化能力,此外還提供在線的IPC/UPC進行對照顯示。FOCUST由檢索模塊、引文模塊和分析模塊組成。檢索模塊有靈活的檢索入口,用戶在一個界面下方便的檢索US、EP、JP、PCT和WIPO的專利數據;引文模塊向用戶展示了被分析專利的所有引證信息,同時顯示引用專利的歷史,它提供了3種引用樹圖形,即向前引用、向后引用和間接引用[1];分析模塊提供了諸如文本挖掘分析、高級可視化技術分析及靈活多樣的專利文件管理。Wisdomain使用自己收集的專利進行分析似乎不允許其它數據源中的數據集鏈接到該軟件。與Aureka一樣,Wisdomain引文分析僅限于美國專利。
1.3.4 Derwent AnalyticsDerwent公司是目前世界上集專利信息的收集、加工、整理和分析,并提供全球性服務的大型專利信息供應商之一[3]。Derwent Analytics采用自然語言加工技術,對Derwent標引專家加工的專利文獻標題中最經常出現的名詞詞組進行提取和分組,并結合關鍵技術領域專利活動活躍的專利權人、國家和時間等因素,組成各種圖表,來反映某技術領域中關鍵技術的變化、RD投入狀況以及新的技術空白點等。其依托VantagePoint作為技術支持,用戶界面友好、直觀,用戶可以方便地從Derwent世界專利索引數據庫中提取有價值的信息和重要的商業情報。Derwent Analytics可為情報專家、法律專家、科研人員和人力資源專家等提供可靠的決策依據,同時為企業提供相關的競爭情報。
2 專利分析工具的比較結果根據前文的分析介紹,將12種專利分析工具的比較結果總結如表1、表2所示:
從表1中可以看出,由于第一類工具主要處理非結構化數據,所以在語義分析、自然語言處理、概念抽取及分類分析方面突顯了其明顯的優勢,主要是為企業和科研人員提供服務;第二類工具主要處理結構化數據,其優勢在與其強大的統計分析和聚類分析功能,主要是為科研人員和情報專家的研究提供服務;第三類工具可以處理混合數據,其優勢主要集中在關鍵字分析和概念抽取方面,該類工具擁有自建的數據庫,這使得分析的功能更強大、更全面,在性能和輸出結果列中充分顯示了這一點。例如,能為法律或專利部門提供專門的服務,這是前兩類工具所不具備的獨特功能。另外,引證分析也是其一大特色,從引證分析的深度來看Wisdomain要優于Aureka,不過都只能對美國專利進行引證分析。
表2 12種工具比較結果
工具名稱數 據 源優 勢局限性ClearForest網站,專利文獻等的非結構化數據抽取模型預期風險投資Goldfire Innovator超過1 500萬項的全球專利庫、9 000個科學效應庫、3 000個專業技術網站以及語義索引的企業和個人知識庫等的非結構化數據高級語義分析需要內部培訓,高成本Inxight網站、內部數據庫等的非結構化數據及抽取和識別預處理文件中的元數據和實體類型抽取和聯合檢索生命科學領域實際應用時需要輸入更具體的分類TEMIS網站、專利文獻、臨床試驗、郵件、生物信息學等的結構化和非結構化數據采用專門的Skill Cartridges工具進行抽取缺乏多樣化的可視化選擇方法,高成本QuosaPubMed、Ovid、NCBI、Google Scholar and USPATFULL及專利摘要等的結構化和非結構化數據全文檢索和管理主要應用與非專利文獻源,使用其它數據源需要添加配置RefVizWeb of Science、PubMed、Ovid、OCLC、Library of Congress and Purdue University等的結構化數據文獻資料的后期處理主要應用與非專利文獻源,用其它數據源時需要添加配置STN AnaVistCAPLUS、USPatful、PCTFull、DWPI等的結構化數據標準化的詞匯庫,同義詞詞典提供的數據源相對少Vantage Point文獻著錄項目領域的結構化數據應用于技術和公司評估的分析工具模塊大量數據集的清理列表難以實現AurekaMicroPatent數據庫專利地圖,聚類,引證分析識別Themescape符號有困難,引證分析僅用于美國專利M-CAM Doors88個官方專利局網站及期刊專利單值性和實施性分析只專注于專利信息,高成本WisdomainUS、EP、PCT、PAJ、CN和韓國的摘要,國際專利文獻中心的法律狀態高相關性引證分析引證分析僅用于美國專利,不提供數據導入功能Derwent Analytics世界專利數據庫(收錄了全球40多個專利機構的3 000多萬個專利)引文鏈接,快速建立用戶自定義的詞表,功能全面不提供引文分析,限制訪問權限,高成本表2主要針對這12種工具的數據源、優勢及潛在的局限性方面進行了比較。這3類工具大都可以分析專利文獻和專利文獻,都具有其優勢和不同之處,不能相互替代。比如,有側重于非專利文獻的分析工具,如Quosa和RefViz;有側重于專利文獻的分析工具,如M-CAM Doors;有側重于生命科學領域分析工具,如Inxight和TEMIS;也有側重于全行業的專利分析工具,如Aureka、Wisdomain、Derwent Analytics、Goldfire Innovator等。總體而言,這3類工具都具有文本挖掘和可視化功能,是諸多專利分析工具中的佼佼者。雖然這些工具都具有很強大的功能,分析很深入,但沒有一種工具能包含表1所列出的所有功能,聚類分析的準確性、可視化程度及引證分析的深度有待于進一步提高。
3 結束語根據調研可知,第一類工具在處理廣泛的數據源和使用先進的語義技術方面最靈活,但需要內部培訓或預投入大量的時間、精力和成本。第二類工具主要是處理結構化數據,因此,可用于優化參考文獻信息。第三類工具用于處理混合數據,功能更強大、更全面,但其局限性是依賴性,例如,只提供美國專利的引文分析。由于每種工具是針對不同的用戶群體而設計的,提供不同方面的文本挖掘和可視化。所以合并兩個或更多的這些工具將會是比較理想的選擇,可以利用到他們最佳的功能,如基于語義分析數據可視化。另外,目前為了拓展專利分析工具的功能,越來越多的開發商將自然語言處理、人工智能等領域的創新應用于專利分析。本計算機信息處理技術重點實驗室也于2005年開始從事基于deep web、本體、語義及集群計算技術等于一體的生物醫藥領域專利信息服務平臺的研究,2010年預期投入試用,由于篇幅有限,將另文詳述。
參考文獻
[1]陳燕,黃迎燕,方建國,等.專利信息采集與分析[M].北京:清華大學出版社,2006.
[2]YunYun Yang,Lucy Akers,Thomas Klose.Text mining and visualization tools[J].World Patent Information,2008,(30):280-293.
[3]Anthony Trippe.Patinformatics:Tasks to tools[J].World Patent Information,2003,(25):211-221.
[4]劉佳佳,方曙.國外專利分析工具的比較研究[J].現代圖書情報技術,2007,(2):67-74.
[5]張靜,劉細文,柯賢能,等.國內外專利分析工具功能比較研究[J].情報理論與實踐,2008,(1):141-145.
[6]http:∥www.clearforest.com/Technology/TechnologyOverview.asp[EB].2009-10-12.
[7]http:∥www.invention-machine.com[EB].2009-10-12.
[8]http:∥www.inxight.com/products/sdes[EB].2009-10-16.
[9]http:∥www.temis.com/index.php?id=59selt=1[EB].2009-10-16.
[10]http:∥www.quosa.com/solutions.html[EB].2009-10-20.
[11]http:∥www.refviz.com/rvinfo.asp[EB].2009-10-22.
[12]http:∥www.stn-international.de/stninterfaces/stnanavist/stnanavist.html[EB].2009-10-24.
[13]http:∥www.thevantagepoint.com[EB].2009-10-28.
[14]http:∥aureka.micropat.com/7w/html/7wdefault.asp[EB].2009-10-28.
[15]http:∥www.m-cam.com/doors[EB].2009-11-01.
[16]http:∥www.wisdomain.com/Overview.htm[EB].2009-11-01.
[17]http:∥scientific.thomson.com/support/faq/analytics[EB].2009-11-01.