999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

開源工具支持的專利數據清洗流程研究*

2019-06-19 06:52:20李艷梅安新穎
醫學信息學雜志 2019年5期
關鍵詞:規范分析信息

鐘 華 李艷梅 安新穎

(中國醫學科學院醫學信息研究所 北京 100020)

1 引言

專利分析是從專利文獻中采集零碎、分散、隱藏的信息,通過科學方法對專利信息進行加工整合,利用科學計量和統計的方法將這些信息轉化為有價值情報的過程,是支持學科技術發展追蹤和產品戰略決策參考的重要方法和工具。通過專利分析能夠獲得可信、客觀的技術信息,進行技術追蹤和預警,分析技術創新熱點和空白點,是了解技術變革和前沿發展的領先指標。目前常用的專利分析工具如德溫特數據分析軟件(Derwent Data Analyzer,TDA)、德溫特創新平臺(Derwent Innovation,DI)、Delphion等商業軟件和平臺雖然具有較強的分析處理功能,但是其較高的收費限制應用實踐。開源工具雖然在穩定性和安全性方面存在不足,但其免費、開放、便捷等特點也使其成為一類普遍應用的數據處理工具。本文對開源工具支持的專利數據清洗流程進行分析,能夠為短期實踐、教學培訓、研究實習等場景下流暢高效地進行專利數據處理操作提供參考。

2 專利數據清洗需求

2.1 數據清洗的必要性

專利分析流程包括確定分析目標、檢索下載數據、加工處理數據、統計分析總結、撰寫分析報告等步驟,數據清洗是專利分析工作的重要步驟[1]。專利數據清洗指對從專利數據庫中檢索并下載的數據進行規范,包括格式規范、去重合并、字段拆分、提取刪除等操作,從而保證清洗后的數據準確、完整、規范,以便于后續數據批量處理和分析。從專利數據庫下載的專利記錄字段包括專利號、專利名稱、發明人、專利權人、申請時間、技術分類、引證信息、摘要等多項信息。從數據庫中以純文本格式或制表符分隔格式下載的專利記錄普遍在各字段中存在如大小寫、冗余、空格等各種程度的問題[2],不能直接進行分析處理,需要利用數據處理工具并人工介入下進行數據清洗。一般而言專利數據清洗需求主要有數據規范和拆分抽取需求兩種。

2.2 具體需求

一是數據規范需求。即對專利數據采集導入過程中由于人為或系統因素而造成的無用或不規范數據進行去除、修正和規范,如對記錄的機構名稱規范合并、時間日期格式統一、名字全稱簡寫核對、中英文拼寫錯誤修正以及空值、異常值等數據規范問題進行統一處理,形成規范的數據集合。二是拆分抽取需求。拆分抽取處理有一次和二次拆分兩種情況。一次拆分是指一條字段內容中包含多項同類信息,如發明人字段中有多個發明人姓名,需將這條記錄項拆分成與其對應的多條記錄。二次拆分指專利記錄的一個字段中包含多項不同類型的信息,需要進行二次細化拆分,如優先權字段中包括優先權國和優先權日,數據清洗時需要進一步拆分成兩個字段。

3 專利數據清洗框架

3.1 概述

數據清洗是保證專利分析科學準確的前提。在針對專利數據清洗的相關研究中路霞[3]等針對專利地址信息相關的中文專利數據建立清洗框架,提出算法,利用對照法對該框架進行驗證優化。在專利數據清洗角度,翟東升[4]等以文本形式的專利信息為數據源, 在對各字段內容進行分別抽取的基礎上綜合運用表達式清洗策略、循環清洗策略和基于正則表達式的腳本清洗策略對各字段進行清洗轉換。王永紅[5]提出的專利數據清洗步驟包括:選擇數據來源、限定數據范圍、生成樣本空間、數據規范、字段拆分以及數據標引。根據研究經驗和實踐總結,本研究總結出專利數據清洗框架,見圖1。

圖1 專利數據清洗框架

3.2 數據導入

是指選擇專利分析指標數據,下載并導入數據處理工具的過程,正確、完整、可靠的數據導入是專利分析工作的前提。在數據導入階段,結合唯一性、完整性、一致性原則,應注意保持不同數據表的專利申請號作為唯一標識的準確性,還需要統計不同數據表的字段格式,特別是日期和分隔符號格式、姓名寫法等,以便于數據調用。此外需要人工核對和補充缺漏的數據項,保證數據完整準確。

3.3 數據規范

由于來源于不同時間、專利申請主體、申請國、代理機構及專利數據庫數據存在外部特征及內容方面的不一致性或錯誤,導入后一般會存在分隔符不統一、數據格式不一致、一詞多形等不同程度的數據問題,如未進行規范而直接進行統計分析會產生一定的誤差,影響統計結果。因此需要根據存在問題的類型和規律制定處理規則,對發明人、專利權人、專利申請號等字段進行規范化。數據規范的內容包括統一大小寫或全角半角、刪除前置空格、修訂內容性亂碼、錯行、文字性錯誤等。

3.4 字段拆分

在進行專利數據統計前需將包含多個統計項的字段進行拆分處理,如在統一各項日期格式的基礎上可對優先權日字段中的國別代碼和日期屬性進行拆分提取,得到優先權國和年份信息。

3.5 機構清洗

需將機構官方名稱、縮寫名、別名、變更名及其直屬、附屬機構名稱納入集合中,通過數據清洗、抽取、切分、合并、去重和人工處理對每個機構名稱及其直屬、附屬機構名稱進行規范,提取機構別名關系、名稱變更關系等,便于后續對機構的完整統計。

3.6 數據標引

標引是數據清洗的重要環節,通過標引賦予專利以檢索和分類標識,標明其外部特征和內容特征的類屬,數據標引質量直接關系到后續各類統計分析的準確性,需結合分析需求明確需要標引數據的屬性值。一般而言,專利數據的主要標引項包括申請日、優先權日、發明人、專利權人、國家地區、IPC國際專利分類號、其他分類號、同族專利信息、被引頻次等[6]。由于數據標引工作量大,以技術內容分類標引為例,首先需要明確學科領域下的技術分類劃分規則,明確各分支下專利文獻所包括技術主題的內涵和外延,對數據集合內的專利文獻賦予最合適和準確的技術分類號,保證后續技術內容統計的準確性。此外在必要時可通過人工復審和交叉標引進一步提高正確率。

4 開源數據清洗工具比較

近年來開發了較多適用于專利數據清洗的開源或免費工具,常用工具有Trifacta Wrangler、Talend、OpenRefine、DataCleaner等,各款軟件功能及優缺點分析,見表1,利用這些工具能夠更快、更簡單、更準確地進行專利數據清洗。其中OpenRefine是在數據清洗、探索、轉化方面非常有效的工具。它是一個開源的網絡應用,具備數據清洗和批量標引功能,可在專利數據清洗這一過程中實現對不同來源數據的歸一化處理。

表1 開源/免費的專利數據清洗工具比較

5 嵌入專利數據清洗流程的應用方案

5.1 概述

本文以腫瘤干細胞(Tumor Stem Cells,TSCs)領域專利數據清洗實踐為例,說明利用開源工具OpenRefine進行專利數據清洗的實現過程。使用OpenRefine的原因是它是一個簡單、有效的免費工具,與Excel或OpenOffice相比在執行相同的清理數據任務時性能更加優越,使用更有效率。OpenRefine可以制定和開發有效的數據工作流來清理和重新整理數據,創建和利用特定任務所需的自定義代碼。因篇幅所限,本文以關鍵步驟的數據清洗為例進行說明。通過德溫特(Derwent)專利數據庫檢索得到2007-2016年腫瘤干細胞領域相關專利866個,記錄內容選擇全記錄,數據以制表符分隔格式導出。

5.2 數據導入

利用OpenRefine創建項目操作簡單,通過點擊創建項目標簽頁、選擇數據集、點擊下一步來創建新項目,完成文件導入。

5.3 數據規范

是處理專利數據的第1步。關鍵步驟包括:規范化字符(如小寫、大寫);刪除前導和尾隨空格;地址編碼和相關問題;轉換日期;添加備注信息并創建新的列和/或行。導入數據集中的第1列是專利申請號(PN),以對此列數據進行規范為例,首先選擇列菜單并從Text Facet下拉列表中進行選擇,生成包含統計數據的側面菜單面板,然后檢查該列問題,當向下滾動側面板時可以看到一些申請編號具有小寫的國家代碼。為解決問題,選擇列菜單Edit Cells>Common Transforms>To Uppercase。此操作可以使所有該專利號被轉換為大寫,這一步驟的數據規范將使后續提取國家代碼的步驟更方便,見圖2。

圖2 數據規范

5.4 字段拆分

利用OpenRefine可以方便地進行行列處理,如對包含多值字段分行分列、多值字段去重處理、單值字段分列處理、行列倒置合并等,可根據分析需要靈活轉換數據。在處理專利數據時OpenRefine的優點之一是可以簡便地將專利權人分成單獨行,選擇Edit Cells,然后拆分多值單元格。在彈出菜單中選擇“;”作為分隔符,此時數據集有2 578行并且所有專利權人都在一列,但是其余數據尚未復制到新行,之后選擇PN> Edit Cells > Fill Down。數據集中以每條專利的申請號作為關鍵標識。需要注意的是使用Fill down功能是數據填充的作用,謹慎使用以防數據變得混亂,這也是在開始數據處理工作時首先進行數據規范的重要原因。

5.5 機構清洗

未經清洗的專利數據普遍存在機構命名不規范現象,機構合并、改名、上下屬機構、分支機構、縮寫簡寫等各種問題造成機構名稱的多樣性,如不進行機構名稱規范會導致針對專利申請人的統計分析不夠準確。OpenRefine在機構規范方面提供關鍵詞碰撞和鄰近取樣兩種方法,通過對機構名稱自動聚類處理,可為分析人員提供機構名稱聚類結果作為機構清洗的參考。再經過機構名稱自動聚類處理后,如還存在不規范字段,可以通過人工識別和調整,以及對機構進行重命名的個別特殊處理得到最終數據清洗結果。在腫瘤干細胞專利數據處理中,從專利權人“(AE)”列中可以拆分出1 276個項目,然后將相似的值進行聚類分析,“聚類(Cluster)”選項便于系統對相似名稱的機構進行聚類,定義新的單元格值(New Cell Value),然后點擊Merge Selected & Re-cluster,逐個機構進行歸并,完成機構清洗步驟。

5.6 數據標引

是擬定量分析的基礎。數據標引通??捎萌斯づ凶x標引和機器輔助標引。在處理專利數據時可利用OpenRefine的文本過濾功能進行機器輔助標引,減少人工標引的工作量[7]。以標引專利的國家信息為例,可選擇優先權申請信息和日期(PI列),在列中的數據中隱藏一系列信息,可以使用簡單的代碼對PI列的信息進行處理,根據返回的值創建一個新列。如可用substring函數提取國家代碼,輸入substring(value, 0, 2),即代碼從0開始計數(如0,1 = U,2 = S)。代碼的第1部分在值字段中查找。0表示代碼從0開始計數,2表示從0讀取兩個字符,提取國家代碼,實現對專利所屬國家信息的標引,見圖3。

圖3 國家標識的數據標引

6 結語

數據清洗是專利分析的重要環節,其任務繁瑣、耗時長,需要大量細致認真的工作。本文對開源工具支持的專利數據清洗流程開展研究,對比常用的開源數據清洗工具,提出有針對性的清洗策略和步驟,為高質量的專利分析數據集合的形成提供可參考的應用示范。實踐證明利用OpenRefine等開源工具可以完成對專利數據的清洗、標注與規范化存儲功能,為專利分析前期的清洗工作提供便捷的處理手段,生成更規范、準確、清晰的分析數據集合。

猜你喜歡
規范分析信息
來稿規范
來稿規范
PDCA法在除顫儀規范操作中的應用
來稿規范
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
電力系統及其自動化發展趨勢分析
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 日韩av电影一区二区三区四区| 97视频精品全国免费观看| 久久成人国产精品免费软件| 青青草一区| 免费看美女毛片| 国产精品无码作爱| 中文字幕 日韩 欧美| 韩国v欧美v亚洲v日本v| AV不卡在线永久免费观看| 精品无码人妻一区二区| 天堂成人在线视频| h视频在线播放| 黄色a一级视频| 国产精品久久精品| 天天综合网亚洲网站| 蜜桃臀无码内射一区二区三区| 思思热在线视频精品| 伦伦影院精品一区| 五月婷婷丁香综合| 欧美亚洲日韩中文| 亚洲精品视频免费看| 香蕉网久久| 91丝袜在线观看| 大学生久久香蕉国产线观看| 超清无码一区二区三区| 99re经典视频在线| 丁香婷婷激情网| 国产精品无码影视久久久久久久 | 波多野结衣视频一区二区| 欧美劲爆第一页| 国产极品美女在线观看| 久久伊人操| 毛片免费视频| 无码一区二区三区视频在线播放| 91在线日韩在线播放| 国产永久在线观看| 国产91无毒不卡在线观看| 在线观看欧美精品二区| 欧美日韩动态图| 伊人五月丁香综合AⅤ| 国产高清无码麻豆精品| 色哟哟国产精品| 日本午夜影院| 一级毛片中文字幕| 国产午夜无码片在线观看网站 | 亚洲视频黄| 亚瑟天堂久久一区二区影院| 国产成人一二三| 久久久久久高潮白浆| 成人韩免费网站| 久久视精品| 国产精品色婷婷在线观看| 无码av免费不卡在线观看| 国产又色又刺激高潮免费看| 99热这里只有精品5| 日韩欧美中文亚洲高清在线| 99re在线免费视频| 欧美自慰一级看片免费| 97se亚洲综合在线天天 | 日本一区中文字幕最新在线| 天堂成人av| 久久久久88色偷偷| 亚洲午夜综合网| 九九九精品视频| 19国产精品麻豆免费观看| 亚洲无码高清免费视频亚洲 | 熟女日韩精品2区| 国产在线拍偷自揄拍精品| 亚洲精品男人天堂| 一区二区理伦视频| 99视频精品在线观看| 国产欧美在线视频免费| 国产在线无码av完整版在线观看| 天天操天天噜| 2048国产精品原创综合在线| 国产精品极品美女自在线| 尤物午夜福利视频| 午夜精品区| 97在线观看视频免费| 午夜成人在线视频| 激情在线网| 91精品最新国内在线播放|