999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

新一代信息技術產業專利數據挖掘與分析

2022-10-18 07:11:18劉連政
合作經濟與科技 2022年22期
關鍵詞:數據挖掘主體信息技術

□文/笪 偉 夏 麗 劉連政

(南京市知識產權保護中心 江蘇·南京)

[提要]本文剖析新一代信息技術產業領域的創新特點以及專利信息挖掘過程,通過專利申請數據挖掘實例,構建數據模型,分析數據預處理、挖掘手段或方法選取、模型構建、優化與應用等方面的主要關注點。通過在實例中采用聚類分析算法,闡述所構建的模型優化以及模型評價等因素與輸出分析結果的影響,以便為研究人員在相關領域內對于海量數據信息的挖掘、分析與利用提供思路,尤其是在專利信息的挖掘模式、維度以及趨勢分析等方面提供參考。

一、新一代信息技術產業領域創新特點

近幾年,在國家層面以及地方層面對于戰略性新興產業發展與深耕拓展的形勢下,我國的新一代信息技術產業得到了較快的發展,包含下一代信息網絡產業、電子核心產業、新興軟件和新型信息技術服務、互聯網與云計算、大數據服務、人工智能五部分,產業鏈的上下游生態也得到穩步推進,逐步形成政府與政策引導、產業融合、創新成果產出與落地的發展新格局。發展至今,新一代信息技術產業領域的多個層面基本具有以下幾點共性,這也是與其他領域存在明顯區別的特點:

(一)技術更新或升級的節奏較快。新一代信息技術發展具有技術更新或者升級的節奏較快等特點,而且如今各行業的信息化發展已趨向規?;?、系統化,使得新一代信息技術領域的相關技術推進與其他眾多行業發展發生交叉,產生較為緊密的聯系,因而在面向新一代信息技術產業領域的專利信息數據挖掘時,可著重關注專利申請趨勢、技術生命周期以及趨勢預測這幾個方面對于細粒度挖掘與分析的要求。

(二)應用場景或者用戶需求的變化所產生的直接影響。綜合近些年新一代信息技術產業的發展情況,較多的是應用場景的變化或者用戶需求的變化催化了創新成果或者創新模式的生成。例如,下一代信息網絡部分的新一代移動通信技術,從4G-LTE通信技術至5G通信技術,再到后續的6G通信技術研究等,直接使得應用的場景發生較大的變化,更為高速、穩定的數據流交互改變了人們日常工作與生活的溝通聯系方式以及市場與行業的進一步細分和相關技術演進。因而,在面向該領域的專利信息數據挖掘時,應用場景或用戶需求的變化趨勢等成為數據挖掘與分析的一個參考維度。

(三)下一步發展的不確定性。目前來看,我們只能初步看到技術發展的整體趨勢,而對于具體在何種細分領域、何種應用或場景得到顯著的發展與探索并不是很清楚,也就是新一代信息技術產業的后續發展存在不確定性。例如,區塊鏈相關技術的發展,早期從20世紀90年代開始就有相關研究,并且早期是“區塊+鏈”的初始形態,但在近些年演進成區塊鏈的形態,才成為研究與風險投資的一個熱點,雖然現在很多人在這方面看到了潛力與潛在利益,但從目前的發展來看,其還是缺乏較為成熟的、整體的實踐。因而在面向該領域的專利信息的數據挖掘時,如何進行后續發展的趨勢分析與預測、相關決策支撐等也成為研究關注點。

二、面向新一代信息技術產業領域的專利數據挖掘

(一)數據挖掘特點剖析。數據挖掘是指從大量的數據中通過算法搜索隱藏于其中的信息的過程。數據挖掘通常與計算機科學有關,并通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。

發展至今,各個行業的信息化之類的系統已經具有了眾多的數據信息,特別是在新一代信息技術產業領域,本身就是在構建眾多基礎信息數據流的基礎上進行各個細分場景層面的相關處理、分析、拓展與延伸等工作,面對這些海量的數據信息,如何進行更為有效的處理與使用已然成為現今的一個熱門研究點。這里的處理與使用所采取的手段主要包括:海量數據信息的統計、分析、利用以及決策。當然,在數據挖掘過程中,也是存在目的性的,構建較為明確的數據挖掘目標,使得人們從海量的數據信息中進行數據信息的提取、分揀、歸類,挖掘出隱含的有用數據信息,為支撐相關決策提供研究與處理的方向。對于數據挖掘技術的研究與應用則成為一個重要的抓手。數據挖掘主要有以下幾個特點:

一是隱含性。數據挖掘就是要從海量的、存在噪聲的數據信息中提取隱含的知識信息,發現或者挖掘存在于其中的、人們事先并不具體了解的、潛在的有用信息以及知識,而不是常規的處理,如從數據表象層面通過一些BI工具即可獲得一些信息的過程。

二是交叉性。數據挖掘是一門交叉學科,其與人工智能、機器學習、模式識別、神經網絡計算和數理統計等學科領域交叉,它將對數據信息的應用從簡單的查詢、統計等基本處理操作直接轉變為從海量數據信息中挖掘、搜索、發現隱藏于其中的有著特殊關聯的知識信息。當然,所發現的知識信息也是相對的,在不同領域、不同前提以及不同約束條件的場景中所獲取的知識信息也存在一定的差異,能夠發現潛在的有效知識信息或者挖掘出內在的聯系,有助于提供或者輔助更深層次的決策支持。

三是價值性。在早期,由于計算能力以及不同行業或領域的業務數據的運行、生成與互聯電子化的局限性,對于海量的數據信息,人們并沒有進行深入的數據挖掘研究,大多數的數據處理止步于海量數據信息的深層次分析與挖掘?,F在,通過數據挖掘為企業提供有價值的知識信息,進而獲取直接或者間接利益、業界優勢,為商業決策或部署提供支撐,已然成為一個重要的手段。對海量的數據信息進行深層次的分析,有助于挖掘、發現商業發展以及市場競爭優勢等方面的有用的知識信息。

(二)專利信息的挖掘。通過專利信息的挖掘,能夠幫助人們對專利文獻、相關的技術特征信息、法律信息、潛在的技術價值信息以及市場價值信息進行更深層次的、顯性化的信息提取與研究,不管是專利技術層面上對于技術創新發展以及相關領域技術演進趨勢,還是專利價值層面上對于市場價值與技術價值的權衡以及后續發展決策的支撐,能夠在創新主體的創新成果研發、專利布局、專利風險規避以及創新或發展決策過程中發揮重要作用。

一般來說,有關專利信息的挖掘存在兩種詮釋。第一種詮釋主要是指對貫穿檢索、分析、專利數據與文本挖掘等過程進行挖掘與研究,目的就是挖掘、發現并處理有用的專利信息,進而在這些有用信息的基礎上進行更深層次的應用研究、輔助決策或趨勢預測等工作。第二種詮釋主要對專利數據以及專利文本兩個方面進行挖掘與研究,其中專利數據挖掘主要是對專利基礎數據進行處理,通過數據挖掘方法獲取專利共現、共引或共類、時間序列和網絡拓撲結構等方面的研究成果;專利文本挖掘則是對專利文件的字段進行分析與研究,例如權利要求中涉及技術特征的字段,通過文本挖掘的方法獲取專利分類、聚類等方面的研究成果。

結合前述新一代信息技術產業領域的特點以及專利信息挖掘的主要內容,本文面向新一代信息技術產業領域,進行相關專利申請案件信息的數據挖掘與分析。

(三)專利信息挖掘的驅動分析?,F今,常見的專利信息挖掘方向主要由目標驅動以及技術驅動兩個層面初步確立,具體分析如下。

1、目標驅動層面。一是以現有技術與主要競爭對手的專利布局為基礎進行專利信息的挖掘。得益于知識產權的相關法規與制度的發展和完善,以及市場不斷向前發展乃至創新的特性,本領域的技術人員能夠獲取并研究本領域相關的、較為先進的公開技術以及主要競爭對手的專利布局情況,從而進行相關技術的改進與創新,挖掘出有價值的潛在技術點或創新點,逐步構建具有法律保護意義的專利內容,以明確后續發展、風險防范與技術創新的決策路線。二是以變化的需求為基礎進行專利信息的挖掘,這里的需求主要有市場需求、用戶需求、場景或引用需求以及其他相關領域技術或發展模式的變化產生關聯性驅動,催化對專利信息的更深層次的挖掘。三是以本身開展的項目研究為基礎進行專利信息的挖掘。綜合前述兩個方面的內容,主動開展項目研究以及專利信息的挖掘,這兩部分工作同時開展,在本身開展的各個項目研發的節點同步進行相關信息的挖掘,也就是說,挖掘的工作研發項目的生命周期息息相關,在項目驗收之后,也需綜合本身的專利布局體系進行各階段的專利申請或布局體系的完善,以實現對自身創新成果的保護,穩固或提升市場優勢地位以及風險防范力。

2、技術驅動層面。這一層面直接體現了數據挖掘的交叉性,如人工智能、機器學習、模式識別、神經網絡、數理統計等多個學科的發展,直接驅動了研究人員在專利信息的挖掘方法、手段或技術上產生了較大的變化。如,信息抽取、自然語言處理、特征構建、數據建模、數據清洗、構建模型與優化等方面技術或算法的改進與突破,對專利信息的挖掘深度、挖掘維度以及模式等均有實質性的推動,與其伴隨的數據分析、應用以及決策支持、趨勢預測等方面也取得較大的進展。

(四)面向新一代信息技術產業領域的數據挖掘實例分析。本文以南京市知識產權保護中心業務系統受理的專利申請數據以及備案主體作為基礎數據來源,專利申請案件的領域范圍為新一代信息技術產業領域。其中,選取的專利申請數據時間跨度為一年,即從2021年1月31日至2021年12月31日,在此基礎上進行相關的數據挖掘與分析。對專利申請相關數據的深入挖掘與分析,能夠在一定程度上反映在設定的時間維度、產業領域內,南京市知識產權保護中心業務系統的申請主體的行為以及趨勢走向情況,可以為后續更深層次的分析與應用提供一種參考。

數據挖掘總體流程如圖1所示,主要涉及三個階段:數據集抽取階段、數據挖掘與清洗階段、模型構建與分析階段。(圖1)

圖1 數據挖掘總體流程圖

1、數據集抽取。在這一階段涉及兩方面的基礎數據庫,一個是保護中心業務系統的專利申請數據庫,另一個是保護中心業務系統的備案主體數據庫。保護中心現有的業務系統中已有大量的專利申請數據,根據預設條件從基礎數據庫中進行各項數據的抽取。本實例的專利申請數據抽取預設條件即是按照前述的領域、時間段設定,備案主體數據抽取預設條件為備案審核通過的申請主體信息數據。

2、數據挖掘與清洗。在這一階段涉及數據的預處理、特征提取與構建以及后續建模數據的標準化處理,其中數據的預處理包括對系統的專利申請數據集的相關異常數值進行處理,如申請案件編號亂碼、提交案件數量的數值為0等異常數據記錄的處理。針對本實例,特征的提取與構建主要從申請主體在預設條件下的最近一次專利申請案件提交情況、累計案件數量、審查總周期、備案審核通過至預設時間的時間長度、平均預審周期系數這五個方面進行考量,這里的審查總周期包括通過保護中心預審的周期以及提交至專利電子申請系統后的授權周期。后續建模數據的標準化處理還包括根據程序開發語言以及相應的函數對數據進行格式或數值的轉化等處理,以符合后續運行的數據條件。

3、模型構建與分析。結合上述五個方面的特征,基于RFM模型進行改進,通過增加備案審核通過至預設時間的時間長度,進一步分析申請主體與保護中心的業務關系黏度,通過增加平均預審周期系數,以進一步反映申請主體的案件質量,構建專利申請主體行為模型。本實例采用Python語言,采用kmeans算法進行聚類分析。圖2為申請主體特征分布圖,通過模型分析,對專利申請主體進行分類,如圖2所示,并對不同類別的專利申請主體進行前述五個方面的特征分析,以比較不同類別的專利申請主體在保護中心的行為趨勢,并生成申請主體行為畫像。(圖2)

圖2 申請主體特征分布圖

本實例通過k-means算法進行分析時,選取的k值為3。由于k-means算法的計算過程屬于無監督學習,因而我們在如何確定較好的k值,也就是簇的數值時,需要進行相關分析與考量,以保證簇類的數據具有較大的相似性,并且簇之間的數據存在較為明顯的差異。因此,本實例在k值的選取方面,采取了三個維度:簇內誤方差(SSE)、輪廓系數(silhouette coefficient)、CH指標(Calinski-Harabaz),綜合這三個維度情況,進行聚類結果的測試評價,進而確定具有更優聚類效果時所對應的k值,即確定簇數值,將申請主體分成了三類。本實例選取的基礎數據集共有2,528條記錄,即在預設的條件下,共有2,528條申請主體提交至保護中心的專利申請數據,此時基礎數據集存在同一申請主體提交的多個不同的專利申請記錄。經數據處理之后,得到760條數據記錄,即符合模型分析的數據記錄有760條,此時的數據集中已經按照一個申請主體只有一個數據記錄的設定完成處理,并剔除異常數值,這其中就增加了特征標簽,以符合所構建模型進行分析時的數據要求。如表1所示,可知各類之間的相似度較小,類內部的相似度較大,進而實現了申請主體群體的進一步劃分,最后輸出各類數據,以進行后續決策的支撐。(表1)

表1 聚類分析結果一覽表

總而言之,專利信息的數據挖掘與分析是密不可分的,最終形成能夠被人們所認識、利用或參考的知識信息。通過上述的專利數據挖掘實例過程,確定了在進行數據挖掘時需考慮數據預處理,挖掘手段或方法,模型構建、優化與應用等主要節點的工作。在對數據處理時,不僅要考慮基礎數據集的準確性、適用性、全面性,還要考慮各類數據之間的內在聯系、異常數據的處理以及模型訓練測試所需的數據要求,如對數據進行降維處理,或者在本實例模型分析時需對數據進行無量綱化處理,以實現模型數據的標準化。選擇較為合適的數據挖掘手段或方法則是確定后續模型構建、分析與優化效果的一個方向。模型的構建與優化則需關注特征抽取、迭代分析、模型如何評價以及應用這幾個方面,進一步明確更優的模型輸出結果與更好的分析效果。

猜你喜歡
數據挖掘主體信息技術
新一代信息技術征稿啟示
論自然人破產法的適用主體
南大法學(2021年3期)2021-08-13 09:22:32
新一代信息技術征稿啟示
新一代信息技術征稿啟示
探討人工智能與數據挖掘發展趨勢
信息技術在幼兒教育中的有效應用
甘肅教育(2020年2期)2020-09-11 08:00:44
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
關于遺產保護主體的思考
一種基于Hadoop的大數據挖掘云服務及應用
論多元主體的生成
主站蜘蛛池模板: 97av视频在线观看| 国内精自线i品一区202| 99精品久久精品| 伊人丁香五月天久久综合 | 中文字幕第1页在线播| 亚洲第一成年人网站| 日韩欧美国产综合| 欧美a在线| 亚洲免费福利视频| 欧美成人国产| 欧美伊人色综合久久天天| 亚洲精品福利网站| 日本一区二区不卡视频| 91视频青青草| 美女啪啪无遮挡| 国产福利微拍精品一区二区| 午夜视频www| 999精品视频在线| 午夜小视频在线| 国产精品午夜福利麻豆| 日本一本在线视频| 2022精品国偷自产免费观看| 日韩精品中文字幕一区三区| 蜜芽一区二区国产精品| 色吊丝av中文字幕| 999国产精品永久免费视频精品久久 | 国产成人精品一区二区三在线观看| 婷五月综合| 日韩大片免费观看视频播放| 亚洲成人黄色在线观看| 色综合天天娱乐综合网| 看av免费毛片手机播放| 国产视频你懂得| 波多野结衣一区二区三区AV| 色爽网免费视频| julia中文字幕久久亚洲| 日本中文字幕久久网站| 好吊色妇女免费视频免费| 亚洲日本韩在线观看| 欧美激情综合一区二区| 日韩在线永久免费播放| 激情六月丁香婷婷| 3p叠罗汉国产精品久久| 中国精品自拍| 国产精品青青| 在线播放国产99re| 四虎国产成人免费观看| 成人日韩视频| …亚洲 欧洲 另类 春色| 久久久久久高潮白浆| 久久国产精品电影| 激情六月丁香婷婷四房播| 成人小视频网| 日日噜噜夜夜狠狠视频| 亚洲av无码成人专区| 欧美自慰一级看片免费| 亚洲成人播放| 亚洲av中文无码乱人伦在线r| 国产免费福利网站| 浮力影院国产第一页| 国产精品成人AⅤ在线一二三四| 日日拍夜夜操| 国产呦精品一区二区三区网站| 国产成人a毛片在线| 色香蕉影院| 全裸无码专区| 亚洲欧洲综合| 亚洲天堂.com| 尤物精品国产福利网站| 不卡无码h在线观看| 久久综合一个色综合网| 国产精品女熟高潮视频| 五月激情综合网| 欧美高清视频一区二区三区| 最新国产成人剧情在线播放| 婷婷激情五月网| 91久久天天躁狠狠躁夜夜| 青草视频免费在线观看| 国产成人高精品免费视频| 成人免费午夜视频| 老司国产精品视频91| 91久久偷偷做嫩草影院电|