999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于專利分析的技術(shù)樹(shù)構(gòu)建

2020-09-16 13:29:19李健博張麗瑋
科學(xué)與信息化 2020年14期
關(guān)鍵詞:文本挖掘

李健博 張麗瑋

摘要:技術(shù)樹(shù)是用來(lái)表示某一領(lǐng)域中產(chǎn)品組成,技術(shù)和技術(shù)功能之間關(guān)系的樹(shù)形圖。本研究的目的是使用計(jì)算機(jī)相關(guān)技術(shù),多維度地、快速地構(gòu)建產(chǎn)業(yè)技術(shù)樹(shù)。本研究主要使用自然語(yǔ)言處理技術(shù)提取專利文本中的主體一動(dòng)作一客體結(jié)構(gòu)(SAO),然后使用數(shù)據(jù)挖掘技術(shù)對(duì)上述結(jié)構(gòu)分類、處理、標(biāo)注,最終構(gòu)建技術(shù)樹(shù)。本文使用“捕獲碳(吸附和溶劑)”專利數(shù)據(jù)集構(gòu)建了產(chǎn)業(yè)技術(shù)樹(shù),并從產(chǎn)品、技術(shù)和功能的視角分別展示了技術(shù)樹(shù)的特征。

關(guān)鍵詞:文本挖掘;自然語(yǔ)言處理;技術(shù)樹(shù);SAO結(jié)構(gòu)

引言

技術(shù)樹(shù)是用來(lái)表示特定技術(shù)領(lǐng)域或單體組織中技術(shù)特征及技術(shù)間關(guān)系的樹(shù)結(jié)構(gòu)圖,通常包含某特定技術(shù)領(lǐng)域的產(chǎn)品組件、技術(shù)以及技術(shù)的功能及其使用效果之間關(guān)系的樹(shù)形結(jié)構(gòu)圖,是技術(shù)規(guī)劃的重要決策工具。通過(guò)技術(shù)樹(shù)的構(gòu)建,用于幫助技術(shù)管理人員梳理并展示企業(yè)的技術(shù)體系架構(gòu),助力于企業(yè)技術(shù)戰(zhàn)略決策的制定。

目前,對(duì)于技術(shù)樹(shù)的構(gòu)建常用的主要有兩種方法,分別是基于TRIZ理論中的技術(shù)進(jìn)化樹(shù)理論進(jìn)行構(gòu)建和通過(guò)提取技術(shù)、產(chǎn)品等相關(guān)信息,根據(jù)原始信息的邏輯結(jié)構(gòu)進(jìn)行技術(shù)樹(shù)的構(gòu)建。上述研究成果已經(jīng)取得了一定的成果,但由于技術(shù)樹(shù)構(gòu)建很大程度上依賴專家和構(gòu)建者的知識(shí)和經(jīng)驗(yàn),從而存在人為主觀性強(qiáng)、自動(dòng)化差等問(wèn)題。

針對(duì)上述問(wèn)題,本研究使用文本挖掘和自然語(yǔ)言處理技術(shù)對(duì)專利進(jìn)行,實(shí)現(xiàn)自動(dòng)化技術(shù)樹(shù)構(gòu)建研究,從而對(duì)企業(yè)技術(shù)結(jié)構(gòu)進(jìn)行多維度展示。其中,具體流程框架如圖1所示:

1技術(shù)樹(shù)構(gòu)建

本文使用文本挖掘和自然語(yǔ)言處理技術(shù)對(duì)專利文獻(xiàn)進(jìn)行深入解讀和分析,提取SAO結(jié)構(gòu),并對(duì)A0結(jié)構(gòu)分類、標(biāo)注等,最終構(gòu)建技術(shù)樹(shù)。

1.1提取SA0結(jié)構(gòu)

提取SAO結(jié)構(gòu)的步驟包括:篩選專利數(shù)據(jù),抽取SAO結(jié)構(gòu)。

①選擇專利語(yǔ)料。針對(duì)需要研究的企業(yè),確定檢索式,檢索獲取其相關(guān)專利文獻(xiàn)。為確保研究的有效性,本文選取“摘要”和“權(quán)利要求書(shū)”作為分析語(yǔ)料,進(jìn)行SAO結(jié)構(gòu)的抽取。

②抽取SAO結(jié)構(gòu)

提取SAO結(jié)構(gòu)主要依賴自然語(yǔ)言處理技術(shù),在此之前需要先對(duì)文本進(jìn)行預(yù)處理,包括分句、分詞、去除停用詞、詞性標(biāo)注、依存句法分析等操作,從而提取SAO結(jié)構(gòu),如圖2所示。

1.2深度標(biāo)注SA0結(jié)構(gòu)

在提取和分類SAO的基礎(chǔ)上,對(duì)s和AO進(jìn)行標(biāo)注。詞組包括產(chǎn)品、技術(shù)、技術(shù)屬性和材料類型,AO包括從屬類型、功效類型和屬性優(yōu)化。

(1)衡量SAO結(jié)構(gòu)相似度

提取的SAO結(jié)構(gòu)數(shù)量眾多,其中包含很多意思相似的詞組和短語(yǔ),例如“二氧化碳的回收”、“分離C02”、“除去二氧化碳”,因此需要將他們聚類,并且用更具代表性的詞語(yǔ)標(biāo)記他們。

本文使用機(jī)器學(xué)習(xí)中第三方模塊sklearn(Scikit-learn)中的TfidfVectorizer將文本轉(zhuǎn)化為向量,然后用向量的余弦值表示SAO相似度。

提取的SAO結(jié)構(gòu)具有以下特征:可能有很多無(wú)效數(shù)據(jù),而且無(wú)法提前獲知聚類的簇的數(shù)量。基于密度的聚類算法不需要指定簇的數(shù)目,而且能夠識(shí)別噪聲數(shù)據(jù),所以本文使用DBSCAN聚類算法對(duì)短語(yǔ)和AO分類。

(2)s和0的類型標(biāo)注

根據(jù)聚類的結(jié)果將s和0標(biāo)注為四種類型,包括產(chǎn)品、技術(shù)、技術(shù)屬性和材料(表1)。

(3)A0類型標(biāo)注

根據(jù)聚類的結(jié)果將AO標(biāo)注為三種類型,包括從屬類型,功效類型和屬性優(yōu)化。(表3)

1.3構(gòu)造技術(shù)樹(shù)

技術(shù)樹(shù)的類型及構(gòu)造方法

相應(yīng)的,技術(shù)樹(shù)可以分成“產(chǎn)品”技術(shù)樹(shù)、“技術(shù)”技術(shù)樹(shù)和“功效”技術(shù)樹(shù)。

“產(chǎn)品”技術(shù)樹(shù)表示產(chǎn)品和組成產(chǎn)品的部件之間的關(guān)系,技術(shù)樹(shù)的節(jié)點(diǎn)是被標(biāo)記為產(chǎn)品的詞組,例如“吸收劑”由“循環(huán)流化床反應(yīng)器”、“埋管式換熱器”等組成,如圖3示。

“技術(shù)”技術(shù)樹(shù)表示產(chǎn)品和組成產(chǎn)品的部件之間的技術(shù)關(guān)系,技術(shù)樹(shù)的節(jié)點(diǎn)可以是被標(biāo)記為技術(shù)類型的詞組或者是描述技術(shù)屬性的AO結(jié)構(gòu)。

“功能”技術(shù)樹(shù)表示產(chǎn)品或技術(shù)的功能和功能之間的關(guān)系,技術(shù)樹(shù)的節(jié)點(diǎn)是描述產(chǎn)品或技術(shù)功能的AO結(jié)構(gòu)。

2實(shí)證研究

為確保上述研究結(jié)果的準(zhǔn)確性和有效性,本文應(yīng)用“碳捕獲”領(lǐng)域的專利數(shù)據(jù)構(gòu)建技術(shù)樹(shù),驗(yàn)證本文提出方法的可行性。

2.1SAO結(jié)構(gòu)抽取和標(biāo)注

本研究使用哈工大自然語(yǔ)言處理工具ltp進(jìn)行語(yǔ)義依存分析,結(jié)合語(yǔ)法規(guī)則,使用Python~言編寫(xiě)程序提取SAO結(jié)構(gòu)。程序處理“中國(guó)石油化工股份有限公司”的數(shù)據(jù)集得到331個(gè)SAO結(jié)構(gòu),部分?jǐn)?shù)據(jù)見(jiàn)表3

然后,使用基于向量空間模型的TF-IDF將SAO結(jié)構(gòu)轉(zhuǎn)換成向量,使用DBSCAN聚類算法對(duì)短語(yǔ)和AO分類并標(biāo)注類型。

2.2技術(shù)樹(shù)構(gòu)建與分析

本實(shí)驗(yàn)構(gòu)建了一個(gè)程序,其使用了Python的Pandas庫(kù)從SQL Server取出標(biāo)記好的SAO結(jié)構(gòu),然后使用Python的繪圖庫(kù)Matplotlib將技術(shù)書(shū)畫(huà)出來(lái),保存成圖片。該程序生成了三種類型的技術(shù)樹(shù)圖,包括“產(chǎn)品”技術(shù)樹(shù)、“技術(shù)”技術(shù)樹(shù)和“功能”技術(shù)樹(shù),分別如圖6、圖7和圖8所示。

(1)“產(chǎn)品”技術(shù)樹(shù)

一種脫除混合氣體中H2s、CO2和有機(jī)硫的固體吸附劑”的“產(chǎn)品”技術(shù)樹(shù)。(圖6)

(2)“技術(shù)”技術(shù)樹(shù)

“一種聚對(duì)苯二胺/石墨烯基氮摻雜多孔碳材料制備方法”構(gòu)建的“技術(shù)”技術(shù)樹(shù)。

(P代表產(chǎn)品節(jié)點(diǎn)、T代表技術(shù)節(jié)點(diǎn))

(3)“功能”技術(shù)樹(shù)

“離子液體的二氧化碳吸收劑”構(gòu)建的“功能”技術(shù)樹(shù)。(圖11)

(F代表功能節(jié)點(diǎn))

3結(jié)束語(yǔ)

本研究彌補(bǔ)了傳統(tǒng)方法構(gòu)建專利技術(shù)樹(shù)的不足,如提高技術(shù)樹(shù)構(gòu)建速度,降低對(duì)專家知識(shí)的依賴,減少工作量,多視角展示技術(shù)樹(shù)等。本研究以“碳捕獲”專利數(shù)據(jù)集為例,構(gòu)建并分析了不同種類的技術(shù)樹(shù)。

猜你喜歡
文本挖掘
基于貝葉斯分類器的中文垃圾短信辨識(shí)
科技資訊(2017年5期)2017-04-12 15:18:52
基于潛在特征的汽車(chē)評(píng)論要素挖掘
基于評(píng)論信息的淘寶服裝類評(píng)分體系優(yōu)化
商情(2016年32期)2017-03-04 00:27:28
數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析
文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個(gè)性化推薦中的應(yīng)用
商(2016年34期)2016-11-24 16:28:51
從《遠(yuǎn)程教育》35年載文看遠(yuǎn)程教育研究趨勢(shì)
基于文獻(xiàn)的中西醫(yī)結(jié)合治療腦梗死藥物使用情況分析
基于改進(jìn)Hadoop云平臺(tái)的海量文本數(shù)據(jù)挖掘
慧眼識(shí)璞玉,妙手煉渾金
主站蜘蛛池模板: 日韩无码视频专区| 天天躁夜夜躁狠狠躁图片| 国产第二十一页| 永久免费无码日韩视频| 国产精品尤物铁牛tv | 欧洲高清无码在线| 国产精品福利社| 美女视频黄频a免费高清不卡| 亚洲综合一区国产精品| 国产成人精品亚洲日本对白优播| 无码中文字幕加勒比高清| 日韩AV无码一区| 国产91高清视频| 一级香蕉视频在线观看| 国产成人久久综合777777麻豆| 亚洲—日韩aV在线| 国产白浆一区二区三区视频在线| 亚洲精品少妇熟女| 精品成人免费自拍视频| 久久精品人人做人人爽| 国产高清国内精品福利| 国产一区二区影院| 亚洲欧洲日韩久久狠狠爱| 国产成人欧美| 91欧美在线| 国产成在线观看免费视频| 亚洲AⅤ永久无码精品毛片| 91精品国产一区自在线拍| 欧美一区二区三区欧美日韩亚洲| 国产色网站| 日韩欧美在线观看| 国产永久在线视频| 最新精品久久精品| 精品无码国产一区二区三区AV| 成人免费视频一区二区三区| 国产欧美日韩资源在线观看| 国产欧美综合在线观看第七页| 婷婷久久综合九色综合88| 国产97视频在线| 国产亚洲精品自在久久不卡| 女人18一级毛片免费观看| 91亚洲精品国产自在现线| a毛片免费在线观看| 一级看片免费视频| 国产精品亚洲天堂| 国产特级毛片| 91色在线视频| 亚洲成a人片| 国产xxxxx免费视频| 成人在线观看一区| 亚洲综合极品香蕉久久网| 搞黄网站免费观看| 国产福利拍拍拍| 一区二区三区高清视频国产女人| 亚洲精品无码抽插日韩| 日韩激情成人| 露脸国产精品自产在线播| 中国特黄美女一级视频| 欧美性猛交一区二区三区| 国产青榴视频| 亚洲日韩精品欧美中文字幕| 色成人亚洲| 在线视频亚洲色图| 色天天综合久久久久综合片| 精品伊人久久久久7777人| 天堂成人在线视频| 久草视频精品| 真实国产乱子伦高清| 极品尤物av美乳在线观看| 中文字幕精品一区二区三区视频 | 国产香蕉97碰碰视频VA碰碰看| 91精品国产综合久久香蕉922| 国产美女在线观看| 国产欧美自拍视频| 欧美成人免费一区在线播放| 亚洲精品不卡午夜精品| 中文字幕一区二区人妻电影| 一本视频精品中文字幕| 综合五月天网| 亚洲国产日韩在线成人蜜芽| 亚洲中文精品久久久久久不卡| 国产无码在线调教|