999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA模型的中藥專利內(nèi)容熱點(diǎn)領(lǐng)域分析方法

2019-06-07 15:08:13丁鵬斐吳建德
軟件導(dǎo)刊 2019年1期

丁鵬斐 吳建德

摘 要:為解決中藥材相關(guān)專利分類粗泛性、熱點(diǎn)研究領(lǐng)域不明確的問題,提高其主題分類時(shí)效性和科學(xué)性,分析明確中藥相關(guān)熱點(diǎn)領(lǐng)域。通過引入LDA主題模型對中藥材相關(guān)專利內(nèi)容進(jìn)行分析,對中藥專利主題進(jìn)行劃分,以中藥材“三七”為例,使用1萬條專利數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,專利主體得到明確劃分,實(shí)現(xiàn)了熱門研究領(lǐng)域分類。基于LDA主題模型方法分析中藥相關(guān)專利,實(shí)現(xiàn)中藥專利領(lǐng)域主題細(xì)分、熱點(diǎn)子領(lǐng)域判斷,揭示了中藥專利熱門研究領(lǐng)域,實(shí)現(xiàn)了中藥相關(guān)產(chǎn)業(yè)未來發(fā)展趨勢的預(yù)測。

關(guān)鍵詞: LDA主題模型; 熱門技術(shù)領(lǐng)域; 中藥專利內(nèi)容分析; 三七

DOI:10. 11907/rjdk. 181746

中圖分類號:TP319文獻(xiàn)標(biāo)識碼:A文章編號:1672-7800(2019)001-0148-04

Abstract: To solve the crudeness of related patent classifications of Chinese herbal medicines and the unclear issues in the research field of related patent hotspots for Chinese herbal medicines, improve the timeliness and scientific nature of its subject classification, and identify the hot areas related to traditional Chinese medicine, this article analyzes the patent content of Chinese herbal medicines by the LDA theme model and divides the patent subject of traditional Chinese medicines. Taking Panax notoginseng as an example, 10 thousand patents are used for experiment. After? analyzing traditional Chinese medicine patent content of Sanqi by LDA theme model, we can achieve the subject division of Chinese medicine patents and issues will be resolved such as the overly broad classification of past patent topics, poor timeliness, and lack of scientific. Based on the LDA theme model, the hot research fields of Chinese medicine patents are portrayed and the development trend of traditional Chinese medicine is indicated.

0 引言

我國在中藥現(xiàn)代化過程中,除利用現(xiàn)代科學(xué)技術(shù)解釋古老的中醫(yī)藥原理外,還應(yīng)具備創(chuàng)新思維,積極發(fā)現(xiàn)新藥、新用途,才能保持勃勃生機(jī)。國家知識產(chǎn)權(quán)局規(guī)劃發(fā)展司2013年12月發(fā)布《中國區(qū)域產(chǎn)業(yè)專利密集度統(tǒng)計(jì)報(bào)告》,在全部41個(gè)工業(yè)大類中,醫(yī)藥制造業(yè)分別以2007-2011年28.6l件/萬人和2008-2012 年39.59件/萬人的專利密集度名列第5位,細(xì)化到與中藥直接或間接相關(guān)的工業(yè)種類時(shí),專利密集度也在全部20個(gè)工業(yè)種類中名列前茅[1]。與中藥直接或間接相關(guān)專利的專利密集度在所有工業(yè)種類中屬于前列。目前對于中藥相關(guān)專利主題的分析研究通常以專利數(shù)據(jù)結(jié)構(gòu)化信息挖掘?yàn)橹鳎M(jìn)行文本分析時(shí),關(guān)鍵詞分析是最常見的主題分析方法,但是在專利文獻(xiàn)中并不包含關(guān)鍵詞字段,所以研究人員通常采用專利分類代碼進(jìn)行分析研究[2],或?qū)χ兴幉南嚓P(guān)專利采用專利分類代碼替代專利關(guān)鍵詞進(jìn)行技術(shù)主題分析[3]。這些方法主要存在以下局限性:中藥專利分類代碼不能與相對應(yīng)的技術(shù)領(lǐng)域充分契合,分類過于粗泛,需要深入專利文本內(nèi)容進(jìn)行挖掘分析[4-7]。

本文采用LDA 主題模型可判斷文本的相關(guān)程度,從而識別大數(shù)據(jù)語料集背后潛藏的主題信息,其效果優(yōu)于混合主題模型等其它主題劃分方法[8-10]。LDA 模型對新興領(lǐng)域潛在主題分析研究具有明顯優(yōu)勢,在中藥相關(guān)專利新領(lǐng)域中所體現(xiàn)的前沿技術(shù)主題分析上也具有優(yōu)勢。本文采用LDA 主題模型與中藥材相關(guān)專利文本相結(jié)合,解決以往專利主題分類中的問題,采用語義分析的文本挖掘研究方式對中藥材相關(guān)專利進(jìn)行文本分析研究。

1 中藥材專利主體分析

1.1 LDA主體模型

LDA (Latent Dirichlet Allocation)是一種文檔主題生成模型,是一個(gè)包含詞、主題和文檔3層結(jié)構(gòu)的貝葉斯概率模型[11-12]。其中文檔與主題、主體與主題詞分別服從多項(xiàng)分布。LDA是一種非監(jiān)督機(jī)器學(xué)習(xí),在訓(xùn)練時(shí)不需要人工標(biāo)注訓(xùn)練集,只需要指明文檔的主題數(shù)就可以分析識別潛藏在大規(guī)模文檔集或語料庫中的主題信息。LDA采用詞袋模型,即每一篇文章都是由一組詞構(gòu)成的集合,且詞與詞之間是無序的,詞的無序性降低了整個(gè)問題的復(fù)雜度[13]。在LDA模型中每一篇文檔代表一些主題所構(gòu)成的概率分布,在每一個(gè)主題中主題又代表了很多單詞所構(gòu)成的一個(gè)概率分布[14]。主題模型的主要前提假設(shè)是,一系列主題鏈接了一系列詞和文檔集合,而主題則可以理解為是字和詞的一種概率分布,采用概率推斷算法,是一種全概率生成過程[15]。每一篇文檔可以包含多個(gè)主題,文檔中的每一個(gè)詞都由主題生成。LDA是目前主要的主題生成模型,與其它生成式概率模型相比,使用Dirichlet 分布作為主題分布信息的先驗(yàn)知識。文檔、主題以及詞可以表示為圖1。

圖1中,K為文檔主題個(gè)數(shù);M為文檔總數(shù);Nm為第m個(gè)文檔的詞的總數(shù); [β]為每個(gè)主題(Topic)下詞的多項(xiàng)分布的Dirichlet先驗(yàn)參數(shù);[α]為每個(gè)文檔下主題的多項(xiàng)分布的Dirichlet先驗(yàn)參數(shù);Zm,n為第m個(gè)文檔中第n個(gè)詞的主題;Wm,n為第m個(gè)文檔中的第n個(gè)詞;[θm]為第m個(gè)文檔下的主題的分布;[φk]為第k個(gè)主題下詞的分布[16]。

1.2 LDA主體模型應(yīng)用于專利文本

專利文本是一種比較特殊的文本,與一般文本相比具有結(jié)構(gòu)特殊、專業(yè)性強(qiáng)、領(lǐng)域詞匯較多等特點(diǎn),因此與傳統(tǒng)文本分類方法相比,專利文本需要采用更有針對性的文本分類方法和文本分析方法[17]。在文本分析中,文本的表示直接影響到特征值選取,好的特征值選取方法可以提高分類方法效率,目前專利文本分類方法的文本表示都基于向量空間模型(Vector Space Model,VSM)算法[18]。本文采用LDA主體模型對專利摘要進(jìn)行分析。深入挖掘?qū)@谋鹃g內(nèi)在關(guān)系,需要對當(dāng)前專利中所展現(xiàn)的技術(shù)特征應(yīng)用領(lǐng)域作進(jìn)一步分析,有助于了解各細(xì)分主題專利主體的發(fā)展方向,判斷各細(xì)分市場專利知識主體地位,了解當(dāng)前領(lǐng)域內(nèi)技術(shù)發(fā)展動向。在LDA主題模型中分析計(jì)算的基數(shù)是詞頻,因此專利文件的詞頻可以被看作是表現(xiàn)專利主題的重要特征,而專利文獻(xiàn)的數(shù)據(jù)具有多元性,可進(jìn)一步挖掘中藥材相關(guān)專利主題、專利技術(shù)應(yīng)用領(lǐng)域的潛在關(guān)系。通過LDA主題模型得到專利—主題、主題—特征詞的概率分布,從多個(gè)角度深入分析專利文本,得出專利技術(shù)發(fā)展動向。

1.3 中藥專利LDA主體模型應(yīng)用實(shí)現(xiàn)

專利文本的特殊性使其并不具有類似于期刊論文的關(guān)鍵詞字段,從而需要從專利文本中提取主題詞。根據(jù)專利文本特性,著重對專利摘要進(jìn)行分析。專利摘要包含其所屬技術(shù)領(lǐng)域、需解決的技術(shù)問題、主要技術(shù)特征和用途。本文對從專利數(shù)據(jù)庫中獲取的“三七”相關(guān)專利數(shù)據(jù)摘要進(jìn)行處理。

首先對專利數(shù)據(jù)進(jìn)行去噪。由于檢索式不精確,從數(shù)據(jù)庫中獲取的“三七”中藥材專利文獻(xiàn)中有少數(shù)不相關(guān)專利數(shù)據(jù)。因?yàn)閷哂写罅繑?shù)據(jù)的專利數(shù)據(jù)進(jìn)行人工去噪,將會浪費(fèi)大量時(shí)間,所以本文以字符串對比的方法進(jìn)行初步數(shù)據(jù)處理,通過對比剔除摘要中明顯不屬于“三七”專利的文本數(shù)據(jù)。中藥材專利摘要中存在許多特定的詞匯、單位、數(shù)字,例如外觀設(shè)計(jì)、設(shè)計(jì)、第一、當(dāng)歸、甘草、黃芪、紅花等,會嚴(yán)重影響LDA主題分析,對分析熱門技術(shù)領(lǐng)域有很大影響,所以需要對初步去噪的摘要文本進(jìn)行去停用詞分詞。本文采用jieba分詞對文本進(jìn)行處理,將專利文本中常用的不具有實(shí)際意義的量詞、連接詞、專用詞組去除,切割形成一個(gè)“三七”摘要的詞頻矩陣,運(yùn)用LDA對專利摘要進(jìn)行處理,提取出“三七”專利的主題模型。然后對“三七”專利主題模型的特征詞進(jìn)行評估,如果特征不明顯或者有明顯錯(cuò)誤則對所采集專利數(shù)據(jù)進(jìn)行再清洗,直至得到準(zhǔn)確明顯的特征詞。專利文本分析具體流程見圖2。

2 實(shí)驗(yàn)與分析

以含有“三七”中藥材的專利數(shù)據(jù)為研究對象,在智慧芽數(shù)據(jù)庫中,以“主題=三七 AND”為檢索式進(jìn)行檢索,“時(shí)間跨度=所有年份”,更新至2018年3月20 日,下載“三七”直接相關(guān)技術(shù)10 000 項(xiàng)。通過該數(shù)據(jù)將LDA主題模型應(yīng)用于中藥相關(guān)專利分析,并進(jìn)行可操作性和有效性檢驗(yàn)。

2.1 數(shù)據(jù)來源

研究數(shù)據(jù)來自于智慧芽專利數(shù)據(jù)庫。該數(shù)據(jù)庫包括中國、美國、歐洲專利局、世界知識產(chǎn)權(quán)局等專利信息,涵蓋了全球一億多個(gè)專利數(shù)據(jù)。采用該數(shù)據(jù)庫的主要原因是: 數(shù)據(jù)庫提供專利的所有字段信息,且提供完整的摘要和全文,并對以上專利信息進(jìn)行了標(biāo)準(zhǔn)化處理。采用該數(shù)據(jù)庫,便于獲取專利摘要、權(quán)利要求等文本的標(biāo)準(zhǔn)化信息,能夠有效提高提取專利中技術(shù)詞的效率,因此能夠使專利主題詞抽取結(jié)果更有意義,直接影響用LDA模型對專利文本數(shù)據(jù)處理分析的結(jié)果。

2.2 文本聚類分析

以往對專利文本處理通常使用文本聚類的方法。本文采用文本聚類中非常成熟的K-means算法,對“三七”專利摘要進(jìn)行聚類,提取“三七”目前的主要熱門技術(shù)。為了盡可能區(qū)分“三七”不同的研究領(lǐng)域,根據(jù)其主流研究方向?qū)⒕垲悅€(gè)數(shù)設(shè)為6個(gè),通過對“三七”摘要文本的聚類,測試K-means算法是否符合目前幾大研究方向。聚類結(jié)果見圖3,不同顏色和形狀的標(biāo)志代表各個(gè)不同類簇(彩圖見封底)。

由圖3可以看出聚類效果并不明顯,幾個(gè)簇是相交包含關(guān)系,不能清晰區(qū)分出目前“三七”專利主要涉及領(lǐng)域,不能有效指出“三七”熱門技術(shù)領(lǐng)域。通過聚類分析可以看出,傳統(tǒng)的文本聚類方法具有不確定性,聚類結(jié)果不穩(wěn)定,達(dá)不到對具體研究領(lǐng)域細(xì)分的效果。

2.3 LDA模型分析結(jié)果

本文以中藥材“三七”的專利數(shù)據(jù)作為研究對象,以驗(yàn)證LDA對整個(gè)中藥專利技術(shù)熱點(diǎn)的分析結(jié)果。通過對實(shí)驗(yàn)數(shù)據(jù)處理,再以LDA主體模型進(jìn)行測試,得出“三七”專利數(shù)據(jù)摘要中的高頻主題詞。高頻主題詞主要為:混合物、制劑、提取物、止血、止痛、系統(tǒng)、飼料、種植、毒副作用、保健、食用、人參、藥物。這些高頻詞反映了目前“三七”應(yīng)用研究的主要領(lǐng)域,所以通過對“三七”專利摘要進(jìn)行分詞抽取能很好地反映專利主題內(nèi)容。

LDA主體模型是全概率生成模型,對“三七”相關(guān)專利進(jìn)行主題劃分,主題數(shù)通常由人為定義,所以定義主題數(shù)可能會嚴(yán)重影響實(shí)驗(yàn)結(jié)果。本文對“三七”專利數(shù)據(jù)主題劃分設(shè)立了8個(gè)主題,通過實(shí)驗(yàn)比較發(fā)現(xiàn)主題數(shù)設(shè)為8時(shí),其主題見表1。

通過對比發(fā)現(xiàn),當(dāng)主題數(shù)設(shè)為6時(shí),其主題主要體現(xiàn)了藥用、保健飲食、“三七”加工設(shè)備、“三七”制備工藝、養(yǎng)殖種植等領(lǐng)域,沒有體現(xiàn)“三七”在生活用品中的應(yīng)用;當(dāng)主題數(shù)小于6時(shí),主題區(qū)分度過低,且不能充分反映“三七”專利包含的技術(shù)領(lǐng)域;當(dāng)主題數(shù)大于9時(shí),就會出現(xiàn)多個(gè)主題相近、主題區(qū)分過細(xì)、多個(gè)主題屬于一個(gè)大主題的情況。所以主題數(shù)設(shè)為8個(gè),剛好反映了當(dāng)前“三七”中藥材相關(guān)專利所包含的主要應(yīng)用領(lǐng)域,并且細(xì)分了三七作為醫(yī)藥對應(yīng)的幾個(gè)主要應(yīng)用領(lǐng)域,為分析“三七”當(dāng)前研究的熱門技術(shù)領(lǐng)域提供了充分支持。

主站蜘蛛池模板: 国产女主播一区| 福利在线一区| 亚洲午夜福利在线| 99久久成人国产精品免费| 亚洲系列无码专区偷窥无码| 成人毛片免费观看| 免费一级大毛片a一观看不卡| 依依成人精品无v国产| 久久综合成人| 五月激情婷婷综合| 亚洲一欧洲中文字幕在线| 日韩a级毛片| 88av在线播放| 亚洲日韩第九十九页| 国产永久免费视频m3u8| 99精品视频播放| 久久青青草原亚洲av无码| 麻豆国产在线不卡一区二区| 88av在线| 四虎影视永久在线精品| 免费人成在线观看成人片| 婷婷激情亚洲| 国产精品天干天干在线观看| 中文字幕在线不卡视频| 国内精品免费| 久久久久中文字幕精品视频| 高清欧美性猛交XXXX黑人猛交 | 亚洲天堂福利视频| 在线国产毛片| 91小视频在线| 亚洲永久色| 日韩麻豆小视频| 欧美日韩免费| 欧美v在线| 在线高清亚洲精品二区| 最新国产成人剧情在线播放| 韩日免费小视频| 久久综合九九亚洲一区| 久久人人97超碰人人澡爱香蕉| 亚洲天堂区| 伦伦影院精品一区| 全色黄大色大片免费久久老太| 国产啪在线| 亚洲国产理论片在线播放| 亚洲精品色AV无码看| 欧美日韩国产在线播放| 欧美综合成人| 欧洲日本亚洲中文字幕| 欧美日韩激情在线| 成年人视频一区二区| 国产精品太粉嫩高中在线观看| 久久免费观看视频| 国产乱人激情H在线观看| 香蕉色综合| 午夜无码一区二区三区| 久久久精品国产亚洲AV日韩| 国产免费网址| 日韩乱码免费一区二区三区| 久久国产V一级毛多内射| 精品久久久无码专区中文字幕| 亚洲熟女中文字幕男人总站| 欧美一级专区免费大片| 国产女人在线视频| 四虎永久免费地址| 国产色偷丝袜婷婷无码麻豆制服| 国产精品jizz在线观看软件| 中文字幕欧美日韩| 日韩中文欧美| 亚洲一区二区无码视频| 精品三级在线| 四虎永久在线精品国产免费| 人人艹人人爽| 精品三级网站| 国产精品3p视频| 男人天堂伊人网| 久久精品人人做人人爽| 狠狠做深爱婷婷综合一区| 这里只有精品在线| 国产精品制服| 国产高潮视频在线观看| 一本久道久综合久久鬼色| 精品小视频在线观看|