999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SAO結構的專利技術功效圖構建研究

2017-07-17 15:19:21段慶峰蔣保建
現代情報 2017年6期

段慶峰+蔣保建

[摘要]SAO三元結構具有易于理解和表達的語義關系,將其作為挖掘分析的基本單元,深度分析專利文本蘊含的技術語義有助于揭示技術功效關系。從SAO結構的定義及特征出發,提出了基于SAO結構的專利技術功效圖構建的思路、流程及方法,采用基于SAO結構的共現關系構建技術功效矩陣,探討了基于SAO結構的技術主題、功效主題分析方法。通過石墨烯傳感器領域為例的實證研究驗證了方法的有效性。

[關鍵詞]專利;技術功效圖;SAO結構;主題聚類

DOI:10.3969/j.issn.1008—0821.2017.06.008

[中圖分類號]G255.53 (文獻標識碼]A [文章編號]1008—0821(2017)06—0048—07

作為外界公開的技術知識產權信息載體,專利是目前最常用和有效的有價值技術內容獲取來源途徑。如何有效分析和理解海量專利大數據中的技術本質是科技研發人員及有關管理決策者面臨的重要問題。在各種技術分析和管理工具中,技術功效圖具有表現直觀、語義清晰的優點,是應用廣泛的專利分析手段。技術功效圖的完成并不是一件簡單和容易的工作任務,工作量大、依賴專家、技術的復雜性等都制約了其繪制的效率和效果。

準確而高效地界定、識別專利的技術和功效維度特征是構建技術功效圖的關鍵環節,自然語言處理、專利語義識別、數據挖掘、數據可視化等技術與工具已經成為支撐技術功效圖自動或半自動化構建的基礎。比如,王麗等提出了基于文本挖掘技術的主題詞自動標引方案,以此為基礎說明了具有自動化特征的技術功效圖構建系統Patent-TEM。陳穎等從專利文本的結構分析出發,借鑒TRIZ理論中的物一場模型,提出了識別專利文本中技術與功效部件的方案,歸納了技術詞與功效詞的識別規則。翟東升等將數據倉庫、大數據分析框架應用于技術功效圖構建,從數據組織及計算框架的角度分析了技術功效圖中的關鍵技術。陳穎等提出了面向技術功效矩陣構建的詞匯模型,能較好滿足專利技術功效矩陣分析的多技術主題、分析任務臨時性強、主題范圍可選等特點。盡管基于文本挖掘分析的技術功效分析框架獲得了一定程度進展,但如何準確界定、理解技術詞匯依然較為困難,需要能夠解析文本詞語背后所表達的潛在技術特征及內涵。進一步,深度的技術語義分析和理解是提升和優化技術功效分析系統的重要基礎。

近年,學者開始關注專利文本中的SAO(Subject-Ac-tion-Object)結構特征,為識別出隱含的技術語義提供了一種研究途徑。通常的主題詞標注方法將技術與功效屬性分別抽取與識別,可能忽略了內在的關聯性。SAO不但顯式地包含了技術主題,而且保持了技術屬性間的內在關聯,蘊含了有價值的技術性啟發信息。基于SAO結構的技術語義分析已被迅速應用到多個應用領域,例如R&D合作伙伴識別、技術路線分析、技術形態識別、技術預測、技術演化、技術機會等。理論上,TRIZ理論凝練了發明創新的一般原理,提供了認識技術內在本質的思維視角,同SAO語義分析技術相結合,形成了面向技術創新分析的語義TRIZ分析框架,能夠借助于語義關系映射并揭示出技術要素間的內在關系和動態。

面對大數據分析的需求,盡管有學者及分析人員探索技術功效圖構建的自動化或半自動化解決方案,但依然面臨語義模糊、分析效果不佳的困難。文本分析的范疇中,共現關系是分析技術與功效要素之間內在關聯的常見方法,但簡單的共現關系并不能等同于兩者之間存在技術語義聯系,比如共同出現在一個句子中的技術主題詞與功效特征詞可能沒有直接語義關系。以句子或段落為單元的技術與功效要素共現計數可能會高估兩者間的語義關聯性。而從語義結構的角度開展分析,能夠在很大程度上解決上述問題。一方面,SAO結構為理解深入技術功效本質提供了豐富的語義信息;另一方面,相對與基于全文或句子的分析,SAO結構提供了一種更為細粒度的語義結構,有助于更為深入地挖掘和理解專利文本中蘊含的技術內涵。

縱觀有關文獻,通過SAO技術語義分析手段指導技術功效圖構建的研究還很缺乏。深入分析數據中隱含的技術語義特征能夠很大程度上提高技術特征識別效果。因此,本文擬將語義TRIZ的分析框架應用于技術功效圖的構造,通過SAO結構更加準確地發現專利數據中的技術一功效關系,進而促進該工具的更廣泛應用。

1構建方法

1.1 SAO語義結構

SAO結構由三元組(Subject、Action、Object)構成,從句子語法結構看,SAO三元組可以對應句子中的主語Sub-ject、謂語Verb和賓語Object結構;從語義的角度,S和O可以代表系統的組件或技術,A用來描述如何實現功能。通常,句子中S和O表現為名詞短語,A表現為動詞。特定的S-A-O組合反映了技術系統的內在關系及特征。如果能夠從句子中抽取出的三元結構,分析S、A、O在專利句子中的共現模式,則可以進一步推斷技術要素間的關聯。

SAO語義分析有助于理解技術系統的結構及功能。在一些場景下,SAO結構被理解為問題一方案(Problem-So-lution)模式,S代表有待解決的技術問題,AO代表問題的解決方法和可能,PS語義模式直接地給出了技術需求與技術解決方案的線索。進一步,有學者細分SAO結構的語義類型,比如:問題(Problem)、方案(Solution)、功能(Function)、效果(Effect)。SAO三元結構的組合可能代表了不同的技術特征模式,例如:問題P或方案s語義類型的SAO結構中,S或O可能代表技術或系統部件;功能F或效果E語義類型的SAO結構中,AO組合則可能代表技術的功能、狀態及效果。

技術功效圖由技術和功效構成了二維技術空間,快速而準確地凝練出技術主題與功效主題,并發現二者的語義關聯是關鍵。技術與功效詞語內嵌在SAO結構之中,SAO的語義結構為發現技術功效內在關系提供了良好的途徑。技術詞語與功效詞語的抽取及凝練可以建立在SAO基礎之上,根據其特定的語義類型,可以解析得到技術功效關系。

1.2一般流程

從SAO結構分析出發,本文提出了采用文本挖掘技術構建技術功效圖構建一般流程,劃分為6個階段,如圖1所示。

1)選取有關專利數據庫,采集專題技術領域專利文本信息。各個國家都有相應的開放性專利檢索系統可以作為專利數據源,例如美國專利數據庫USPTO、歐盟專利數據庫ESPTO、中國專利數據庫SIPO。專利文本中包含豐富的結構化信息,尤其專利摘要包含了重要而精簡的技術內容,是本文中抽取SAO結構的來源。

2)SAO結構的抽取及語義標注。采用自然語義處理NLP技術,從專利摘要文本中抽取SAO技術三元組,通常的軟件包都可以滿足一般應用需求。分類并標注SAO結構通常可以依據線索詞的特征進行識別,尤其SAO三元結構中的Action的詞性及含義。比如,Increase、Low、Reduce、Great等是常見的表征技術效果詞語,Function as、Use as等則表達了技術功能。通過線索詞可以初步篩選出SAO結構的語義類型,進一步結合專家意見可以識別技術的效果、功能及用途等。

3)建立技術與功效詞庫。借助于SAO結構的語義標簽,從中分別抽取出代表技術與功效的詞語,過濾后形成詞庫。技術詞語通常表現為名詞,可以由SAO結構中的S和O中抽取。功效詞通常是動詞或形容詞,可以由代表功能或效果的SAO結構中抽取A或AO組合。技術詞及功效詞的過濾及篩選可以結合專家意見及語義分析手段,分析備選詞語與技術領域核心詞語的語義關系,通過多輪動態優化,形成精煉的詞庫。

4)技術和功效主題凝練。詞庫中的技術詞語與功效詞語可能數量龐大而雜亂無章,甚至包含噪聲數據,需要進一步的主題提煉。本文中技術主題與功效主題采用類似的凝練策略,即基于網絡關系的主題聚類;但是,兩者采用了不同的網絡構建技術。針對技術詞語,根據技術詞語在SAO結構的分布特點,分析技術詞語在SAO結構中的共現關系,構建技術共現網絡;針對功效詞語,根據功效詞語在WordNet詞典中的語義關系,分析功效詞語的語義相似度,依據技術詞語的語義距離構建功效詞網絡。以技術詞語和功效詞語為節點構建的網絡可以為主題聚類分析提供依據?基于網絡關系的聚類分析可以揭示出技術詞語和功效詞語的內部關系,結合專家意見,凝練得到技術和功效主題。

5)技術功效矩陣構建。技術主題與功效主題分別構成了技術功效矩陣的兩個維度,矩陣中的每個單元格內容代表了該位置對應的技術主題、功效主題的共現專利個數。這里,共現關系的計算借助于SAO結構。如果某技術主題和功效主題共同出現在同一SAO結構中對應位置,則認為有1個專利的某技術主題具有相應的功效特征。顯然,通過SAO語義結構能夠更為有效地分析技術和功效的關系。

6)選取合適的繪圖工具,依據技術功效矩陣內容,進行定制化的技術功效圖繪制。

1.3關鍵技術

1.3.1技術主題

技術主題可以借助聚類方法,從數量龐大的技術詞語中分析得出。通常認為,如果兩個技術詞語共同出現的頻率越高,則它們的語義可能越接近。本文中的共現關系定義以SAO三元結構為基礎,相對于基于專利文本全文的共現關系,更能細致而準確地展現出技術詞語的語義聯系。針對某個三元組(Subject、Action、Object),如果技術詞語T1和T2分別出現在同一SAO三元組的Subject和Object中,則定義T1和T2存在共現關系。

2實證研究

2.1數據準備

選取石墨烯傳感器為研究技術領域,采用自編Python程序抽取美國專利數據庫USFID中的有關專利內容。專利的檢索策略采用關鍵詞匹配的方法,檢索專利標題及摘要中同時包含“Graphene”和“Sensor/Sensors”的專利集,檢索表達式為“ABST/(Graphene AND(Sensor OR Sensors))”。檢索時間為2016年8月,剔除無關專利,最終得到51條結果

2.2 SAO結構語義類型分析

采用斯坦福大學推出的開源軟件Open IE,對專利數據摘要文本進行分析。該軟件包采用Java語言編寫,采用自然語言處理技術,從英文文本中抽取SAO三元結構。運行軟件,分析得到158條SAO結構,部分結果如表1所示。根據三元結構中Action部分的詞語特征,可以對原始SAO三元結構進行初步語義標注。例如,專利9178129中分析得到兩條SAO結構,其中一條Action屬性為Increase,而Object屬性為Response,反映了響應時間增加的含義,是典型的效果語義類型;而另一條Action屬性為Use as,反映了技術的用途,表達了功能語義。通過分析SAO三元結構集合中Ar-tion屬性詞語,基本可以較好地歸納出P、S、F、E 4種語義類型,其中代表E語義類型的SAO結構更適合于功效詞語的研究,其中蘊含的語義信息可用于技術功效圖的構建。

2.3技術、功效主題聚類

借助SAO三元結構的不同語義類型,有助于抽取技術詞語。對于體現效果E模式的SAO結構,Subject可能代表了技術或系統部件;對于其它3種語義類型的SAO結構,Subiect和Obiect中可能代表了技術或系統部件。因此,技術詞語可以從這些相應的語義結構中進行抽取和分析。通過自然語義處理NIP方法,技術詞語可以由這些內容中分析得到,通過分詞、詞干還原、去除噪音等處理過程得到技術詞語。本研究抽取了出現頻率大于4次的詞語,經過過濾,得到253條技術詞語,構成技術詞庫。

為了凝練出技術主題,對技術詞庫中的技術詞語進行可視化聚類分析。技術詞語作為網絡節點,技術詞語在SAO中的共現關系為邊,構建無向加權圖。網絡構建前,刪去了某些特定的高頻但并缺乏具體技術語義的詞,例如“Graphene”、“Sensor”等。為了便于展示,刪去了權重小于0.01的邊,然后提取出最大連通子網,選取可視化軟件包Pajek輸出網絡,采用Kamada-Kawai布局算法,最終結果如圖2所示。

顯然,觀察分析技術詞語的分布關系,可以發現形成了4個大的技術聚類。聚類1代表了石墨烯光學傳感器主題,聚類2代表了石墨烯壓力傳感器主題,聚類3則屬于石墨烯傳感器傳感技術的一般性原理。相對其它聚類,聚類4的分布更為稠密和更高的連通性,進行一步將其細分為2個子聚類。子聚類Ⅰ代表了石墨烯氣體及環境傳感器主題,子聚類Ⅱ代表了石墨烯電傳感器主題。

聚類分析重點考查了最大連通子網,但可能漏掉某些重要的詞語節點。因此,結合有關技術文獻及專家意見,進行一步分析最大連通子網絡之外其它詞語,新增兩個主題一石墨烯化學傳感器和石墨烯磁性傳感器。最終,技術主題歸納為石墨烯氣體傳感器、石墨烯磁性傳感器、石墨烯化學傳感器、石墨烯電傳感器、石墨烯壓力傳感器、石墨烯光學傳感器、材料、通用方法。

為了凝練出合理的功效主題,分別抽取出SAO三元組中的A和AO模式作為網絡節點,計算節點間的語義相似度,進行語義聚類分析。

抽取所有SAO三元組中的動詞(A)部分,選取高頻率出現的前100個作為節點,按照公式(2),通過多次實驗選取閾值δ為0.9,計算它們之間的語義相似度,刪去語義相似度小于0.2的節點之間的連邊,構建功效詞語義距離網絡。為便于展示,抽取其中的最大連通子圖,采用Kamada-Kawai布局算法,結果如圖3所示。通過觀察,可以大致歸納出6個聚類。聚類3凝聚了最多比例的表達功效含義的詞語,例如降低(be low in)、兼容性(be compara-ble with)等,聚類1中分布了少量的表達功效的詞語,例如增加(increase in)。其它聚類則更多地包含了表達問題、方案、結構、整體部分等含義的詞語,例如聚類4代表了系統部件的包含關系,聚類2、5和6代表了技術或部件的功能。因此,應該重點從聚類1和2中去篩選詞語,進而結合有關信息分析和凝練出恰當的功效主題。

抽取SAO三元組中的AO組合作為節點,按照公式(1)計算節點的語義相似度,其它按照與圖3類似的構造思路及過程,構建語義網絡,結果如圖4所示。通過觀察,亦可以大致歸納出6個聚類。圖中的聚類2基本包含了大部分表達技術或部件效果的詞語,其它聚類(如聚類1)存在個別的功效詞語,但基本代表的是技術的方案、部件間關系等主題。可以看出,圖3與圖4具有良好的對應性,尤其圖3中的聚類3與圖4中的聚類2具有高度的一致性,說明通過A和AO組合構建的兩個網絡得到的分析結果比較穩定和可靠。深入分析圖3中聚類2詞語,結合有關技術文獻,綜合歸納出9個功效主題,具體包括高傳導性、低能耗、低成本、體積小、敏感性、可靠性、高性能、易用性、寬頻帶。

2.4技術功效圖繪制

采用公式(4),計算8個技術主題與9個功效主題組合的出現頻次,得到技術-功效矩陣,通過Excel輸出結果,如圖5所示。總體上,石墨烯傳感器的發明創新還處于初始階段,專利申請的數量不多,研究較多集中在石墨烯傳感器的導電性及高性能方面,尤其在導電膜泵方面的研究最為熱門。更多的專利內容集中在石墨烯傳感器的基本原理及方法層面,在特定的具體應用實踐中的研究有限。雖然新型的石墨烯材料在傳感器方面具有顯著的優勢和極大潛力,但作為典型新興技術領域,技術還需進一步向成熟進化.專利的整體布局上還存在很多薄弱甚至空白區域。通過技術功效圖,有助于科技決策者從宏觀上理解和把握石墨烯傳感器領域的研發熱點及技術機會。

3結論

本文通過分析專利文本中的SAO結構,提出了新型的技術功效圖的構建方法。具體地,從思路、流程、方法方面開展了系統探討,并以石墨烯傳感領域為例進行了實證分析,驗證了方法的有效性。該解決方案綜合了文本挖掘及語義分析手段,能夠從專利大數據快速抽取、分析和凝練出技術和功效的二維屬性特征及關系,形成的專利深度語義挖掘分析體系不但能夠用于技術功效圖繪制,而且擴展后也可以應用于其它技術創新分析應用。

該方法的特點在于將SAO結構分析引入基于文本挖掘的專利分析框架。一方面SAO作為反映技術特征關系的基本單元,所蘊含的語義信息為深度技術分析提供了基礎;另一方面,相比于全文或句子,SAO結構提供了更為細粒度的分析單元,引致的共現分析也更為準確和有效。不足之處在于分析效果一定程度上依賴于自然語義處理NLP的分析結果,比如SAO結構的抽取分析及主題詞的凝練,而且主題的凝練具有一定主觀性,需要借助專家經驗。后續研究需要開展SAO結構的深度語義分析,對主題的提煉進行優化。

主站蜘蛛池模板: 色悠久久久久久久综合网伊人| 国产视频一区二区在线观看 | 日韩国产高清无码| 香蕉久久国产精品免| 亚洲无码免费黄色网址| 国产丝袜丝视频在线观看| 成人久久精品一区二区三区| 久久综合色视频| 成人在线观看一区| 成人福利在线视频免费观看| 四虎影院国产| 伊人成人在线视频| 伊人色综合久久天天| 在线视频精品一区| 激情五月婷婷综合网| 亚洲欧美不卡中文字幕| 人妻精品全国免费视频| 国产美女在线观看| 538精品在线观看| 美女无遮挡被啪啪到高潮免费| 亚洲视频欧美不卡| 国产欧美高清| 狼友视频一区二区三区| 乱人伦视频中文字幕在线| 老司机午夜精品网站在线观看| 亚洲天堂在线免费| 精品一区二区三区自慰喷水| 欧美a级在线| 二级特黄绝大片免费视频大片| 国内精品小视频在线| www.99在线观看| 国产91视频观看| 综合久久五月天| 国产乱人乱偷精品视频a人人澡| 亚洲欧洲日韩综合| 国产精品精品视频| 狠狠做深爱婷婷久久一区| 中文字幕首页系列人妻| 91精品啪在线观看国产60岁| 精品国产成人三级在线观看| 九九久久精品免费观看| 国产成人精品综合| 精品欧美一区二区三区久久久| 国产午夜人做人免费视频| 成人一区在线| 国产欧美日韩另类精彩视频| 女人一级毛片| 亚洲婷婷六月| 不卡无码网| 特级毛片免费视频| 999精品在线视频| 黑人巨大精品欧美一区二区区| 99久久人妻精品免费二区| 成人av手机在线观看| 91福利在线观看视频| 黄色网站不卡无码| 四虎免费视频网站| 男女性午夜福利网站| 国产精品刺激对白在线| 亚洲性日韩精品一区二区| 日本手机在线视频| 欧美在线导航| 久久久久九九精品影院| 一级一级一片免费| 免费看美女毛片| 免费99精品国产自在现线| 日韩国产亚洲一区二区在线观看| 色哟哟色院91精品网站| 91国内视频在线观看| 99九九成人免费视频精品| 91在线国内在线播放老师| 人妻熟妇日韩AV在线播放| 成人福利在线看| av在线无码浏览| 亚洲天堂精品在线| 特级精品毛片免费观看| 99久久亚洲综合精品TS| 亚洲中文字幕久久无码精品A| 91外围女在线观看| 久草网视频在线| 久久黄色小视频| 天堂av综合网|