999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于模式匹配的技術競爭事件抽取研究*

2020-07-03 02:49:22李銳張麗瑋
科學與信息化 2020年13期
關鍵詞:模式識別

李銳 張麗瑋

摘 要 文章旨在采用事件抽取方式對新聞中的技術威脅事件進行結構化表達,為進一步情報挖掘提供參考,為企業決策提供依據。本文闡述了識別競爭事件元素,對事件的時間、地點、結果、語言表現進行抽取,獲取多方面多層次競爭情報等內容。

關鍵詞 模式識別;技術競爭事件;事件抽取

緒論

隨著技術水平的不斷提高,企業搜集競爭情報的方式也在發生著變化。面對新聞中描述的企業各類事件都可以看作競爭情報的來源,因此,本文對新聞文本進行事件抽取,重點識別對高新技術企業構成技術威脅的事件,從而有效規避企業技術研發過程中的技術風險。

1相關研究理論

1.1 基于模式匹配的事件抽取

事件抽取分為兩個核心步驟,事件類別的識別和事件元素的識別,抽取方式分為基于模式匹配的抽取和基于機器學習的抽取。基于模式匹配的抽取方式是指根據規則設計模板,根據觸發詞識別事件類別,依據模板進行抽取事件元素。姜吉發[1]提出一種基于概念知識庫的自動獲取模式的方式。鑒于模式匹配抽取方式在特定領域的優異表現,本文定義事件模式,依據模式抽取事件信息,獲取技術威脅事件。21.2技術威脅事件

形式上,技術威脅事件可表示為TRE,定義為一個六元組:TRE=,其中,技術威脅事件六元組中的元素被稱之為技術威脅事件要素,分別為“技術威脅動作”、“技術威脅對象”、“技術威脅時間”、“技術威脅環境”、“技術威脅結果”以及“技術威脅語言表現”[2]。本文借鑒TRE六元組定義一個競爭事件七元組:<時間,地點,主體,動作,對象,結果,語言表現>,并根據該元組進行競爭事件抽取

2事件元素的識別

事件元素識別是事件抽取的又一關鍵任務,由觸發詞識別競爭事件句,對競爭事件句按定義的模式進行元素識別。事件由基本元素進行描述,在競爭事件句中根據<時間、地點、主體、動作、對象、結果、語言表現>一一匹配各元素。首先對每條新聞進行分句、分詞、詞性標注、依存句法分析、語義角色標注。一方面,基于語義角色標注的結果進行事件主體、對象、時間、地點的抽取。另一方面,為每個詞建立依存句法關系字典。當語義角色標注結果為空時,根據事件觸發詞和依存句法關系抽取事件主體和對象,事件的時間、地點和語言表現再單獨抽取。事件結果的抽取范圍擴大到整條新聞。對抽取的時間、地點進一步處理,規范化時間格式為年-月-日,規范化地點格式為省-市-區??傮w的技術路線圖如圖1。

本實驗依托哈工大開發的語言技術平臺(Language Technology Platform,LTP)有分詞、詞性標注、命名實體識別、依存句法分析、詞義消歧、語義角色標注的功能。LTP采用了條件隨機場(Conditional Random Field,CRF)進行分詞;用支持向量機加入偏旁部首特征進行詞性標注;使用高階特征采用基于圖的方法和基于柱狀搜索的解碼算法,進行兩階段依存句法分析[3],LTP3.3.0版則加入了聚類特征和優化算法[4];使用最大熵分類器和整數線性規劃的方法進行語義角色標注[3],LTP3.4.0版則在其中加入了Bi-LSTM模型[4]。pyltp是LTP的Python封裝,可以進行分詞,詞性標注,命名實體識別,依存句法分析,語義角色標注[5]。本文運用pyltp對新聞進行分詞,詞性標注,依存句法分析,語義角色標注的處理。

在新浪滾動新聞科技板塊中手動收集了共303篇2020年3月份的新聞,以此新聞集進行實驗。采用前文的方法抽取得到合同類、會議類、政策類、研發類、生產類和經營類6大類38小類事件,共347條記錄,詳情見表1。

從數據庫中可以發現,如合同類事件抽取結果有“拜騰汽車與多家銷售及服務合作伙伴簽約”,會議類事件抽取結果有“美圖公司舉行2019全年業績發布會”,政策類事件抽取結果有“阿里本地生活服務公司宣布組織架構調整”,研發類事件抽取結果有“格力開發測溫儀的模具”,生產類事件抽取結果有“蘋果供應商生產新的入門級AirPodsPro”,經營類事件抽取結果有“阿里巴巴影業收購天津銀河酷娛”。根據各類事件,各類企業可以結合自身戰略,業務和經營方面有效識別“拜騰汽車”,“美圖公司”,“阿里本地生活服務公司”,“蘋果供應商”,“阿里巴巴影業”為競爭對手,并了解競爭事件的時間、地點、結果、語言表現等。企業可以根據具體的競爭對手進一步收集競爭情報滿足情報需求。抽取的實證結果,如表2所示。

通過新聞文本的實際內容與抽取的結果相比較,準確率較高,從而驗證模型的有效性。

4結束語

企業對競爭情報的需求日益上升,本文提出了一個情報獲取的新思路。利用事件抽取技術從新聞中抽取出企業的各類事件,從事件中得到所需的情報。還簡單介紹了對收集到的情報數據庫,進行數據挖掘。本文提出了新思路但是在實際應用中還有許多要完善的部分,比如收集更多的新聞,提高事件抽取的準確性,同一企業名稱的統一化處理實現對單個企業的競爭情報全面挖掘。

參考文獻

[1] 姜吉發.自由文本的信息抽取模式獲取的研究[D].北京:中國科學院研究生院(計算技術研究所),2004.

[2] 張麗瑋.基于專利分析的高新技術企業技術威脅識別研究[M].北京:科學技術文獻出版社,2016:59.

[3] Bao S,Yu Y,Cao Y,et al.Competitor Mining with the Web[J].IEEE Transactions on Knowledge and Data Engineering,2008,20(10):1297-1310.

[4] 許鑫,郭金龍,姚占雷.基于Web文本挖掘的行業態勢分析——以2011上海車展為例[J].圖書情報工作,2012,56(16):25-31.

[5] 劉挺,車萬翔,李正華.語言技術平臺[J].中文信息學報,2011,25(6): 53-62.

作者簡介

李銳(1995-),男,安徽宣城人;學歷:碩士;現就職單位:首都經濟貿易大學管理工程學院,研究方向:競爭情報、文本挖掘研究。

張麗瑋(1981-),女;學歷:博士,職稱:副教授,碩士生導師;現就職單位:首都經濟貿易大學管理工程學院,研究方向:科技管理,文本挖掘研究。

猜你喜歡
模式識別
紫地榆HPLC指紋圖譜建立及模式識別
中成藥(2018年2期)2018-05-09 07:19:52
2019 IEEE計算機視覺與模式識別會議
UPLC-MS/MS法結合模式識別同時測定芪參益氣滴丸中11種成分
中成藥(2017年10期)2017-11-16 00:50:05
淺談模式識別在圖像識別中的應用
電子測試(2017年23期)2017-04-04 05:06:50
第四屆亞洲模式識別會議
基于可拓模式識別的孤島檢測研究
電測與儀表(2016年6期)2016-04-11 12:07:48
可拓模式識別算法中經典域的確定方法
第3屆亞洲模式識別會議
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
電氣設備的故障診斷與模式識別
河南科技(2014年5期)2014-02-27 14:08:35
主站蜘蛛池模板: 免费毛片网站在线观看| 免费毛片在线| 高清欧美性猛交XXXX黑人猛交| 亚洲无码A视频在线| 国产毛片不卡| 日韩毛片在线播放| 国产一级片网址| 精品视频在线观看你懂的一区| 久久国产高清视频| 久久一级电影| 最近最新中文字幕免费的一页| 91国内外精品自在线播放| 亚洲国产成人精品无码区性色| 永久天堂网Av| 18禁高潮出水呻吟娇喘蜜芽| 最新日韩AV网址在线观看| 国产一级裸网站| 国产人前露出系列视频| 91精品视频在线播放| av在线无码浏览| 青青草原偷拍视频| 亚洲欧洲自拍拍偷午夜色无码| av在线5g无码天天| 国产成人无码Av在线播放无广告| 婷婷综合缴情亚洲五月伊| 欧美精品一区二区三区中文字幕| 亚洲人成亚洲精品| 久久久久人妻一区精品色奶水| a级免费视频| 国产一级毛片在线| 欧美va亚洲va香蕉在线| 国产福利小视频在线播放观看| 欧美精品成人一区二区视频一| 欧美97欧美综合色伦图| 97成人在线视频| 亚洲国产综合精品一区| 亚洲人妖在线| 日韩性网站| 2021国产在线视频| 国产精品观看视频免费完整版| 激情乱人伦| 国产精品欧美日本韩免费一区二区三区不卡| 久久精品无码国产一区二区三区| 国产日韩丝袜一二三区| 精品剧情v国产在线观看| 午夜丁香婷婷| 91av国产在线| 亚洲黄网在线| 全部毛片免费看| 天天综合色天天综合网| 亚洲精品国产精品乱码不卞| 天天爽免费视频| 成人精品视频一区二区在线| 久热精品免费| 另类专区亚洲| 亚洲丝袜中文字幕| 国产欧美视频综合二区| 在线国产综合一区二区三区| 国产亚洲精久久久久久无码AV| 婷婷99视频精品全部在线观看| 国产亚洲欧美日韩在线观看一区二区| 无码专区第一页| 伊人激情综合网| 日韩国产黄色网站| 九九热免费在线视频| 亚洲日本中文字幕天堂网| 97精品久久久大香线焦| 成人福利在线视频| 亚洲无码精彩视频在线观看| 国产免费高清无需播放器| 久久黄色免费电影| 亚洲系列中文字幕一区二区| 免费国产不卡午夜福在线观看| 性欧美精品xxxx| 综1合AV在线播放| 99re在线视频观看| 日本精品αv中文字幕| 日本三区视频| 久久semm亚洲国产| 丝袜美女被出水视频一区| 国产h视频在线观看视频| 成人福利在线观看|