999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

鋰電池專利詞匯識別及熱點分析*

2022-08-03 00:57:16施佳璐
統計科學與實踐 2022年4期
關鍵詞:詞匯文本模型

□鈕 亮 項 瑋 施佳璐

|引言

能源短缺與環境污染是當今人類長期所面臨的兩個巨大難題,開發一種可再生的清潔型能源、實現低碳經濟是解決兩個問題的重要路徑,也是我國發展戰略性新興產業的一個重要突破口。研究和利用可再生能源作為主要的新型清潔能源已經成為了人類所面臨的重要課題之一。鋰電池是目前最具發展前景的高效二次電池和發展最快的化學儲能電源,符合新型清潔能源的需要。國外對于鋰電池技術研究最早是從20 世紀50年代開始,但不同時期的技術研究關注點不同。到20世紀70年代基本上已經實現了對鋰原子電池的軍用和民用。由于鋰離子電池適合作為電動汽車的動力來源,進入20 世紀90年代后期,在電動汽車中的應用研究也越來越多[1]。鑒于鋰電池在各行各業廣泛的應用,很多學者對其熱點和趨勢進行研究,以便探索鋰電池領域的未來發展方向,引導企業投資和生產。趙蓉英等通過對美國專利商標局(USPTO)數據庫中鋰電池專利引文信息的計量分析,探究了鋰電池行業技術的發展態勢、鋰電池技術的分布狀況以及鋰電池技術發展與基礎科學研究的關系[2]。蘭鳳崇等采集了國內外鋰離子動力電池專利信息,并以此分析全球鋰離子電池產業的發展情況[3]。王琳等通過檢索國內外全固態鋰電池的專利文獻,從申請量變化規律、申請人分布、技術領域分布和發明人分布等方面進行定量分析,從專利的申請現狀把握鋰電池領域的發展趨勢[4]。龍雪梅基于SCI 數據庫近十年來的檢索結果,定量分析了鋰離子電池相關研究文獻的歷史年代、文獻類型、作者、國家、機構、出版物、被引頻次等因素[5]。徐睿則致力于以SCI-E、CPCI-S、DII 文獻資料作為分析的對象,從時間、技術領域、國家和主要的研發單位等多個角度對鋰電池進行計量分析[6]。趙晏強等基于關鍵字從定量、定性角度論述了當前鋰電池主要的正極材料在相關技術中的應用熱點[7]。佟賀豐等基于引文耦合分析法對中美日三國的鋰離子電池技術前沿和差距進行了分析[8]。陳錦攀等基于SCI、EI 和CNKI 數據庫,采用文獻計量學和知識圖譜的方法,從發文情況、發文機構、發文國家及研究主題演化等方面,對于鋰離子動力電池儲能系統研究進行了深入的分析[9]。

盡管國內外對鋰電池領域的熱點和趨勢分析的熱度較高,已有不少學者發表相關文獻,但大部分都集中在對鋰電池性能升級方面,對鋰電池技術的熱點趨勢談論不足。即便有一些涉及文獻計量的分析,也主要集中在論文關鍵詞方面,鮮有對專利文獻的挖掘分析。專利文獻涉及相關技術領域最新、最活躍的創新和技術信息,從專利文獻中我們可以得到更多鋰電池的科技進步和發展趨勢的信息。鋰電池技術熱點分析的關鍵是其專有詞匯識別。由于專利文獻的專有詞匯被表達在專利摘要中,要實現鋰電池熱點趨勢分析,首要工作是對摘要中專有詞匯進行識別。現有文獻對這方面討論不足。

|理論基礎與技術路線

由于鋰電池的專業特性,對其技術描述的詞匯與日常語言不同,常規性的jieba 分詞等工具不能很好地識別鋰電池專業詞匯。如果將專有名詞視為一個實體,通過命名實體識別的方式抽取專有名詞,能夠保證識別的準確度。它被認為是完成機器翻譯、知識圖譜構建、信息抽取、自動摘要、語義分析、自動提供問答等技術任務的理論依據,在自然語言處理領域占有重要的地位。傳統的基于字典或者啟發式規則的實體抽取已經不能完全滿足人們的需求,利用統計學方法進行命名實體抽取成為目前的主流抽取方法。統計學中條件隨機場模型由于既可以用HMM 的狀態序列進行求解,又通過自定義特征模板加強了對詞項的上下文理解,識別詞項的準確度很高[10]。

條件隨機場模型能夠執行的前提是語料需要預先標記。傳統做法是人工標記一定規模的實體,將其作為訓練集,用此訓練隨機場模型,得到優化模型后投入實際使用[11]。模型的有效依賴于所標記實體的涵蓋范圍。對于鋰電池專利文獻來說,特定專業技術詞匯不僅數量龐大,而且技術推進中又不斷地出現新的詞匯,僅標記鋰電池專業詞匯是不現實的。如果事先有一個較為合理可觀的詞典,將其作為鋰電池專利文本的標記來源,那么就可以避免人工標記的疏漏和不全面。考慮到鋰電池論文中關鍵詞是作者抽離出的專業詞匯,能夠解釋鋰電池的技術內涵,因此將論文中關鍵詞作為專利摘要數據的標記來源有一定意義。但論文的寫作策略和專利畢竟還有不同,論文的關鍵詞也無法全部涵蓋專利中出現的技術詞匯。通過語言模型的無監督成詞方法[12],將專利摘要進行分詞,所得詞匯和論文關鍵詞混合在一起作為條件隨機場模型標記語料的來源就更具全面性。

經過條件隨機場識別出的鋰電池專利詞匯,可以作為鋰電池熱點分析的詞匯來源。為了研究鋰電池技術的相互依賴、關系的緊密,對鋰電池專利摘要中的專利詞匯進行共詞分析。共詞分析是對同一篇文獻中詞匯對共同出現的次數進行統計,揭示這些詞之間的親疏關系,分析它們所代表主題的結構變化[13]。一對詞匯在同一篇文獻中出現的次數越多,代表這兩個詞關系越緊密。由此,統計一組文獻主題詞在同一篇文章中兩兩出現的頻率,建立主題詞共現網絡。網絡內節點之間關系反映了主題的相關情況。研究技術路線見圖1 所示。

|基于條件隨機場模型的專利詞匯識別

(一)數據準備

1.鋰電池專利數據。本文以國家知識產權局官網中所發布的鋰電池領域的專利文本為數據源,利用爬蟲工具獲取該領域2011-2020年的相關專利文本。對檢索結果分別進行了清洗、合并、去重,最終獲得46073 條有效數據。

2.鋰電池論文關鍵詞。由于鋰電池屬于特定技術領域,其專利文本中存在一部分專業詞匯,例如“磷酸鐵鋰”“正極活性材料”等,而這些關鍵詞在研究鋰電池的論文關鍵詞中有所體現,實驗為了提取更為準確的鋰電池領域專業詞匯,檢索知網中收錄的“鋰電池”相關論文,共檢索到50107 篇文獻,導出所有文獻標題、摘要和關鍵詞,最終提取其關鍵詞進行清洗、去重并篩選三字及以上詞匯后,共得到25371 個專業詞匯。

3.基于語言模型的關鍵詞。考慮到中國知網中有關鋰電池的論文關鍵詞與專利數據中蘊含的關鍵詞存在一定的偏差,需要對專利文獻中符合統計規則的一些詞項進行獨立提取。利用KenLM 工具對專利文本進行N-gram 語言模型訓練,導出鋰電池相關詞匯,為條件隨機場模型做準備。步驟為:(1)對46073條專利文本摘要進行處理,包括增添空格和去除標點符號等操作,制造符合KenLM 工具的語料;(2)調用KenLM 工具的count_ngrams 程序統計專利文本摘要的ngram,執行結束后將結果保存在一個二進制文件中;(3)利用KenlmNgrams 語句進行讀取后,調用filter_ngrams 程序過濾ngram,其中[0,2,4,6]是互信息的閾值,第一個0 無意義,僅填充用,而2、4、6 分別是2gram、3gram、4gram 的互信息閾值;(4)構建一個ngram 的Trie 樹,將ngram 片段連接成盡可能長的候選詞,篩選詞頻至少為5 次以上的詞匯,并對詞匯進行清洗,刪除不完整詞匯,例如“二氧化”“氫氧化”等,而后導出詞庫,最終共得到10830 個相關詞匯。

4.鋰電池標記詞典。將中國知網中近十年來所有與鋰電池領域相關的25371 個專業詞匯和基于N-gram語言模型的無監督成詞方法得到的10830 個相關詞匯進行合并,去掉1642 項重復項,最后得到34559 個鋰電池領域相關詞匯。將這些鋰電池相關詞作為專利文本摘要的標記詞,對專利摘要進行標注。

(二)數據標注

表2 條件隨機場模型特征模板

表3 條件隨機場模型的精確度、召回率及F 值

為了使用條件隨機場模型對專利文本的摘要數據進行訓練,需要將專利文本數據進行標注。標注規則使用“B”“I”和“O”形式。以鋰電池標記詞為目標,遍歷專利摘要文本,遇到標記詞的首字母則標記為B,其余字母標記為I,遍歷過程中不在標記詞典中的詞一律標記為O。下面為一段專利文本,對其的標記結果見表1。

(三)模板設計及訓練結果

摘要數據標記后,構造基于字的上下文特征模板,見表2。其中“U00:%x [-2,0]”中,U 表示一個序列類型的行為函數為Unigram,00表示序列特征的id,%x [-2,0]代表x 的位置,-2 代表針對x 的行序列向上偏移2 個字符,0 代表針對x的列序列偏移0 個位置。

為了提高模型的質量,采用交叉驗證方法將訓練集和驗證集合并,隨機分為互斥的5 個子集,為了保證其隨機性,5 次隨機劃分取平均。將5 個子集隨機地劃分為4 個一組和剩下1 個為另一組。在每一種分組結果中,4 個子集的組當作訓練集,另外1 個當作測試集,這樣就產生了5 次預測,對其取平均,獲得模型準確率、召回率和F1 參數數值(表3)。

從實驗數據中可以看出,條件隨機場模型訓練的精確率、召回率和F1 測度值數值都較為可觀,精確度達到了85%,召回率達到了84%,F1 測度值則為84%,說明條件隨機場模型的訓練效果較好,因此利用條件隨機場模型識別鋰電池專業詞匯是可行的。

|基于共詞分析的鋰電池研究熱點分析

根據條件隨機場模型預測結果,識別出鋰電池專業詞匯,對所得到的專業詞匯進行清洗,共得到14698 個專業詞匯。基于該專業詞匯詞典集,依照正向最大匹配法篩選出46073 條專利摘要中與詞典匹配的詞項,將每條摘要中提取出的詞匯進行兩兩連邊,重復連接的次數設為邊的權重,構建加權網絡,最后以邊權重的離群點為過濾門檻,對加權網絡進行篩選,得到鋰電池專利數據中的共詞網絡并對其進行分析(圖2)。

鋰電池共現網絡中節點大小為度中心性,邊權重為關鍵詞共現的頻次。節點越大,表示該關鍵詞越是熱點。邊越寬,兩個互聯的關鍵詞越具依賴性。從圖2 可知,“鋰電池組”和“技術領域”的度中心性最大,而且與“負極”“控制器”“傳感器”等連接緊密,說明鋰電池組是當前鋰電池技術領域研究的熱點。鋰電池組與電池負極材料和電解質材料之間的聯系密切,若要提高鋰電池組的內部性能,必須考慮電池的正負極材料,以實現最優的電池質量。“鋰電池組”與關鍵詞“控制器”之間的節點聯系密切,說明鋰電池組在作為其他產品或設備的控制器動力上有著較為廣泛的應用。“鋰電池組”與“傳感器”之間的節點連線聯系密切,說明鋰電池的研究與其內部的溫控有關。還有一些聯系緊密的節點比如“散熱”“鋰電池技術”“電解液”“穩定性”等,說明鋰電池的技術重點在電解液、散熱和穩定性等方面。在鋰電池的應用方面,“控制器”“太陽能”“傳感器”等幾個關鍵詞連接較為緊密,說明目前鋰電池在其他設備上的應用較為廣泛,例如鋰電池在LED 太陽能路燈控制器,在使用鋰電池的基礎上,配合太陽能光板,推動了我國新能源產業的發展。

|結論

圖2 鋰電池專業詞匯共現網絡

專利涉及到所有鋰電池技術領域中最新、最活躍的創新性技術資料,從專利文獻中可以了解鋰電池應用領域未來發展的最新動態。本文以國家知識產權局官網中2011-2020年鋰電池領域的專利文本為數據源,利用爬蟲工具獲取專利摘要信息。通過提取中國知網近十年來所有鋰電池領域的相關文獻關鍵詞,使用KenLM 工具中語言模型對專利文獻進行分詞,合并通過上述兩種方法得到的詞匯。以此詞匯為標記來源,基于條件隨機場模型對專利文本進行專業詞匯提取,最終得到的詞匯預測準確率、召回率和F1 測度值分別為85%、84%和84%。條件隨機場模型提取了14698 個鋰電池領域常用專業詞匯。

基于該專業詞匯集,依照正向最大匹配法篩選出46073 條專利數據摘要中與詞典匹配的詞項,將每條摘要中提取出的詞匯進行兩兩連邊,以邊權重的離群點為過濾門檻,對加權網絡進行篩選,得到鋰電池專利數據中的共詞網絡結構,并對其進行分析。發現目前鋰電池技術領域的研究熱點仍然是在于如何改善和提高鋰電池的內部性能上。鋰電池組已經成為當前鋰電池在突破技術領域研究的熱點核心。

猜你喜歡
詞匯文本模型
一半模型
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 99热这里只有免费国产精品 | 国产亚洲精品无码专| 青青国产在线| m男亚洲一区中文字幕| 亚洲视频在线网| 日本亚洲国产一区二区三区| 国产成人精品一区二区秒拍1o| 久久久亚洲色| 亚洲床戏一区| 免费欧美一级| 婷婷色丁香综合激情| 色综合天天操| 91久久精品日日躁夜夜躁欧美| 精品欧美一区二区三区久久久| 在线观看免费国产| 丰满人妻中出白浆| 国产精品hd在线播放| 91区国产福利在线观看午夜 | 香蕉色综合| 亚洲IV视频免费在线光看| 东京热av无码电影一区二区| 免费看久久精品99| 欧美一级视频免费| 视频二区欧美| 99热这里只有精品在线播放| 狠狠躁天天躁夜夜躁婷婷| 久久综合色天堂av| 女人天堂av免费| 欧美人与动牲交a欧美精品| 91亚洲视频下载| 一级片一区| 国产黑丝视频在线观看| 亚洲国产精品一区二区高清无码久久| 99999久久久久久亚洲| 欧美中文字幕在线视频| 日韩亚洲综合在线| 国产女人18毛片水真多1| 国产精品七七在线播放| 91精品日韩人妻无码久久| 亚洲成人在线网| 深爱婷婷激情网| 欧美成人免费午夜全| 国产香蕉国产精品偷在线观看 | 国产日韩欧美成人| 超清无码一区二区三区| 一本一本大道香蕉久在线播放| 国产欧美高清| 国产精品亚洲精品爽爽| 无码免费试看| 老司机久久精品视频| 国产91高清视频| a级毛片网| 成年av福利永久免费观看| 亚洲综合极品香蕉久久网| aa级毛片毛片免费观看久| 久久亚洲高清国产| 91麻豆精品国产高清在线| 免费毛片视频| WWW丫丫国产成人精品| 久久毛片免费基地| 欧美精品一二三区| 久久综合色天堂av| 99九九成人免费视频精品| 99偷拍视频精品一区二区| 国产精选自拍| 毛片网站免费在线观看| 麻豆精品在线| 国产成在线观看免费视频| 国产青榴视频| 国产精品自拍合集| 国产永久在线视频| 国产在线观看91精品| 国产在线观看第二页| h网站在线播放| 欧美亚洲日韩中文| 欧洲亚洲欧美国产日本高清| 国产欧美成人不卡视频| 亚洲黄色激情网站| 欧美性猛交xxxx乱大交极品| 国产美女精品在线| 中日无码在线观看| 亚洲日韩每日更新|