999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本挖掘在新能源汽車領(lǐng)域中的應用

2023-06-21 01:58:40黃潤才
智能計算機與應用 2023年6期
關(guān)鍵詞:新能源汽車文本

張 雨, 黃潤才

(上海工程技術(shù)大學電子電氣工程學院, 上海 201620)

0 引 言

文本挖掘是一種整合信息的工具,能夠有效地提取文本中有用、創(chuàng)新、易懂和有價值的元素。 用戶可以自由訪問科學研究、新聞資訊、商業(yè)信息、娛樂報道等各種類型的信息。 這些信息構(gòu)成了一個被廣泛使用的異構(gòu)性和開放性數(shù)據(jù)庫,而在這個數(shù)據(jù)庫中存放的是非結(jié)構(gòu)化的文本數(shù)據(jù)。 在人工智能的發(fā)展過程中,自然語言處理和計算機科學被整合到一起,從此網(wǎng)絡挖掘和文本挖掘誕生了。

網(wǎng)頁中包含很多類型的數(shù)據(jù),如文本、鏈接和用戶訪問等,因此網(wǎng)絡挖掘也有多種類型,例如文本挖掘、數(shù)據(jù)挖掘和圖像挖掘。 文本挖掘注重于把大量文本信息處理成可被人使用的信息。

在新能源汽車領(lǐng)域中,文本挖掘被用于分析中國新能源汽車產(chǎn)業(yè)政策,消費者評價新能源汽車時也使用了文本挖掘技術(shù),在新能源汽車故障診斷中也會使用文本挖掘技術(shù)。

文本挖掘技術(shù)運用在新能源汽車領(lǐng)域的同時,也帶來了挑戰(zhàn):

(1)數(shù)據(jù)來源多樣化。 新能源汽車領(lǐng)域數(shù)據(jù)發(fā)布主體主要有個人、企業(yè)、媒體、政府機構(gòu)等,具體表現(xiàn)形式也有很多,如社交平臺(推特、微博、論壇等)、研究論文、公司企業(yè)年報、季報,政府機構(gòu)定期或不定期發(fā)布的各類信息等。

(2)數(shù)據(jù)信息展示。 數(shù)據(jù)體量呈現(xiàn)了幾何式增長,使用文本挖掘技術(shù)從海量數(shù)據(jù)中挖掘信息,還需要將數(shù)據(jù)信息展現(xiàn)出來。

本文采用文本挖掘技術(shù),如中文中的分詞、詞向量、降維、聚類、數(shù)據(jù)可視化等方法對CNKI 和Web Of Science 中的論文進行分析,展示新能源汽車領(lǐng)域的研究趨勢及發(fā)展。

本文主要進行了以下幾個方面的研究:“數(shù)據(jù)與方法”部分描述了從中國知網(wǎng)(CNKI)獲得的16 293篇文章的數(shù)據(jù)源,和從Web Of Science 獲取的10 328篇文章,并介紹了本文所使用的文本挖掘方法;“結(jié)果與討論”部分通過主題河流圖展現(xiàn)了論文中關(guān)鍵詞隨年份的演變,展現(xiàn)了新能源汽車領(lǐng)域的研究熱點變化趨勢;通過中國地圖展示了研究新能源汽車的作者機構(gòu)空間分布圖,使用關(guān)系圖來揭示CNKI 中論文作者的關(guān)系;通過聚類算法和數(shù)據(jù)可視化揭示論文研究點的分布情況并給出相應的預測;討論了本文所使用文本挖掘技術(shù)的局限性。 本研究的潛在貢獻體現(xiàn)在對新能源汽車領(lǐng)域的回顧和預測,有助于研究人員了解新能源汽車領(lǐng)域的研究趨勢和研究熱點。

1 數(shù)據(jù)與方法

1.1 數(shù)據(jù)獲取

本文分析的所有數(shù)據(jù)均來自CNKI 及Web Of Science,搜索條件如下:

(1)在CNKI 中以“new energy vehicle”為關(guān)鍵詞獲取相關(guān)碩博論文、以及發(fā)表在學術(shù)及行業(yè)期刊上的論文;

(2)在Web Of Science 中同樣以“new energy vehicle”為關(guān)鍵詞,獲取相關(guān)的會議或期刊論文。

1.2 數(shù)據(jù)構(gòu)成

在CNKI 中,獲取的數(shù)據(jù)包含標題、作者、摘要、關(guān)鍵詞、作者機構(gòu)等信息;在Web Of Science 中,獲取的數(shù)據(jù)包含標題、作者、摘要等信息。 由于部分論文存在缺失信息的情況,本文對所收集的數(shù)據(jù)進行了初步篩選,剔除了一部分不滿足條件的數(shù)據(jù),最終所獲得CNKI 論文16 293 篇,Web Of Science 論文10 328篇。

1.3 中文分詞

中文分詞(Chinese Word Segmentation)就是將一句通順的漢字序列根據(jù)特有規(guī)范分割為多個獨立的詞序列[1]。 目前的分詞方法可以歸納為3 個類別:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法[2]。

基于統(tǒng)計的中文分詞方法已然占據(jù)了主流位置,該方法是在已有大量被分詞過的文本的基礎(chǔ)上,使用統(tǒng)計機器學習模型來學習詞語切分的規(guī)律(稱為訓練),以此實現(xiàn)對未知文本的切分。

在實際的應用中,基于統(tǒng)計的分詞系統(tǒng)都需要使用分詞詞典來進行字符串匹配分詞,同時使用統(tǒng)計方法識別一些新詞,即將字符串頻率統(tǒng)計和字符串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點。 在本文中使用的jieba(結(jié)巴)分詞方法。

1.4 詞嵌入

本文使用 GloVe ( Global Vectors for Word Representation)生成詞向量。 其是一個基于全局詞頻統(tǒng)計(Count-Based and Overall Statistics)的詞表征(Word Representation)工具[3]。

GloVe 的構(gòu)建過程:

(1)根據(jù)語料庫構(gòu)建一個共現(xiàn)矩陣,元素Zij表示在矩陣中任意單詞i和其上下文單詞j在規(guī)定范圍內(nèi)的上下文窗口中共同出現(xiàn)的次數(shù);

(2)構(gòu)建詞向量(Word Vector)和共現(xiàn)矩陣之間的近似關(guān)系,其目標函數(shù)為式(1):

其中,和是最終要求解的詞向量,bi和分別是兩個詞向量的偏置項。

這個損失函數(shù)的基本形式就是最簡單的均方誤差損失函數(shù),只不過在此基礎(chǔ)上加了一個分段權(quán)重函數(shù)f(Xij),式(2):

其中,x為Xij,xmax達到最大值時x的取值,當x小于xmax時為一個非遞減函數(shù),達到一定程度后取值不再增加。

從損失函數(shù)出發(fā),只需要找到兩個值,其中一個代表詞向量,另外一個代表其真實標簽,就可以借助平方誤差損失函數(shù)讓初始值與最終值越來越接近,最后得到詞向量。

1.5 降維

T - SNE (T - Distributed Stochastic Neighbor Embedding)是用于降維的一種機器學習算法,由Laurens van der Maaten 等在2012 年提出[4]。 TSNE 是一種非線性降維算法,常用于高維數(shù)據(jù)降維到2 維或者3 維,以便進行可視化。 該算法具有有效性,越相似的數(shù)據(jù)點,t分布在低維空間中聚合更緊密;而對于不相似的數(shù)據(jù)點,t分布在低維空間中的距離則需要遠一點。

T-SNE 的梯度更新有兩大優(yōu)勢:

(1)對于不同簇之間的點,可以利用短距離帶來的大梯度使這些點互相疏遠;

(2) 這種互相疏遠不會變的無窮遠(梯度中分母),以避免不同簇的點過分疏遠。

1.6 聚類

K-Means 算法是一種常用的聚類算法,但其算法本身存在一定的問題,如在大數(shù)據(jù)量下的計算時間過長等[5]。 因此,一種基于K-Means 的變種聚類算法Mini Batch K-Means 應運而生。

Mini Batch K-Means 既可以利用小批量的數(shù)據(jù)子集大幅度縮短計算時長,又可以優(yōu)化目標函數(shù)。所謂的小批量是指每次訓練算法時隨機抽取數(shù)據(jù)子集進行訓練,大大縮短了計算時長,與此同時還可以保持聚類的準確性,此算法的優(yōu)勢是減少了K 均值的收斂時間。

該算法的迭代步驟有兩步:

(1)首先從數(shù)據(jù)集中隨機選取部分數(shù)據(jù),分配給距離最近的聚簇中心點;

(2)通過計算平均值來更新聚簇的中心點值,并把數(shù)據(jù)分配給這個聚簇中心點值,迭代次數(shù)越多,聚簇中心點值變化越小,直到中心點趨于穩(wěn)定或者達到迭代次數(shù),才停止計算。

2 結(jié)果與討論

2.1 發(fā)文量分析

將獲取到的論文數(shù)量信息做可視化處理,得到的結(jié)果如圖1、圖2 和表1 中所示。 無論是在WOS數(shù)據(jù)庫中還是在CNKI 中,對新能源汽車領(lǐng)域的研究都呈現(xiàn)了一個上升的趨勢。 從表2 的增速可以看出,最近五年與2011 ~2015 年相比,分別增長了105.65%和137.54%,且都在2019 年達到了各自的峰值,分別為1 570 條和3 496 條。 在WOS 數(shù)據(jù)庫中,2012 年出現(xiàn)了一個猛增的趨勢,接著就是逐年增長;而在CNKI 中,2017 年以前都是逐步增長,而到了2018 年反而下降,這說明在2018 年中國國內(nèi)汽車市場低迷,呈現(xiàn)出了負增長的趨勢,新能源汽車領(lǐng)域受到了影響。

表1 在2011~2015 年的論文數(shù)量Tab. 1 Number of papers in 2011~2015

表2 特征詞在論文中被提及的頻率(2011~2015)Tab. 2 The frequency of feature words mentioned in papers(2011~2015)

圖1 WOS 中論文數(shù)量折線圖(2011~2020)Fig. 1 Line chart of the number of papers in WOS (2011~2020)

圖2 CNKI 中論文數(shù)量折線圖(2011~2020)Fig. 2 Line chart of the number of papers in CNKI (2011~2020)

2.2 研究熱點變化趨

由于在CNKI 中,2015 ~2020 年間新能源汽車領(lǐng)域的論文數(shù)量波動較大,本文選取了2015 ~2020年間CNKI 論文,提取論文的關(guān)鍵詞見表2,利用中文分詞的方法,根據(jù)詞頻進行分析,得到研究熱點的變化趨勢如圖3 所示。

圖3 CNKI 中關(guān)鍵詞主題河流圖(2015~2020)Fig. 3 River diagram of keyword theme in CNKI (2015~2020)

從表2 和圖3 可以發(fā)現(xiàn),“新能源汽車”、“電動汽車”作為新能源汽車領(lǐng)域的主要特征詞,在2015~2020 年間的每一年都保持了一個極高的出現(xiàn)頻率。 而“發(fā)展戰(zhàn)略”及“戰(zhàn)略性新興產(chǎn)業(yè)”則呈現(xiàn)了一個出現(xiàn)頻率遞減的趨勢,這與中國推廣新能源汽車政策有關(guān),2015 年中國正處于新能源汽車發(fā)展的第二階段。 關(guān)鍵詞“鋰離子電池”、“動力電池”、“永磁同步電機”的出現(xiàn)頻率表現(xiàn)出了增長的趨勢,年均增長率分別達到25.55%、20.11%和16.72%,說明在CNKI 中與新能源汽車的動力電池有關(guān)的研究中,永磁同步電機及鋰離子電池逐漸成為了研究熱點。

2.3 作者空間分布及關(guān)系

將CNKI 中的文章分為期刊論文和碩博論文。對于期刊論文,篩選出在新能源汽車領(lǐng)域文章數(shù)量前十的期刊,并以玫瑰圖的形式展現(xiàn)出來。 本文使用的英語處理工具(Kadriu 2013),在中文摘要中使用jieba 分詞,實驗結(jié)果如圖4 所示,可以直觀的看出相關(guān)的期刊都是與汽車相關(guān)的,其次便是與電源有關(guān),這與大多新能源汽車是以電池作為動力源有關(guān)。 對于碩博論文,則以作者所在的單位進行研究,用同樣的實驗方法根據(jù)其所在省份得到中國對新能源汽車領(lǐng)域研究的空間分布,顯示各個省份對新能源汽車都有研究,其中北京、上海、重慶、天津研究人數(shù)較多。

圖4 CNKI 新能源汽車領(lǐng)域的文章數(shù)量top10 期刊Fig. 4 The top-10 journals in CNKI with most articles in the field of new energy vehicles

為了得到WOS 數(shù)據(jù)庫和CNKI 中新能源汽車領(lǐng)域論文作者的關(guān)系圖,本文對所收集的數(shù)據(jù)進行預處理,選取了2019 年兩大數(shù)據(jù)庫的作者信息,分別得到了各自的作者關(guān)系圖如圖5 和圖6 所示,可以得到在CNKI 中由于論文多數(shù)來自于碩博論文,作者關(guān)系相比WOS 數(shù)據(jù)庫中更為簡單。

圖5 CNKI 新能源領(lǐng)域作者關(guān)系圖Fig. 5 Diagram of author relationship in CNKI in the field of new energy

圖6 WOS 新能源領(lǐng)域作者關(guān)系圖Fig. 6 Diagram of author relationship in WOS in the field of new energy

2.4 論文研究熱點聚類分析

本文選取了CNKI 中獲取的數(shù)據(jù)進行研究,對數(shù)據(jù)中的摘要部分進行提取,使用jieba 算法進行中文分詞,通過分詞和去除停用詞得到處理后的摘要數(shù)據(jù),使用glove 訓練獲得詞向量。 訓練后得到的詞向量為200 維,詞向量維度過高會導致維度爆炸,因此采用了T-SNE 算法進行降維,將數(shù)據(jù)降維至2維,實驗結(jié)果如圖7 所示,可以看出,這些詞分為4類。 并使用小批量K 均值聚類得到如圖8 所示的更詳細的信息。

圖7 T-SNE 降維圖Fig. 7 T-SNE dimension reduction result

圖8 CNKI 論文研究點分布圖Fig. 8 Distribution map of research topics in CNKI

圖8 中顯示為綠色的這一大類主要分布的詞有“制造業(yè)”、“生產(chǎn)”、“營銷”、“產(chǎn)業(yè)結(jié)構(gòu)”、“資本”、“建設”等,說明在新能源汽車領(lǐng)域中,學者們很注重新能源汽車從制造到生產(chǎn)、銷售整個產(chǎn)業(yè)的結(jié)構(gòu)建設方面的研究;顯示為藍色的這一類別中,“汽車行業(yè)”、“環(huán)境污染”、“壓力”、“質(zhì)量”、“低碳”、“消費者”、“新能源”、“價格”等詞作為主要關(guān)鍵詞,反映了新能源汽車由于使用新能源能夠緩解環(huán)境污染問題,使消費者能夠低碳出行,同時價格也影響著新能源汽車行業(yè);顯示為粉色的這一類別中,分布的詞數(shù)較少,主要有“燃料電池”、 “成本”、 “電化學”、“材料” 、“電網(wǎng)負荷”等詞,這一類別代表了對新能源汽車領(lǐng)域的燃料及所需成本的研究;顯示為橙色的類別里,可以看到“新能源汽車”、 “simulink”、“開發(fā)”、“設計”、“方案”、“電動汽車”、“車身”、“控制策略”、“發(fā)動機”等關(guān)鍵詞,本文認為這象征著對新能源汽車進行開發(fā)設計時通常包含了車身、發(fā)動機等汽車的主要部件的研究,同時新能源汽車研究較多的是電動汽車,在設計方案時使用了simulink等仿真軟件確定最優(yōu)的策略。

最后,由于新能源汽車領(lǐng)域關(guān)于燃料的研究較少,所以結(jié)合圖2 所示的主題河流圖,本文做出以下預測:

(1)在未來關(guān)于新能源汽車領(lǐng)域的研究中,可以著重關(guān)注于純電動汽車及各種電池及永磁同步機的研究;

(2)由于各種電池如鋰離子電池等所需要的電化學反應不同,所需材料的成本也不同,可以針對不同的燃料電池所需花費的成本及大規(guī)模投放后對電網(wǎng)所產(chǎn)生的負荷影響進行研究。

2.5 文本挖掘技術(shù)的不足

通過本文所介紹的文本挖掘算法及數(shù)據(jù)可視化方法,雖然已經(jīng)得到了2011 ~2020 十年間WOS 數(shù)據(jù)庫和CNKI 中的數(shù)據(jù)信息,但仍有不足:

(1)T-SNE 傾向于保存局部特征,沒有唯一最優(yōu)解,而且在T-SNE 中距離本身沒有意義,都是概率分布問題;

(2)Mini Batch K-Means 為了減少數(shù)據(jù)規(guī)模,隨機從整體選取出一小部分數(shù)據(jù)代替整體,雖然算法收斂速度大大加快,但是代價是聚類的精確度相比標準算法會有一些降低。

3 結(jié)束語

本文使用文本挖掘算法,如jieba 分詞、glove 詞向量、T-SNE 降維、Mini Batch K-Means 聚類算法,研究了WOS 數(shù)據(jù)庫和CNKI 中以新能源汽車為主題的論文,通過主題河流圖、作者關(guān)系圖、作者空間分布圖、研究點分布圖直觀的展示了文本挖掘所得到的數(shù)據(jù)信息。 研究結(jié)果表明在國內(nèi)外對于新能源汽車領(lǐng)域都在持續(xù)關(guān)注,尤其是電動汽車;預測了研究人員對于新能源汽車應當在燃料電池、成本及電網(wǎng)負荷方面進行關(guān)注。

猜你喜歡
新能源汽車文本
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
汽車的“出賣”
買不買新能源汽車
汽車們的喜怒哀樂
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
“新能源門”的背后
風能(2015年4期)2015-02-27 10:14:36
順應新能源發(fā)展趨勢
風能(2015年4期)2015-02-27 10:14:34
3D 打印汽車等
決策探索(2014年21期)2014-11-25 12:29:50
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产成人免费手机在线观看视频| 国产成人无码AV在线播放动漫| 国产成人精品免费视频大全五级| 毛片国产精品完整版| 一区二区自拍| 国产又大又粗又猛又爽的视频| 国产主播在线一区| 青青网在线国产| 嫩草国产在线| 91九色国产在线| 国产91在线免费视频| 日韩无码精品人妻| 国产免费久久精品44| 免费看av在线网站网址| 久久久成年黄色视频| 伊人大杳蕉中文无码| 国产精品视频第一专区| 国产精品露脸视频| 幺女国产一级毛片| 成人va亚洲va欧美天堂| 免费激情网站| 日韩在线2020专区| 中文字幕无码av专区久久| 久久国产黑丝袜视频| 黑色丝袜高跟国产在线91| 噜噜噜久久| 日韩毛片免费| 欧美在线三级| 成人综合网址| 亚洲精品国产首次亮相| 蝌蚪国产精品视频第一页| 人妻丝袜无码视频| 午夜精品久久久久久久无码软件| 亚洲有无码中文网| 制服丝袜国产精品| 欧美第二区| 激情無極限的亚洲一区免费| 999在线免费视频| 欧美成人午夜影院| 无码国产伊人| 国产swag在线观看| 91网在线| 天天躁狠狠躁| 国产本道久久一区二区三区| www.youjizz.com久久| 国产嫖妓91东北老熟女久久一| 欧美在线伊人| 欧美午夜理伦三级在线观看| 99精品伊人久久久大香线蕉| 亚洲成人高清无码| 久久精品国产亚洲麻豆| 天天干天天色综合网| 成人综合在线观看| 黄色网页在线播放| 国产精品亚洲天堂| 台湾AV国片精品女同性| 亚洲精品国产成人7777| V一区无码内射国产| 欧美一级爱操视频| 成年av福利永久免费观看| 亚洲男女在线| 456亚洲人成高清在线| 尤物精品视频一区二区三区| 中国国产高清免费AV片| 日韩在线1| 中文成人在线| 亚洲中文制服丝袜欧美精品| 一区二区三区精品视频在线观看| 在线99视频| 久热中文字幕在线| 精品视频在线观看你懂的一区| 狂欢视频在线观看不卡| 欧洲一区二区三区无码| 国产正在播放| 亚洲综合欧美在线一区在线播放| 国产手机在线观看| 国产一级无码不卡视频| 91久久偷偷做嫩草影院精品| 国产不卡国语在线| 国产精品一区二区在线播放| 一本色道久久88亚洲综合| 亚洲an第二区国产精品|