999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Word2vec的鐵路工程地質(zhì)語(yǔ)料庫(kù)構(gòu)建與詞嵌入

2022-12-22 06:07:40戴均豪
科技創(chuàng)新與應(yīng)用 2022年35期
關(guān)鍵詞:語(yǔ)義鐵路模型

戴均豪

(中鐵第一勘察設(shè)計(jì)院集團(tuán)有限公司,西安 710043)

大量的高質(zhì)量、多類型的鐵路工程地質(zhì)文字資料隨著各地鐵路工程勘察設(shè)計(jì)、建設(shè)施工等工作的進(jìn)行而快速積累[1]。然而,文字資料的利用效率普遍較低,文字資料中蘊(yùn)含著的大量信息還有待挖掘。

在鐵路工程地質(zhì)領(lǐng)域信息化、智能化的背景下,圖件、數(shù)據(jù)和模型等內(nèi)容逐步實(shí)現(xiàn)了高效獲取、自動(dòng)分析等[2],而文字資料的智能化進(jìn)展較慢。

自然語(yǔ)言處理(Natural Language Processing,NLP)是計(jì)算機(jī)問(wèn)世之后,人們?cè)噲D探索以自動(dòng)的方式對(duì)自然語(yǔ)言進(jìn)行加工的方法,NLP本身是一個(gè)融會(huì)貫通了計(jì)算機(jī)科學(xué)、人工智能、語(yǔ)言科學(xué)、邏輯學(xué)和心理學(xué)等多領(lǐng)域知識(shí)與成果的跨學(xué)科研究[3]。NLP技術(shù)在語(yǔ)義分析、詞性標(biāo)注、實(shí)體識(shí)別、機(jī)器翻譯及情感分析等方面已取得一定進(jìn)展,并具有廣闊的探索空間[4]。語(yǔ)料庫(kù)和詞向量是NLP的先導(dǎo)工作,也是文檔資料智能處理的基礎(chǔ)。

目前存在的語(yǔ)料庫(kù)及語(yǔ)言模型大多面向通用領(lǐng)域,如維基百科、新聞和微博等。國(guó)內(nèi)外針對(duì)特定領(lǐng)域的語(yǔ)料庫(kù)也逐步開(kāi)展研究,如國(guó)防、醫(yī)學(xué)、新聞與航空等[5-8]。而通用語(yǔ)料和其他領(lǐng)域語(yǔ)料難以適應(yīng)鐵路工程地質(zhì)工作需要。因此,構(gòu)建面向鐵路工程地質(zhì)的語(yǔ)料庫(kù)、訓(xùn)練領(lǐng)域內(nèi)的語(yǔ)言模型十分必要。

1 Word2vec模型

Word2vec模型等詞嵌入方法誕生之前,自然語(yǔ)言處理過(guò)程通常將詞匯表示成單一的、離散的編號(hào),如獨(dú)熱碼表示法(One-hot Representation),其將詞語(yǔ)表示成0、1構(gòu)成的高維向量,維度大小即語(yǔ)料中詞匯量的大小,每個(gè)詞在它的特定維度值為1,其余位置填0。顯然,這種方法不能完全表達(dá)語(yǔ)義信息,且在計(jì)算過(guò)程中會(huì)造成維度爆炸。

Word2vec將語(yǔ)料的獨(dú)熱碼作為輸入和輸出,用神經(jīng)網(wǎng)絡(luò)模型的隱藏層參數(shù)當(dāng)作當(dāng)前詞語(yǔ)的分布式表征(詞向量)時(shí),能夠很好地獲取詞語(yǔ)之間的語(yǔ)義關(guān)系或語(yǔ)義相似度[9]。Word2vec包括CBOW和Skip-gram 2種詞嵌入模型,2個(gè)模型都包含輸入層、投影層和輸出層。其中,CBOW模型訓(xùn)練原理是在已知當(dāng)前詞的上下文的前提下預(yù)測(cè)當(dāng)前詞,而Skip-gram模型的訓(xùn)練原理是在己知當(dāng)前詞的前提下預(yù)測(cè)其上下文[10](圖1)。

圖1 Word2vec模型結(jié)構(gòu)示意圖

2 語(yǔ)料庫(kù)構(gòu)建

為訓(xùn)練面向鐵路工程地質(zhì)的Word2vec模型,需要構(gòu)建粒度為“詞”的語(yǔ)料庫(kù)。流程如圖2所示。

圖2 語(yǔ)料庫(kù)搭建流程圖

2.1 語(yǔ)料收集

本文針對(duì)鐵路工程地質(zhì)領(lǐng)域,收集了如下幾方面的語(yǔ)料:①領(lǐng)域相關(guān)的文獻(xiàn)300篇;②相關(guān)規(guī)范及工作手冊(cè)23冊(cè);③各環(huán)節(jié)程序文件105份;④教材和專著等11部。

2.2 預(yù)處理

以上各方面語(yǔ)料需統(tǒng)一為.txt文本格式以便于輸入計(jì)算機(jī)處理,隨后統(tǒng)一存放、利用Python中的os函數(shù)庫(kù)對(duì)路徑下的全部文件進(jìn)行讀寫(xiě)合并,形成生語(yǔ)料。將上述語(yǔ)料刪除亂碼、空行、特殊字符與字母數(shù)字等難以利用的文本。另外,將與文本語(yǔ)義無(wú)關(guān)的語(yǔ)氣詞、介詞、連詞、定語(yǔ),以及停用詞刪除。經(jīng)過(guò)上述2方面的文本清洗工作,隨后將語(yǔ)料利用Jiaba中文分詞函數(shù)庫(kù)進(jìn)行分詞。

Jiaba函數(shù)庫(kù)可以對(duì)日常用語(yǔ)進(jìn)行分詞操作,但是對(duì)于專業(yè)名詞繁多的地質(zhì)文本的分詞效果不好,此時(shí)需要準(zhǔn)備《地質(zhì)辭典》中的詞匯供Jiaba讀取,來(lái)提升分詞效果。另外,需要將工程地質(zhì)學(xué)、巖土工程勘察及鐵路工程施工等各分支學(xué)科下的復(fù)雜專業(yè)名詞匯總到地質(zhì)詞典中。

分詞后形成了可以輸入Word2vec的訓(xùn)練語(yǔ)料。但其中難免有個(gè)別專有名詞沒(méi)有被詞典收錄,需要根據(jù)分詞結(jié)果文件,挑選未分詞、誤分詞的詞語(yǔ),加入已有詞典。重復(fù)分詞、挑選分詞瑕疵,如此往復(fù),以尋求分詞效果的最大化,以獲得質(zhì)量最佳的語(yǔ)料庫(kù)(圖2)。最終獲得的語(yǔ)料庫(kù)總詞數(shù)為4 192 189詞,并完善鐵路工程地質(zhì)詞典37 975詞。

2.3 詞頻統(tǒng)計(jì)

為了實(shí)現(xiàn)快速理解語(yǔ)料主要概述內(nèi)容,對(duì)構(gòu)建的語(yǔ)料庫(kù)進(jìn)行詞頻統(tǒng)計(jì),可以繪制“詞云”圖、對(duì)語(yǔ)料庫(kù)做簡(jiǎn)單的關(guān)鍵詞提取[11]。由圖3可知,文字比例越大表示其重要度越高,“工程”“結(jié)構(gòu)”“地質(zhì)”“形變”等詞匯重要性最高。

圖3 鐵路工程地質(zhì)語(yǔ)料庫(kù)詞云

3 詞嵌入

3.1 詞向量訓(xùn)練

本文選用Word2vec模型中的Skip-gram模型來(lái)進(jìn)行詞嵌入。Skip-gram是一種簡(jiǎn)單卻實(shí)用的詞嵌入模型。在輸入層輸入該詞的獨(dú)熱碼,在第一個(gè)隱層,輸入該編碼的線性映射W*x+b(x即為該詞的獨(dú)熱編碼,W、b為參數(shù)),第三層可以看成分類器,使用Softmax回歸。訓(xùn)練樣本是當(dāng)前詞和上下文詞的One-hot編碼,模型的輸出為輸入詞的上下文取詞窗口中出現(xiàn)詞匯表中各詞匯的概率[10]。

依照上述方法,對(duì)前述工作中形成的語(yǔ)料庫(kù)輸入Skip-gram詞嵌入模型進(jìn)行訓(xùn)練,規(guī)定batch-size、詞嵌入維度、上下文取詞窗口大小及負(fù)采樣樣本數(shù)量等超參數(shù),獲取詞嵌入文件。此處詞嵌入初始維度為300維,即每個(gè)詞語(yǔ)映射在300維的向量空間中。

3.2 降維可視化

對(duì)于訓(xùn)練好的300維詞向量,由于維度過(guò)高,不便于理解和觀察,可以利用t分布隨機(jī)近鄰嵌入(t-SNE)算法進(jìn)行降維可視化[12]。本文隨機(jī)抽取所有詞向量中的500條詞向量,由300維投影至二維,即可在平面直角坐標(biāo)上刻畫(huà)各條詞嵌入的結(jié)果。由圖4可知,在向量空間中距離相近的詞語(yǔ)蘊(yùn)含著較高的語(yǔ)義相似度,如“不良地質(zhì)”“地質(zhì)災(zāi)害”“滑坡”“泥石流”等詞匯語(yǔ)義相似度較高。

圖4 鐵路工程地質(zhì)詞向量降維可視化

3.3 語(yǔ)義相似度計(jì)算

詞向量在高維空間中的歐氏距離,可以表達(dá)詞與詞之間的語(yǔ)義相似度。利用Gensim庫(kù)中的Similarity函數(shù)可以計(jì)算詞向量之間的語(yǔ)義相似度[13]。為檢驗(yàn)訓(xùn)練的詞向量的有效性,可選取具有連續(xù)性規(guī)律的地質(zhì)名詞來(lái)計(jì)算語(yǔ)義相似度。本文選取“侏羅系”來(lái)計(jì)算其和其他年代地層名詞來(lái)完成有效性驗(yàn)證。由圖5可知,隨著地質(zhì)年代關(guān)系越遠(yuǎn),語(yǔ)義相似度也越低。

圖5 年代地層名詞間語(yǔ)義相似度

3.4 聚類

為檢驗(yàn)所訓(xùn)練的語(yǔ)言模型能否有效區(qū)分2類鐵路工程地質(zhì)詞匯,將年代地層名詞與巖性名詞的詞向量進(jìn)行聚類后可視化。由圖6可知,2類詞匯的詞向量投影位置有著較為明顯的區(qū)分,絕大部分都聚類正確。

圖6 年代地層與巖性名詞聚類可視化

4 結(jié)論

利用NLP技術(shù),針對(duì)鐵路工程地質(zhì)領(lǐng)域開(kāi)展語(yǔ)料庫(kù)構(gòu)建和詞向量訓(xùn)練,得到以下結(jié)論。

(1)本文完善了1套構(gòu)建鐵路工程地質(zhì)語(yǔ)料庫(kù)的方法流程,構(gòu)建了4 192 189詞的語(yǔ)料庫(kù),完善了37 975詞的地質(zhì)詞典。

(2)本文在語(yǔ)料庫(kù)基礎(chǔ)上訓(xùn)練了Word2vec模型,獲取的詞向量能夠準(zhǔn)確表達(dá)語(yǔ)義,為后續(xù)鐵路工程地質(zhì)文本語(yǔ)義分析、實(shí)體識(shí)別等應(yīng)用完成前期基礎(chǔ)。

猜你喜歡
語(yǔ)義鐵路模型
一半模型
沿著中老鐵路一路向南
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
語(yǔ)言與語(yǔ)義
鐵路通信線路維護(hù)體制改革探索與實(shí)踐
3D打印中的模型分割與打包
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
無(wú)人機(jī)在鐵路工程建設(shè)中的應(yīng)用與思考
GSM-R在鐵路通信中的應(yīng)用
主站蜘蛛池模板: 激情综合图区| 日韩av手机在线| 欧美人在线一区二区三区| 2021国产精品自产拍在线| 久久9966精品国产免费| 欧美精品综合视频一区二区| 国产凹凸一区在线观看视频| 丰满少妇αⅴ无码区| 婷婷亚洲视频| 黄色在线网| av手机版在线播放| 蜜桃臀无码内射一区二区三区| 亚洲精品福利网站| 欧美综合成人| av在线手机播放| 九九热精品免费视频| 波多野结衣一区二区三视频| 成人毛片在线播放| 国产极品美女在线| 香蕉久久国产精品免| 国产午夜精品一区二区三| 在线国产91| 亚洲国模精品一区| 青青国产视频| 亚洲乱码精品久久久久..| 国产农村1级毛片| 成人免费一级片| 亚洲欧洲日本在线| 麻豆精品在线视频| 亚洲 欧美 偷自乱 图片| 亚洲第一av网站| 国产sm重味一区二区三区| 亚洲人成网站18禁动漫无码| 四虎永久在线精品影院| 亚洲AⅤ综合在线欧美一区| 手机精品视频在线观看免费| 114级毛片免费观看| 老司机精品99在线播放| 中文字幕人妻av一区二区| 亚洲区欧美区| 国产精品成人观看视频国产| www.av男人.com| 国产综合精品一区二区| 91久久夜色精品国产网站| 欧美国产在线看| 综合天天色| 成人在线视频一区| 中文字幕无码制服中字| 国内自拍久第一页| 国产一区二区三区夜色| 一区二区三区成人| 欧美国产综合色视频| 老色鬼欧美精品| 欧美精品成人| 国产91特黄特色A级毛片| 国产一级毛片高清完整视频版| 狠狠躁天天躁夜夜躁婷婷| 国产欧美网站| 国产毛片不卡| 国产免费精彩视频| 亚洲精品国偷自产在线91正片| 青青青国产视频| 久久女人网| 亚洲成aⅴ人在线观看| 亚洲第一黄色网| 精品一区国产精品| 国产日韩AV高潮在线| 精品一区二区无码av| 亚洲国产精品一区二区第一页免 | 成人夜夜嗨| 尤物视频一区| 精品国产免费第一区二区三区日韩| 日韩在线欧美在线| 成人午夜久久| 欧美激情,国产精品| 波多野结衣第一页| 日韩黄色大片免费看| 综合五月天网| 思思热精品在线8| 久久国产精品波多野结衣| 色综合成人| 国产在线一二三区|