999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

“新基建”背景下的工程英語的詞頻數(shù)據(jù)分析

2022-12-20 03:46:14周世俊李波
關(guān)鍵詞:文本工程方法

◎周世俊 李波

一、研究目的

為響應(yīng)國家“新基建”號召:加快推進(jìn)國家規(guī)劃已明確的重大工程和基礎(chǔ)設(shè)施建設(shè),加快5G網(wǎng)絡(luò)、數(shù)據(jù)中心等新型基礎(chǔ)設(shè)施建設(shè)進(jìn)度,作為重要的基礎(chǔ)產(chǎn)業(yè)和新興產(chǎn)業(yè),“新基建”一頭連著巨大的投資與需求,一頭牽著不斷升級的強(qiáng)大消費(fèi)市場,是中國經(jīng)濟(jì)增長的新引擎。當(dāng)前,大數(shù)據(jù)產(chǎn)業(yè)已經(jīng)成為我國數(shù)字經(jīng)濟(jì)發(fā)展的重要引擎。隨著國家加大力度支持新基建發(fā)展,人工智能、5G、物聯(lián)網(wǎng)、數(shù)據(jù)中心等產(chǎn)業(yè)有望駛上“高速路”,這對國內(nèi)大數(shù)據(jù)產(chǎn)業(yè)來說也是一大關(guān)鍵利好。由之前際高速鐵路和城市軌道交通、新能源汽車充電樁、大數(shù)據(jù)中心、人工智能、工業(yè)互聯(lián)網(wǎng)這幾大領(lǐng)域,又新增5G、超高壓,對數(shù)字化、智能化的重要的程度越來越高,從而加大對外業(yè)務(wù)工程的需求,對外業(yè)務(wù)工程對英語的需要也越來越高,而工程英語多為生僻詞匯且詞匯量龐大,翻譯起來困難是造成對外業(yè)務(wù)發(fā)展極大的不利因素,大大降低工作效率,所以對工程英語有極高的需求,進(jìn)行英語詞頻數(shù)據(jù)分析有助于建立工程英語詞庫,來更好的找到所需的單詞來進(jìn)步對業(yè)務(wù)的交涉大大增加對外業(yè)務(wù)工程的效率,從而間接增加經(jīng)濟(jì)效益。

二、數(shù)據(jù)來源及處理方法

(一)數(shù)據(jù)來源

本文章所涉及的數(shù)據(jù)來自于長春工程學(xué)院的“新基建”+”一帶一路”涉外工程英語應(yīng)用研究的創(chuàng)新團(tuán)隊(duì),本文所包含的據(jù)都是一些國內(nèi)外所達(dá)成的工程合同,這里在本文中不支持展示。

(二)處理方法

在目前國內(nèi)的對外的工程合同大部分都是用pdf的形式來進(jìn)行保存,首先我們得將pdf形式轉(zhuǎn)成word形式或者txt文檔的形式,通過python的一些庫或者自定義函數(shù)的用法來統(tǒng)計(jì)詞頻,通過python的wordcloud庫來進(jìn)行詞云圖的制作,詞云圖可以幫助我們更好分辨不同元素的重要性,對文本出現(xiàn)頻率較高的文本信息進(jìn)行展示。

(三)操作步驟

1.將文本轉(zhuǎn)換成中文進(jìn)行處理。

(1)讀取文件。

①可以將PDF文件用相關(guān)軟件轉(zhuǎn)換成word或者txt文件來進(jìn)行讀取,不過因?yàn)樵谙嚓P(guān)軟件下轉(zhuǎn)換時會發(fā)生亂碼的存在就不能很好的達(dá)到想要的那種效果。

②在讀取PDF文檔的時候可以在python中選擇安裝pdfminer或者PyPDF2這個庫來進(jìn)行讀取,不過對于PyPDF2這個庫來說的話,只支持英文,對中文支持不太好,相對于PyPDF2來說,pdfminer支持多種語言、圖表、圖片等,功能較為強(qiáng)大。對于pdfminer是一個從pdf文檔提取信息并且完全專注于獲取和分析文本數(shù)據(jù)的工具,所以說對于要對工程合同進(jìn)行數(shù)據(jù)處理的話,可以考慮這個工具包,里面有專門的模塊來進(jìn)行存儲,獲得數(shù)據(jù)、解析page內(nèi)容,最為關(guān)鍵的是可以不去讀取圖片,防止工程合同中存在一些圖片導(dǎo)致程序報(bào)錯。像一般python2和python3不兼容這點(diǎn)也著重注意需要對應(yīng)的pdfminer版本。

③對word文檔進(jìn)行讀取的可以使用python-docx庫進(jìn)行讀取,python-docx庫可以讀取表格里的內(nèi)容,像word進(jìn)行保存時可能是docx或者是doc形式,不同的存儲格式需要不同的python庫。

(2)翻譯且進(jìn)行保存。

可以將文檔中的進(jìn)行讀取后,要做一個爬蟲來進(jìn)行翻譯,像百度翻譯、谷歌翻譯、有道翻譯等這個翻譯網(wǎng)站來爬取或者是直接進(jìn)行翻譯,這里用爬取百度翻譯為例:

①首先百度翻譯,是使用ajax的局部的刷新技術(shù),進(jìn)入百度翻譯的頁面,在翻譯面板中隨便輸入或者刪除一些字比如把“吃早飯”變成“吃飯”就會出現(xiàn)“sug”,獲得url。

②進(jìn)行UA偽裝,在python對網(wǎng)頁進(jìn)行請求時,會直接以一個爬蟲的形式去請求網(wǎng)站,這樣的話就會被大部分網(wǎng)站給禁止,所以在這進(jìn)行UA偽裝能幫助我們找到百度翻譯的接口。

③獲得數(shù)據(jù),然后將數(shù)據(jù)存儲在word、pdf、txt文件。

(3)進(jìn)行詞頻分析并制作詞云。

①下載jieba、wordcloud庫。

第一種方法,可以去官網(wǎng)中尋找jieba、wordcloud庫一定要找好對應(yīng)自己python版本的庫,不然會報(bào)錯或者找不到該程序,將下載whl文件復(fù)制到自己python的Script文件下,然后在命令指示符那輸入pip install+Script路徑+所下載的jieba和wordcloud的文件全部名第二種方法,在python的開發(fā)工具pycharm中setting中進(jìn)行下載或者直接在在命令指示符中輸入pip install+庫名,也可以用清華的鏡像的方法來進(jìn)行下載

②進(jìn)行分詞和數(shù)據(jù)處理。

像英文的話有空格區(qū)隔就相當(dāng)于分詞了,但是中文不行,中文有詞語,成語這些的,這時候就需要運(yùn)用到分詞庫了,jieba、pynlpir庫都是中文分詞庫,本文章使用的是jieba庫,它可以進(jìn)行分詞,命令行分詞,還支持關(guān)鍵詞提取等,同時還有jieba庫分詞有三種模式:第一種精確模式、第二種全模式、第三種搜索引擎模式,所以說jieba庫是十分好用的。首先先import jieba再定義一個函數(shù)readfile()讀取文本文檔內(nèi)容(像這里的讀取方法。上文已經(jīng)論述過了)在讀取過程中要注意文本保存內(nèi)容的編碼,不然讀取的內(nèi)容會是亂碼,然后給讀取的文檔內(nèi)容返回回來,其次可以進(jìn)行一個簡單的預(yù)處理定義一個函數(shù)clean(),使用一個for循環(huán)對于文本中存在的標(biāo)點(diǎn)符號去除,最后進(jìn)行分詞處理,在這定義一個wordcount()方法像這里本文章使用jieba。lcut()方法進(jìn)行分詞,這里在定義一個空的字典然后可以進(jìn)行一些無用字的處理,像一些“啊,嗯”等這些無價值的詞,像可以在百度上尋找停用詞表,很容易就能找,像這里本文使用的是哈工大的停用詞表,將停用詞表進(jìn)行一個分詞然后以列表的形式進(jìn)行存儲,然后用if-else語句進(jìn)行一個遍歷將合同里的無價值的詞給優(yōu)先刪除,然后在將刪除完停用詞的內(nèi)容存入sdict字典然后將字典類型強(qiáng)制類型轉(zhuǎn)換成列表,以詞頻從多到少的寫入列表中,函數(shù)最后將列表返回。最后定義writeFile()函數(shù)將處理完的數(shù)據(jù)存入txt的文件。

部分代碼展示以部分可見內(nèi)容展示

(4)進(jìn)行詞云圖制作。

wordcloud可以對文本中出現(xiàn)頻率較高的詞語給予視覺化展示的圖形,這個庫的wordcloud。WordCloud()方法可以進(jìn)行對畫板大小的構(gòu)建,背景的顏色,字體等等一系列的自定義,或者是可以自定義詞云圖的形狀,可以選擇一個圖片形狀來自定義詞云圖的形狀。本文展示簡單的制作云圖的代碼,如下圖:

2.將英文文本進(jìn)行處理。

讀取文件文件在上文都已經(jīng)進(jìn)行過仔細(xì)的講解可以去上文繼續(xù)了解了解,英文文檔可以直接進(jìn)行處理,像前文的clean()、fenci()、wordcount()、readfile()方法幾乎都是一樣,就是比較注意的一點(diǎn)是英文分詞是不需要進(jìn)行分詞,就是不需要像中文那樣jieba庫來特地的進(jìn)行分詞,像英文就是一個單詞一個空格,所以可以用python自帶的split()函數(shù)(split()函數(shù)是對指定的分隔符對字符串進(jìn)行切片,并且以列表的形式返回已經(jīng)分隔完成的字符串列表)進(jìn)行分隔,最終進(jìn)行打印存儲到txt文件里面,最后進(jìn)行詞云圖的制作,來展示合同中高頻出現(xiàn)的關(guān)鍵詞。

四、結(jié)束語

本項(xiàng)目從“新基建”下的工程合同出發(fā)進(jìn)行數(shù)據(jù)分析以及詞云圖的制作,我們采取現(xiàn)在新興的python語言來進(jìn)行數(shù)據(jù)的清洗、提取等一些操作,同時本文章在讀取工程合同時采取不同python庫來進(jìn)行讀取,展示python語言的簡單以及方便性,在處理數(shù)據(jù)方面也沒使用過難的技術(shù)都是采取了函數(shù)的方法來進(jìn)行處理,最后做出詞云圖。這同時也為我國涉外工程對工程合同處理提供了一個思路,也為我國涉外工程解決了一些實(shí)際的需求。

猜你喜歡
文本工程方法
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
子午工程
太空探索(2016年6期)2016-07-10 12:09:06
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
工程
捕魚
工程
工程
主站蜘蛛池模板: 国产极品美女在线观看| 国产第一页屁屁影院| 国产一级视频在线观看网站| 国产午夜看片| 日韩大片免费观看视频播放| 日韩第九页| 亚洲男人的天堂在线观看| 日本影院一区| 欧美性猛交一区二区三区| 麻豆精品在线视频| 日本在线免费网站| 精品综合久久久久久97超人| 国产一二三区视频| 在线免费亚洲无码视频| 色婷婷成人网| 538国产在线| 中文字幕伦视频| 亚洲高清日韩heyzo| 国产精品原创不卡在线| 亚洲无码37.| 亚洲AⅤ综合在线欧美一区 | 日韩无码精品人妻| 亚洲精品高清视频| 欧美午夜理伦三级在线观看| 亚洲首页在线观看| 欧美日韩精品在线播放| 免费在线a视频| 在线a网站| 免费激情网站| 亚洲精品大秀视频| 少妇人妻无码首页| 国产99在线| 精品夜恋影院亚洲欧洲| AV不卡无码免费一区二区三区| 国产精品九九视频| 国产在线精品香蕉麻豆| 日韩精品无码不卡无码| 国产农村1级毛片| 成人亚洲国产| 国产第一福利影院| 夜夜操国产| 91无码网站| 中国国语毛片免费观看视频| 91久久偷偷做嫩草影院| 97人妻精品专区久久久久| 天堂网亚洲系列亚洲系列| 精品伊人久久久久7777人| 亚洲一区二区三区国产精华液| 天天色天天综合| 一区二区三区四区精品视频| 国内精品视频| 日韩无码一二三区| 国产后式a一视频| 国产精品大尺度尺度视频| 亚洲天堂精品在线| 丝袜无码一区二区三区| 大香伊人久久| 国产成人综合久久精品尤物| 国产一区二区三区在线观看视频 | 天堂av综合网| 国产色婷婷| 国产在线自在拍91精品黑人| 无码内射在线| 国产一区自拍视频| 欧美久久网| 乱人伦视频中文字幕在线| 亚洲精品国产综合99| 久久综合九色综合97婷婷| 国产香蕉在线| 18禁影院亚洲专区| 国产网站一区二区三区| 午夜啪啪福利| 91国内视频在线观看| 91成人免费观看| 三级国产在线观看| 亚洲国产中文精品va在线播放| 丁香婷婷激情综合激情| 亚洲婷婷在线视频| 欧美全免费aaaaaa特黄在线| 亚洲成人精品久久| 永久免费av网站可以直接看的 | 亚洲精品视频免费看|