基于AI算法的自然語(yǔ)言信息提取?翻譯?校對(duì)系統(tǒng)設(shè)計(jì)

2024-09-16 00:00:00崔丹李舒淇

現(xiàn)代電子技術(shù) 2024年10期

摘" 要：自20世紀(jì)90年代起，隨著人工智能（AI）的飛速發(fā)展及其與深度學(xué)習(xí)等機(jī)器學(xué)習(xí)方法的廣泛融合，自然語(yǔ)言處理（NLP）作為人工智能的核心，也取得了令人矚目的進(jìn)步。而隨著國(guó)際學(xué)術(shù)交流、世界文化交融愈加頻繁，人們搜尋、閱讀他國(guó)網(wǎng)絡(luò)信息的現(xiàn)實(shí)需求也隨之增多。當(dāng)信息搜尋者在搜尋非母語(yǔ)信息時(shí)，不僅會(huì)出現(xiàn)語(yǔ)言障礙問(wèn)題，還會(huì)因錯(cuò)綜復(fù)雜、層次不齊的各色信息而產(chǎn)生諸多不便。為了便于信息搜尋者快速高效地獲取有用信息，文中基于人工智能算法（PageRank/TextRank）設(shè)計(jì)一種信息提取?翻譯?校對(duì)（ETP）系統(tǒng)。系統(tǒng)通過(guò)AI自動(dòng)搜索閱讀頁(yè)面上的重要信息和文本摘取，生成摘要，并基于機(jī)器翻譯API模塊完成翻譯；其次，采用智能校對(duì)系統(tǒng)完成校對(duì)審核后，將信息呈現(xiàn)給搜尋者，以供其對(duì)全部信息高效且準(zhǔn)確地進(jìn)行預(yù)篩選，從而節(jié)省閱讀時(shí)間和精力。最后對(duì)系統(tǒng)算法所實(shí)現(xiàn)的功能進(jìn)行實(shí)驗(yàn)測(cè)試，結(jié)果達(dá)到預(yù)期。

關(guān)鍵詞： AI算法；自然語(yǔ)言處理；信息提取；機(jī)器翻譯；翻譯校對(duì)； PageRank算法； TextRank算法

中圖分類(lèi)號(hào)： TN912.3?34" " " " " " " " " " " " " 文獻(xiàn)標(biāo)識(shí)碼： A" " " " " " " " " " " "文章編號(hào)： 1004?373X（2024）10?0111?06

Design of natural language information extraction?translation?proofreading

system based on AI algorithm

Abstract： Since the 1990s， with the blossom of artificial intelligence （AI） and its massive integration with machine learning methods such as deep learning， natural language processing" （NLP） technology has also made remarkable progress as the core of AI. With international academic exchanges and the integration of world cultures growing， people have more practical demands for searching and reading online information from other countries. While searching for information in other languages other than their native， information seekers will encounter not only language barriers but also much difficulty brought by intricate and uneven information. In order designs to help them obtain useful information quickly and efficiently， on the basis of AI algorithm （PageRank/TextRank）， an information extraction?translation?proofreading （ETP） system is designed. The system will， by AI automatically finding out critical information on the reading pages and generating summary， complete the translation based on machine translation API module， and present the information to seekers after completing proofreading with the intelligent proofreading system. As such， they can efficiently and accurately pre?screen all the information with less reading time and energy. In the end， the functions realized by the system algorithm are experimentally tested， and the results meet expectations.

Keywords： AI algorithm; natural language processing; information extraction; machine translation; translation proofreading; PageRank algorithm; TextRank algorithm

0" 引" 言

隨著世界一體化趨勢(shì)深入演變，不同語(yǔ)言文化以及國(guó)際學(xué)術(shù)圈之間的交流日益密切[1]。在此過(guò)程中，人們難免會(huì)接觸到大量的非母語(yǔ)信息，而當(dāng)信息搜尋者面對(duì)這類(lèi)信息時(shí)，非母語(yǔ)的生疏感與網(wǎng)絡(luò)信息的錯(cuò)綜復(fù)雜性給其帶來(lái)了極大不便，難以快速獲取其所需要的有用信息，這是因?yàn)橥ㄗx海量頁(yè)面信息一定會(huì)耗費(fèi)大量的時(shí)間和精力。

人工智能技術(shù)的蓬勃發(fā)展使得自然語(yǔ)言處理技術(shù)對(duì)于解決這類(lèi)問(wèn)題呈現(xiàn)出不錯(cuò)的答案。自然語(yǔ)言處理（NLP）領(lǐng)域起源于大約50年前的機(jī)器翻譯系統(tǒng)，該技術(shù)用于對(duì)人類(lèi)自然語(yǔ)言進(jìn)行自動(dòng)處理分析及展示[2]。目前，自然語(yǔ)言處理的領(lǐng)域包括各種語(yǔ)言學(xué)理論、認(rèn)知模型以及工程方法。如今通過(guò)此技術(shù)可以在不到1 s內(nèi)完成對(duì)于數(shù)以百萬(wàn)計(jì)的網(wǎng)頁(yè)處理[3]。在多種自然語(yǔ)言處理技術(shù)中，其重要分支——信息提取技術(shù)，能夠基于自然語(yǔ)言學(xué)特征，通過(guò)在新媒體信息、從論壇網(wǎng)頁(yè)、新聞資源、文獻(xiàn)資源等非結(jié)構(gòu)化或者半結(jié)構(gòu)化文本（如網(wǎng)頁(yè)、新媒體、論壇、新聞、學(xué)術(shù)文獻(xiàn)等）中提取用戶(hù)信息獲取者所需要或者指定類(lèi)型的信息（如時(shí)間、地點(diǎn)、人物事件、屬性關(guān)系、目的結(jié)論等），通過(guò)整合并攏及合并拼接、去除冗余消除和噪聲處理等技術(shù)將非結(jié)構(gòu)化文本轉(zhuǎn)換為結(jié)構(gòu)化信息[4]。1958年，H. P. Luhn首次發(fā)表了一篇關(guān)于信息提取技術(shù)雛形的研究論文，該研究基于句子詞頻以及短語(yǔ)詞頻的相關(guān)特征，從信息文本中提取重要句子進(jìn)行匯總[5]。H. P. Edmundson等人于1961年提出了自動(dòng)分析的新概念：測(cè)量單詞，即單詞組和句子意義的相對(duì)頻率方法。該研究詳細(xì)討論了相對(duì)頻率方法，以及它在自動(dòng)索引和自動(dòng)抽象問(wèn)題中的應(yīng)用[6]。幾年后H. P. Edmundson又在其研究中提出線(xiàn)索詞的概念，通過(guò)定位線(xiàn)索詞出現(xiàn)在研究樣本的標(biāo)題以及正文句子中的位置來(lái)判斷句子的權(quán)重程度。該研究能實(shí)現(xiàn)對(duì)權(quán)重值高以及意義重大的句子進(jìn)行提取，以便進(jìn)行文本總結(jié)[7]。

同樣作為自然語(yǔ)言處理末端技術(shù)的一種，機(jī)器翻譯是使用計(jì)算機(jī)在兩種不同語(yǔ)言之間進(jìn)行文本或語(yǔ)音的翻譯，是一門(mén)實(shí)驗(yàn)學(xué)科。1972年，Y. Wilks將人工智能技術(shù)帶到了機(jī)器翻譯領(lǐng)域，闡述了機(jī)器翻譯AI技術(shù)的實(shí)現(xiàn)可能與理論[8]。1981年，M. King基于語(yǔ)言學(xué)中的語(yǔ)義學(xué)理論背景，研究了人工智能機(jī)器翻譯技術(shù)，優(yōu)化了AI翻譯效果[9]。2011年，R. Mihalcea等研究者基于AI技術(shù)設(shè)計(jì)了一套特殊的機(jī)器翻譯系統(tǒng)，能夠識(shí)別輸入的不同形式的字符，完善了AI機(jī)器翻譯技術(shù)的功能[10]。

機(jī)器翻譯軟件的工作原理是：基于開(kāi)發(fā)者編寫(xiě)的算法設(shè)置，在網(wǎng)絡(luò)上搜索語(yǔ)義詞匯來(lái)提供翻譯結(jié)果。然而，這些翻譯結(jié)果的準(zhǔn)確性、可靠性及可讀性較差，難以達(dá)到主體的特定需求，無(wú)法直接使用。因此，后期需要大量人工校對(duì)與修改，但此過(guò)程中人工校對(duì)存在兩個(gè)主要缺點(diǎn)[11]：其一，人工校對(duì)的速度難以跟上實(shí)際情況對(duì)翻譯結(jié)果的校正需求；其二，通常而言，在實(shí)施人工校對(duì)工作時(shí)，高昂的成本和較低的效率往往同時(shí)出現(xiàn)。所以，在該領(lǐng)域基于人工校對(duì)的致命短板，涌現(xiàn)出了關(guān)于智能計(jì)算機(jī)校對(duì)系統(tǒng)的眾多研究。馮志偉采用基于短語(yǔ)和句法的英語(yǔ)翻譯校對(duì)系統(tǒng)來(lái)校正英語(yǔ)翻譯結(jié)果，其研究強(qiáng)調(diào)短語(yǔ)和語(yǔ)法的準(zhǔn)確性，但忽視了校對(duì)結(jié)果的上下文連貫性[12]。李業(yè)剛等則提出了一個(gè)包含雙語(yǔ)最大名詞短語(yǔ)的英語(yǔ)翻譯和校對(duì)系統(tǒng)，但通過(guò)分析發(fā)現(xiàn)，其缺少有關(guān)用戶(hù)行為的數(shù)據(jù)，這使得開(kāi)發(fā)人員難以根據(jù)用戶(hù)使用情況而對(duì)系統(tǒng)進(jìn)行優(yōu)化[13]。

在自然語(yǔ)言信息提取領(lǐng)域中，上述國(guó)內(nèi)外研究?jī)H實(shí)現(xiàn)了提取功能，并未實(shí)現(xiàn)對(duì)信息提取之后的翻譯及校對(duì)過(guò)程的整合，并且現(xiàn)有研究中機(jī)器翻譯和翻譯校對(duì)功能存在優(yōu)化空間。因此，為便于信息搜尋者在搜尋非母語(yǔ)信息時(shí)快速高效、準(zhǔn)確地獲取有用信息，本文基于人工智能Page/TextRank算法，實(shí)現(xiàn)自動(dòng)搜索閱讀頁(yè)面上的重要信息并進(jìn)行排序，再根據(jù)字段權(quán)重排名進(jìn)行文本摘取從而生成摘要。其次，采用機(jī)器翻譯API模塊對(duì)摘要信息進(jìn)行自動(dòng)翻譯，隨后經(jīng)過(guò)翻譯智能校對(duì)系統(tǒng)處理，最終將母語(yǔ)信息結(jié)果呈現(xiàn)給讀者，供其對(duì)全部頁(yè)面進(jìn)行預(yù)篩選，從而節(jié)省時(shí)間和精力。

1" 理論及概念

1.1" 人工智能與自然語(yǔ)言處理

作為實(shí)現(xiàn)人工智能技術(shù)的一種突破性技術(shù)手段，深度學(xué)習(xí)似乎已和人工智能畫(huà)上等號(hào)。深度學(xué)習(xí)通過(guò)人工神經(jīng)元之間的連接建立一種數(shù)學(xué)模型，使計(jì)算機(jī)可以像人一樣進(jìn)行分析、學(xué)習(xí)和推理。在諸多自然語(yǔ)言處理任務(wù)中，深度學(xué)習(xí)已經(jīng)成為了一種標(biāo)準(zhǔn)模型。

自然語(yǔ)言學(xué)習(xí)的過(guò)程也是機(jī)器自動(dòng)學(xué)習(xí)的一個(gè)過(guò)程，其基本原理分為三個(gè)方面：語(yǔ)言學(xué)分析理論、數(shù)理統(tǒng)計(jì)理論、機(jī)器/深度學(xué)習(xí)[14]。對(duì)自然語(yǔ)言的處理過(guò)程中，存在一些基本處理點(diǎn)，比如：語(yǔ)料庫(kù)、分詞、詞向量化等等。此外，在自然語(yǔ)言處理過(guò)程中，基于深度學(xué)習(xí)方法特征的一些語(yǔ)言模型在詞義消歧、冗余消除等自然語(yǔ)言處理任務(wù)中具有突出優(yōu)勢(shì)[15]。

人工智能和自然語(yǔ)言處理相互促進(jìn)、共同發(fā)展。一方面，人工智能技術(shù)的不斷發(fā)展為自然語(yǔ)言處理提供了更多的機(jī)會(huì)和條件。人工智能可以幫助計(jì)算機(jī)學(xué)習(xí)新的語(yǔ)言，并將其轉(zhuǎn)換為可被其他程序和設(shè)備理解的可編程格式。通過(guò)自然語(yǔ)言處理，人工智能能夠分析、理解和回應(yīng)各種語(yǔ)言文本和語(yǔ)音輸入，從而拓展計(jì)算機(jī)的應(yīng)用領(lǐng)域。另一方面，自然語(yǔ)言處理也是人工智能實(shí)現(xiàn)智能決策、人機(jī)交互等功能的基石。自然語(yǔ)言處理使得計(jì)算機(jī)能夠理解和分析人類(lèi)語(yǔ)言，從而更好地與人類(lèi)交流和協(xié)作。自然語(yǔ)言處理技術(shù)的發(fā)展也促進(jìn)了人工智能在各個(gè)領(lǐng)域的應(yīng)用，如智能客服、智能家居、自動(dòng)駕駛等。

1.2" PageRank算法

在最初的研究中，基于互聯(lián)網(wǎng)頁(yè)面重要性的排名計(jì)算需求，佩奇和布林在1996年提出了著名的PageRank算法[16]，隨后這套算法被用于谷歌搜索引擎的頁(yè)面排名。隨著PageRank算法的深入發(fā)展，其可以在任何有向圖上定義，可應(yīng)用于社會(huì)影響分析、頁(yè)面信息提取等其他問(wèn)題。

PageRank算法首先根據(jù)網(wǎng)頁(yè)之間的鏈接數(shù)量以及跳轉(zhuǎn)關(guān)系來(lái)構(gòu)造一個(gè)初始權(quán)重矩陣A，如圖1所示。圖1左側(cè)含有4個(gè)網(wǎng)頁(yè)，右側(cè)展示了4個(gè)網(wǎng)頁(yè)之間的拓?fù)潢P(guān)系。

定義一個(gè)初始矩陣M，矩陣中數(shù)值代表每個(gè)網(wǎng)頁(yè)的重要程度，即概率值，初始狀態(tài)下概率值都為0.25。在PageRank算法中，依據(jù)網(wǎng)頁(yè)之間的拓?fù)涮D(zhuǎn)關(guān)系，對(duì)初始矩陣M和網(wǎng)頁(yè)初始權(quán)重矩陣連續(xù)相乘，公式如下所示：

根據(jù)上式連乘直到結(jié)果不變，最后得到的值為4個(gè)網(wǎng)頁(yè)的權(quán)重排序，根據(jù)矩陣展示的結(jié)果，權(quán)重最高即最重要的為網(wǎng)頁(yè)3，權(quán)重最低的為網(wǎng)頁(yè)1。利用此算法功能就能實(shí)現(xiàn)對(duì)權(quán)重高的頁(yè)面信息優(yōu)先進(jìn)行提取，保證信息提取的科學(xué)性。

1.3" TextRank算法

本文中基于Python語(yǔ)言實(shí)現(xiàn)TextRank算法的應(yīng)用，從多個(gè)單域文本數(shù)據(jù)中提取句子以形成摘要，圖2為T(mén)extRank算法流程。

與PageRank算法原理相似，TextRank算法是一種基于圖片的文本排序算法[10]，它類(lèi)似于將一個(gè)瀏覽頁(yè)面中的文本分成幾個(gè)組成單元（通常以句子為基本單元），像構(gòu)建網(wǎng)頁(yè)連接結(jié)構(gòu)圖一樣，將分好的組成單元節(jié)點(diǎn)連接起來(lái)，構(gòu)成連接結(jié)構(gòu)圖，其中連接線(xiàn)的權(quán)重代表句子之間的相似程度。通過(guò)對(duì)公式進(jìn)行循環(huán)迭代最終計(jì)算權(quán)重值，權(quán)重值排名越高代表句子重要性越高。最后文本摘要便由權(quán)重值較高的句子提取而組成，具體公式如下：

式中：[Q（vi）]是句子i的權(quán)重；d為阻尼系數(shù)；[Sji]和[Sjk]表示兩個(gè)句子的相似程度；[Q（vj）]是上一次的迭代值。

1.4" 機(jī)器翻譯

利用人工智能算法對(duì)閱讀頁(yè)面以及不同頁(yè)面上的信息進(jìn)行處理之后，需要對(duì)接機(jī)器翻譯平臺(tái)實(shí)現(xiàn)自動(dòng)翻譯，以母語(yǔ)呈現(xiàn)給讀者。現(xiàn)有的商業(yè)翻譯軟件有著較為成熟的開(kāi)放平臺(tái)，可供開(kāi)發(fā)者利用或二次開(kāi)發(fā)。本文基于Python調(diào)用百度通用翻譯API，實(shí)現(xiàn)對(duì)提取后的頁(yè)面信息進(jìn)行自動(dòng)翻譯。百度通用翻譯通過(guò)HTTP接口對(duì)外提供多語(yǔ)種語(yǔ)言互譯服務(wù)。API的工作模式為：通過(guò)調(diào)用通用翻譯API，傳入待翻譯內(nèi)容，并對(duì)待翻譯的源語(yǔ)言進(jìn)行指定，目前也支持自動(dòng)檢測(cè)源語(yǔ)言語(yǔ)種；與此同時(shí)，設(shè)定目標(biāo)語(yǔ)言種類(lèi)，就可以得到相應(yīng)的翻譯結(jié)果。

表1為百度翻譯通用API輸入?yún)?shù)字段名[17]，采用此規(guī)則調(diào)用API的輸入?yún)?shù)部分代碼如下：

1.5" 智能翻譯校對(duì)系統(tǒng)設(shè)計(jì)

1.5.1" 系統(tǒng)總體架構(gòu)設(shè)計(jì)

為了對(duì)提取生成以及自動(dòng)翻譯后的摘要進(jìn)行譯后校對(duì)，進(jìn)而達(dá)到較好的呈現(xiàn)效果，本文開(kāi)發(fā)了翻譯智能功能模塊。圖3展示了本文設(shè)計(jì)的英語(yǔ)翻譯計(jì)算機(jī)智能校對(duì)功能模塊的總體架構(gòu)。工作模塊、搜索模塊、英語(yǔ)翻譯模塊、英語(yǔ)翻譯校對(duì)模塊、用戶(hù)模塊和行為日志等局部單元模塊共同搭配，相互結(jié)合，實(shí)現(xiàn)了智能校對(duì)系統(tǒng)的完整功能。

上述所有模塊在進(jìn)行英語(yǔ)翻譯智能校對(duì)過(guò)程中，會(huì)產(chǎn)生大量的工作行為數(shù)據(jù)，此時(shí)需要日志單元將其記錄下來(lái)。通過(guò)這種記錄方式產(chǎn)生的數(shù)據(jù)及記錄，可以為后臺(tái)工程師提供實(shí)時(shí)查看系統(tǒng)工作過(guò)程以及及時(shí)改正問(wèn)題的科學(xué)依據(jù)，從而提高系統(tǒng)的校對(duì)性能。

通過(guò)仔細(xì)研究智能校對(duì)系統(tǒng)的工作框架原理，不難發(fā)現(xiàn)，英語(yǔ)翻譯計(jì)算機(jī)智能校對(duì)系統(tǒng)本質(zhì)上就是一個(gè)實(shí)現(xiàn)英語(yǔ)翻譯的過(guò)程，通過(guò)對(duì)英語(yǔ)語(yǔ)句不斷進(jìn)行再翻譯，替換原有翻譯結(jié)果中系統(tǒng)判定為不正確、不通順或可讀性不高的部分，以實(shí)現(xiàn)智能校對(duì)的目的，從而獲取準(zhǔn)確性和可讀性較高的英語(yǔ)翻譯結(jié)果。

在此系統(tǒng)框架中，工作模塊構(gòu)成了英語(yǔ)翻譯智能校對(duì)的基礎(chǔ)，系統(tǒng)根據(jù)待校對(duì)語(yǔ)句特征，在互聯(lián)網(wǎng)中搜索相關(guān)翻譯信息，將其存儲(chǔ)在工作模塊內(nèi)。整個(gè)串通的過(guò)程為：校對(duì)命令下達(dá)，系統(tǒng)收到命令，翻譯模塊將搜索鏈接傳送到工作模塊，英語(yǔ)翻譯模塊通過(guò)分析待校對(duì)語(yǔ)句的各個(gè)詞匯特征，隨即以相似度為衡量指標(biāo)，將翻譯結(jié)果排序，最終選取出最符合實(shí)際的翻譯結(jié)果。此時(shí)排序靠后的翻譯結(jié)果將在用戶(hù)模塊中出現(xiàn)，以供用戶(hù)參考。

1.5.2" 代碼實(shí)現(xiàn)

基于改進(jìn)短語(yǔ)翻譯模型，本文設(shè)計(jì)的翻譯智能校對(duì)技術(shù)所對(duì)應(yīng)的偽代碼如下：

2" 多任務(wù)信息提取及翻譯校對(duì)功能的實(shí)現(xiàn)

在本研究中，對(duì)多個(gè)操作頁(yè)面進(jìn)行信息提取、整合并翻譯的功能是基于多種人工智能算法及工具實(shí)現(xiàn)的。圖4為功能實(shí)現(xiàn)框架圖。在導(dǎo)入程序所需庫(kù)之后，首先需要讀取如表2所示的網(wǎng)頁(yè)，獲取所有頁(yè)面信息；隨后分別利用PageRank和TextRank對(duì)網(wǎng)頁(yè)和網(wǎng)頁(yè)中矢量的權(quán)重進(jìn)行排名；最后利用權(quán)重排名提取摘要，并通過(guò)API翻譯。

3" 實(shí)驗(yàn)測(cè)試

功能設(shè)計(jì)完成之后，為驗(yàn)證本文所編寫(xiě)程序在實(shí)際應(yīng)用中的有效性及便捷性，對(duì)設(shè)計(jì)開(kāi)發(fā)的功能模塊展開(kāi)翻譯測(cè)試實(shí)驗(yàn)，記錄實(shí)驗(yàn)過(guò)程中的相關(guān)數(shù)據(jù)，以此進(jìn)行系統(tǒng)性能分析。實(shí)驗(yàn)采取“二二四”總方針，示意圖如圖5所示，具體內(nèi)容如下。

2個(gè)維度：增加頁(yè)面數(shù)、增加頁(yè)面信息量；

2個(gè)工況：本文系統(tǒng)功能（AI算法）VS人工讀取，并提煉摘要（Manual Reading， MR）；

4個(gè)衡量指標(biāo)：概括度、重要元素持有率、花費(fèi)時(shí)間、流利度。

3.1" 橫向維度實(shí)驗(yàn)分析

在橫向維度上，通過(guò)設(shè)置不同的網(wǎng)頁(yè)數(shù)量對(duì)比本研究功能（AI算法）和人工讀取，并提煉兩種條件下摘要的4個(gè)衡量指標(biāo)，以驗(yàn)證本文所編寫(xiě)程序在實(shí)際應(yīng)用中的有效性和便捷性。

圖6展示了在網(wǎng)頁(yè)數(shù)量為2～6情況下的對(duì)比數(shù)據(jù)（為便于數(shù)據(jù)對(duì)比展示，將AI耗費(fèi)時(shí)間進(jìn)行平方放大）。由圖可以看出：在不同的網(wǎng)頁(yè)數(shù)量下，人工智能算法所實(shí)現(xiàn)的功能在流利度、概括度、重要元素持有率三個(gè)指標(biāo)上略低于人工讀取，幅度基本分布在0～5%之內(nèi)；但是隨著網(wǎng)頁(yè)數(shù)量增多，就執(zhí)行任務(wù)所耗費(fèi)的時(shí)間而言，人工讀取遠(yuǎn)遠(yuǎn)大于AI算法，最高達(dá)到65倍。通過(guò)此結(jié)果可知，AI算法在流利度、概括度、重要元素持有率上都超過(guò)人工讀取，以極小的成本犧牲節(jié)省了大量時(shí)間和精力。

3.2" 縱向維度實(shí)驗(yàn)分析

為提高實(shí)驗(yàn)嚴(yán)謹(jǐn)性，在縱向維度上，通過(guò)對(duì)實(shí)驗(yàn)設(shè)置不同的網(wǎng)頁(yè)信息行數(shù)（分別為10、20、30行）進(jìn)行對(duì)比，實(shí)驗(yàn)結(jié)果如圖7所示（為便于數(shù)據(jù)對(duì)比展示，將AI耗費(fèi)時(shí)間進(jìn)行平方放大），主要結(jié)論與橫向維度實(shí)驗(yàn)分析結(jié)果相似。由圖7可知：頁(yè)面文本數(shù)量超過(guò)10行后，AI算法提取頁(yè)面主要信息并進(jìn)行翻譯和校對(duì)所耗費(fèi)的時(shí)間開(kāi)始超過(guò)人工；且隨著頁(yè)面行數(shù)增多，二者差距逐漸拉大，并且AI算法在流利度、概括度、重要元素持有率上均超過(guò)人工。由此說(shuō)明，本文所設(shè)計(jì)的ETP系統(tǒng)具有明顯優(yōu)勢(shì)。

4" 結(jié)" 論

本文基于人工智能技術(shù)在自然語(yǔ)言處理領(lǐng)域廣泛應(yīng)用的背景，針對(duì)信息搜尋者在搜尋非母語(yǔ)信息時(shí)常遇到的困難與問(wèn)題，設(shè)計(jì)了一種可實(shí)現(xiàn)自然語(yǔ)言信息提取、整合、翻譯及校對(duì)的功能模塊。

所設(shè)計(jì)的功能模塊利用PageRank和TextRank算法對(duì)網(wǎng)頁(yè)和網(wǎng)頁(yè)中信息矢量的權(quán)重進(jìn)行排名，再利用權(quán)重排名提取生成摘要，并通過(guò)API翻譯以及校對(duì)模塊進(jìn)行智能校對(duì)，最終將結(jié)果呈現(xiàn)給用戶(hù)。

為驗(yàn)證本文所編寫(xiě)程序在實(shí)際應(yīng)用中的有效性和便捷性，基于“二二四”方針對(duì)所設(shè)計(jì)的功能模塊展開(kāi)雙維度翻譯測(cè)試實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果證明了本文所設(shè)計(jì)模塊的預(yù)設(shè)功能的有效性，也驗(yàn)證了基于AI算法實(shí)現(xiàn)的功能模塊在流利度、概括度、重要元素持有率上均超過(guò)人工，以較小的成本節(jié)省了大量時(shí)間和精力，具有實(shí)際可行性。

參考文獻(xiàn)

[1] 張威.我國(guó)翻譯研究現(xiàn)狀考察：基于國(guó)家社科基金項(xiàng)目（2000—2013）的統(tǒng)計(jì)與分析[J].外語(yǔ)教學(xué)與研究，2015，47（1）：106?118.

[2] THOMPSON F B， THOMPSON B H. Practical natural language processing： the rel system as prototype [J]. Advances in computers， 1975， 13： 109?168.

[3] CHOWDHARY K R. Natural language processing [J]. Fundamentals of artificial intelligence， 2020（12）： 603?649.

[4] NADKARNI P M， OHNO?MACHADO L， CHAPMAN W W. Natural language processing： an introduction [J]. Journal of the American medical informatics association， 2011， 18（5）： 544?551.

[5] LUHN H P. The automatic creation of literature abstracts [J]. IBM journal of research and development， 1958， 2（2）： 159?165.

[6] EDMUNDSON H P， WYLLYS R E. Automatic abstracting and indexing?survey and recommendations [J]. Communications of the ACM， 1961， 4（5）： 226?234.

[7] EDMUNDSON H P. New methods in automatic extracting [J]. Journal of the ACM， 1969， 16（2）： 264?285.

[8] WILKS Y. An artificial intelligence approach to machine tran?slation [J]. Machine translation， 2009（11）： 27?63.

[9] KING M. Semantics and artificial intelligence in machine translation [J]. Sprache and datenverarbeitung， 1981， 5（1/2）： 5?8.

[10] MIHALCEA R， TARAU P. Textrank： bringing order into text [C]// Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. Barcelona， Spain： ACL， 2004： 404?411.

[11] 陳卉.英語(yǔ)專(zhuān)業(yè)翻譯課程形成性評(píng)價(jià)體系改革研究[J].外國(guó)語(yǔ)文，2017，33（4）：133?136.

[12] 馮志偉.基于短語(yǔ)和句法的統(tǒng)計(jì)機(jī)器翻譯[J].燕山大學(xué)學(xué)報(bào)，2015，39（6）：546?554.

[13] 李業(yè)剛，梁麗君，孫福振，等.融入雙語(yǔ)最大名詞短語(yǔ)的機(jī)器翻譯模型[J].計(jì)算機(jī)應(yīng)用研究，2017，34（5）：1316?1320.

[14] 于佳弘，莊天賜，昌雨葒.淺談 Trados輔助翻譯軟件和語(yǔ)料庫(kù)在公開(kāi)課英文字幕翻譯中的應(yīng)用[J].知識(shí)經(jīng)濟(jì)，2019（36）：103.

[15] WEI Yuehong， SHEN Qi. The comparison of translation memory of three major computer?aided translation software [J]. Journal of basic and applied research international， 2020， 14： 10214.

[16] GLEICH D F. PageRank beyond the web [J]. SIAM review， 2015， 57（3）： 321?363.

[17] 佚名.通用翻譯API接入文檔[EB/OL].[2023?04?11]. https：//fanyi?api.baidu.com/product/113.

現(xiàn)代電子技術(shù)2024年10期

現(xiàn)代電子技術(shù)的其它文章: 電氣化鐵路牽引回流對(duì)鋼軌磁化的影響研究; 基于安全距離和時(shí)空網(wǎng)格的交叉路口車(chē)輛防碰撞安全預(yù)警; 基于數(shù)據(jù)擴(kuò)展的鋰離子電池早期壽命在線(xiàn)預(yù)測(cè); 計(jì)及多方利益的“車(chē)?路?網(wǎng)”三層充電優(yōu)化方法; 基于BP神經(jīng)網(wǎng)絡(luò)算法的超聲電源頻率追蹤技術(shù); 基于SOAR的電力5G MEC安全解決方案