













摘" 要: 自20世紀90年代起,隨著人工智能(AI)的飛速發展及其與深度學習等機器學習方法的廣泛融合,自然語言處理(NLP)作為人工智能的核心,也取得了令人矚目的進步。而隨著國際學術交流、世界文化交融愈加頻繁,人們搜尋、閱讀他國網絡信息的現實需求也隨之增多。當信息搜尋者在搜尋非母語信息時,不僅會出現語言障礙問題,還會因錯綜復雜、層次不齊的各色信息而產生諸多不便。為了便于信息搜尋者快速高效地獲取有用信息,文中基于人工智能算法(PageRank/TextRank)設計一種信息提取?翻譯?校對(ETP)系統。系統通過AI自動搜索閱讀頁面上的重要信息和文本摘取,生成摘要,并基于機器翻譯API模塊完成翻譯;其次,采用智能校對系統完成校對審核后,將信息呈現給搜尋者,以供其對全部信息高效且準確地進行預篩選,從而節省閱讀時間和精力。最后對系統算法所實現的功能進行實驗測試,結果達到預期。
關鍵詞: AI算法; 自然語言處理; 信息提取; 機器翻譯; 翻譯校對; PageRank算法; TextRank算法
中圖分類號: TN912.3?34" " " " " " " " " " " " " 文獻標識碼: A" " " " " " " " " " " "文章編號: 1004?373X(2024)10?0111?06
Design of natural language information extraction?translation?proofreading
system based on AI algorithm
Abstract: Since the 1990s, with the blossom of artificial intelligence (AI) and its massive integration with machine learning methods such as deep learning, natural language processing" (NLP) technology has also made remarkable progress as the core of AI. With international academic exchanges and the integration of world cultures growing, people have more practical demands for searching and reading online information from other countries. While searching for information in other languages other than their native, information seekers will encounter not only language barriers but also much difficulty brought by intricate and uneven information. In order designs to help them obtain useful information quickly and efficiently, on the basis of AI algorithm (PageRank/TextRank), an information extraction?translation?proofreading (ETP) system is designed. The system will, by AI automatically finding out critical information on the reading pages and generating summary, complete the translation based on machine translation API module, and present the information to seekers after completing proofreading with the intelligent proofreading system. As such, they can efficiently and accurately pre?screen all the information with less reading time and energy. In the end, the functions realized by the system algorithm are experimentally tested, and the results meet expectations.
Keywords: AI algorithm; natural language processing; information extraction; machine translation; translation proofreading; PageRank algorithm; TextRank algorithm
0" 引" 言
隨著世界一體化趨勢深入演變,不同語言文化以及國際學術圈之間的交流日益密切[1]。在此過程中,人們難免會接觸到大量的非母語信息,而當信息搜尋者面對這類信息時,非母語的生疏感與網絡信息的錯綜復雜性給其帶來了極大不便,難以快速獲取其所需要的有用信息,這是因為通讀海量頁面信息一定會耗費大量的時間和精力。
人工智能技術的蓬勃發展使得自然語言處理技術對于解決這類問題呈現出不錯的答案。自然語言處理(NLP)領域起源于大約50年前的機器翻譯系統,該技術用于對人類自然語言進行自動處理分析及展示[2]。目前,自然語言處理的領域包括各種語言學理論、認知模型以及工程方法。如今通過此技術可以在不到1 s內完成對于數以百萬計的網頁處理[3]。在多種自然語言處理技術中,其重要分支——信息提取技術,能夠基于自然語言學特征,通過在新媒體信息、從論壇網頁、新聞資源、文獻資源等非結構化或者半結構化文本(如網頁、新媒體、論壇、新聞、學術文獻等)中提取用戶信息獲取者所需要或者指定類型的信息(如時間、地點、人物事件、屬性關系、目的結論等),通過整合并攏及合并拼接、去除冗余消除和噪聲處理等技術將非結構化文本轉換為結構化信息[4]。1958年,H. P. Luhn首次發表了一篇關于信息提取技術雛形的研究論文,該研究基于句子詞頻以及短語詞頻的相關特征,從信息文本中提取重要句子進行匯總[5]。H. P. Edmundson等人于1961年提出了自動分析的新概念:測量單詞,即單詞組和句子意義的相對頻率方法。該研究詳細討論了相對頻率方法,以及它在自動索引和自動抽象問題中的應用[6]。幾年后H. P. Edmundson又在其研究中提出線索詞的概念,通過定位線索詞出現在研究樣本的標題以及正文句子中的位置來判斷句子的權重程度。該研究能實現對權重值高以及意義重大的句子進行提取,以便進行文本總結[7]。
同樣作為自然語言處理末端技術的一種,機器翻譯是使用計算機在兩種不同語言之間進行文本或語音的翻譯,是一門實驗學科。1972年,Y. Wilks將人工智能技術帶到了機器翻譯領域,闡述了機器翻譯AI技術的實現可能與理論[8]。1981年,M. King基于語言學中的語義學理論背景,研究了人工智能機器翻譯技術,優化了AI翻譯效果[9]。2011年,R. Mihalcea等研究者基于AI技術設計了一套特殊的機器翻譯系統,能夠識別輸入的不同形式的字符,完善了AI機器翻譯技術的功能[10]。
機器翻譯軟件的工作原理是:基于開發者編寫的算法設置,在網絡上搜索語義詞匯來提供翻譯結果。然而,這些翻譯結果的準確性、可靠性及可讀性較差,難以達到主體的特定需求,無法直接使用。因此,后期需要大量人工校對與修改,但此過程中人工校對存在兩個主要缺點[11]:其一,人工校對的速度難以跟上實際情況對翻譯結果的校正需求;其二,通常而言,在實施人工校對工作時,高昂的成本和較低的效率往往同時出現。所以,在該領域基于人工校對的致命短板,涌現出了關于智能計算機校對系統的眾多研究。馮志偉采用基于短語和句法的英語翻譯校對系統來校正英語翻譯結果,其研究強調短語和語法的準確性,但忽視了校對結果的上下文連貫性[12]。李業剛等則提出了一個包含雙語最大名詞短語的英語翻譯和校對系統,但通過分析發現,其缺少有關用戶行為的數據,這使得開發人員難以根據用戶使用情況而對系統進行優化[13]。
在自然語言信息提取領域中,上述國內外研究僅實現了提取功能,并未實現對信息提取之后的翻譯及校對過程的整合,并且現有研究中機器翻譯和翻譯校對功能存在優化空間。因此,為便于信息搜尋者在搜尋非母語信息時快速高效、準確地獲取有用信息,本文基于人工智能Page/TextRank算法,實現自動搜索閱讀頁面上的重要信息并進行排序,再根據字段權重排名進行文本摘取從而生成摘要。其次,采用機器翻譯API模塊對摘要信息進行自動翻譯,隨后經過翻譯智能校對系統處理,最終將母語信息結果呈現給讀者,供其對全部頁面進行預篩選,從而節省時間和精力。
1" 理論及概念
1.1" 人工智能與自然語言處理
作為實現人工智能技術的一種突破性技術手段,深度學習似乎已和人工智能畫上等號。深度學習通過人工神經元之間的連接建立一種數學模型,使計算機可以像人一樣進行分析、學習和推理。在諸多自然語言處理任務中,深度學習已經成為了一種標準模型。
自然語言學習的過程也是機器自動學習的一個過程,其基本原理分為三個方面:語言學分析理論、數理統計理論、機器/深度學習[14]。對自然語言的處理過程中,存在一些基本處理點,比如:語料庫、分詞、詞向量化等等。此外,在自然語言處理過程中,基于深度學習方法特征的一些語言模型在詞義消歧、冗余消除等自然語言處理任務中具有突出優勢[15]。
人工智能和自然語言處理相互促進、共同發展。一方面,人工智能技術的不斷發展為自然語言處理提供了更多的機會和條件。人工智能可以幫助計算機學習新的語言,并將其轉換為可被其他程序和設備理解的可編程格式。通過自然語言處理,人工智能能夠分析、理解和回應各種語言文本和語音輸入,從而拓展計算機的應用領域。另一方面,自然語言處理也是人工智能實現智能決策、人機交互等功能的基石。自然語言處理使得計算機能夠理解和分析人類語言,從而更好地與人類交流和協作。自然語言處理技術的發展也促進了人工智能在各個領域的應用,如智能客服、智能家居、自動駕駛等。
1.2" PageRank算法
在最初的研究中,基于互聯網頁面重要性的排名計算需求,佩奇和布林在1996年提出了著名的PageRank算法[16],隨后這套算法被用于谷歌搜索引擎的頁面排名。隨著PageRank算法的深入發展,其可以在任何有向圖上定義,可應用于社會影響分析、頁面信息提取等其他問題。
PageRank算法首先根據網頁之間的鏈接數量以及跳轉關系來構造一個初始權重矩陣A,如圖1所示。圖1左側含有4個網頁,右側展示了4個網頁之間的拓撲關系。
定義一個初始矩陣M,矩陣中數值代表每個網頁的重要程度,即概率值,初始狀態下概率值都為0.25。在PageRank算法中,依據網頁之間的拓撲跳轉關系,對初始矩陣M和網頁初始權重矩陣連續相乘,公式如下所示:
根據上式連乘直到結果不變,最后得到的值為4個網頁的權重排序,根據矩陣展示的結果,權重最高即最重要的為網頁3,權重最低的為網頁1。利用此算法功能就能實現對權重高的頁面信息優先進行提取,保證信息提取的科學性。
1.3" TextRank算法
本文中基于Python語言實現TextRank算法的應用,從多個單域文本數據中提取句子以形成摘要,圖2為TextRank算法流程。
與PageRank算法原理相似,TextRank算法是一種基于圖片的文本排序算法[10],它類似于將一個瀏覽頁面中的文本分成幾個組成單元(通常以句子為基本單元),像構建網頁連接結構圖一樣,將分好的組成單元節點連接起來,構成連接結構圖,其中連接線的權重代表句子之間的相似程度。通過對公式進行循環迭代最終計算權重值,權重值排名越高代表句子重要性越高。最后文本摘要便由權重值較高的句子提取而組成,具體公式如下:
式中:[Q(vi)]是句子i的權重;d為阻尼系數;[Sji]和[Sjk]表示兩個句子的相似程度;[Q(vj)]是上一次的迭代值。
1.4" 機器翻譯
利用人工智能算法對閱讀頁面以及不同頁面上的信息進行處理之后,需要對接機器翻譯平臺實現自動翻譯,以母語呈現給讀者。現有的商業翻譯軟件有著較為成熟的開放平臺,可供開發者利用或二次開發。本文基于Python調用百度通用翻譯API,實現對提取后的頁面信息進行自動翻譯。百度通用翻譯通過HTTP接口對外提供多語種語言互譯服務。API的工作模式為:通過調用通用翻譯API,傳入待翻譯內容,并對待翻譯的源語言進行指定,目前也支持自動檢測源語言語種;與此同時,設定目標語言種類,就可以得到相應的翻譯結果。
表1為百度翻譯通用API輸入參數字段名[17],采用此規則調用API的輸入參數部分代碼如下:
1.5" 智能翻譯校對系統設計
1.5.1" 系統總體架構設計
為了對提取生成以及自動翻譯后的摘要進行譯后校對,進而達到較好的呈現效果,本文開發了翻譯智能功能模塊。圖3展示了本文設計的英語翻譯計算機智能校對功能模塊的總體架構。工作模塊、搜索模塊、英語翻譯模塊、英語翻譯校對模塊、用戶模塊和行為日志等局部單元模塊共同搭配,相互結合,實現了智能校對系統的完整功能。
上述所有模塊在進行英語翻譯智能校對過程中,會產生大量的工作行為數據,此時需要日志單元將其記錄下來。通過這種記錄方式產生的數據及記錄,可以為后臺工程師提供實時查看系統工作過程以及及時改正問題的科學依據,從而提高系統的校對性能。
通過仔細研究智能校對系統的工作框架原理,不難發現,英語翻譯計算機智能校對系統本質上就是一個實現英語翻譯的過程,通過對英語語句不斷進行再翻譯,替換原有翻譯結果中系統判定為不正確、不通順或可讀性不高的部分,以實現智能校對的目的,從而獲取準確性和可讀性較高的英語翻譯結果。
在此系統框架中,工作模塊構成了英語翻譯智能校對的基礎,系統根據待校對語句特征,在互聯網中搜索相關翻譯信息,將其存儲在工作模塊內。整個串通的過程為:校對命令下達,系統收到命令,翻譯模塊將搜索鏈接傳送到工作模塊,英語翻譯模塊通過分析待校對語句的各個詞匯特征,隨即以相似度為衡量指標,將翻譯結果排序,最終選取出最符合實際的翻譯結果。此時排序靠后的翻譯結果將在用戶模塊中出現,以供用戶參考。
1.5.2" 代碼實現
基于改進短語翻譯模型,本文設計的翻譯智能校對技術所對應的偽代碼如下:
2" 多任務信息提取及翻譯校對功能的實現
在本研究中,對多個操作頁面進行信息提取、整合并翻譯的功能是基于多種人工智能算法及工具實現的。圖4為功能實現框架圖。在導入程序所需庫之后,首先需要讀取如表2所示的網頁,獲取所有頁面信息;隨后分別利用PageRank和TextRank對網頁和網頁中矢量的權重進行排名;最后利用權重排名提取摘要,并通過API翻譯。
3" 實驗測試
功能設計完成之后,為驗證本文所編寫程序在實際應用中的有效性及便捷性,對設計開發的功能模塊展開翻譯測試實驗,記錄實驗過程中的相關數據,以此進行系統性能分析。實驗采取“二二四”總方針,示意圖如圖5所示,具體內容如下。
2個維度:增加頁面數、增加頁面信息量;
2個工況:本文系統功能(AI算法)VS人工讀取,并提煉摘要(Manual Reading, MR);
4個衡量指標:概括度、重要元素持有率、花費時間、流利度。
3.1" 橫向維度實驗分析
在橫向維度上,通過設置不同的網頁數量對比本研究功能(AI算法)和人工讀取,并提煉兩種條件下摘要的4個衡量指標,以驗證本文所編寫程序在實際應用中的有效性和便捷性。
圖6展示了在網頁數量為2~6情況下的對比數據(為便于數據對比展示,將AI耗費時間進行平方放大)。由圖可以看出:在不同的網頁數量下,人工智能算法所實現的功能在流利度、概括度、重要元素持有率三個指標上略低于人工讀取,幅度基本分布在0~5%之內;但是隨著網頁數量增多,就執行任務所耗費的時間而言,人工讀取遠遠大于AI算法,最高達到65倍。通過此結果可知,AI算法在流利度、概括度、重要元素持有率上都超過人工讀取,以極小的成本犧牲節省了大量時間和精力。
3.2" 縱向維度實驗分析
為提高實驗嚴謹性,在縱向維度上,通過對實驗設置不同的網頁信息行數(分別為10、20、30行)進行對比,實驗結果如圖7所示(為便于數據對比展示,將AI耗費時間進行平方放大),主要結論與橫向維度實驗分析結果相似。由圖7可知:頁面文本數量超過10行后,AI算法提取頁面主要信息并進行翻譯和校對所耗費的時間開始超過人工;且隨著頁面行數增多,二者差距逐漸拉大,并且AI算法在流利度、概括度、重要元素持有率上均超過人工。由此說明,本文所設計的ETP系統具有明顯優勢。
4" 結" 論
本文基于人工智能技術在自然語言處理領域廣泛應用的背景,針對信息搜尋者在搜尋非母語信息時常遇到的困難與問題,設計了一種可實現自然語言信息提取、整合、翻譯及校對的功能模塊。
所設計的功能模塊利用PageRank和TextRank算法對網頁和網頁中信息矢量的權重進行排名,再利用權重排名提取生成摘要,并通過API翻譯以及校對模塊進行智能校對,最終將結果呈現給用戶。
為驗證本文所編寫程序在實際應用中的有效性和便捷性,基于“二二四”方針對所設計的功能模塊展開雙維度翻譯測試實驗。實驗結果證明了本文所設計模塊的預設功能的有效性,也驗證了基于AI算法實現的功能模塊在流利度、概括度、重要元素持有率上均超過人工,以較小的成本節省了大量時間和精力,具有實際可行性。
參考文獻
[1] 張威.我國翻譯研究現狀考察:基于國家社科基金項目(2000—2013)的統計與分析[J].外語教學與研究,2015,47(1):106?118.
[2] THOMPSON F B, THOMPSON B H. Practical natural language processing: the rel system as prototype [J]. Advances in computers, 1975, 13: 109?168.
[3] CHOWDHARY K R. Natural language processing [J]. Fundamentals of artificial intelligence, 2020(12): 603?649.
[4] NADKARNI P M, OHNO?MACHADO L, CHAPMAN W W. Natural language processing: an introduction [J]. Journal of the American medical informatics association, 2011, 18(5): 544?551.
[5] LUHN H P. The automatic creation of literature abstracts [J]. IBM journal of research and development, 1958, 2(2): 159?165.
[6] EDMUNDSON H P, WYLLYS R E. Automatic abstracting and indexing?survey and recommendations [J]. Communications of the ACM, 1961, 4(5): 226?234.
[7] EDMUNDSON H P. New methods in automatic extracting [J]. Journal of the ACM, 1969, 16(2): 264?285.
[8] WILKS Y. An artificial intelligence approach to machine tran?slation [J]. Machine translation, 2009(11): 27?63.
[9] KING M. Semantics and artificial intelligence in machine translation [J]. Sprache and datenverarbeitung, 1981, 5(1/2): 5?8.
[10] MIHALCEA R, TARAU P. Textrank: bringing order into text [C]// Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. Barcelona, Spain: ACL, 2004: 404?411.
[11] 陳卉.英語專業翻譯課程形成性評價體系改革研究[J].外國語文,2017,33(4):133?136.
[12] 馮志偉.基于短語和句法的統計機器翻譯[J].燕山大學學報,2015,39(6):546?554.
[13] 李業剛,梁麗君,孫福振,等.融入雙語最大名詞短語的機器翻譯模型[J].計算機應用研究,2017,34(5):1316?1320.
[14] 于佳弘,莊天賜,昌雨葒.淺談 Trados輔助翻譯軟件和語料庫在公開課英文字幕翻譯中的應用[J].知識經濟,2019(36):103.
[15] WEI Yuehong, SHEN Qi. The comparison of translation memory of three major computer?aided translation software [J]. Journal of basic and applied research international, 2020, 14: 10214.
[16] GLEICH D F. PageRank beyond the web [J]. SIAM review, 2015, 57(3): 321?363.
[17] 佚名.通用翻譯API接入文檔[EB/OL].[2023?04?11]. https://fanyi?api.baidu.com/product/113.