999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談自然語言處理

2022-01-15 00:48:23楊磊
中國信息技術教育 2022年1期
關鍵詞:人工智能語言模型

楊磊

編者按:1950年,圖靈提出了著名的“圖靈測試”,其被認為是自然語言處理思想的開端。自然語言處理是一門融語言學、計算機科學、數學于一體的科學,它是計算機和人工智能的一個重要領域,主要研究實現人與計算機之間用自然語言進行有效通信的各種理論和方法。比爾·蓋茨曾說,“語言理解是人工智能領域皇冠上的明珠”。因此,我們將分兩期對自然語言的歷史、發展及應用領域與原理、算法及技術路線進行詳細闡述及探討,希望能給大家帶來一定的啟發。

自然語言是指漢語、英語、日語等人們日常使用的語言,通常是指一種隨社會人文演化的語言,而不是人造的語言,可進一步解釋為以語音為介質,由詞匯和語法兩部分組成的符號系統。自然語言對人類思維與交流的影響和作用往往是決定性的。隨著人工智能(Artificial Intelligence,AI)的快速發展,自然語言處理(Natural Language Processing,NLP)在計算機領域的應用取得了長足的進步,對當代人類的日常生活產生了深遠的影響。本文將從發展歷程、技術演變、應用領域和未來展望四個方面淺析自然語言處理。

● 自然語言處理發展歷史

人們對NLP的探索最早始于對機器翻譯的研究。1947年,美國科學家韋弗博士和英國工程師布斯提出了利用計算機進行語言自動翻譯的設想,機器翻譯從此走上歷史舞臺。

1957年,美國麻省理工學院的語言學教授喬姆斯基在其《句法結構》一書中,革新了語言的概念,提出“要使計算機理解語言,就必須更改句子的結構”。以此為目標,喬姆斯基創建了一種語法,稱為階段結構語法,該語法能夠有條不紊地將自然語言句子翻譯為計算機可以使用的格式。

1958年夏天,美國麻省理工學院人工智能研究先驅麥卡錫參與IBM資訊研究部的工作,研究符號運算及應用需求。但IBM旗下的Fortran表處理語言卻未能支持符號運算的遞歸、條件表達式、動態存儲分配及隱式回收等功能。于是,麥卡錫帶領由麻省理工學院的學生組成的團隊開發了一門全新的表處理語言——LISP,賦予了編程語言更強的數學計算能力。

1964年,首個自然語言對話程序ELIZA誕生,該程序是由美國麻省理工學院人工智能實驗室的德裔計算機科學家維岑鮑姆使用一種名為MAD-SLIP的類LISP語言編寫,運行在實驗室中36位的分時系統早期的晶體管大型計算機IBM 7094上。由于當時的計算能力有限,ELIZA只是通過重新排列句子并遵循相對簡單的語法規則來實現與人類的簡單交流。

1966年,美國國家研究委員會和自動語言處理咨詢委員會停止了對自然語言處理和機器翻譯相關項目的資金支持,AI和NLP的發展因此陷入停滯。此時,許多學者認為人工智能和自然語言處理的研究進入了死胡同。人類早期結合語言學與統計學的初步探索以失敗告終。

1980年,在美國卡內基梅隆大學召開了第一屆機器學習國際研討會,標志著機器學習研究在全世界的重新興起。20世紀80年代,得益于計算能力的穩定增長以及機器學習的發展,研究人員開始對人工智能和NLP進行根本性的重新定位,用簡單的近似法取代了深入的分析法,評估過程也變得更加量化。

2001年,法國AI專家本吉奧發表了一篇論文,提出了一種全新的語言神經網絡模型。該模型使用前饋神經網絡描述了一種不使用連接來形成循環的人工神經網絡。2014年6月,一個名為古斯特曼的電腦聊天程序成功讓參與測試的33%人類裁判相信它是一個13歲的男孩,成為有史以來首個通過圖靈測試的計算機程序。

2018年,OpenAI公司提出了一種新的ELMo算法模型——GPT模型,該模型在預訓練模型的基礎上,只需要做一些微調即可直接遷移到各種NLP任務中,因此具有很強的遷移能力。2019年推出的GPT-2擁有15億參數,到了2020年推出的GPT-3已經擁有驚人的1750億參數,不僅能輕松通過圖靈測試,還能完成包括寫代碼在內的大部分NLP任務。

● 自然語言處理的技術演變

從20世紀40年代開始,人們開始研究自然語言處理,隨著對機器翻譯需求的增加,圍繞自然語言處理進行了許多基本實踐。1948年,香農在論文中概述了一種準確測量消息中信息量的方法,為定義數字時代的信息論奠定了基礎。在實驗過程中,研究人員不僅建立了語言的統計模型,還嘗試利用現有的統計規則來生成全文。在離散馬爾可夫概率模型(使用統計概率,可以估計一個詞出現在一段文本中的概率)的基礎上,香農將該理論應用于語言描述并取得了成功。與此同時,美國數學家克萊因發展了有限自動機和正則表達式。1956年,美國語言學家喬姆斯基將他的上下文無關語法應用于自然語言處理。他們的工作將自然語言處理分為兩個不同的方向:基于規則和基于概率。

20世紀60年代,人們將自然語言處理作為人工智能的研究范疇。這一時期的自然語言處理研究分為兩大陣營,即基于規則的符號學派和基于概率的隨機學派。在此期間,兩種不同的研究思路都取得了長足的發展。符號學派在這一時期開始了形式語言理論和句法的研究,并在20世紀60年代后期對形式邏輯系統進行了研究。隨機學派在這一時期也取得了很大的進步。他們將貝葉斯概率模型作為統計研究方法,進行了大量的研究。然而,由于大多數專家學者的研究都集中在推理和邏輯問題上,因此他們對統計方法和基于概率的神經網絡的研究較少,而這些多為統計和電子學方面的學者所研究。

20世紀70年代,由于計算機硬件設備發展緩慢,學者們將研究重點轉向理論研究。此時,基于隱馬爾可夫模型的統計方法在語音識別領域取得了成功。20世紀80年代也出現了一批新的語法理論,語篇分析語法有了長足的發展。到了90年代中期以后,自然語言處理的研究取得了長足的進展。計算機計算能力和存儲空間的大幅增加為自然語言處理的研究提供了硬件基礎,互聯網技術的發展使得基于自然語言處理的信息提取和信息檢索的需求更加突出。這一時期,自然語言處理已經進入了一個相對成熟的時期,基于規則技術的語料庫方法已經開始在機器翻譯領域應用。1993年,美國IBM公司的布朗和達拉皮垂等人提出了一種基于詞對齊的翻譯模型,標志著現代統計機器翻譯方法的誕生。

進入21世紀,基于人工神經網絡的深度學習技術成為人工智能領域最熱門的研究方向。許多科技公司已經通過使用深度學習模型進行了圖像和語音識別的研究。2013年,谷歌開源了一款名為“Word2Vector”的詞向量工具,可以在數百萬詞典和數億數據集上高效訓練自然語言處理。這一成就在自然語言處理史上具有里程碑的意義。隨著深度學習技術的發展和對圖形處理器硬件的不斷突破,研究人員開始利用圖形處理器更強大的計算能力來訓練大型人工神經網絡,在深度學習框架和圖形處理器技術中,語音識別技術已達到90%以上。基于機器學習的分類模型大多屬于淺層模型,這類模型的發展已比較成熟。

近年來,人們將注意力轉向深度學習方法,基于神經網絡模型的分類算法比基于傳統機器學習的分類算法具有更高的準確率。針對傳統主要采用監督分類算法進行分類,基于語義特征的卷積神經網絡學習方法,結合深度學習模型對語義關系進行自動學習,改進提取特征的累積誤差,提高文本分類的精度。深度學習已經成為NLP領域的一項關鍵技術。2017年,谷歌團隊首先提出Transformer模型,這是第一個完全依賴自注意力來計算輸入和輸出的表示,而不使用序列對齊的遞歸神經網絡或卷積神經網絡的轉換模型。Transformer模型旨在解決序列到序列的任務,同時輕松處理長期依賴問題,促使自然語言處理進入了新的發展階段。

● 自然語言處理的應用領域

自然語言處理旨在設計算法使計算機像人一樣理解和處理自然語言,是互聯網和大數據時代的必然,涉及許多領域,包括聊天機器人、語音助手,語言翻譯、情感分析、語法檢查、搜索引擎等。相信隨著通信和計算機相關技術的發展,自然語言處理的應用需求也會越來越大。

1.聊天機器人

聊天機器人是一種人工智能形式,經過編程可以使它們像人類一樣與人進行語言互動。根據聊天機器人的復雜性,它們可以只響應特定的關鍵字,或者進行完整的對話,這使得人們很難將它們與人類區分開來。聊天機器人是使用自然語言處理和機器學習創建的,這要求它們能夠理解自然語言的復雜性和句子的實際含義,并且它們還能在與人類的對話中學習并隨著時間的推移變得更好。聊天機器人只需兩個簡單的步驟即可工作。首先,機器人能夠確定所問問題的含義,并從用戶那里收集回答問題可能需要的所有數據。然后,它們給予適當的回答。

2.語音助手

近年來,語音助手風靡全球。無論是蘋果的Siri、微軟小冰,還是百度小度,人們可以方便地使用它們來撥打電話、發出提醒、設置鬧鐘、上網等。這些語音助手讓生活變得更加輕松。它們使用語音識別、自然語言理解和自然語言處理的復雜組合來理解人類在說什么,然后采取行動。語音助手的長期目標是成為人類與互聯網之間的橋梁,并提供基于語音交互的各種服務。但從目前來看,它們離這個目標還有不小的距離,因為它們有時仍然無法理解你在說什么。

3.語言翻譯

谷歌翻譯、百度翻譯、有道翻譯等都已經進入了人們的工作生活。雖然它們不能達到100%準確,但仍然可以實現文本從一種語言轉換為另一種語言。谷歌翻譯和其他翻譯工具都使用序列到序列建模,這是自然語言處理中的一種技術。這種模型將一系列單詞從一種語言轉換為另一種語言,即翻譯。早些時候,語言翻譯人員使用統計機器翻譯分析了數百萬已經從一種語言翻譯成另一種語言的文檔,然后尋找該語言的常見模式和基本詞匯。然而,與序列到序列建模相比,這種方法并不那么準確。

4.情緒分析

電商平臺可以使用情感分析來了解特定類型的用戶對特定主題、產品等的感受。很多互聯網公司通過使用自然語言處理、計算語言學、文本分析等來了解用戶對其產品的總體情感和服務,并找出情緒是好是壞還是中性。這樣可以通過多種方式使用情緒分析,找出目標受眾的情緒,了解產品評論,衡量他們的品牌情緒等。除了商業領域,政府部門也可以使用情緒分析來尋找流行觀點并發現對國家安全的任何威脅。

5.語法檢查器

語法和拼寫是一個非常重要的功能,尤其在一些正式的場合,如求職應聘、工作報告等,出現重大錯誤可能會讓你失去重要機會。這就是為什么語法和拼寫檢查器對于任何專業作家來說都是一個非常重要的工具。語法檢查器不僅可以糾正語法和檢查拼寫,還會建議使用更好的同義詞并提高內容的整體可讀性,利用自然語言處理來提供最好的寫作。NLP算法經過了數百萬個句子的訓練以理解正確的格式,這就是為什么它可以建議正確的動詞時態、更好的同義詞或比你所寫的更清晰的句子結構。

6.搜索引擎中的自動完成

你是否注意到,搜索引擎傾向于猜測您輸入的內容并自動完成您的句子?例如,在百度中輸入“語言”,你可能會得到關于“語言藝術”“語言翻譯”的進一步建議等。所有這些建議都是使用“自動完成”功能提供的,該功能使用自然語言處理來猜測你想問什么。搜索引擎使用其龐大的數據集來分析客戶在輸入特定單詞時可能鍵入的內容并建議最常見的可能性。搜索引擎是通過使用自然語言處理來理解這些單詞以及它們如何相互關聯以形成不同的句子。

● 自然語言處理的未來展望

在NLP領域模型層面,語言模型預訓練方法在很多NLP任務中取得了突破,受到了各界的廣泛關注。目前,神經網絡的訓練基本都是基于反向傳播算法,通過隨機梯度下降法等優化算法隨機初始化網絡模型參數和優化模型參數。預訓練的思想是參數不再隨機初始化,而是訓練一個任務得到一組模型參數,然后用這些參數初始化模型進行訓練。即通過在大量語料庫上預訓練語言模型,將預訓練好的模型遷移到特定的下游NLP任務中,從而提升模型的能力。

在應用層面,NLP的相關研究雖然比較抽象,但其最基本的研究仍然是語法、句法和語義的研究,重點是語言和文本。自然語言處理的難點在于理解語言不僅要靠邏輯,還要靠強大的知識庫,需要相互支持才能更好地處理數據并對文本做進一步的理解和分析。從長遠來看,自然語言處理具有廣闊的應用領域和前景,作為一個集計算機科學、人工智能和語言學于一體的新興領域,它的長期發展對各個學科都具有重要意義和影響。未來,自然語言的發展趨勢可能是從人工構建走向自動化構建,人們可以使用一些顯性知識來構建一種方法來探索語言組件之間的關系,從而避免煩瑣耗時的手動構建。在對自然語言的理解和推理層次上可以由淺入深,完成對語言的深層次理解。

未來的發展趨勢是NLP與許多領域深度結合,從而為各相關行業創造價值。教育、金融、交通和養老等領域對自然語言處理的需要都在日益提高,NLP+的趨勢會越來越明顯。

猜你喜歡
人工智能語言模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業
IT經理世界(2018年20期)2018-10-24 02:38:24
讓語言描寫搖曳多姿
數讀人工智能
小康(2017年16期)2017-06-07 09:00:59
累積動態分析下的同聲傳譯語言壓縮
3D打印中的模型分割與打包
主站蜘蛛池模板: 在线永久免费观看的毛片| 亚洲国产日韩欧美在线| 中文字幕久久波多野结衣| 日韩无码黄色网站| 亚洲欧美激情另类| 伊人色在线视频| 人妻夜夜爽天天爽| 欧美一级片在线| 国产美女免费网站| 国产精品欧美亚洲韩国日本不卡| 国产成人一区免费观看| 亚洲国产中文在线二区三区免| 欧亚日韩Av| 久久久久免费看成人影片| 久久精品女人天堂aaa| 污污网站在线观看| 性色一区| 亚洲 欧美 偷自乱 图片| 色偷偷男人的天堂亚洲av| 无码国内精品人妻少妇蜜桃视频| 欧美19综合中文字幕| 亚洲色图欧美在线| 毛片一级在线| 国产主播在线一区| 亚洲久悠悠色悠在线播放| 55夜色66夜色国产精品视频| 欧美一级特黄aaaaaa在线看片| 欧美特黄一级大黄录像| 国产精品污污在线观看网站| 一本色道久久88| 日韩色图区| 国产91精品久久| 久久久久青草线综合超碰| 国产精品三级专区| 爱做久久久久久| 亚洲无码不卡网| 亚洲天堂久久| 激情综合婷婷丁香五月尤物| 亚洲高清免费在线观看| 老色鬼久久亚洲AV综合| 免费观看亚洲人成网站| 色综合久久88| 欧美天堂在线| 在线观看精品自拍视频| 欧美一区二区啪啪| 欧美一级一级做性视频| 久久精品亚洲热综合一区二区| 啊嗯不日本网站| 久久人午夜亚洲精品无码区| 2019国产在线| 日韩亚洲综合在线| 国产人人射| 久久99久久无码毛片一区二区| www.91中文字幕| 五月天天天色| 亚洲一区国色天香| 久久国产香蕉| 亚洲一级毛片在线观| 3p叠罗汉国产精品久久| 国产成人无码Av在线播放无广告| 特级精品毛片免费观看| 思思热在线视频精品| 国产精品嫩草影院av| 色呦呦手机在线精品| 久久久91人妻无码精品蜜桃HD| 欧美中文一区| 亚洲区欧美区| 97视频在线精品国自产拍| 久久午夜夜伦鲁鲁片不卡| 亚洲精品无码专区在线观看| 国产午夜在线观看视频| 国产在线自在拍91精品黑人| 老司国产精品视频| 国模粉嫩小泬视频在线观看| 国产高清在线丝袜精品一区| 蜜桃视频一区二区| 日韩二区三区| 一本无码在线观看| 欧美精品黑人粗大| 亚洲国产系列| 国产精品视频a| 中日韩一区二区三区中文免费视频|