999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大模型的基石——Transformer框架

2023-04-03 18:52:10楊磊
中國信息技術教育 2023年7期
關鍵詞:機制信息模型

楊磊

編者按:隨著ChatGPT的橫空出世,全世界的AI熱情再度被激活。ChatGPT表現出的超強的語言生成、理解和知識推理能力都得益于自然語言處理的發展。ChatGPT的基礎模型采用Transformer框架,它是一種基于自注意力機制的深度神經網絡模型,可以高效并行處理序列數據。因此,我們將分兩期來探討Transformer框架,本期將介紹Transformer的發展歷史、基本原理和未來展望,希望能給大家帶來啟發。

Transformer的發展歷史可以追溯到2017年,谷歌公司的研究人員在發表的論文Attention Is All You Need中首次介紹了Transformer,并將其應用于機器翻譯任務。這篇論文引起了廣泛關注,因為它不僅在機器翻譯任務中表現出色,而且還提供了一種新的思路來處理序列數據。在此之后,許多研究人員開始探索如何改進和擴展Transformer框架。例如,有些人提出了基于Transformer的語言模型,以生成自然語言文本。還有人提出了BERT(Bidirectional Encoder Representations from Transformers)模型,它使用Transformer編碼器來預訓練深度雙向表示,從而在多個自然語言處理任務中取得了最先進的結果。ChatGPT是一個基于Transformer框架的對話生成系統,它可以生成自然流暢的對話,并且已經在許多任務中取得了最先進的結果。具體來說,ChatGPT使用了一個預訓練的Transformer框架,該模型已經在大規模語料庫上進行了訓練,并學習了自然語言的結構和語義信息。在生成對話時,ChatGPT會將用戶輸入作為輸入序列,并使用Transformer框架來生成下一句話。這個過程可以不斷重復,直到生成滿意的對話才結束。與傳統的基于規則或模板的對話系統相比,ChatGPT可以更好地處理復雜的對話場景,并且可以根據上下文生成自然流暢的回復。此外,由于Transformer可以并行計算,所以ChatGPT可以實現快速響應,并且可以處理大量的對話請求。

從卷積神經網絡(CNN)到Transformer的發展歷程

卷積神經網絡是研究人員模仿人類視皮層中感受野的生理機制開發的一類前饋神經網絡。相比于全連接前饋神經網絡,CNN利用網絡內部的卷積核對輸入信息進行卷積操作,提取出輸入信息的局部特征,再由這些局部特征推斷出輸入信息的整體特征,進而完成分類任務。由于卷積神經網絡擅長處理具有空間結構特征的圖像數據,并最先在圖像識別領域取得很好的識別效果,隨后研究人員嘗試將CNN網絡用于環境聲音分類領域,開啟了卷積神經網絡在自然語言處理、聲音識別等方面的研究工作,CNN因其獨特的卷積結構在模式識別、特征處理等方面取得顯著效果,獲得研究人員的廣泛關注,并成為該領域的一個研究熱點。如圖1所示,CNN網絡通常由輸入層、卷積層、激活函數、池化層、全連接層和輸出層組成,其中a、b、c、d代表網絡中相應模塊的層數。

由于CNN按輸入層-中間層-輸出層的順序依次傳遞信息,前一層的神經元只能將信息傳遞給后一層神經元,各層內部的神經元之間及神經元本身不會建立信息反饋,所以前饋神經網絡只能處理當前時刻的輸入信息,無法和過去一段時間內的信息相聯系,非常不適合處理時序數據。循環神經網絡(RNN)通過在隱藏層增置一個內部狀態,使得神經元的輸出信息在向下一層網絡傳遞的同時,也可以反饋給其本身,從而形成一個具有環路的信息傳遞路徑,它的參數學習采用隨時間反向傳播算法。如圖2所示,其中為一給定輸入序列,為隱藏層的神經元的輸出狀態。

隨著序列長度的增加,RNN網絡的計算量會呈級數增長,由于它在訓練中存在梯度爆炸和消失問題,這導致網絡在對當前時刻的片段信息進行判斷時會忽略以往較長時刻的片段信息。為有效改善這一問題,長短時記憶網絡(LSTM)在RNN結構的基礎上,將一類門控機制的內部狀態參數引入隱藏層,通過該變量選擇性地加入當前時刻的新信息和遺忘一些以往積累的舊信息,從而達到有效控制信息積累的目的。與CNN網絡相比,循環神經網絡更符合生物神經網絡的特點,它可以有效地挖掘時間序列中隱含的時間結構特征,在處理視頻、音頻、文本等序列化結構數據方面獲得很好的表現,成為目前非常流行的一類深度學習算法。

深度學習中的注意力機制與生物的選擇性視覺機能類似,它能從大量的輸入信息中關注到少量的重要信息忽略非重要信息。注意力機制在計算能力有限的情況下可以有效地解決系統計算資源分配的瓶頸,提高計算機系統的運算效率。相比于RNN和CNN,Transformer利用自注意力機制可以更好地捕捉長距離依賴關系,并且可以并行計算,因此在許多自然語言處理任務中表現出色。自注意力機制是一種用于對序列數據進行加權的機制,它可以在不同位置上對輸入進行加權,從而更好地捕捉序列中的相關信息。在自注意力機制中,每個單詞的向量表示都會考慮到其他單詞的向量表示,并且每個單詞的權重是通過計算該單詞與其他單詞的相似度得出的。Transformer使用了多頭注意力機制來進一步改進自注意力機制。多頭注意力機制允許模型在不同的“頭”上執行多個自注意力操作,從而可以同時學習多個不同的表示。具體來說,多頭注意力機制將輸入向量拆分為多個向量,然后在每個向量上執行自注意力操作。最后,這些向量被連接起來并通過一個線性變換來生成最終的輸出。

簡述Transformer的工作原理

Transformer是一種用于序列到序列(Sequence-to-Sequence)任務的神經網絡模型,如機器翻譯、語音識別和生成對話等。它是第一個完全依賴于自注意力機制來計算其輸入和輸出的表示的轉換模型。

1.Transformer的模型架構

序列到序列模型采用的是編碼器-解碼器結構,在每一個步長里,模型利用前一個步長中生成的向量和該步長的輸入,生成輸出符號。Transformer架構如圖3所示,編碼器-解碼器結構采用堆疊的多頭注意力機制加全連接層,圖3中左邊的是編碼器結構,右邊的是解碼器結構。

圖3中編碼器由6個相同的塊結構堆疊而成(N=6),每個塊結構進一步分成兩個子層,即一個多頭的自注意力機制和一個前饋網絡全連接層,在塊中的每一個子層之后,增加一個歸一化層(Add&Norm),每個子層的輸出均為歸一化的LayerNorm,包括詞嵌入層,模塊中所有子層的輸出的維數均為512。解碼器也由6個相同的塊結構堆疊而成(N=6),每個塊結構在編碼器兩個子層的基礎之上,增加了第三個子層,即增加了一個多頭自注意力子層。與編碼器類似,在塊中的每一個子層之后,增加一個歸一化層(Add&Norm)。在解碼器端,對解碼器堆棧中的自注意力子層進行了修改,以防止位置編碼和后續位置編碼相關,通過這種掩蔽,確保了對位置i的預測只能依賴于小于i的位置的已知輸出。

2.多頭注意力機制

Transformer模型通過查詢-鍵-值的模式使用多頭注意力,如圖4所示。假設輸入序列,輸出序列,首先將輸入序列X線性變換到三個不同空間,生成相應的查詢矩陣Q、鍵矩陣K和值矩陣V,變換過程如下:

其中,、和分別為線性變換的參數矩陣,其作用是將Q、K、V矩陣分別投影到第i個維度上,、和分別為查詢向量q、鍵向量k和值向量v的維度,為計算方便,一般設 。

其次,將每一位置的查詢向量和圖4的計算方式得到輸出向量,輸出向量代表多頭注意力。

輸出向量進一步表示為:

將輸出向量帶入softmax函數,則有:

最終結果為:

其中,為評分函數,代表輸出和輸入序列的位置,表示第t個輸出關注到第i個值向量的權重。

然后使用放縮因子調整評分函數的數值,使其不至過大,保證梯度下降過程的穩定收斂。輸出序列H數學表達如下:

最后將輸出序列H經過一定的線性變化得到代表整個輸入序列的注意力值。

其中,為可學習的參數矩陣。相比于傳統的注意力機制,多頭注意力可降低維度將原始的注意力層進行集成,模型可以關注到來自不同子空間下的不同位置上的信息。子空間的劃分使其表示能力更強,如圖5所示。每一個子空間的維度都變小了,所有最后使用的參數總數并沒有顯著增加。

3.位置編碼

由于Transformer模型中既沒有遞歸,也沒有卷積,如果需要獲得輸入序列精準的位置信息,必須插入位置編碼。位置編碼精準地描述了輸入序列中各個單詞的絕對和相對位置信息,即在編碼器-解碼器的底部輸入嵌入中注入“位置編碼”,位置編碼和輸入嵌入有相同的維度,所以二者可以實現相加運算,位置編碼方式可以有多種,在Transformer模型中采用的是頻率不同的三角函數:

其中,pos代表在輸入序列中每一幀的實際位置,t為輸入序列的第t個維度,是每一幀向量的特征維度。對于位置相同維度不同的特征,正余弦函數可以用不同頻率表示;對于維度相同而位置不同的特征,正余弦函數則可以用不同相位表達。通過正余弦函數編碼位置信息,可使同一序列上任一位置的編碼信息由其他位置的編碼信息線性表示,如上頁圖6所示。

Transformer的未來展望

未來,Transformer模型的發展趨勢可能會包括以下方面:

一是更好的表征方法。隨著計算能力的提高和數據集的增加,未來Transformer模型可能會變得更大更復雜。目前已經有許多種不同的預訓練方法,但是還有很大的改進空間。未來可能會出現更好的預訓練方法,可以更好地利用大規模數據集進行模型訓練。大模型可以從更多的訓練數據中受益,而小模型可以快速穩定,但無法從更多的訓練樣本中受益。因此,大規模模型可以進一步提高其表征學習能力。

二是更廣泛的應用場景。目前,Transformer主要應用于自然語言處理領域,但未來可能會擴展到其他領域,如計算機視覺。視覺Transformer網絡作為一種新的視覺特征學習網絡,在連接范圍、權重動態性以及位置表示能力等方面與CNN網絡差異較大。其遠距離建模能力和動態的響應特質使之具備了更為強大的特征學習能力,但同時也帶來了嚴重的數據依賴和算力資源依賴等問題。對視覺Transformer的效率和能力的研究仍將是未來的主要研究方向之一。此外,Transformer模型為多模態數據特征學習和多任務處理提供了一種統一的解決思路,基于Transformer的視覺模型有望實現更好的信息融合和任務融合。

三是更好的可視化和可解釋性。目前,可視化和可解釋Transformer仍然是一個未解決的問題,需要獲得空間精確的激活特定可視化的方法。隨著這方面研究的進展,我們可以更好地理解Transformer模型,也可以診斷決策過程中的錯誤行為和偏見。它還可以促進新穎架構的設計,使我們能夠避免偏見,使得Transformer模型更容易被理解和使用。

猜你喜歡
機制信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
打基礎 抓機制 顯成效
中國火炬(2014年4期)2014-07-24 14:22:19
主站蜘蛛池模板: 欧美精品影院| 啪啪永久免费av| 国产真实乱了在线播放| 午夜电影在线观看国产1区| 毛片网站观看| 久久精品一卡日本电影| 免费人成黄页在线观看国产| 国产午夜人做人免费视频| 玖玖精品视频在线观看| 成人在线不卡| 亚洲国产精品无码久久一线| A级全黄试看30分钟小视频| 最新无码专区超级碰碰碰| 亚洲天堂视频在线免费观看| 大乳丰满人妻中文字幕日本| 久久五月视频| 亚洲国产AV无码综合原创| 综合五月天网| 成人噜噜噜视频在线观看| 亚洲熟女偷拍| 亚洲人成高清| 国产成人久视频免费| 欧美高清国产| 亚洲欧洲日韩国产综合在线二区| 麻豆精品久久久久久久99蜜桃| 丁香综合在线| 国产SUV精品一区二区| 中国一级特黄大片在线观看| 97超爽成人免费视频在线播放| 谁有在线观看日韩亚洲最新视频| 国产黑丝视频在线观看| 国产理论精品| 无码专区在线观看| 亚洲福利一区二区三区| 亚洲无码高清视频在线观看 | 国产一级做美女做受视频| 中文字幕久久波多野结衣 | 色网站免费在线观看| 国产swag在线观看| 日韩欧美在线观看| 成人免费黄色小视频| 热re99久久精品国99热| 国产精品短篇二区| 无码高潮喷水专区久久| 亚洲天堂精品视频| 午夜久久影院| 青草精品视频| 国产成人综合在线观看| 日韩精品无码免费一区二区三区 | AV天堂资源福利在线观看| 精品国产Av电影无码久久久| 国产精品亚洲片在线va| 亚洲成在人线av品善网好看| 中国一级特黄视频| 午夜丁香婷婷| 一级香蕉人体视频| 国产91高跟丝袜| 全部免费毛片免费播放| 国产99视频精品免费视频7| 国产97色在线| 国产伦精品一区二区三区视频优播| 丰满的熟女一区二区三区l| AⅤ色综合久久天堂AV色综合| 中文字幕在线看| 成AV人片一区二区三区久久| 欧美怡红院视频一区二区三区| 久久综合亚洲鲁鲁九月天| 国产青榴视频| 久久精品丝袜| 老司机午夜精品视频你懂的| 亚洲高清国产拍精品26u| 免费人欧美成又黄又爽的视频| 久久精品国产免费观看频道| 欧美日韩第三页| 欧美成人a∨视频免费观看| 亚洲人成影视在线观看| 亚洲欧洲一区二区三区| 免费在线国产一区二区三区精品| 亚洲愉拍一区二区精品| 97在线免费视频| 国产精品尤物铁牛tv| 丁香亚洲综合五月天婷婷|