鞏周周


AI(人工智能)時(shí)代,語(yǔ)義處理會(huì)成為操作系統(tǒng)的核心,所有軟件技術(shù)都會(huì)基于語(yǔ)義處理技術(shù)的進(jìn)展而確立上限。而GPT-4,又一次斂住了所有老牌科技企業(yè)的光彩。
在ChatGPT被譽(yù)為范式轉(zhuǎn)變之作的第3個(gè)月,谷歌推出PaLM-E(PathwaysLanguageModelwithEmbodied,直譯為具象化Pathways語(yǔ)言模型)視覺(jué)語(yǔ)言模型。功能上,除去讓AI獲得理解文字、圖片的能力,額外增添了輸出指令生成機(jī)器人行動(dòng)計(jì)劃的控制回路。
——谷歌顯然急了,在OpenAI和微軟的左右?jiàn)A擊下,直接甩出“大招”。
這場(chǎng)與過(guò)往相似的戲碼谷歌再熟悉不過(guò)——移動(dòng)互聯(lián)網(wǎng)時(shí)代的手機(jī)系統(tǒng)之戰(zhàn),以操作系統(tǒng)起家的微軟沒(méi)能在智能手機(jī)發(fā)展初期抓住切入點(diǎn),敗北后起新秀谷歌、安卓。如今,緊鑼密鼓研發(fā)大模型的谷歌被后浪OpenAI的突然成功打了個(gè)措手不及。即使谷歌發(fā)布參數(shù)量高達(dá)5620億(GPT-3模型的參數(shù)量為1750億)、目前世界上最大的視覺(jué)語(yǔ)言模型PaLM-E,也沒(méi)能擋住GPT-4收獲巨大勝利。
回溯2015年,埃隆·馬斯克和山姆·阿爾特曼大概都不會(huì)想到,OpenAI這家非營(yíng)利組織能夠在10年內(nèi)追平谷歌的技術(shù)進(jìn)展,打破AI核心技術(shù)巨頭的壟斷格局。GPT的先發(fā)公測(cè)和底層平臺(tái)開(kāi)源也意味著更多、更廣的技術(shù)會(huì)以此為基礎(chǔ)進(jìn)行開(kāi)發(fā)。這是個(gè)漂亮的開(kāi)端。
任何成功的背后都有著極為復(fù)雜的過(guò)程。自然語(yǔ)言處理技術(shù)跨越了3個(gè)階段,現(xiàn)在終于迎來(lái)變革。接下來(lái),讓我們借由本文從當(dāng)下回到過(guò)去,了解關(guān)于以下4個(gè)方面的內(nèi)容:
1.自然語(yǔ)言處理的兩次重要轉(zhuǎn)折;
2.BERT和GPT這兩種自然語(yǔ)言處理模型的應(yīng)用差異及成因;
3.GPT為什么沒(méi)有出現(xiàn)在中國(guó);
4.自然語(yǔ)言處理是通用人工智能最重要的基礎(chǔ)。
Word2vec:讓機(jī)器感知語(yǔ)義
我們把時(shí)間線拉到20年前——
2003年,約書(shū)亞·本吉奧正式提出神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(NeuralNetworkLanguageModel,以下簡(jiǎn)稱(chēng)NNLM),而NNLM依賴(lài)的核心概念就是詞向量(WordEmbedding,譯為單詞嵌入)。
如果說(shuō)衛(wèi)星定位導(dǎo)航是物理世界中標(biāo)記位置的符號(hào),那么詞向量就是語(yǔ)言世界中標(biāo)記距離的符號(hào)。
2010年,谷歌的托馬斯·米科洛夫團(tuán)隊(duì)對(duì)NNLM進(jìn)行改進(jìn),提出基于遞歸神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型(RecurrentNeuralNetworkbasedLanguageModel,以下簡(jiǎn)稱(chēng)RNNLM),目標(biāo)是利用所有上文信息來(lái)預(yù)測(cè)下一個(gè)詞語(yǔ)。但RNNLM存在長(zhǎng)距離梯度消失的問(wèn)題,上下文記憶能力有限,很難追溯更遠(yuǎn)時(shí)間的信息。而且,只通過(guò)孤立單詞或上文信息,不足以讓機(jī)器“感知”特定環(huán)境下的單詞含義。
于是,2013年,米克洛夫團(tuán)隊(duì)提出Word2vec(單詞到向量)。Word2vec的目標(biāo)不再專(zhuān)注于構(gòu)建語(yǔ)言模型,而是利用語(yǔ)言模型學(xué)習(xí)每個(gè)單詞的語(yǔ)義化向量。
在1986年出版的《并行分布式處理》(ParallelDistributedProcessing)里有過(guò)這樣的觀點(diǎn):“人類(lèi)比當(dāng)今的計(jì)算機(jī)更聰明,是因?yàn)槿说拇竽X采用了一種更適合于人類(lèi)完成他們所擅長(zhǎng)的自然信息處理任務(wù)的基本計(jì)算架構(gòu),例如,‘感知自然場(chǎng)景中的物體并厘清它們之間的關(guān)系……理解語(yǔ)言,并從記憶中檢索上下文的恰當(dāng)信息。”
研究人員想到,如果能夠把每個(gè)詞匯都標(biāo)注為數(shù)字,以編碼形式輸入,那么編碼器網(wǎng)絡(luò)就可以通過(guò)反向傳播,在這些樣本上進(jìn)行訓(xùn)練。但是,一個(gè)非常重要的問(wèn)題是,機(jī)器無(wú)法像人類(lèi)一樣獲取單詞或短語(yǔ)之間的語(yǔ)義關(guān)系。語(yǔ)言學(xué)家約翰·費(fèi)斯在1957年把這一思想表達(dá)為:你會(huì)通過(guò)與一個(gè)單詞一同出現(xiàn)的詞來(lái)認(rèn)識(shí)它。比如“生氣”往往和“憤怒”出現(xiàn)在同一語(yǔ)境,“大笑”和“愉悅”也常被放在同一語(yǔ)境。
研究人員建立的“詞匯表”發(fā)現(xiàn),在使用大量英文語(yǔ)料訓(xùn)練詞向量后,queen和king的詞向量之差得到的向量與woman與man之差得到的向量幾乎一樣,繼而可以得到一個(gè)等式:queen-king+man=woman。
這就是著名的“國(guó)王和女王”的例子,也是自然語(yǔ)言處理向理解語(yǔ)言更進(jìn)一步的重要標(biāo)志。
Word2vec,包含CBOW(連續(xù)詞袋模型)和Skipgram(跳字模型)兩組模型,分別根據(jù)上下文預(yù)測(cè)中心詞以及根據(jù)中心詞來(lái)預(yù)測(cè)上下文,簡(jiǎn)化網(wǎng)格結(jié)構(gòu);使用HierarchicalSoftmax、NegativeSampling兩種算法提升訓(xùn)練效率,優(yōu)化詞向量和語(yǔ)義方面的能力。
在對(duì)機(jī)器進(jìn)行詞語(yǔ)、對(duì)話或是理念傳達(dá)時(shí),不同的語(yǔ)言使用方式和其所處環(huán)境密不可分。因此,要消解機(jī)器對(duì)模糊詞、隱喻等產(chǎn)生的困惑,構(gòu)建機(jī)器對(duì)世界的認(rèn)知系統(tǒng),數(shù)據(jù)和模型就變得格外重要。
當(dāng)單詞可以用坐標(biāo)作為數(shù)字輸入時(shí),就大大提高了神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理中的性能。RNNLM雖然也能獲得單詞的分布式表達(dá),但為了更好應(yīng)對(duì)詞匯量的增加,提高分布式表示的質(zhì)量,Word2vec很快成為主流。
Transformer架構(gòu)和BERT:從理論走向?qū)嵺`的一次蛻變
再把時(shí)間線拉到近5年內(nèi)——
2017年,谷歌團(tuán)隊(duì)在論文AttentionisAllYouNeed中首次提出的Transformer架構(gòu),造就了一場(chǎng)關(guān)乎自然語(yǔ)言處理研究的始發(fā)性變革。
深度學(xué)習(xí)時(shí)代,自然語(yǔ)言處理準(zhǔn)確率的提升帶來(lái)模型對(duì)有標(biāo)注數(shù)據(jù)的高度依賴(lài)。因?yàn)閿?shù)據(jù)稀缺和人力成本高昂,大型自然語(yǔ)言處理模型的訓(xùn)練進(jìn)入瓶頸期。
Transformer預(yù)訓(xùn)練模型主要分為兩段訓(xùn)練:先在大規(guī)模未標(biāo)注語(yǔ)料庫(kù)訓(xùn)練一個(gè)初始模型,然后在下游任務(wù)中利用標(biāo)注數(shù)據(jù)對(duì)初始模型進(jìn)行精調(diào)。相對(duì)而言,預(yù)訓(xùn)練模型效能更高,對(duì)標(biāo)注數(shù)據(jù)的要求更低。
很快,預(yù)訓(xùn)練模型成為自然語(yǔ)言理解任務(wù)中的基準(zhǔn)模型。
GPT和BERT,這兩個(gè)代表現(xiàn)代自然語(yǔ)言處理技術(shù)發(fā)展的模型都建立在Transformer架構(gòu)上。谷歌團(tuán)隊(duì)把這個(gè)語(yǔ)言架構(gòu)濃縮成一句話:“Attentionisallyouneed.(注意力機(jī)制就是你所需要的全部)”
2018年10月,谷歌團(tuán)隊(duì)發(fā)布的BERT語(yǔ)言模型讓這項(xiàng)技術(shù)從理論走向?qū)嵱谩_@是自然語(yǔ)言處理的一場(chǎng)全領(lǐng)域的狂歡,同時(shí)也預(yù)示著自然語(yǔ)言處理有史以來(lái)最強(qiáng)烈的一次進(jìn)化即將開(kāi)啟。
在過(guò)往許多研究AI、自然語(yǔ)言處理、通用人工智能技術(shù)的書(shū)籍中都提到過(guò)一個(gè)詞,叫“意義的障礙”。機(jī)器和人類(lèi)間存在著阻礙交流的溝渠,所以創(chuàng)造出一種讓機(jī)器理解人類(lèi)寫(xiě)作、說(shuō)話方式的能力,進(jìn)而使其協(xié)助人類(lèi),這是自然語(yǔ)言處理的初衷。
人類(lèi)擁有的能力之一,是感知并反思自己的思維方式,即透過(guò)現(xiàn)象,以某種本質(zhì)、深刻的方式來(lái)理解周?chē)榫埃鴻C(jī)器并不具備這種理解能力。自然語(yǔ)言處理的目標(biāo)就是讓機(jī)器在理解語(yǔ)言上像人類(lèi)一樣智能,彌補(bǔ)人類(lèi)交流(自然語(yǔ)言)和計(jì)算機(jī)理解(機(jī)器語(yǔ)言)之間的差距。
但語(yǔ)言這種具象表達(dá)方式,從標(biāo)引符號(hào)演變?yōu)橄笳鞣?hào),再演變?yōu)檎Z(yǔ)法,是個(gè)漫長(zhǎng)的過(guò)程。自然語(yǔ)言是一種“活著”的語(yǔ)言,它不斷演進(jìn)、生長(zhǎng)。從過(guò)去到現(xiàn)在,有許多俚語(yǔ)不斷被淘汰,又有許多詞語(yǔ)生成。基于此,這種可以擇時(shí)生存的自然語(yǔ)言處理技術(shù)的研發(fā)變得相當(dāng)困難。
在BERT發(fā)布前,大部分自然語(yǔ)言處理任務(wù)是基于Word2vec+RNNLM的基本架構(gòu)的。由于數(shù)據(jù)匱乏,自然語(yǔ)言處理技術(shù)的進(jìn)展一直不像計(jì)算機(jī)視覺(jué)開(kāi)發(fā)那么順利,于是,有些學(xué)者就將基于計(jì)算機(jī)視覺(jué)的思想應(yīng)用到預(yù)訓(xùn)練+微調(diào)的架構(gòu)上,ELMo(一種上下文詞嵌入模型)和GPT就是采用了這種方式。
BERT在兩個(gè)方向進(jìn)行了創(chuàng)新。首先提出兩階段模型,第一階段雙向語(yǔ)言模型預(yù)訓(xùn)練,第二階段具體任務(wù)Finetuning(微調(diào));其次,將特征提取器變?yōu)門(mén)ransformer。幾乎所有的自然語(yǔ)言處理任務(wù)都可以采用BERT兩階段的訓(xùn)練思路,所以此后的幾年,幾乎所有企業(yè)都在以BERT為基礎(chǔ)進(jìn)行改進(jìn),研發(fā)方向也就此發(fā)生轉(zhuǎn)變。
BERT和GPT模型的應(yīng)用差異及成因
從自然語(yǔ)言角度出發(fā),自然語(yǔ)言處理大致可分為理解和生成兩個(gè)部分。
自然語(yǔ)言理解:讓計(jì)算機(jī)能夠理解文本的含意。具體來(lái)說(shuō),就是把語(yǔ)言以可分解的符號(hào)或語(yǔ)音進(jìn)行表示,從中提取有用的信息用于下游任務(wù)。研究方向包含語(yǔ)言結(jié)構(gòu)、信息抽取、信息檢索、詞性標(biāo)注和句法分析。
自然語(yǔ)言生成:按照一定語(yǔ)法和語(yǔ)義規(guī)則生成自然語(yǔ)言文本、圖表、音視頻,即以人類(lèi)可讀形式進(jìn)行語(yǔ)義信息的表達(dá)。簡(jiǎn)單來(lái)說(shuō),就是從文本規(guī)劃到語(yǔ)句規(guī)劃再到實(shí)現(xiàn)傳達(dá)。主體分為三大類(lèi):文本到文本(TexttoText)、文本到其他(TexttoOther)、其他到文本(OthertoText)。
以BERT和GPT為例,即使它們都屬于預(yù)訓(xùn)練模型,但在技術(shù)研發(fā)方向上存在分流。
BERT(BidirectionalEncoderRepresentationsfromTransformers,直譯為來(lái)自Transformer的雙向編碼表示模型)
雙向語(yǔ)言模型,可以同時(shí)利用上下文信息進(jìn)行預(yù)測(cè),是自然語(yǔ)言理解任務(wù)中的基準(zhǔn)模型。由Transformer的Encoder(編碼)模塊構(gòu)成,采用預(yù)訓(xùn)練+微調(diào)兩階段模型訓(xùn)練,屬于半監(jiān)督學(xué)習(xí)模型:在預(yù)訓(xùn)練時(shí)使用大量無(wú)標(biāo)注數(shù)據(jù),屬于自監(jiān)督訓(xùn)練;而微調(diào)時(shí)采用少量有標(biāo)注數(shù)據(jù),屬于有監(jiān)督訓(xùn)練。
BERT的預(yù)訓(xùn)練包含掩碼語(yǔ)言模型(MaskedLanguageModel,簡(jiǎn)稱(chēng)MLM)和下一句預(yù)測(cè)(NextSentencePrediction,簡(jiǎn)稱(chēng)NSP)兩個(gè)任務(wù),引入基于自編碼的預(yù)訓(xùn)練任務(wù)進(jìn)行訓(xùn)練。這種訓(xùn)練方式讓BERT可以有效捕捉文本中的語(yǔ)義信息,因此被廣泛用于文本分類(lèi)任務(wù),如機(jī)器翻譯、情感分析、垃圾郵件識(shí)別、新聞分類(lèi)、問(wèn)答系統(tǒng)、語(yǔ)義匹配等方向。
GPT(GenerativePre-trainedTransformer,直譯為生成式預(yù)訓(xùn)練Transformer模型)
單向語(yǔ)言模型,采用自回歸語(yǔ)言建模方式,進(jìn)行兩階段訓(xùn)練:生成式預(yù)訓(xùn)練(無(wú)監(jiān)督)+判別式任務(wù)精調(diào)(有監(jiān)督)。
第一階段,利用大規(guī)模數(shù)據(jù)訓(xùn)練出基于深層Transformer的語(yǔ)言模型;第二階段,在通用語(yǔ)意表示的基礎(chǔ)上,根據(jù)下游任務(wù)特性進(jìn)行領(lǐng)域適配。微調(diào)通常是在一個(gè)較小的數(shù)據(jù)集上進(jìn)行的,因此可以使用較小的學(xué)習(xí)率和少量的訓(xùn)練迭代次數(shù)進(jìn)行訓(xùn)練。
單向訓(xùn)練方式只能利用之前的文本從前往后進(jìn)行預(yù)測(cè),因此適用于自然語(yǔ)言生成、問(wèn)答系統(tǒng)、機(jī)器翻譯等任務(wù)。
BERTVS.GPT
在表征和表達(dá)能力上,相較單向語(yǔ)言模型(GPT),雙向語(yǔ)言模型(BERT)能力更強(qiáng)。因?yàn)樵趩蜗蛘Z(yǔ)言模型中,只能依賴(lài)于前詞,而無(wú)法獲取后詞信息,在處理復(fù)雜自然語(yǔ)言任務(wù)時(shí),這可能會(huì)由于無(wú)法充分捕捉上下文信息,影響模型的性能。反之,雙向語(yǔ)言模型優(yōu)勢(shì)明顯。
BERT的雙向性增強(qiáng)了它的理解能力,但在一定程度上限制了生成能力,相較于單向模型僅通過(guò)上文即可進(jìn)行續(xù)寫(xiě)生成,雙向模型在缺乏下文語(yǔ)境時(shí)生成能力受限。對(duì)整個(gè)句子進(jìn)行雙向處理,也意味著模型更大、訓(xùn)練和推理時(shí)間更長(zhǎng),所需計(jì)算資源和存儲(chǔ)空間更多。GPT在簡(jiǎn)化程度、訓(xùn)練及推理速度上更快,更加適用于實(shí)時(shí)性要求高的場(chǎng)景。
相對(duì)于GPT這種單向語(yǔ)言模型,BERT等雙向語(yǔ)言模型雖然存在缺點(diǎn),但在實(shí)際應(yīng)用中更加靈活和更具有表達(dá)能力,也更容易遷移和擴(kuò)展。在模型研發(fā)方面,BERT更注重模型的復(fù)用性和通用性,適用于多種自然語(yǔ)言處理任務(wù)的應(yīng)用。
研發(fā)上,BERT引入了Transformer的Encoder(編碼)網(wǎng)絡(luò)結(jié)構(gòu),用于對(duì)輸入的序列進(jìn)行編碼;GPT則采用Transformer的Decoder(解碼)的網(wǎng)絡(luò)結(jié)構(gòu),用于生成自然語(yǔ)言文本。
模型復(fù)雜度方面,BERT比GPT的模型架構(gòu)更加復(fù)雜。訓(xùn)練方式上,BERT需要在自定義數(shù)據(jù)上進(jìn)一步微調(diào),與GPT比較,BERT也就更加復(fù)雜和煩瑣。
“梅須遜雪三分白,雪卻輸梅一段香。”總的來(lái)說(shuō),BERT和GPT兩者各有千秋,設(shè)計(jì)和應(yīng)用方向的差別,決定它們適用于不同的應(yīng)用環(huán)境。
BERT提出后的一年內(nèi),涌現(xiàn)出許多對(duì)其進(jìn)行擴(kuò)展的模型,其中包含XLNet模型、RoBERTa模型等。并且,大多數(shù)自然語(yǔ)言處理子領(lǐng)域研發(fā)模式切換為:預(yù)訓(xùn)練+應(yīng)用微調(diào)/應(yīng)用ZeroShotPrompt、FewShotPrompt模式。
XLNet模型:XLNet使用Transforner-XL(XL即extralong,表示更擅長(zhǎng)處理較長(zhǎng)上下文,能更有效建模長(zhǎng)期記憶)代替Transformer作為基礎(chǔ)模型,提出了一個(gè)新的預(yù)訓(xùn)練語(yǔ)言任務(wù):PermutationLanguageModeling(排列語(yǔ)言模型)。模型將句子內(nèi)的詞語(yǔ)打亂順序,從而使得預(yù)測(cè)當(dāng)前詞語(yǔ)時(shí)可以利用雙向信息。XLNet相對(duì)BERT也使用了更多語(yǔ)料。
RoBERTa模型:RoBERTa采用了與BERT相同的模型結(jié)構(gòu),同樣采用了MLM掩碼語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練,但舍棄了BERT中的NSP下句預(yù)測(cè)模型。此外,RoBERTa采用了更大規(guī)模的數(shù)據(jù)和更棒的微調(diào)方法,從而取得了更好的表現(xiàn)。
GPT為什么沒(méi)有出現(xiàn)在中國(guó)
GPT目前已經(jīng)發(fā)布5代,從GPT-3起與BERT逐漸拉開(kāi)差距。實(shí)際上,它不僅是一項(xiàng)具體的技術(shù),更多的是關(guān)于大語(yǔ)言模型的不同發(fā)展理念。
ChatGPT是從生成式預(yù)訓(xùn)練Transformer,即GPT-3.5在經(jīng)過(guò)文本和代碼的混合語(yǔ)料訓(xùn)練后,再微調(diào)得到的,使用了利用人類(lèi)反饋的強(qiáng)化學(xué)習(xí)技術(shù),即帶有搜索啟發(fā)式的強(qiáng)化學(xué)習(xí)。它將兩種目的緊密結(jié)合,用以解決復(fù)雜的搜索問(wèn)題,也是目前大語(yǔ)言模型與人類(lèi)意圖較匹配的方法。
反觀自然語(yǔ)言處理的發(fā)展史,雖然谷歌的模型升級(jí)更迭貫穿始終,競(jìng)爭(zhēng)力較強(qiáng),但DeepMind一直以來(lái)的重心在強(qiáng)化學(xué)習(xí)和AI技術(shù)方面,在生成式模型研發(fā)上押注不夠。
以往,GPT的可商用場(chǎng)景不明確,BERT的商用趨勢(shì)卻十分明顯,因此語(yǔ)義理解精準(zhǔn)度一直是領(lǐng)域發(fā)展重點(diǎn),國(guó)內(nèi)外大部分企業(yè)也是沿著B(niǎo)ERT模型路線進(jìn)發(fā)。面對(duì)當(dāng)前情形,盡管谷歌反應(yīng)夠快,2022年4月便發(fā)布Pathways(谷歌提出的一種接近人腦的AI通用構(gòu)架)和PaLM(基于Pathways系統(tǒng)訓(xùn)練的一種語(yǔ)言模型),全力追趕大語(yǔ)言模型技術(shù),但仍顯得入局尚晚。
經(jīng)不完全統(tǒng)計(jì),我國(guó)自然語(yǔ)言處理領(lǐng)域目前布局有52家,大部分布局重心在前端,即應(yīng)用端,虛擬人、智能語(yǔ)音、翻譯及基于自然語(yǔ)言處理技術(shù)的機(jī)器人流程自動(dòng)化(RoboticProcessAutomation,以下簡(jiǎn)稱(chēng)RPA)這幾類(lèi),發(fā)展較為靠前。科技發(fā)展中所重視的“技術(shù)在前,應(yīng)用在后”,在我國(guó)似乎體現(xiàn)不明顯。
不過(guò),谷歌尚且在大語(yǔ)言模型上落后一線,這只能說(shuō)明在之前的研發(fā)理念上就存在分歧。目前來(lái)看,百度、阿里、華為、訊飛等企業(yè)的大語(yǔ)言模型研發(fā)能力存在潛力,數(shù)據(jù)、技術(shù)積淀方面國(guó)內(nèi)有相對(duì)優(yōu)勢(shì)。
國(guó)內(nèi)一些企業(yè)在發(fā)展新技術(shù)時(shí)往往會(huì)首先看重商用化可行性,包含醫(yī)藥研發(fā)在內(nèi),許多領(lǐng)域都會(huì)考慮短線收益,這種方式并不適合新技術(shù)的產(chǎn)生。
從整體走向局部,從應(yīng)用走向基礎(chǔ),著眼算力、芯片、框架邏輯、理念意識(shí)才是關(guān)鍵,決定技術(shù)進(jìn)展的往往是基礎(chǔ)科研。
自然語(yǔ)言處理是通用人工智能最重要的基礎(chǔ)
GPT-4的出現(xiàn)讓自然語(yǔ)言處理社團(tuán)分成兩股:相信通用人工智能的和不信通用人工智能的。
進(jìn)入大模型時(shí)代,范式改變給自然語(yǔ)言處理帶來(lái)內(nèi)核上的轉(zhuǎn)變,許多獨(dú)立存在的子領(lǐng)域被納入大語(yǔ)言模型,不再獨(dú)立存在,大語(yǔ)言模型熱度空前。
2023年2月25日,OpenAI首席執(zhí)行官阿爾特曼在博客中分享其對(duì)通用人工智能的規(guī)劃,以及OpenAI駕馭AI的風(fēng)險(xiǎn)。
他的短期計(jì)劃是使用AI來(lái)幫助人類(lèi)評(píng)估更復(fù)雜模型的輸出和復(fù)雜系統(tǒng)的監(jiān)控;長(zhǎng)期計(jì)劃是使用AI來(lái)幫助人們提出新的想法,以實(shí)現(xiàn)更好的對(duì)齊技術(shù)。他認(rèn)為,一個(gè)錯(cuò)位的通用人工智能可能會(huì)對(duì)世界造成嚴(yán)重傷害。
微軟于2023年3月發(fā)布的長(zhǎng)篇報(bào)告說(shuō):“考慮到GPT-4功能具有的廣度和深度,我們可以合理地認(rèn)為它是通用人工智能系統(tǒng)的早期(但仍不完善的)版本。”
不過(guò),他們也承認(rèn),“雖然GPT-4‘對(duì)處理許多任務(wù)而言達(dá)到或超過(guò)人類(lèi)水平,但其整體‘智能模式顯然不像人類(lèi)。所以,大致來(lái)講,即使它確實(shí)表現(xiàn)出色,但仍然不能完全像人類(lèi)一樣思考”。
微軟提到了一個(gè)詞——思考。
許多哲學(xué)家認(rèn)為,即使通過(guò)圖靈測(cè)試的機(jī)器實(shí)際上也不會(huì)真正進(jìn)行思考,而只是對(duì)思考的模擬。
斯坦福大學(xué)教授克里斯托弗·曼寧在2017年提出,“到目前為止,深度學(xué)習(xí)已經(jīng)使得語(yǔ)音識(shí)別和物體識(shí)別的錯(cuò)誤率大幅下降,但其在高級(jí)別的語(yǔ)言處理任務(wù)中并沒(méi)有產(chǎn)生同等效用”。
人類(lèi)語(yǔ)言往往依賴(lài)于常識(shí)及對(duì)世界的理解,這也使得機(jī)器在處理更高級(jí)別的語(yǔ)言任務(wù)時(shí),要完全理解人類(lèi)語(yǔ)言,具備人類(lèi)的常識(shí)和無(wú)意識(shí)行為。目前大語(yǔ)言模型還很難做到。
不過(guò),20世紀(jì)90年代,發(fā)明家、未來(lái)學(xué)家雷·庫(kù)茲韋爾發(fā)現(xiàn)這樣一個(gè)規(guī)律:一旦技術(shù)變得數(shù)字化,或者被編程為以0和1表示的計(jì)算機(jī)代碼,它就能夠脫離摩爾定律的束縛,開(kāi)始呈指數(shù)級(jí)加速發(fā)展。簡(jiǎn)單來(lái)說(shuō),技術(shù)發(fā)展后的產(chǎn)物會(huì)被用來(lái)加速技術(shù)升級(jí),這就創(chuàng)造了一個(gè)正反饋循環(huán)。根據(jù)該理論,技術(shù)改良以過(guò)去的成就為基礎(chǔ),每10年革新步調(diào)就會(huì)成倍加速。
傳說(shuō)西塔發(fā)明了國(guó)際象棋而使國(guó)王十分高興,國(guó)王決定要重賞西塔,西塔說(shuō):“我不要你的重賞,陛下,只要你在我的棋盤(pán)上賞一些麥子就行了。在棋盤(pán)的第一個(gè)格子里放1粒,在第二個(gè)格子里放2粒,在第三個(gè)格子里放4粒,在第四個(gè)格子里放8粒……依此類(lèi)推,以后的每一個(gè)格子里放的麥粒數(shù)都是前一個(gè)格子里的2倍,直到放滿64個(gè)格子就行了。”
區(qū)區(qū)幾粒麥子,這有何難,國(guó)王令人如數(shù)付給西塔。計(jì)數(shù)麥粒的工作開(kāi)始了,第一格內(nèi)放1粒,第二格內(nèi)放2粒,第三格內(nèi)放4粒……還沒(méi)有到第二十格,一袋麥子已經(jīng)空了。一袋又一袋的麥子被扛到國(guó)王面前,而麥粒數(shù)一格接一格飛快增長(zhǎng),國(guó)王很快就發(fā)現(xiàn),即便拿出全國(guó)的糧食,也兌現(xiàn)不了他對(duì)西塔的承諾。
獨(dú)立指數(shù)技術(shù)加速浪潮,已經(jīng)開(kāi)始呈現(xiàn)出與其他技術(shù)加速浪潮融合的趨勢(shì)。比如,自然語(yǔ)言處理技術(shù)的加速發(fā)展,不僅是因?yàn)樽匀徽Z(yǔ)言處理或大語(yǔ)言模型的單項(xiàng)技術(shù)在加速發(fā)展,還因?yàn)锳I、深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等技術(shù)正加速發(fā)展,并且都在向這個(gè)范圍靠攏。
2000年,互聯(lián)網(wǎng)創(chuàng)始人提姆·伯納斯·李提出“語(yǔ)義網(wǎng)”概念。他希望建立一個(gè)以“本體”為基礎(chǔ)的、具有語(yǔ)義特征的智能互聯(lián)網(wǎng),不僅能夠理解語(yǔ)義概念,還能夠理解語(yǔ)義之間的邏輯。突破單句限制,根據(jù)整個(gè)動(dòng)態(tài)交互過(guò)程中的語(yǔ)義和語(yǔ)境的變化情況,對(duì)用戶(hù)實(shí)時(shí)輸入的語(yǔ)句進(jìn)行處理并生成結(jié)果,是實(shí)現(xiàn)“語(yǔ)義網(wǎng)”的基礎(chǔ)。
正常的發(fā)展邏輯是,首先通過(guò)解決語(yǔ)義表達(dá),讓計(jì)算機(jī)利用對(duì)現(xiàn)有信息的經(jīng)驗(yàn)積累和理解,上升到更高層次。這也意味著,AI時(shí)代,語(yǔ)義處理會(huì)成為操作系統(tǒng)的核心,所有軟件技術(shù)都會(huì)基于語(yǔ)義技術(shù)的發(fā)展而不斷確立上限。
自然語(yǔ)言處理的發(fā)展,目前主要通過(guò)大數(shù)據(jù)、模型框架及訓(xùn)練模式的互補(bǔ)和變化來(lái)構(gòu)建。數(shù)據(jù)存在歧義性。大語(yǔ)言模型時(shí)代,數(shù)據(jù)成為重要核心,機(jī)器在進(jìn)行對(duì)話或理念傳達(dá)時(shí),模型的使用環(huán)境和使用方式可以左右最終的結(jié)果。因此,要消解機(jī)器對(duì)模糊詞、隱喻等的困惑,構(gòu)建機(jī)器對(duì)世界的認(rèn)知系統(tǒng),人,在這種體系中格外重要。