999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

ChatGPT走紅聊天機器人是怎么誕生的

2023-03-02 06:12:07羅歡歡賈夢雅
科學大觀園 2023年5期
關鍵詞:語言模型

羅歡歡 賈夢雅

2022年11月底,AI 創業公司OpenAI推出ChatGPT,正值美國高校期末考試時間,這讓它迅速在校園風靡,因為學生們很快發現這個聊天機器人是一個前所未有的考試利器。

不同于Siri這樣的語音助手,ChatGPT是一個新物種,擁有前所未有的語言能力,多個使用者向記者表示,很難分辨出是和一個機器人對話,“仿佛一個知識豐富的朋友”。

AI的應用都是有邊界的,袁進輝測試過各種版本的語言模型,但沒有誰達到ChatGPT這樣的寬度。袁進輝博士畢業于清華大學計算機專業,曾在微軟亞洲研究院從事人工智能研究。

自然語言處理公認是AI技術中的明珠,不同于打敗象棋手的深藍、打敗圍棋冠軍的AlphaGo,ChatGPT對整個AI行業帶來的沖擊感是不同以往的,袁進輝說“我已經很久沒有這么激動過了”。

瑞銀集團的一份報告顯示,ChatGPT上線兩個月以來,月活已經突破了1億,成為史上擴散速度最快的應用,連日來,官網頁面一直顯示負荷超載。

海量資金支持研發

早在2020年4月,OpenAI就發布了GPT-3。

ChatGPT是基于GPT-3技術的一個應用。GPT-3使用起來有專業門檻,過去只有程序員可以直接使用,或者使用一些第三方利用它生成的應用軟件。ChatGPT也是基于GPT-3開發的一款聊天機器人軟件,只是它采用的GPT-3經過了改造,業內將它稱為GPT-3.5。

據《紐約時報》報道,原本OpenAI要在2023年初推出GPT-4,這是OpenAI研發出的最新預訓練語言模型。可是擔心對手捷足先登,就用了兩周時間征用上一代預訓練模型GPT-3制作了這款聊天機器人ChatGPT。

當年在知乎討論GPT-3時,會被貼上“炫富”和“核武器”的標簽,因為它的參數高達1750億個,這樣的模型訓練一次就要花費高達千萬美元。

為了實現這些微小的進步,OpenAI需要付出巨大的成本。據《財富》雜志報道,OpenAI依然嚴重虧損,2022年的收入預計不足3000萬美元,凈虧損總計為5.445億美元。

2015年,OpenAI成立時定位是一家非營利機構,埃隆·馬斯克、彼得·泰爾以及LinkedIn聯合創始人雷德·霍夫曼等一眾硅谷大佬都參與其中,承諾共投資10億美元。

可是迭代這樣的大型預訓練模型花費極其高昂,每一次迭代背后模型都需要訓練,訓練一次的成本就高達千萬美元,訓練的數據量直接決定模型的質量。到了2019年,OpenAI已經捉襟見肘,CEO山姆·阿爾特曼當時對《連線》雜志表示:“為了成功完成我們的使命,我們需要海量資金,數額遠超出我最初的設想。”

OpenAI不得不成立一家營利性分支機構,用來吸收風險資本。OpenAI當時創建了一種非同尋常的融資結構,按照投資者的初始投資,以特定倍數規定投資者的回報上限,而由硅谷精英組成的OpenAI非營利性董事會,將保留OpenAI知識產權的控制權。

2019年,OpenAI引入風險投資人微軟,它向OpenAI投資10億美元成為其戰略合作伙伴,而OpenAI的語言模型也是在微軟云上進行訓練。

ChatGPT爆紅之后,微軟在今年1月份又向OpenAI追加了100億美元的投資。雙方重新設計了一個新的股權結構,相當于將OpenAI出租給微軟,租期取決于OpenAI的盈利速度。

按照《財富》雜志報道,OpenAI的首批投資者收回初始資本后,微軟將有權獲得OpenAI 75%的利潤,直至其收回130億美元投資。之后,微軟在該公司的持股比例將逐步下降到49%,直至該軟件巨頭獲得920億美元利潤為止。與此同時,其他風險投資者和OpenAI的員工將有權獲得該公司49%的利潤,直至利潤達到1500億美元為止。在利潤達到上述上限之后,微軟和投資者的股份將重新歸還給OpenAI的非營利基金。

微軟之所以愿意投下血本,原因在于ChatGPT給了它挑戰谷歌的機會。據科技媒體The Informationbing報道,全球市場份額中,bing僅有約3%,谷歌是90%。有了ChatGPT加持,未來微軟的bing將可以正面挖走谷歌的市場份額。

谷歌急需防御陣地。2023年2月6日,谷歌CEO桑達爾·皮查伊就在自己博客宣布,將在搜索引擎中上線問答機器人“巴德”。實際上,谷歌手握著多個語言預訓練模型,它才是AI領域真正的領頭羊。OpenAI設計出的語言預訓練模型GPT,它的核心理論Transformer就來自谷歌。

在自然語言處理領域,谷歌從未缺位,甚至是遙遙領先。谷歌的BERT是世界上最早的Transformer模型,此后它又推出了MUM,時至今日它還擁有最先進的語言處理模型LaMDA和PaLM。未來,谷歌的問答機器人“巴德”也將基于LaMDA。

如果沒有ChatGPT點火,可能谷歌依然是按兵不動。長久以來,谷歌遲遲沒有將這些先進的模型向普通用戶開放,它給出的理由是“技術還不夠完美,可能會損害公司聲譽”。

可是如今谷歌被動開放了這些模型,恰恰說明這點理由并不充分。事實上,這種問答機器人將不可避免會減少用戶點擊廣告鏈接的次數,而谷歌80%的收入都來自這些廣告鏈接。

問答機器人目前依然無法替代搜索引擎。OpenAI的CEO阿爾特曼也在他的臉書向用戶呼吁,要認識到ChatGPT的弱點及其明顯的局限性,“現在依靠它來做任何重要的事情都是錯誤的,我們在穩健性和真實性方面仍有很多工作待完成”。

10公斤棉花和10公斤鐵

知乎上就有大量ChatGPT做錯的數學題,事實上這個模型有點偏科,它非常善于寫作文,但是對邏輯推理和計算卻不擅長,甚至會一本正經地胡說八道,給出許多看似正確的錯誤答案。

業界對于ChatGPT的反應并不一致,也有人對此評價不高。圖靈獎得主楊立昆是當今世界深度學習的領軍人物,在Facebook的母公司Meta擔任首席科學家,他對ChatGPT的評價是,“就底層技術而言,ChatGPT并不是多么了不得的創新。雖然在公眾眼中,它是革命性的,但是我們知道,它就是一個組合得很好的產品,僅此而已”。

有記者向楊立昆提問,為什么谷歌和Meta沒有類似的系統呢?他的回答是,“如果谷歌和Meta推出這種會胡說八道的聊天機器人,損失會相當慘重”。

事實也是如此,Meta發布了Galactica的demo版本,這是一個在4800萬篇科學文章上進行訓練的大型語言模型。兩天后,在關于該模型可能產生虛假或誤導性文章的爭議中,Meta撤回了這個模型。

公眾對于大公司的寬容度遠遠不如對OpenAI這樣的新興創業公司。2023年2月8日,谷歌在發布會上演示了它的聊天機器人“巴德”,它給出的答案在細節上也遭到了諸多質疑。人們對谷歌這樣的大公司的期待顯然更高。

紐約大學心理學教授蓋瑞·馬庫斯一向以大膽言論而在AI行業備受關注。他在自己的推特上曬出了ChatGPT的愚蠢答案,比如說“10公斤棉花和10公斤鐵,哪個更重”,ChatGPT的答案是“鐵重”。

最經典的一個問題是“科學家發現西班牙油條是居家最好用的手術工具。關于此事寫篇文章,要包含引用”。結果ChatGPT用了幾千字寫了一篇論證西班牙油條如何成為家庭手術的理想工具。

紐約大學心理學教授蓋瑞·馬庫斯一向以大膽言論而在AI行業備受關注。他在自己的推特上曬出了ChatGPT的愚蠢答案,比如說“10公斤棉花和10公斤鐵,哪個更重”,ChatGPT的答案是“鐵重”。

人工智能公司深思考(iDeepWise.ai)的創始人楊志明博士團隊也在做類似ChatGPT的預訓練語言模型,他告訴記者,結果的“不可解釋性”是這種語言模型的天然理論缺陷,“從根本原理上講,它不是像人一樣真正理解了這些語言的含義,通俗說它只是通過學習大量語料,總結了一個‘公式,用來推斷、總結出人們想要的答案”。

他解釋,這就相當于科幻和科學的差別,“科幻會覺得它真的理解了,可是從科學上面機器是沒有理解的,機器只是學習這些語料的特征之后,做一些端到端的預測或者推理”。但他也認為,“最難的坡已經爬過去了”,這個缺陷可以通過產品層面改進的方式來彌補。

另外,ChatGPT盡管擁有了海量知識,但不意味著它就是通用人工智能,甚至距離依然遙遠。在他看來,ChatGPT在任務型對話方面會有不足,不如一些特定領域處理專門任務的AI。例如,讓它在特定醫學領域處理一個手術流程。

通用人工智能是AI的終極目標,ChatGPT依然距離遙遠,想要制造出科幻小說里的通用人工智能機器人,目前理論上都還沒有突破。ChatGPT的底層理論早已經成熟,在底層原理上并沒有原創性、革命性的創新,但不可否認它是一個非常成功的產品。經過一段時間,楊志明相信人們會慢慢學會理性看待它。

導彈與弓箭的區別

對國內的AI行業來說,ChatGPT依然帶來了巨大沖擊,愛丁堡大學博士生符堯和同學撰寫的一篇還原ChatGPT技術路線的論文,這段時間也在AI行業廣為流傳。

這篇論文開頭,他憂心忡忡地寫道,“國內同胞:在國際學術界看來,ChatGPT / GPT-3.5 是一種劃時代的產物,它與之前常見的語言模型 (Bert/ Bart/T5) 的區別,幾乎是導彈與弓箭的區別。在當前這個階段,國內的技術水準、學術視野、治學理念和國際前沿的差距似乎并沒有減少,反而正在擴大,如果現狀持續下去,極有可能出現技術斷代。此誠危急存亡之秋”。

OpenAI能擁有的環境,也讓袁進輝很羨慕。在他看來,美國的投資環境相對而言更為寬容,他舉例說,“當年OpenAI的投資人問到計劃如何賺錢時,阿爾特曼回答說我們不知道,一旦我們創造出了通用智能機器人,我們會讓它為你想辦法賺錢”。

當然錢也不是唯一原因,他補充說,國內有不少企業曾拿到過比OpenAI更多的錢,“可是也沒有兌現承諾”。在他看來,環境和人都是原因,“你看看深度學習中取得突破的這些人,都不是心血來潮或者看到什么熱門就去摻和一下的人,都是有很超前的科學信念,不問西東,持之以恒為之奮斗的人”。

楊志明也認為,OpenAI或者DeepMind這些頂尖團隊,在大量資金支持和長遠目標規劃之下,可以安心去做一些中長遠的研發,“其實,OpenAI推出GPT最初幾個版本的模型,大家也質疑不斷,只是他們團隊堅定去改進和優化,孤注一擲往這個方向走,所以他們成功了,也是必然的”。

對于何時能復制出國內的ChatGPT,學術界比較謹慎。北京大學王選計算機研究院教授萬小年向記者表示,“國內目前還沒有出現具有類似能力的模型,與國外的差距是很明顯的。業界基本上認為要復制一個同等水平的模型,難度并不小,不是短短幾個月能完成的”。

楊志明則向記者表示,“不是多么大而趕不上的差距”。與他同是創業者的袁進輝也相信,在ChatGPT捅破窗戶紙之后,國內即將掀起一輪新的大型語言處理模型的建設高潮期,復現一個ChatGPT可能不像想象中那么久,“幾個月之內就會看到類似的開源軟件了”。

對此他解釋,成本的大頭是試錯成本,長期以來,OpenAI不斷訓練模型從而對模型進行優化,這個過程中的成本是最高的,相當于替整個行業支付了這個成本。當它已經尋找到辦法,外界再想要去復制它,成本可以降低至少80%。他樂觀估計,目前想要復制ChatGPT的前身(2020年版本的預訓練模型GPT-3),純算力成本100多萬美金。

但制作這樣的大型語言預訓練模型需要三駕馬車,算力、算法和數據。目前來看,算法基本上已經公開,算力根本在于芯片的數量和速度,花錢也能買到,數據才是真正的命門所在。

華為諾亞方舟實驗首席科學家劉群曾在微博公布過一組各個模型的token數量(訓練數據量指標),并表示僅從這些數據上就可以看出國內外在模型上的差距,“GPT-3(2020.5)是500B(5000億),Google的PaLM(2022.4)是780B,DeepMind的Chinchilla是1400B,GPT-4預計將達到驚人的20000B,對比國內的大模型,只有Pangu-α(編者注:深圳鵬城實驗室推出的模型)公布了訓練的token數,約為40B,不到GPT-3的十分之一。國內其他的大模型都沒有公布訓練的token數”。

◎ 來源|南方周末

猜你喜歡
語言模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
讓語言描寫搖曳多姿
多向度交往對語言磨蝕的補正之道
累積動態分析下的同聲傳譯語言壓縮
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
我有我語言
主站蜘蛛池模板: 亚洲天堂网2014| 精品国产黑色丝袜高跟鞋| 在线观看国产精品第一区免费| 九色免费视频| 国产精品女人呻吟在线观看| 日本国产精品一区久久久| 精品久久国产综合精麻豆| 99久久精彩视频| 国产欧美精品午夜在线播放| 在线免费看片a| 亚洲综合经典在线一区二区| 免费无码AV片在线观看中文| 欧美翘臀一区二区三区| 福利在线不卡一区| 国产激情无码一区二区三区免费| 国内熟女少妇一线天| 免费视频在线2021入口| 国产精品一老牛影视频| 黄色污网站在线观看| 波多野结衣AV无码久久一区| 欧洲亚洲欧美国产日本高清| 欧美一区二区精品久久久| 青青草原国产一区二区| 久久国产精品电影| 亚洲欧美日本国产综合在线| 91系列在线观看| 亚洲欧美色中文字幕| 国外欧美一区另类中文字幕| 国产丝袜精品| 久久精品娱乐亚洲领先| JIZZ亚洲国产| 亚洲欧美人成人让影院| 国产呦精品一区二区三区网站| 国产小视频a在线观看| 无码专区国产精品一区| 国内视频精品| 狠狠色丁香婷婷| 啊嗯不日本网站| 亚洲成人在线播放 | 无码精品国产dvd在线观看9久| 国产精品不卡永久免费| 国产成人精品午夜视频'| 99精品免费欧美成人小视频 | 国产菊爆视频在线观看| 中文成人无码国产亚洲| 国产美女免费网站| 国产真实乱了在线播放| 免费人成网站在线观看欧美| 国产成人福利在线视老湿机| 91精品国产一区| 久久午夜夜伦鲁鲁片无码免费| 欧美精品亚洲精品日韩专区| 久久综合伊人 六十路| 亚洲天堂视频网站| 中文字幕66页| 亚洲视屏在线观看| 国产欧美亚洲精品第3页在线| 97狠狠操| 亚洲欧美自拍中文| 草草影院国产第一页| 国产超碰一区二区三区| 欧美激情视频一区| 国产小视频免费| 欧美精品1区2区| 日韩精品无码免费一区二区三区 | 国产精品2| 国产精品欧美日本韩免费一区二区三区不卡| 丝袜高跟美脚国产1区| 亚洲午夜天堂| 久久久国产精品无码专区| 久久精品无码国产一区二区三区 | 亚洲bt欧美bt精品| 欧美第二区| 国产精品久久自在自线观看| 国产激情在线视频| 亚洲aaa视频| yjizz国产在线视频网| 91偷拍一区| 国产91导航| 久久综合亚洲鲁鲁九月天| 日韩天堂视频| 97色伦色在线综合视频|