999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據開源為AI發展“推波助瀾”

2023-07-14 18:28:00裴宸緯
科學導報 2023年41期
關鍵詞:模型

裴宸緯

在6月9日—10日舉行的2023北京智源大會上,“AI數據開源”引發廣泛關注。AI數據為什么要開源?AI數據開源面臨哪些挑戰?它會是未來AI發展的重要趨勢嗎?科技日報記者帶著這些問題采訪了相關專家。

AI數據開源意義重大

有專家認為,AI數據開源對深度學習模型的發展意義重大。由于訓練AI大模型需要大量資源,所以預計“贏家通吃”類AI系統的開發和管理將首先由少部分閉源實體所主導。

但遺憾的是,這種資源限制導致研究人員、非營利組織和初創公司等小規模實體因無法承擔高昂的成本,幾乎不可能從零開始訓練自己的AI大模型。

以對話類模型為例,目前國內外眾多已經開源的對話模型,其實都是基于語言基礎大模型,再利用少量指令微調數據進行訓練所得。

如果開源AI大模型的數據在質量上具有足夠的競爭力,深度學習模型的規模化訓練和運行成本將大幅降低。

北京智源人工智能研究院(以下簡稱智源)副院長兼總工程師林詠華對記者表示,大模型是AI未來發展的重要方向,其研究和應用將逐步成為AI發展的關鍵方向,并有望形成新一波AI推廣浪潮,而AI數據開源將進一步促進大模型的發展。

深度學習需要大量的標注數據進行模型訓練。在林詠華看來,過去10年,深度學習技術快速發展的重要原因,就是許多志愿者團體、國外科研團隊一直在積極地收集、整理并開源用于深度學習的訓練數據集。“當前AI大模型訓練對數據量的需求,比之前的深度學習小模型對數據量的需求有了百倍,甚至千倍的提升。所以,尤其在過去一年,數據開源的問題日益受到廣泛關注。”林詠華說。

背后挑戰不容忽視

開源固然會為AI發展帶來諸多好處,但其背后的挑戰也不容忽視。其中之一,便是開源安全與合規挑戰。林詠華認為,對傳統的商業軟件而言,開源中的安全、合規、許可證和代碼質量風險等是使用開源組件必須面臨的挑戰。然而在AI大模型時代,更大的挑戰則在開源數據集方面。

因此,AI數據開源應在協議許可的范圍內進行。“用于AI大模型訓練的開源數據必須是合法地從公開或可公開獲得的資源中收集的數據。人們可以在開源協議允許的范圍內,以AI大模型訓練、AI算法開發為目的,對數據進行訪問、修改和使用。部分數據可能要求使用過程中遵守更嚴格的協議。”林詠華表示。

此外,今天的基礎AI大模型不只具備理解能力,還具有生成能力,它能夠對外進行認知輸出、價值觀輸出等,可能給社會帶來巨大影響。“我們在訓練基礎大模型的時候,所使用的預訓練數據會對AI生成內容質量起到很大程度的決定性作用。因此,開源數據的質量十分重要。”

林詠華指出,由于高質量的數據(如文章、圖片、視頻等)通常有版權,由于版權或商業因素導致的閉源以及數據孤島等挑戰會制約AI的發展,所以需要多方推動構建更多高質量的開源數據集,尤其是用于訓練基礎AI大模型的開源數據集。

LF AI & DATA基金會董事主席堵俊平對此也深有感觸:“AI大模型就像一個貪吃的‘怪獸,始終需要研究人員投喂更多的、質量更好的數據。”他說,當前數據幾乎都是從“在網絡上主動收集”“從第三方購買”“利用公開數據集”這三個渠道得來。在堵俊平看來,從第一個渠道得到的數據局限性較強,由于版權問題,很多公司只能從其私域獲得數據;從第二個渠道獲取的數據面臨數據定價、數據質量等問題;而從第三個渠道獲取的數據往往只能作為研究使用,在商用或者其他方面有很多限制。

開源漸成AI發展重要趨勢

記者了解到,智源對2023年1月到5月底發布的、具有影響力的語言模型進行過統計。統計結果表明,國外發布的開源語言模型有39個,國內發布的開源語言模型有11個。

“開源是推動AI技術進步的重要力量,AI開源開放生態及平臺建設也日益受到重視。開源開放毫無疑問已經成為重要的AI發展趨勢之一。”林詠華表示,“開源能夠促進AI大模型科研創新,推動和降低AI大模型落地乃至整個AI產業落地的門檻。”

然而,通往開源的道路并非一帆風順,在數據之外,算力也是開源路上的一只“攔路虎”。AI大模型訓練依賴龐大的數據、算力。訓練參數量級的增長使得算力需求也隨之增長,算力集群正變得愈發龐大。

然而算力成本卻是小型開發者的“不可承受之重”。拿到AI大模型開源數據后,往往需要對其進行微調和二次開發。但現實的情況是,對一些小型開發者來說,僅僅是做推理都很困難,就更別提對AI大模型做微調、二次開發。以ChatGPT為例,僅就算力而言,Open AI為了訓練它,就構建了由近3萬張英偉達V100顯卡組成的龐大算力集群。有消息稱,Open AI公司發布的新一代語言模型GPT-4甚至達到了100萬億的參數規模,其對應的算力需求同比大幅增加。

目前,有一些研究機構希望用技術的革新抵消巨大的算力成本。最直接的手段是通過訓練技術的革新加快AI大模型推理速度、降低算力成本、減少能耗,以此來提高AI大模型的易用性,讓開源數據更好地發揮價值,但這只能從工程上對算力資源的約束起到緩解作用,并非終極方案。

有業內專家表示,解決算力問題最終還是要回到AI大模型自身尋找突破點,一個十分被看好的方向便是稀疏大模型。稀疏大模型的特點是容量很大,但只有用于給定任務、樣本或標記時,模型的部分功能才會被激活。也就是說,這種稀疏大模型的動態結構能夠讓AI大模型在參數量上再躍升幾個層級,同時又不必付出巨大的算力代價,一舉兩得。

此外,開源社區的作用同樣不容忽視。開源社區是推動開源發展的重要基石,開源的最初發源點,就是來自于社區開發者的貢獻。“Linux系統的成功很大程度上得益于開源社區。30多年來,Linux系統發展成為擁有海量全球用戶的操作系統,其成功以及長久不衰的秘訣就是開源,尤其是內核社區成千上萬開發者的貢獻。”林詠華舉例說。

“開源開放可以使得我們站在前人的肩膀上前行。”林詠華總結道,“這些年AI領域取得的成果大多受益于開源,如果沒有開源,AI不會發展到今天。”

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 四虎永久免费在线| 免费看a级毛片| 青青草原国产| 国产亚洲现在一区二区中文| 精品一区二区三区视频免费观看| 久久亚洲黄色视频| 她的性爱视频| 国产欧美日韩18| 美女内射视频WWW网站午夜 | 99精品一区二区免费视频| 巨熟乳波霸若妻中文观看免费| 亚洲视频免费在线| 毛片最新网址| 毛片久久久| 国产91视频免费观看| 亚洲国产欧美目韩成人综合| 欧美精品啪啪| 动漫精品中文字幕无码| 亚洲第七页| 久久综合结合久久狠狠狠97色| 国产精品视频导航| 精品三级网站| 高潮爽到爆的喷水女主播视频| 乱人伦99久久| 久久久久人妻一区精品| 久久婷婷综合色一区二区| 免费一级成人毛片| 日韩不卡免费视频| 九九九精品成人免费视频7| 依依成人精品无v国产| 婷婷亚洲最大| 亚洲精品第一页不卡| 久久精品中文字幕免费| 就去色综合| 99精品免费在线| 久久亚洲黄色视频| 日本不卡在线播放| 女人18毛片一级毛片在线| 国产欧美精品一区aⅴ影院| 亚洲男人在线| 国产精品美女在线| 欧美亚洲国产精品久久蜜芽| 五月丁香在线视频| 亚洲天堂网在线视频| 欧美不卡视频一区发布| 青青草原国产av福利网站| 国产自无码视频在线观看| 中文字幕有乳无码| 婷婷综合在线观看丁香| 亚洲第一区欧美国产综合| 亚洲不卡影院| 亚洲三级片在线看| 欧美性爱精品一区二区三区 | 99久视频| 青青青视频91在线 | 91小视频在线播放| 亚洲久悠悠色悠在线播放| www亚洲天堂| 午夜激情福利视频| 丰满少妇αⅴ无码区| 亚洲精品在线观看91| 久久香蕉国产线看观看精品蕉| 国产在线小视频| 国产精品自拍合集| 日本人妻丰满熟妇区| 亚洲成a人片在线观看88| аⅴ资源中文在线天堂| 亚洲日韩久久综合中文字幕| 日本不卡免费高清视频| 国产美女在线观看| 国产在线自在拍91精品黑人| 蜜桃视频一区二区| 综合五月天网| 免费看的一级毛片| 91在线无码精品秘九色APP| 99视频国产精品| 成人综合在线观看| 91色在线视频| 72种姿势欧美久久久大黄蕉| 国产亚洲第一页| 伊人久久婷婷| 国产成人欧美|