999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

人工智能面臨測評挑戰

2024-06-17 06:32:34KevinRoose
第一財經 2024年6期
關鍵詞:人工智能標準能力

Kevin Roose

ChatGPT、Gemini和Claude等先進的人工智能工具存在一個通病,即我們并不能準確判斷其智能程度。

這是因為,與汽車、藥品或嬰兒配方奶粉等產品不同,人工智能模型在上市前不需要送檢。AI聊天機器人沒有經過任何標準的認證,也很少有第三方獨立機構對它們做嚴格測試。

相反,我們只能聽信人工智能公司的說法,而后者經常用諸如“改進了哪些功能”等含糊不清的說法來描述不同版本AI模型之間的差異。盡管現有的一些測試體系被用于評估這些模型在數學或邏輯推理方面的能力,很多專家對測試結果的可靠性仍有所懷疑。

這聽起來像是個小小的抱怨,但我確信,缺乏一個針對AI系統的良好的測試評估標準,是AI發展道路上的一個重大問題。

首先,如果沒有關于人工智能產品的可靠信息,人們怎么可能知道如何使用它們?

我記不清過去一年有多少次朋友或同事問我,他們應該用哪款人工智能工具來完成某項任務。我通常只能聳聳肩表示幫不上忙。即使專職撰寫人工智能的相關文章,并一直在測試新模型,我也很難準確追蹤各種人工智能產品的相對優勢或劣勢。

大多數技術公司不會發布其人工智能產品的詳細使用說明,且模型仍在迅速迭代。某個前一天還困于某項任務的聊天機器人,可能第二天就會奇跡般地變得很擅長它。缺少高質量的人工智能測評標準,人們就很難知道人工智能哪些功能的進步速度快于預期,或者哪些人工智能產品會危害人類社會。

多年來,衡量人工智能的最流行方法是圖靈測試,這是數學家艾倫·圖靈(Alan Turing)于1950年提出的一種方法—如果一臺機器能夠與人類展開對話而不被人類辨別出其機器身份,就認為是通過了測試。但人工智能發展至今,已可以輕松通過圖靈測試,研究人員必須研發出一種難度更高的新的測評方法。

如今最常見的測評手段是大規模多任務語言理解(MMLU)測試系統,它的數據集誕生于2020年,由大約1.6萬道選擇題組成,考查范圍涵蓋數學、法律和醫學等數十個學科領域。它算是一種通用的人工智能測評標準—聊天機器人答對的題目越多,它就越智能。

MMLU現已成為人工智能公司爭奪市場主導地位的黃金標準。今年早些時候,Google推出其人工智能模型Gemini Ultra時就曾炫耀其MMLU得分率為90%,是有史以來的最高分。

一位曾幫助開發MMLU數據集的人工智能安全研究員丹·亨德里克斯(Dan Hendrycks)告訴我,MMLU“可能還有一兩年保質期”,但它很快就會派不上用場。人工智能系統正變得越來越智能,現有的測評體系即將無法滿足現實需求,設計新的評測體系也變得越來越難。

另外出現的數十種其他測試手段,比如TruthfulQA和HellaSwag等,也只能測出人工智能系統的一小部分能力。

而且這些測評體系都無法回答許多用戶提出的一些主觀問題,比如:跟這個機器人聊天好玩嗎?它是更適合流程固定的日常辦公還是創意類工作?它的對話安全措施有多嚴格?

測試本身也可能存在問題。幾位研究人員曾提醒過我,使用MMLU等基準測試評估人工智能的執行過程因公司而異,各類模型的得分可能無法直接橫向比較,此外其中還暗含“數據污染”隱患—若基準測試的問題和答案包含在人工智能模型的訓練數據中,本質上是在允許它作弊。

沒有獨立的測評或審核環節,意味著AI公司實際上是在給自己批改作業。簡而言之,人工智能的測試評估目前是一團亂麻。一堆草率的測試、并不相融的對比和自我炒作,讓用戶、監管機構和開發者全都找不到頭緒。

專注于人工智能的風險投資公司Air Street Capital的投資者內森·貝納什(Nathan Benaich)表示,“盡管看起來很科學,但大多數開發者是在根據感覺或直覺來判斷模型能力的。目前這也許還可行,但隨著大模型的能力和社會相關性越來越強,這樣做就不夠可靠 了?!?/p>

一個可行方案是公共力量與私人力量聯手解決這一問題。政府有能力,也應該建構有效的人工智能測試標準和平臺,以評估人工智能模型的真實能力和安全風險。政府還應給旨在研發高質量的人工智能測試評估新標準的研究項目撥款。

去年,斯坦福大學推出了一項新測試,是使用人工而非自動化系統測試來判定AI模型能力。加州大學伯克利分校則推出了開放平臺Chatbot Arena,會隨機選取兩個模型匿名對決,并要求用戶投票,表達他們對模型性能的偏好。由此生成的模型排名結果十分受歡迎。

人工智能公司也應該提供幫助,承諾與第三方評估人員和審核人員合作測試模型,允許更多研究員使用新模型,并提高模型迭代的信息透明度。

總之,我們不能僅靠感覺評估AI技術。只有建立起更高質量的測評體系,我們才能有效利用它們,并知道是該慶賀還是恐懼它們的某項進步。

猜你喜歡
人工智能標準能力
消防安全四個能力
2022 年3 月實施的工程建設標準
忠誠的標準
當代陜西(2019年8期)2019-05-09 02:22:48
美還是丑?
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業
IT經理世界(2018年20期)2018-10-24 02:38:24
大興學習之風 提升履職能力
人大建設(2018年6期)2018-08-16 07:23:10
你的換位思考能力如何
數讀人工智能
小康(2017年16期)2017-06-07 09:00:59
下一幕,人工智能!
南風窗(2016年19期)2016-09-21 16:51:29
主站蜘蛛池模板: 亚洲欧美日韩综合二区三区| 国产黄色免费看| 国产一区二区丝袜高跟鞋| 好吊色国产欧美日韩免费观看| 无码综合天天久久综合网| 在线欧美国产| 久久国产香蕉| 亚洲中文字幕国产av| 久草视频一区| 亚洲久悠悠色悠在线播放| 97国产成人无码精品久久久| 色亚洲成人| 亚洲天堂自拍| 在线观看91香蕉国产免费| 国产精选小视频在线观看| 欧美视频在线不卡| 国产97区一区二区三区无码| 再看日本中文字幕在线观看| 真实国产精品vr专区| 亚洲av日韩av制服丝袜| 国产成人乱无码视频| 亚洲国产成人久久精品软件 | 黄色国产在线| 精品视频一区在线观看| 亚洲三级色| 99免费在线观看视频| 亚洲天堂久久久| 激情综合婷婷丁香五月尤物| 精品剧情v国产在线观看| 日韩精品成人在线| 成年人国产网站| 亚洲午夜片| 999国产精品| 国产日韩欧美精品区性色| 国产不卡在线看| 99在线观看精品视频| 狠狠ⅴ日韩v欧美v天堂| 亚洲国产欧美自拍| 成人久久精品一区二区三区| 欧美精品亚洲精品日韩专| 亚洲精品第一在线观看视频| 日本在线免费网站| 亚洲午夜福利在线| 国产欧美日韩91| 午夜激情婷婷| 99久久精品国产麻豆婷婷| 欲色天天综合网| 亚洲男人天堂2020| 亚洲三级视频在线观看| 欧美精品v日韩精品v国产精品| 热久久这里是精品6免费观看| 黄色网在线| 老司国产精品视频91| 国产人人乐人人爱| 日日摸夜夜爽无码| 国产精品自拍合集| 少妇精品在线| 日韩中文精品亚洲第三区| 亚洲精品片911| 制服丝袜在线视频香蕉| 亚洲欧洲日韩综合色天使| 狠狠色综合久久狠狠色综合| 中文字幕日韩视频欧美一区| 婷婷开心中文字幕| 片在线无码观看| 亚洲男女在线| 国产麻豆va精品视频| 亚洲香蕉伊综合在人在线| 一级香蕉视频在线观看| 二级毛片免费观看全程| 69av免费视频| 亚洲国产在一区二区三区| 久久久久人妻精品一区三寸蜜桃| 日本精品一在线观看视频| 国产精品成人一区二区不卡| 精品三级网站| 国产在线拍偷自揄拍精品| 日韩免费无码人妻系列| 亚洲午夜天堂| 麻豆精品在线播放| 亚洲美女一级毛片| 一级毛片免费不卡在线|