人工智能在几乎所有性能基准测试中都超过了人类

人工智能在几乎所有性能基准测试中都超过了人类与前几期相比,本期内容更丰富,反映了人工智能的快速发展及其在我们日常生活中日益增长的重要性。从哪些行业使用人工智能最多,到哪个国家最担心人工智能会导致失业,报告都进行了研究。但报告中最突出的一点是人工智能在与人类竞争时的表现。对于没有关注人工智能的人来说,人工智能已经在许多重要的基准测试中击败了我们。2015年,它在图像分类方面超过了我们,然后是基本阅读理解(2017年)、视觉推理(2020年)和自然语言推理(2021年)。人工智能变得如此聪明,速度如此之快,以至于在此之前使用的许多基准现在都已过时。事实上,该领域的研究人员正在争分夺秒地开发新的、更具挑战性的基准。简单地说,人工智能通过测试的能力越来越强,以至于我们现在需要新的测试--不是为了衡量能力,而是为了突出人类和人工智能仍有差异的领域,找到我们仍有优势的地方。值得注意的是,下面的结果反映的是使用这些旧的、可能已经过时的基准进行的测试。但总体趋势仍然非常明显:人工智能已经超越了人类的许多性能基准看看这些轨迹,尤其是最近的测试是如何用一条接近垂直的线来表示的,需要知道的是这些机器还只是蹒跚学步的婴儿。新的人工智能指数报告指出,到2023年,人工智能在高级数学问题解决和视觉常识推理等复杂的认知任务上仍将举步维艰。不过,这里的"挣扎"可能会引起误解;这当然并不意味着人工智能做得很差。MATH是一个包含12500个具有挑战性的竞赛级数学问题的数据集,自推出以来的两年中,其性能得到了显著提高。2021年,人工智能系统只能解决6.9%的问题。相比之下,在2023年,基于GPT-4的模型解决了84.3%的问题。人类的基线是90%。我们这里说的不是普通人;我们说的是能解决这样的测试题的人:向人工智能提出的数学问题示例这就是2024年高等数学的发展状况,我们仍然处于人工智能时代的黎明期。然后是视觉常识推理(VCR)。除了简单的物体识别外,VCR还能评估人工智能如何在视觉环境中利用常识性知识进行预测。例如,当看到桌子上有一只猫的图像时,具有VCR的人工智能应该预测猫可能会从桌子上跳下来,或者根据猫的重量,预测桌子足够结实,可以容纳猫。报告发现,在2022年至2023年期间,VCR增加了7.93%,达到81.60,而人类的基线是85。用于测试人工智能视觉常识推理的示例问题把思绪拉回到五年前。想象一下,即使你想给电脑看一张图片,并期望它能"理解"上下文,从而回答这个问题。如今,人工智能可以生成许多行业的书面内容。但是,尽管取得了巨大进步,大型语言模型(LLM)仍然容易产生'幻觉'。"幻觉"是OpenAI等公司推崇的一个非常柔和的术语,大致意思是"将虚假或误导性信息作为事实呈现"。去年,人工智能的"幻觉"倾向让纽约律师史蒂文-施瓦茨(StevenSchwartz)尴尬不已,他使用ChatGPT进行法律研究,却没有对结果进行事实核查。审理此案的法官很快就发现了人工智能在提交的文件中捏造的法律案件,并对施瓦茨的粗心大意处以5000美元(7750澳元)的罚款。他的故事成为了全球新闻。HaluEval被用作幻觉的基准。测试表明,对许多当地语言学习者来说,幻觉仍然是一个重要问题。真实性是生成式人工智能的另一个难点。在新的人工智能指数报告中,TruthfulQA被用作测试法律硕士真实性的基准。它的817个问题(涉及健康、法律、金融和政治等主题)旨在挑战我们人类常犯的错误观念。2024年初发布的GPT-4在基准测试中取得了0.59的最高分,比2021年测试的基于GPT-2的模型高出近三倍。这样的进步表明,在给出真实答案方面,LLM的性能正在逐步提高。人工智能生成的图像如何?要了解文本到图像生成的指数级改进,请查看Midjourney自2022年以来在绘制《哈利-波特》方面所做的努力:渐进式版本的Midjourney如何改进文本到图像的生成这相当于人工智能22个月的进步。你认为人类艺术家需要多长时间才能达到类似的水平?利用文本到图像模型整体评估(HEIM),对LLM的文本到图像生成能力进行了基准测试,测试涉及对图像的"实际部署"非常重要的12个关键方面。人类对生成的图像进行了评估,发现没有一个模型在所有标准中都表现出色。在图像与文本的对齐度或图像与输入文本的匹配度方面,OpenAI的DALL-E2得分最高。基于StableDiffusion的梦幻般逼真模型在质量(照片的逼真程度)、美学(视觉吸引力)和原创性方面排名最高。明年的报告会更精彩您会注意到,这份人工智能指数报告的截止时间是2023年年底,这一年是人工智能加速发展的动荡之年,也是人工智能发展的地狱之年。事实上,唯一比2023年更疯狂的年份是2024年,在这一年里,我们看到了Suno、Sora、GoogleGenie、Claude3、Channel1和Devin等重大发展成果的发布。这些产品和其他一些产品都有可能彻底改变整个行业。而GPT-5这个神秘的幽灵正笼罩着它们,它有可能成为一个广泛而无所不包的模式,从而吞噬所有其他模式。人工智能不会消失,这是肯定的。从本报告中可以看出,整个2023年的技术发展速度非常快,这表明人工智能只会不断发展,不断缩小人类与技术之间的差距。我们知道这有很多东西需要消化,但还有更多。报告还探讨了人工智能发展的弊端,以及它如何影响全球公众对其安全性、可信度和道德的看法。敬请期待本系列报道的第二部分!访问斯坦福大学相关页面了解更多:https://hai.stanford.edu/news/ai-index-state-ai-13-charts...PC版:https://www.cnbeta.com.tw/articles/soft/1427900.htm手机版:https://m.cnbeta.com.tw/view/1427900.htm

相关推荐

封面图片

亚马逊将提供人类基准测试团队来测试人工智能模型

亚马逊希望用户能更好地评估人工智能模型,并鼓励更多的人参与到这一过程中。在AWSre:Invent大会上,AWS数据库、分析和机器学习副总裁SwamiSivasubramanian宣布了在其AmazonBedrock仓库中找到的模型的ModelEvaluationonBedrock功能,现已提供预览版。如果没有一种透明的测试模型的方法,开发者可能会最终使用那些对于问答项目来说不够准确,或者对于他们的用例来说太大的模型。“模型选择和评估不仅仅在开始时进行,而是需要定期重复的事情,”Sivasubramanian说。“我们认为让人类参与循环是重要的,因此我们提供了一种管理人类评估工作流程和模型性能指标的简便方法。”标签:#Amazon#AI频道:@GodlyNews1投稿:@Godlynewsbot

封面图片

【Edward Snowden:人工智能模型可能很快就会超越人类的能力】

【EdwardSnowden:人工智能模型可能很快就会超越人类的能力】2023年04月30日06点23分4月30日消息,新闻自由基金会主席EdwardSnowden在“2023共识”大会上表示,人工智能(AI)模型可能很快就会超越人类的能力,但前提是我们停止教它们像我们一样思考,并允许它们“比我们更好”。Snowden认为,人工智能模型可能会阻碍政府的监控,而不是助长侵入性的情报项目。但他也警告说,ChatGPT和其他日益复杂的人工智能模型的推出,可能会助长大型科技公司和政府推动的侵犯用户隐私的举措。他表示,为了防止坏人利用人工智能技术,人们必须争取开放的人工智能模型保持开放。他的批评专门针对越来越不开放的新兴AI模型,特别是OpenAI。(CoinDesk)

封面图片

TikTok正在测试由人工智能生成的搜索结果

TikTok正在测试由人工智能生成的搜索结果TikTok正在测试更强大的搜索结果页面,包括使用生成式人工智能。该功能似乎是新功能,被称为“搜索亮点”。在一些搜索结果页面的顶部会显示人工智能结果的片段,点击进入该部分会打开一个新页面,显示完整的回答。在快速测试中,能够找到关于食谱或“2024年最佳笔记本电脑”等主题的人工智能结果。解释搜索结果的页面显示内容是使用ChatGPT生成的,并在TikTok“算法认为其与您的搜索相关时”显示这些内容。——

封面图片

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃用于训练大型语言模型的数据最初来自人类来源,如书籍、文章、照片等,这些都是在没有人工智能的帮助下创建的。但随着越来越多的人使用人工智能来制作和发布内容,一个明显的问题出现了:当人工智能生成的内容在互联网上扩散时,人工智能模型开始对其进行训练。研究人员发现,“在训练中使用模型生成的内容会导致所产生的模型出现不可逆转的缺陷。”他们研究了文本到文本和图像到图像的人工智能生成模型的概率分布,得出结论:“从其他模型产生的数据中学习会导致模型崩溃——这是一个退化的过程,并且随着时间的推移,模型会忘记真正的基础数据分布。”他们观察到模型崩溃发生得如此之快:模型可以迅速忘记它们最初学习的大部分原始数据。这导致它们随着时间的推移,表现越来越差,错误越来越多。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

苹果联合创始人:人工智能永远取代不了人类

苹果联合创始人:人工智能永远取代不了人类沃兹尼亚克一生都在研究大脑和计算机技术,他说人工智能永远无法与人脑匹敌。他认为,尽管人工智能可以比人类更快地执行任务和做出决定,但它仍然缺乏使我们独一无二的情感和人类品质。沃兹尼亚克说:“这让人印象深刻,但问题是,虽然它对我们有好处,但它也会因为不了解人性而犯可怕的错误。”“我的意思是,就像你在开车,你知道其他汽车现在可能会做什么,因为你了解人类。”谷歌母公司Alphabet最近发布的新人工智能技术Bard在演示时发生了一个错误,引发投资者担忧,导致该公司股价大跌。沃兹尼亚克没有提到该公司的名字,只是把这件事当作一个例子,说明人工智能技术的局限性和人类监督的重要性。这位苹果联合创始人还谈到了计算机智能的发展,并将其比作国际象棋的进步。当计算机第一次在国际象棋中击败人类时,人们对它们的智慧感到惊讶,但沃兹尼亚克指出,计算机只是遵循了与人脑不同的方法。尽管沃兹尼亚克持怀疑态度,但他仍然认为人工智能对人类有用。他认为,人工智能将继续发展和改进,特别是因为它可以每秒扫描10亿次事物,这超出了人脑的能力。然而,他认为,如果人工智能不了解人性,它也会犯错误,可能会产生严重的后果。...PC版:https://www.cnbeta.com.tw/articles/soft/1344197.htm手机版:https://m.cnbeta.com.tw/view/1344197.htm

封面图片

黄仁勋:通用人工智能预计最快五年内问世,可通过任何人类测试

黄仁勋:通用人工智能预计最快五年内问世,可通过任何人类测试英伟达CEO黄仁勋在参加2024年斯坦福经济政策研究所峰会时表示,“按照某些定义,通用人工智能(AGI)可能在短短五年内到来。”黄仁勋在活动中被问到“创造出能像人类一样思考的计算机需要多久”这一问题,他回答说,答案很大程度取决于“如何定义”。若对于上述计算机的定义是“能够通过人类测试”,那么通用人工智能将很快到来。“如果,我让一个人工智能进行任何你能想象的测试,你可以列举一个测试清单,将其提供给计算机科学行业,我猜想五年之内,每个测试(它)都能很好地完成。”()线索:@ZaiHuabot投稿:@TNSubmbot频道:@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人