亚马逊将提供人类基准测试团队来测试人工智能模型

亚马逊希望用户能更好地评估人工智能模型，并鼓励更多的人参与到这一过程中。在AWSre:Invent大会上，AWS数据库、分析和机器学习副总裁SwamiSivasubramanian宣布了在其AmazonBedrock仓库中找到的模型的ModelEvaluationonBedrock功能，现已提供预览版。如果没有一种透明的测试模型的方法，开发者可能会最终使用那些对于问答项目来说不够准确，或者对于他们的用例来说太大的模型。“模型选择和评估不仅仅在开始时进行，而是需要定期重复的事情，”Sivasubramanian说。“我们认为让人类参与循环是重要的，因此我们提供了一种管理人类评估工作流程和模型性能指标的简便方法。”标签:#Amazon#AI频道:@GodlyNews1投稿:@Godlynewsbot

在Telegram中查看

相关推荐

Meta人工智能主管杨立昆：大型语言模型不会达到人类智能水平

Meta人工智能主管杨立昆：大型语言模型不会达到人类智能水平Meta的人工智能主管表示，为ChatGPT等生成式人工智能产品提供动力的大型语言模型永远无法实现像人类一样的推理和计划能力，他专注于一种激进的替代方法，即在机器中创造“超级智能”。该公司首席人工智能科学家杨立昆表示，LLM“对逻辑的理解非常有限……不理解物理世界，没有持久的记忆，不能按照任何合理的定义进行推理，也不能进行层次化的规划”。杨立昆说，LLMs的这种进化是肤浅和有限的，只有当人类工程师介入并根据这些信息进行训练时，模型才会学习，而不是像人类那样自然地得出结论。“在大多数人看来，这当然是推理，但主要是利用从大量训练数据中积累的知识。(LLM)尽管有局限性，但非常有用。”——（）

人工智能在几乎所有性能基准测试中都超过了人类

人工智能在几乎所有性能基准测试中都超过了人类与前几期相比，本期内容更丰富，反映了人工智能的快速发展及其在我们日常生活中日益增长的重要性。从哪些行业使用人工智能最多，到哪个国家最担心人工智能会导致失业，报告都进行了研究。但报告中最突出的一点是人工智能在与人类竞争时的表现。对于没有关注人工智能的人来说，人工智能已经在许多重要的基准测试中击败了我们。2015年，它在图像分类方面超过了我们，然后是基本阅读理解（2017年）、视觉推理（2020年）和自然语言推理（2021年）。人工智能变得如此聪明，速度如此之快，以至于在此之前使用的许多基准现在都已过时。事实上，该领域的研究人员正在争分夺秒地开发新的、更具挑战性的基准。简单地说，人工智能通过测试的能力越来越强，以至于我们现在需要新的测试--不是为了衡量能力，而是为了突出人类和人工智能仍有差异的领域，找到我们仍有优势的地方。值得注意的是，下面的结果反映的是使用这些旧的、可能已经过时的基准进行的测试。但总体趋势仍然非常明显：人工智能已经超越了人类的许多性能基准看看这些轨迹，尤其是最近的测试是如何用一条接近垂直的线来表示的，需要知道的是这些机器还只是蹒跚学步的婴儿。新的人工智能指数报告指出，到2023年，人工智能在高级数学问题解决和视觉常识推理等复杂的认知任务上仍将举步维艰。不过，这里的"挣扎"可能会引起误解；这当然并不意味着人工智能做得很差。MATH是一个包含12500个具有挑战性的竞赛级数学问题的数据集，自推出以来的两年中，其性能得到了显著提高。2021年，人工智能系统只能解决6.9%的问题。相比之下，在2023年，基于GPT-4的模型解决了84.3%的问题。人类的基线是90%。我们这里说的不是普通人；我们说的是能解决这样的测试题的人：向人工智能提出的数学问题示例这就是2024年高等数学的发展状况，我们仍然处于人工智能时代的黎明期。然后是视觉常识推理（VCR）。除了简单的物体识别外，VCR还能评估人工智能如何在视觉环境中利用常识性知识进行预测。例如，当看到桌子上有一只猫的图像时，具有VCR的人工智能应该预测猫可能会从桌子上跳下来，或者根据猫的重量，预测桌子足够结实，可以容纳猫。报告发现，在2022年至2023年期间，VCR增加了7.93%，达到81.60，而人类的基线是85。用于测试人工智能视觉常识推理的示例问题把思绪拉回到五年前。想象一下，即使你想给电脑看一张图片，并期望它能"理解"上下文，从而回答这个问题。如今，人工智能可以生成许多行业的书面内容。但是，尽管取得了巨大进步，大型语言模型（LLM）仍然容易产生'幻觉'。"幻觉"是OpenAI等公司推崇的一个非常柔和的术语，大致意思是"将虚假或误导性信息作为事实呈现"。去年，人工智能的"幻觉"倾向让纽约律师史蒂文-施瓦茨（StevenSchwartz）尴尬不已，他使用ChatGPT进行法律研究，却没有对结果进行事实核查。审理此案的法官很快就发现了人工智能在提交的文件中捏造的法律案件，并对施瓦茨的粗心大意处以5000美元（7750澳元）的罚款。他的故事成为了全球新闻。HaluEval被用作幻觉的基准。测试表明，对许多当地语言学习者来说，幻觉仍然是一个重要问题。真实性是生成式人工智能的另一个难点。在新的人工智能指数报告中，TruthfulQA被用作测试法律硕士真实性的基准。它的817个问题（涉及健康、法律、金融和政治等主题）旨在挑战我们人类常犯的错误观念。2024年初发布的GPT-4在基准测试中取得了0.59的最高分，比2021年测试的基于GPT-2的模型高出近三倍。这样的进步表明，在给出真实答案方面，LLM的性能正在逐步提高。人工智能生成的图像如何？要了解文本到图像生成的指数级改进，请查看Midjourney自2022年以来在绘制《哈利-波特》方面所做的努力：渐进式版本的Midjourney如何改进文本到图像的生成这相当于人工智能22个月的进步。你认为人类艺术家需要多长时间才能达到类似的水平？利用文本到图像模型整体评估（HEIM），对LLM的文本到图像生成能力进行了基准测试，测试涉及对图像的"实际部署"非常重要的12个关键方面。人类对生成的图像进行了评估，发现没有一个模型在所有标准中都表现出色。在图像与文本的对齐度或图像与输入文本的匹配度方面，OpenAI的DALL-E2得分最高。基于StableDiffusion的梦幻般逼真模型在质量（照片的逼真程度）、美学（视觉吸引力）和原创性方面排名最高。明年的报告会更精彩您会注意到，这份人工智能指数报告的截止时间是2023年年底，这一年是人工智能加速发展的动荡之年，也是人工智能发展的地狱之年。事实上，唯一比2023年更疯狂的年份是2024年，在这一年里，我们看到了Suno、Sora、GoogleGenie、Claude3、Channel1和Devin等重大发展成果的发布。这些产品和其他一些产品都有可能彻底改变整个行业。而GPT-5这个神秘的幽灵正笼罩着它们，它有可能成为一个广泛而无所不包的模式，从而吞噬所有其他模式。人工智能不会消失，这是肯定的。从本报告中可以看出，整个2023年的技术发展速度非常快，这表明人工智能只会不断发展，不断缩小人类与技术之间的差距。我们知道这有很多东西需要消化，但还有更多。报告还探讨了人工智能发展的弊端，以及它如何影响全球公众对其安全性、可信度和道德的看法。敬请期待本系列报道的第二部分！访问斯坦福大学相关页面了解更多：https://hai.stanford.edu/news/ai-index-state-ai-13-charts...PC版：https://www.cnbeta.com.tw/articles/soft/1427900.htm手机版：https://m.cnbeta.com.tw/view/1427900.htm

【OpenAI将用新方法来训练模型，以对抗人工智能“幻觉】

【OpenAI将用新方法来训练模型，以对抗人工智能“幻觉】6月1日消息，OpenAI发布的最新研究论文显示，该公司正在用一种新的方法来训练人工智能(AI)模型，以对抗人工智能“幻觉”。人工智能幻觉指的是人工智能模型生成内容的能力，这些内容不是基于任何现实世界的数据，而是模型自己想象的产物。人们担心这种幻觉可能带来的潜在问题，包括道德、社会和实际问题。OpenAI的研究人员在报告中表示，即使是最先进的人工智能模型也很容易产生谎言，它们在不确定的时刻往往表现出捏造事实的倾向。而这些幻觉在需要多步骤推理的领域尤其严重，因为一个逻辑错误就足以破坏一个更大的解决方案。该公司提出的新策略是：训练人工智能模型时，奖励每个正确的推理步骤，而不仅仅是简单地奖励正确的最终结论。根据研究人员的说法，这种方法被称为“过程监督”，而不是结果监督，它可能会提高人工智能的性能与准确性，因为这种策略鼓励模型更多地遵循类似人类的“思维链”。

CODE-AE人工智能模型可以准确预测人类对新药物化合物的反应

CODE-AE人工智能模型可以准确预测人类对新药物化合物的反应从确定一种潜在的治疗化合物到美国食品和药物管理局(FDA)批准一种新药是一个艰巨的旅程，它可能需要十多年的时间，耗资超10亿美元。纽约市立大学研究生中心的一个研究小组已经开发出一种新型的人工智能模型，它可以显著提高药物开发过程的准确性并减少时间和成本。PC版：https://www.cnbeta.com/articles/soft/1328181.htm手机版：https://m.cnbeta.com/view/1328181.htm

英国机构发布测试人工智能模型安全性的工具

英国机构发布测试人工智能模型安全性的工具英国人工智能安全机构英国安全研究所发布了一套工具集，旨在通过让行业、研究机构和学术界更容易开发人工智能评估来“加强人工智能安全”。该工具集名为Inspect，可在开源许可证(特别是MIT许可证)下使用，旨在评估人工智能模型的某些功能，包括模型的核心知识和推理能力，并根据结果生成分数。英国安全研究所声表示，Inspect标志着“首次由国家支持的机构牵头的人工智能安全测试平台发布以供更广泛使用”。Inspect由三个基本组件组成：数据集、求解器和评分器。数据集为评估测试提供样本。求解器负责执行测试。评分器评估求解器的工作，并将测试中的分数汇总为指标。Inspect的内置组件可以通过用Python编写的第三方包进行增强。 ——、、

【Edward Snowden：人工智能模型可能很快就会超越人类的能力】

【EdwardSnowden：人工智能模型可能很快就会超越人类的能力】2023年04月30日06点23分4月30日消息，新闻自由基金会主席EdwardSnowden在“2023共识”大会上表示，人工智能（AI）模型可能很快就会超越人类的能力，但前提是我们停止教它们像我们一样思考，并允许它们“比我们更好”。Snowden认为，人工智能模型可能会阻碍政府的监控，而不是助长侵入性的情报项目。但他也警告说，ChatGPT和其他日益复杂的人工智能模型的推出，可能会助长大型科技公司和政府推动的侵犯用户隐私的举措。他表示，为了防止坏人利用人工智能技术，人们必须争取开放的人工智能模型保持开放。他的批评专门针对越来越不开放的新兴AI模型，特别是OpenAI。（CoinDesk）

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人