Hugging Face发布生成式AI健康任务测试基准

HuggingFace发布生成式AI健康任务测试基准人工智能初创公司HuggingFace在最新发布的名为OpenMedical-LLM的基准测试中提出了一种解决方案。OpenMedical-LLM是与非营利组织开放生命科学人工智能（OpenLifeScienceAI）和爱丁堡大学自然语言处理小组的研究人员合作创建的，旨在对生成式人工智能模型在一系列医疗相关任务中的性能进行标准化评估。OpenMedical-LLM本身并不是一个全新的基准，而是将现有的测试集（MedQA、PubMedQA、MedMCQA等）拼接在一起，旨在探究医学常识和相关领域（如解剖学、药理学、遗传学和临床实践）的模型。该基准包含要求医学推理和理解的选择题和开放式问题，借鉴了美国和印度医学执照考试和大学生物试题库等材料。HuggingFace在一篇博文中写道："[开放医学-LLM]使研究人员和从业人员能够识别不同方法的优缺点，推动该领域的进一步发展，并最终促进更好的患者护理和治疗效果。"HuggingFace将该基准定位为对医疗领域生成式人工智能模型的"稳健评估"。但社交媒体上的一些医学专家告诫说，不要对OpenMedical-LLM抱有过高期望，以免导致不明智的部署。阿尔伯塔大学神经病学住院医生利亚姆-麦考伊（LiamMcCoy）在"X"上指出，医学答疑的"人为环境"与实际临床实践之间的差距可能相当大。博文的共同作者、"HuggingFace"研究科学家ClémentineFourrier对此表示赞同。"这些排行榜只应作为针对特定用例探索哪种[生成式人工智能模型]的第一近似值，但随后始终需要进行更深入的测试阶段，以检验模型在真实条件下的局限性和相关性，"Fourrier在X上回答说，"医疗[模型]绝对不应该由患者自行使用，而应该经过培训，成为医学博士的辅助工具。"这不禁让人想起Google在泰国尝试将糖尿病视网膜病变的人工智能筛查工具引入医疗系统时的经历。Google创建了一个深度学习系统，可以扫描眼睛图像，寻找视网膜病变的证据，视网膜病变是导致视力丧失的主要原因。但是，尽管理论上具有很高的准确性，该工具在实际测试中被证明并不实用，结果不一致，与实际操作普遍不协调，令患者和护士都感到沮丧。美国食品和药物管理局迄今已批准了139种与人工智能相关的医疗设备，其中没有一种使用了生成式人工智能，这很能说明问题。要测试生成式人工智能工具在实验室中的表现如何转化到医院和门诊中，或许更重要的是测试其结果如何随时间变化，这异常困难。这并不是说OpenMedical-LLM没有用处或信息量不大。结果排行榜可以提醒人们，模型对基本健康问题的回答有多么糟糕。但是，OpenMedical-LLM以及其他任何基准都无法替代经过深思熟虑的真实世界测试。...PC版：https://www.cnbeta.com.tw/articles/soft/1427874.htm手机版：https://m.cnbeta.com.tw/view/1427874.htm

在Telegram中查看

相关推荐

Hugging Face 推出开源版 GPTs 免费定制人工智能助手

HuggingFace推出开源版GPTs免费定制人工智能助手开源社区平台HuggingFace日前推出开源版GPTs，不但允许用户定制人工智能助手，而且费用全免。HuggingFace技术总监兼LLM负责人菲利普·施密德表示，开源版GPTs名为“HuggingChatAssistants”，用户只需点击2下，就能定制个人的人工智能助手，用法与OpenAI的GPTs类似。——

谷歌与 Hugging Face 合作，帮助开发人员训练 AI 模型

谷歌与HuggingFace合作，帮助开发人员训练AI模型谷歌云与AI模型托管平台HuggingFace建立了新的合作伙伴关系，让开发人员无需支付谷歌云订阅费用即可构建、训练和部署AI模型。现在，使用HuggingFace平台的外部开发人员将能够“经济高效”地访问谷歌的张量处理单元(TPU)和GPU超级计算机，其中包括数千台Nvidia的热门且出口受限的H100。谷歌表示，HuggingFace用户可以在“2024年上半年”开始使用人工智能应用构建平台VertexAI和Kubernetes引擎，帮助训练和微调模型。一一

Hugging Face 和 ServiceNow 发布免费代码生成模型 StarCoder

HuggingFace和ServiceNow发布免费代码生成模型StarCoderAI创业公司HuggingFace和ServiceNow发布了免费的代码生成模型。类似DeepMind的AlphaCode、亚马逊的CodeWhisperer和GitHub的Copilot(基于OpenAI的Codex)，StarCoder使用ApacheLicense2.0许可证，允许任何人免费使用，但严格意义上不是开源模型，它禁止用户使用该模型生成或传播恶意代码。StarCoder使用了开源代码数据集TheStack训练，有150亿参数。其数据集包括了逾80种不同编程语言和来自githubissues和commits的文本。#AI来源，https://github.com/bigcode-project/starcoder来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

人工智能在几乎所有性能基准测试中都超过了人类

人工智能在几乎所有性能基准测试中都超过了人类与前几期相比，本期内容更丰富，反映了人工智能的快速发展及其在我们日常生活中日益增长的重要性。从哪些行业使用人工智能最多，到哪个国家最担心人工智能会导致失业，报告都进行了研究。但报告中最突出的一点是人工智能在与人类竞争时的表现。对于没有关注人工智能的人来说，人工智能已经在许多重要的基准测试中击败了我们。2015年，它在图像分类方面超过了我们，然后是基本阅读理解（2017年）、视觉推理（2020年）和自然语言推理（2021年）。人工智能变得如此聪明，速度如此之快，以至于在此之前使用的许多基准现在都已过时。事实上，该领域的研究人员正在争分夺秒地开发新的、更具挑战性的基准。简单地说，人工智能通过测试的能力越来越强，以至于我们现在需要新的测试--不是为了衡量能力，而是为了突出人类和人工智能仍有差异的领域，找到我们仍有优势的地方。值得注意的是，下面的结果反映的是使用这些旧的、可能已经过时的基准进行的测试。但总体趋势仍然非常明显：人工智能已经超越了人类的许多性能基准看看这些轨迹，尤其是最近的测试是如何用一条接近垂直的线来表示的，需要知道的是这些机器还只是蹒跚学步的婴儿。新的人工智能指数报告指出，到2023年，人工智能在高级数学问题解决和视觉常识推理等复杂的认知任务上仍将举步维艰。不过，这里的"挣扎"可能会引起误解；这当然并不意味着人工智能做得很差。MATH是一个包含12500个具有挑战性的竞赛级数学问题的数据集，自推出以来的两年中，其性能得到了显著提高。2021年，人工智能系统只能解决6.9%的问题。相比之下，在2023年，基于GPT-4的模型解决了84.3%的问题。人类的基线是90%。我们这里说的不是普通人；我们说的是能解决这样的测试题的人：向人工智能提出的数学问题示例这就是2024年高等数学的发展状况，我们仍然处于人工智能时代的黎明期。然后是视觉常识推理（VCR）。除了简单的物体识别外，VCR还能评估人工智能如何在视觉环境中利用常识性知识进行预测。例如，当看到桌子上有一只猫的图像时，具有VCR的人工智能应该预测猫可能会从桌子上跳下来，或者根据猫的重量，预测桌子足够结实，可以容纳猫。报告发现，在2022年至2023年期间，VCR增加了7.93%，达到81.60，而人类的基线是85。用于测试人工智能视觉常识推理的示例问题把思绪拉回到五年前。想象一下，即使你想给电脑看一张图片，并期望它能"理解"上下文，从而回答这个问题。如今，人工智能可以生成许多行业的书面内容。但是，尽管取得了巨大进步，大型语言模型（LLM）仍然容易产生'幻觉'。"幻觉"是OpenAI等公司推崇的一个非常柔和的术语，大致意思是"将虚假或误导性信息作为事实呈现"。去年，人工智能的"幻觉"倾向让纽约律师史蒂文-施瓦茨（StevenSchwartz）尴尬不已，他使用ChatGPT进行法律研究，却没有对结果进行事实核查。审理此案的法官很快就发现了人工智能在提交的文件中捏造的法律案件，并对施瓦茨的粗心大意处以5000美元（7750澳元）的罚款。他的故事成为了全球新闻。HaluEval被用作幻觉的基准。测试表明，对许多当地语言学习者来说，幻觉仍然是一个重要问题。真实性是生成式人工智能的另一个难点。在新的人工智能指数报告中，TruthfulQA被用作测试法律硕士真实性的基准。它的817个问题（涉及健康、法律、金融和政治等主题）旨在挑战我们人类常犯的错误观念。2024年初发布的GPT-4在基准测试中取得了0.59的最高分，比2021年测试的基于GPT-2的模型高出近三倍。这样的进步表明，在给出真实答案方面，LLM的性能正在逐步提高。人工智能生成的图像如何？要了解文本到图像生成的指数级改进，请查看Midjourney自2022年以来在绘制《哈利-波特》方面所做的努力：渐进式版本的Midjourney如何改进文本到图像的生成这相当于人工智能22个月的进步。你认为人类艺术家需要多长时间才能达到类似的水平？利用文本到图像模型整体评估（HEIM），对LLM的文本到图像生成能力进行了基准测试，测试涉及对图像的"实际部署"非常重要的12个关键方面。人类对生成的图像进行了评估，发现没有一个模型在所有标准中都表现出色。在图像与文本的对齐度或图像与输入文本的匹配度方面，OpenAI的DALL-E2得分最高。基于StableDiffusion的梦幻般逼真模型在质量（照片的逼真程度）、美学（视觉吸引力）和原创性方面排名最高。明年的报告会更精彩您会注意到，这份人工智能指数报告的截止时间是2023年年底，这一年是人工智能加速发展的动荡之年，也是人工智能发展的地狱之年。事实上，唯一比2023年更疯狂的年份是2024年，在这一年里，我们看到了Suno、Sora、GoogleGenie、Claude3、Channel1和Devin等重大发展成果的发布。这些产品和其他一些产品都有可能彻底改变整个行业。而GPT-5这个神秘的幽灵正笼罩着它们，它有可能成为一个广泛而无所不包的模式，从而吞噬所有其他模式。人工智能不会消失，这是肯定的。从本报告中可以看出，整个2023年的技术发展速度非常快，这表明人工智能只会不断发展，不断缩小人类与技术之间的差距。我们知道这有很多东西需要消化，但还有更多。报告还探讨了人工智能发展的弊端，以及它如何影响全球公众对其安全性、可信度和道德的看法。敬请期待本系列报道的第二部分！访问斯坦福大学相关页面了解更多：https://hai.stanford.edu/news/ai-index-state-ai-13-charts...PC版：https://www.cnbeta.com.tw/articles/soft/1427900.htm手机版：https://m.cnbeta.com.tw/view/1427900.htm

英国安全研究所发布人工智能模型安全性测试工具

英国安全研究所发布人工智能模型安全性测试工具在周五宣布这一消息的新闻稿中，安全研究所声称，Inspect标志着"由国家支持的机构主导的人工智能安全测试平台首次被广泛使用"。安全研究所主席伊恩-霍加斯（IanHogarth）在一份声明中说："人工智能安全测试方面的成功合作意味着要有一个共享的、可访问的评估方法，我们希望Inspect能够成为一个基石。我们希望看到全球人工智能社区利用Inspect不仅开展自己的模型安全性测试，而且帮助调整和构建开源平台，以便我们能够全面开展高质量的评估。"众所周知，人工智能基准很难制定--其中最重要的原因是，当今最复杂的人工智能模型几乎都是黑盒，其基础设施、训练数据和其他关键细节都被创建这些模型的公司保密。那么，Inspect如何应对这一挑战呢？主要是通过可扩展的新测试技术。Inspect由三个基本部分组成：数据集、求解器和评分器。数据集为评估测试提供样本。求解器负责执行测试。评分器负责评估求解器的工作，并将测试得分汇总为指标。可以通过用Python编写的第三方软件包来增强Inspect的内置组件。Mozilla研究员、著名人工智能伦理学家德博拉-拉吉（DeborahRaj）在X上发表了一篇文章，称Inspect"证明了对人工智能问责开源工具的公共投资的力量"。人工智能初创公司HuggingFace的首席执行官克莱门特-德朗格（ClémentDelangue）提出了将Inspect与HuggingFace的模型库整合在一起，或利用工具集的评估结果创建一个公共排行榜的想法。Inspect发布之前，美国政府机构--国家标准与技术研究院（NIST）启动了NISTGenAI，该计划旨在评估各种生成式人工智能技术，包括文本和图像生成人工智能。NISTGenAI计划发布基准，帮助创建内容真实性检测系统，并鼓励开发能识别虚假或误导性人工智能生成信息的软件。今年4月，美国和英国宣布建立合作伙伴关系，共同开发先进的人工智能模型测试，这是继去年11月英国在布莱切利公园举行的人工智能安全峰会上宣布承诺之后的又一合作。作为合作的一部分，美国打算成立自己的人工智能安全研究所，广泛负责评估人工智能和生成式人工智能的风险。...PC版：https://www.cnbeta.com.tw/articles/soft/1430544.htm手机版：https://m.cnbeta.com.tw/view/1430544.htm

开源AI公司"Hugging Face"确认在中国存在"令人遗憾的可访问性问题"

开源AI公司"HuggingFace"确认在中国存在"令人遗憾的可访问性问题"HuggingFace的发言人周五在一封电子邮件中说："中国的人工智能社区(的潜力)令人难以置信，我们希望他们能更好地访问HF，但目前我们对政府的规定无能为力。"目前尚不清楚价值45亿美元的初创公司HuggingFace是何时开始被审查的。早在今年5月，中国用户就在该公司的论坛上抱怨过连接问题。通讯ChinaTalk周三报道称，至少从9月12日起，HuggingFace在中国已完全无法使用中国政府经常禁止访问含有政府认为不适当内容的网站，但目前尚不清楚是什么原因导致了对HuggingFace的审查决定。罪魁祸首可能是8月份生效的地方法规，这些法规要求公司注册人工智能服务，并确保它们遵守现有的内容限制。HuggingFace最初成立于2016年，已成为近期生成式人工智能技术蓬勃发展的最大受益者之一。开发人员可以利用其平台合作开展机器学习项目或共享数据集。它的工作原理类似于微软旗下的代码库托管网站GitHub。中国此前也曾阻止访问GitHub或至少其部分网页，但该网站仍可定期访问，这很可能是因为它在中国软件工程生态系统中发挥着重要作用。如果不能访问它所承载的开源资源库，许多开发人员将无法履行他们的工作职责。本月早些时候，在中国的知乎问答平台上，用户们在一个已经删除的主题中讨论了封禁"抱抱脸"的潜在影响。"我真的非常难过，这是在扼杀我们自己的竞争力--在人工智能迅速提高生产力的今天，这样关闭自己确实决定了，至少在人工智能领域，我们将不可避免地落后。"其中一条评论写道。...PC版：https://www.cnbeta.com.tw/articles/soft/1391343.htm手机版：https://m.cnbeta.com.tw/view/1391343.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人