Scale AI发布首个大语言模型排行榜 对特定领域的AI模型性能进行排名

ScaleAI发布首个大语言模型排行榜对特定领域的AI模型性能进行排名SEAL排行榜显示,OpenAI的GPT系列LLM在其用于人工智能模型排名的四个初始领域中的三个领域排名第一,AnthropicPBC广受欢迎的Claude3Opus在第四个领域排名第一。GoogleLLC的Gemini模型也表现出色,在其中几个领域与GPT模型并列第一。ScaleAI表示,它之所以创建SEAL排行榜,是因为现在有数以百计的LLM可供公司使用,而人工智能的表现却缺乏透明度。这些排行榜由ScaleAI的安全、评估和对齐实验室(Safety,Evaluations,andAlignmentLab)开发,并声称通过拒绝透露其用于评估LLM的提示的性质来保持中立性和完整性。该公司指出,虽然也有其他对LLM进行排名的努力,如MLCommons的基准和斯坦福HAI的透明度指数,但其在人工智能训练数据方面的专业知识意味着它在克服人工智能研究人员所面临的一些挑战方面具有独特的优势。例如,ScaleAI指出,MLCommon的基准是公开的,因此公司可以对其模型进行专门训练,以准确响应他们使用的提示。SEAL开发了私有的评估数据集,以保持其排名的完整性,据说其测试是由经过验证的领域专家创建的。此外,所使用的提示和给出的排名都经过仔细评估,以确保其可信度,同时通过公布所使用评估方法的明确解释来确保透明度。ScaleAI表示,在ScaleCoding领域,每个模型都要在随机选择的提示上与评估中的其他模型进行至少50次比较,以确保结果的准确性。编码评估试图评估每个模型生成计算机代码的能力,排行榜显示,OpenAI的GPT-4TurboPreview和GPT-4o模型与Google的Gemini1.5Pro(I/O后)并列第一。之所以将它们并列第一,是因为ScaleAI只声称其评估分数的置信度为95%,而且前三名之间的差距很小。尽管如此,GPT-4TurboPreview似乎略胜一筹,获得了1155分,GPT-4o以1144分位居第二,Gemini1.5Pro(PostI/O)获得了1112分。在多语言领域,GPT-4o和Gemini1.5Pro(PostI/O)并列第一,得分分别为1139分和1129分,GPT-4Turbo和GeminiPro1.5(PreI/O)紧随其后,并列第三。GPT-4o在"指令跟踪"领域也名列前茅,获得88.57分,GPT-4TurboPreview以87.64分名列第二。结果表明,Google在这一领域仍需努力,因为OpenAI最接近的竞争对手是MetaPlatforms公司的开源Llama370bInstruct(得分85.55)和Mistral公司的MistralLargeLatestLLM(得分85.34)。最后,ScaleAI测试了LLM的数学能力。事实证明,Anthropic的Claude3Opus以95.19的高分拔得头筹,无可争议地获得了第一名,超过了95.10的GPT-4TurboPreview和94.85的GPT-4o。这些比较很有意思,但似乎还不能说明全部问题,因为有很多备受瞩目的龙8国际娱乐城似乎没有被纳入评估范围。例如,AI21实验室公司的Jurassic和Jamba以及Cohere公司的Aya和CommandLLM在所有四项评估中都明显缺席,埃隆-马斯克(ElonMusk)的生成式人工智能初创公司xAICorp.建立的Grok模型也是如此。好消息是,ScaleAI可能会解决LLM排行榜不完整的问题。该公司表示,它打算每年多次更新排行榜,以确保其与时俱进。它将在"可用时"添加新的前沿模型。此外,它还计划在排行榜上添加新的领域,力争成为最值得信赖的大模型第三方评估机构。...PC版:https://www.cnbeta.com.tw/articles/soft/1432840.htm手机版:https://m.cnbeta.com.tw/view/1432840.htm

相关推荐

封面图片

TIOBE 发布 11 月编程语言排行榜

TIOBE发布11月编程语言排行榜Python继续排名第一,占比14.16%,本月下跌3.02%。C排行第二,占比11.7%,本月下跌3.31%。C++排行第三,占比10.36%,本月下跌0.39%。Java排行第四,占比8.35%,本月下跌3.63%。C#排行第五,占比7.65%,本月上涨3.40%。

封面图片

阿里 Qwen2 成开源模型排行榜第一名

阿里Qwen2成开源模型排行榜第一名6月26日,HuggingFace发布博客《排行榜形势停滞,让差距再悬殊一点》,使用更高质量的标准重新测试了全球100多个开源大模型,推出了LLMLeaderboardv2。其中,来自阿里的Qwen2-72B-Instruct以较大优势(6.35分)领先Llama-3-70B-Instruct,暂居榜一。它在数学、长文本推理和知识方面的表现给HuggingFace的评委留下了深刻印象。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

封面图片

世界上最优越的排行榜

世界上最优越的排行榜登上排行榜的顶峰即可获得最豪华的奖品。排名越高,奖品越丰富!赶快加入我们吧https://prelink.co/bk8tele11TheWorld’sMostAdvancedLeaderboardClimbthetopoftheleaderboardandclaimthegrandestprize.Thehigheryourank,thebiggertheprize!JoinUsNowhttps://prelink.co/bk8tele11

封面图片

近日,由北京智源研究院打造的FlagEval天秤大模型评测平台实现了全面升级,并公布202406期FlagEval模型评测排行榜

近日,由北京智源研究院打造的FlagEval天秤大模型评测平台实现了全面升级,并公布202406期FlagEval模型评测排行榜单。最新一期榜单显示,百度文心大模型4.0以89.72的综合评分在闭源对话模型中排名第一,超过字节云雀、豆包和阿里通义千问等一众国产大模型,以及OpenAI的最新模型GPT-4o。在中文语境下,以文心大模型为代表的国内头部语言模型的综合表现已超过国际一流水平的表现。

封面图片

Solana Mobile 上线 Chapter 2 排行榜,将对其排名进行快照并发放 SBT NFT

SolanaMobile上线Chapter2排行榜,将对其排名进行快照并发放SBTNFT1月31日消息,SolanaMobile在X平台发文表示,第二代手机Chapter2的排行榜已上线,根据用户邀请人数获得积分进行排名。SolanaMobile会对排行榜进行快照,前1500名的用户可以领取一个独特的灵魂绑定(SBT)的ElementNFT。

封面图片

Huggingface CEO:阿里 Qwen-2 成全球开源大模型排行榜第一,中国处于领导地位

HuggingfaceCEO:阿里Qwen-2成全球开源大模型排行榜第一,中国处于领导地位6月27日凌晨,全球著名开源平台huggingface(笑脸)的联合创始人兼首席执行官Clem在社交平台宣布,阿里最新开源的Qwen2-72B指令微调版本,成为开源模型排行榜第一名。他表示,为了提供全新的开源大模型排行榜,使用了300块H100对目前全球100多个主流开源大模型,例如,Qwen2、Llama-3、mixtral、Phi-3等,在BBH、MUSR、MMLU-PRO、GPQA等基准测试集上进行了全新评估。结果显示,阿里开源的Qwen-272B力压科技、社交巨头Meta的Llama-3、法国著名大模型平台Mistralai的Mixtral成为新的王者,中国在全球开源大模型领域处于领导地位。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人