出分了!首个AI高考全卷评测结果发布

出分了!首个AI高考全卷评测结果发布2024年全国高考甫一结束,司南评测体系OpenCompass选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。评测采用全国新课标I卷,参与评测的所有开源模型,开源时间均早于高考,确保评测“闭卷”性。同时,成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。首个大模型高考全卷评测结果显示,Qwen2-72B、GPT-4o及书生·浦语2.0文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲,得分率均超过70%。大部分模型“考生”语文、英语科目表现良好,但在数学方面还有很大的提升空间。其中,InternLM2-20B-WQX取得了数学单科的最高分,超越包括GPT-4o在内的所有模型。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

相关推荐

封面图片

首个AI高考全卷评测结果发布:最高分303 数学全员不及格

首个AI高考全卷评测结果发布:最高分303数学全员不及格语数外三科加起来的满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智能实验室的书生·浦语2.0排名第三,三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。此次测试的模型分别来自阿里巴巴、零一万物、智谱AI、上海人工智能实验室、法国Mistral的开源模型,以及来自OpenAI的闭源模型GPT-4o。实验室表示,因无法确定闭源模型的更新时间,为公平起见,此次评测没有纳入商用闭源模型,仅引入GPT-4o作为评测参考。这次选择参与高考的“考生”均在高考前(2024年4月-6月)开源,避免了“刷题风险”。从结果来看,大模型的语文、英语考试水平普遍不错,但数学都不及格,最高分也只有75分,来自书生·浦语2.0,其次是GPT-4o,得分73分。语文最高分是通义千问,英语最高分是GPT-4o。在数学方面大模型还有很大的提升空间。数学关乎复杂推理相关能力,这是大模型普遍面临的难题,也是大模型在金融、工业等要求可靠的场景落地需要的关键能力。上海人工智能实验室领军科学家林达华此前在采访中对第一财经介绍,复杂推理关系到落地应用时大模型的可靠性,例如在金融这样的场景下不能在数字上有差错,会对数学上的可靠性有较高的要求。另外随着大模型进入商用,若要分析一家公司的财报,甚至是工业领域要去分析一些技术文档,这时数学方面的计算能力就会成为一个壁垒。“现在很多大模型的应用场景是客服、聊天等等,在聊天场景一本正经胡说八道影响不太大,但它很难在非常严肃的商业场合去落地。”林达华此前表示。对于此次测试细节,上海人工智能实验室介绍,评测采用全国新课标I卷,“语数外”三科全卷测试,包括客观题与主观题。成绩由具备高考评卷经验的老师匿名人工判分,阅卷开始前,阅卷教师未被告知答卷均由模型生成,使阅卷教师完全以面对真实考生的标准评判回答效果。值得注意的是,大模型犯错误的方式和人类考生有差异,从实践上来看阅卷老师们不完全适应给大模型评分,因此存在有题目误判的可能。实验室表示,每个题目都邀请了至少三位老师评阅取均分,团队对分差较大的题目还进行了再次审核,贴近高考真实阅卷标准。实验室表示,在打分前,老师们并未被告知答案由大模型生成,但由于有的模型会存在完全不理解题意导致乱答、重复生成、回答更像解析而非解答的问题,老师们在阅卷过程中基本都会和团队确认这些情况是否是正常情况,团队会要求老师将离谱的错误直接视为答题错误,解析类型的回答以是否包含正确解题过程作为唯一准则。在完成所有大模型答卷的评卷工作后,阅卷教师被告知所评“考生”的真实身份为大模型。研究人员同时邀请各科教师对大模型表现进行了整体分析,为模型能力提升策略提供参考。语文方面,老师们认为,模型的现代文阅读理解能力普遍较强,但是不同模型的文言文阅读理解能力差距较大。大模型作文更像问答题,虽然有针对性但缺乏修饰,几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法。多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”,大模型尚无法完全理解。在数学试卷上,老师们发现,大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力较强,但是无法在解题过程中灵活引用。英语则整体表现良好,但部分模型由于不适应题型,在七选五、完形填空等题型得分率较低。大模型英语作文普遍存在因超出字数限制而扣分的情况,而人类考生多因为字数不够扣分。此外,一些老师提出,由于全部回答没有卷面,所以在作文的评判上会存在1-2分的误差。...PC版:https://www.cnbeta.com.tw/articles/soft/1435334.htm手机版:https://m.cnbeta.com.tw/view/1435334.htm

封面图片

上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。OpenCompass发

上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。OpenCompass发布了首个大模型高考全卷评测结果。语数外三科加起来的满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智能实验室的书生・浦语2.0排名第三,三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。从结果来看,大模型的语文、英语考试水平普遍不错,但数学都不及格,最高分也只有75分。(第一财经)

封面图片

6月24日,在极客公园最新发布的高考新课标Ⅰ卷大模型评测报告中,GPT-4o以562分排名文科总分第一。国内产品中,字节跳动旗下

6月24日,在极客公园最新发布的高考新课标Ⅰ卷大模型评测报告中,GPT-4o以562分排名文科总分第一。国内产品中,字节跳动旗下的豆包拔得头筹,成绩是542.5分。本次大模型高考评测与河南省考卷完全相同,河南高考录取分数线显示,文科本科一批录取分数线为521分,豆包成功冲上一本线。与文科相比,大模型的理科成绩要差很多,最高分还不到480分,多数大模型的理科总分在400分以下。相比河南理科511分的一本线,大模型尚有较大差距。

封面图片

Scale AI发布首个大语言模型排行榜 对特定领域的AI模型性能进行排名

ScaleAI发布首个大语言模型排行榜对特定领域的AI模型性能进行排名SEAL排行榜显示,OpenAI的GPT系列LLM在其用于人工智能模型排名的四个初始领域中的三个领域排名第一,AnthropicPBC广受欢迎的Claude3Opus在第四个领域排名第一。GoogleLLC的Gemini模型也表现出色,在其中几个领域与GPT模型并列第一。ScaleAI表示,它之所以创建SEAL排行榜,是因为现在有数以百计的LLM可供公司使用,而人工智能的表现却缺乏透明度。这些排行榜由ScaleAI的安全、评估和对齐实验室(Safety,Evaluations,andAlignmentLab)开发,并声称通过拒绝透露其用于评估LLM的提示的性质来保持中立性和完整性。该公司指出,虽然也有其他对LLM进行排名的努力,如MLCommons的基准和斯坦福HAI的透明度指数,但其在人工智能训练数据方面的专业知识意味着它在克服人工智能研究人员所面临的一些挑战方面具有独特的优势。例如,ScaleAI指出,MLCommon的基准是公开的,因此公司可以对其模型进行专门训练,以准确响应他们使用的提示。SEAL开发了私有的评估数据集,以保持其排名的完整性,据说其测试是由经过验证的领域专家创建的。此外,所使用的提示和给出的排名都经过仔细评估,以确保其可信度,同时通过公布所使用评估方法的明确解释来确保透明度。ScaleAI表示,在ScaleCoding领域,每个模型都要在随机选择的提示上与评估中的其他模型进行至少50次比较,以确保结果的准确性。编码评估试图评估每个模型生成计算机代码的能力,排行榜显示,OpenAI的GPT-4TurboPreview和GPT-4o模型与Google的Gemini1.5Pro(I/O后)并列第一。之所以将它们并列第一,是因为ScaleAI只声称其评估分数的置信度为95%,而且前三名之间的差距很小。尽管如此,GPT-4TurboPreview似乎略胜一筹,获得了1155分,GPT-4o以1144分位居第二,Gemini1.5Pro(PostI/O)获得了1112分。在多语言领域,GPT-4o和Gemini1.5Pro(PostI/O)并列第一,得分分别为1139分和1129分,GPT-4Turbo和GeminiPro1.5(PreI/O)紧随其后,并列第三。GPT-4o在"指令跟踪"领域也名列前茅,获得88.57分,GPT-4TurboPreview以87.64分名列第二。结果表明,Google在这一领域仍需努力,因为OpenAI最接近的竞争对手是MetaPlatforms公司的开源Llama370bInstruct(得分85.55)和Mistral公司的MistralLargeLatestLLM(得分85.34)。最后,ScaleAI测试了LLM的数学能力。事实证明,Anthropic的Claude3Opus以95.19的高分拔得头筹,无可争议地获得了第一名,超过了95.10的GPT-4TurboPreview和94.85的GPT-4o。这些比较很有意思,但似乎还不能说明全部问题,因为有很多备受瞩目的龙8国际娱乐城似乎没有被纳入评估范围。例如,AI21实验室公司的Jurassic和Jamba以及Cohere公司的Aya和CommandLLM在所有四项评估中都明显缺席,埃隆-马斯克(ElonMusk)的生成式人工智能初创公司xAICorp.建立的Grok模型也是如此。好消息是,ScaleAI可能会解决LLM排行榜不完整的问题。该公司表示,它打算每年多次更新排行榜,以确保其与时俱进。它将在"可用时"添加新的前沿模型。此外,它还计划在排行榜上添加新的领域,力争成为最值得信赖的大模型第三方评估机构。...PC版:https://www.cnbeta.com.tw/articles/soft/1432840.htm手机版:https://m.cnbeta.com.tw/view/1432840.htm

封面图片

2023年高考预测卷.合集

名称:2023年高考预测卷.合集描述:2023高考押题【黑白卷】2023杭州二模各科试卷及答案真题解析2023届高考金榜猜题卷全国卷正确教育试卷2023金考卷(抢分密卷)2023金考卷《10年高考试题汇编》全科2023年天星《高考临考预测·押题密卷》【新高考】2023预测卷数学【乙卷】备战2023年高考物理临考题号押题(全国卷)学易金卷:2023年高考考前押题密卷(含考试版、全解全析、参考答案、答题卡)链接:https://www.aliyundrive.com/s/THYq6vcxUTG大小:N标签:#高考来自:雷锋版权:频道:@shareAliyun群组:@aliyundriveShare投稿:@aliyun_share_bot

封面图片

一键重返高考 基于百度文心大模型的高考AI模拟卷发布

一键重返高考基于百度文心大模型的高考AI模拟卷发布据介绍,双方请到了学科名师进行指导,语言理解与生成技术应用文心大模型能力,学习了近十年的高考考点、题型等内容,智能生成“高考AI模拟卷”。根据官方说法,此次高考AI模拟卷意在助力考生在高考前再次查漏补缺,巩固要点。据快科技测试,高考AI模拟卷分为语文、数学、英语三科,语文题型包括现代文阅读、古代文阅读、语言文字运用和写作,支持整套模拟卷下载。感兴趣的网友可以点此“一键重返高考”,如果家中有高考生,也可以在闲暇之余体验一下。当然了,这些模拟卷均为AI生成,内容仅供参考,实际复习、模拟考还是要以书本、正规出版社考卷为主。...PC版:https://www.cnbeta.com.tw/articles/soft/1360367.htm手机版:https://m.cnbeta.com.tw/view/1360367.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人