中文AI能力评测发布，即通用大模型综合性基准。

中文AI能力评测发布，即中文通用大模型综合性基准。这是针对中文可用的通用大模型的一个测评基准。它主要回答的问题是：在当前通用大模型大力发展的背景下，中文大模型的效果情况，包括但不限于"这些模型不同任务的效果情况"、"相较于国际上的代表性模型做到了什么程度"、"这些模型与人类的效果对比如何"。来源：https://github.com/CLUEbenchmark/SuperCLUE频道：@TestFlightCN

在Telegram中查看

相关推荐

华尔街见闻 4 月 25 日获悉，SuperCLUE-Fin（SC-Fin）中文原生金融大模型测评基准正式发布。智谱 AI 自主

华尔街见闻4月25日获悉，SuperCLUE-Fin（SC-Fin）中文原生金融大模型测评基准正式发布。智谱AI自主研发的新一代基座大模型GLM-4，成为国内首批获得A级评价的模型。该测评涵盖金融知识百科、金融理解认知、金融数理计算、合规与风险管理、投研应用以及投顾应用六大领域共计二十五项细分任务。测评人员通过模拟真实用户与模型互动，采用单轮问答、多轮交互等多种形式，对模型的专业知识掌握、逻辑分析能力、语言表达清晰度、计算效率以及企业综合业务分析、风险预测与管控等能力进行了检验。最终GLM-4斩获了一项A+及多项A级评价，与GPT-4Turbo各任务等级相差较小。（全天候科技）

阿里云通义千问首批通过国家大模型标准符合性评测

阿里云通义千问首批通过国家大模型标准符合性评测12月22日，国内首个官方“大模型标准符合性评测”结果公布。阿里云通义千问成为首批通过评测的四款国产大模型之一，在通用性、智能性等维度均达到国家相关标准要求。“大模型标准符合性评测”由中国电子技术标准化研究院发起，旨在建立中国大模型标准符合性名录，引领人工智能产业健康有序发展。该评测对外征集了学术界、产业界几十家头部单位意见，覆盖评估语言大模型通用性、智能性的38项具体评测维度，是基于官方大模型测试基准的权威评测。

中文AI能力评测发布，即通用大模型综合性基准。这是针对可用的通用大模型的一个测评基准。它主要回答的问题是：在当前通用大模型大力发展的背景下，大模型的效果情况，包括但不限于"这些模型不同任务的效果情况"、"相较于国际上的代表性模型做到了什么程度"、"这些模型与人类的效果对比如何"。

快手：快意通用大语言模型能力已超 GPT-3.5 营销能力齐平 GPT-4

快手：快意通用大语言模型能力已超GPT-3.5营销能力齐平GPT-4快手商业化算法负责人江鹏今日在2024快手磁力大会上表示，快意通用大语言模型能力超过GPT-3.5，通过对快意大模型进行千亿级Token商业知识预训练、百万级商业指令对齐等，快手进一步研发了业界领先的营销域大语言模型。该模型能生成符合快手风格的素材，在营销领域的能力已与GPT-4齐平。据透露，快手女娲数字人平台能支撑超过2200路数字人24小时同时开播，盘古视频AIGC能够让营销转化率提升33%。

讯飞星火大模型规划：今年 10 月 24 日在通用认知大模型能力上对标 ChatGPT

讯飞星火大模型规划：今年10月24日在通用认知大模型能力上对标ChatGPT科大讯飞在投资者活动中回答投资者关心的问题，就“星火大模型在发布会后持续的规划和目标”这一问题给出了详细的答案。·6月9日：突破开放式问答（即实时问答），通过类搜索插件获取知识，以更人性化的方式呈现。此外，升级多轮对话能力，数学能力还会再上一个新的台阶。·8月15日：升级代码能力，让开发者、合作伙伴高效方便使用，讯飞内部已经在使用代码生成能力。同时，多模态交互能力正式开放给客户。·10月24日（科大讯飞全球开发者节）：通过科学、系统的评测方法在通用认知大模型能力上能够对标ChatGPT，在中文上超越，在英文上达到跟它相当的水平。投稿：@ZaiHuaBot频道：@TestFlightCN

Hugging Face发布生成式AI健康任务测试基准

HuggingFace发布生成式AI健康任务测试基准人工智能初创公司HuggingFace在最新发布的名为OpenMedical-LLM的基准测试中提出了一种解决方案。OpenMedical-LLM是与非营利组织开放生命科学人工智能（OpenLifeScienceAI）和爱丁堡大学自然语言处理小组的研究人员合作创建的，旨在对生成式人工智能模型在一系列医疗相关任务中的性能进行标准化评估。OpenMedical-LLM本身并不是一个全新的基准，而是将现有的测试集（MedQA、PubMedQA、MedMCQA等）拼接在一起，旨在探究医学常识和相关领域（如解剖学、药理学、遗传学和临床实践）的模型。该基准包含要求医学推理和理解的选择题和开放式问题，借鉴了美国和印度医学执照考试和大学生物试题库等材料。HuggingFace在一篇博文中写道："[开放医学-LLM]使研究人员和从业人员能够识别不同方法的优缺点，推动该领域的进一步发展，并最终促进更好的患者护理和治疗效果。"HuggingFace将该基准定位为对医疗领域生成式人工智能模型的"稳健评估"。但社交媒体上的一些医学专家告诫说，不要对OpenMedical-LLM抱有过高期望，以免导致不明智的部署。阿尔伯塔大学神经病学住院医生利亚姆-麦考伊（LiamMcCoy）在"X"上指出，医学答疑的"人为环境"与实际临床实践之间的差距可能相当大。博文的共同作者、"HuggingFace"研究科学家ClémentineFourrier对此表示赞同。"这些排行榜只应作为针对特定用例探索哪种[生成式人工智能模型]的第一近似值，但随后始终需要进行更深入的测试阶段，以检验模型在真实条件下的局限性和相关性，"Fourrier在X上回答说，"医疗[模型]绝对不应该由患者自行使用，而应该经过培训，成为医学博士的辅助工具。"这不禁让人想起Google在泰国尝试将糖尿病视网膜病变的人工智能筛查工具引入医疗系统时的经历。Google创建了一个深度学习系统，可以扫描眼睛图像，寻找视网膜病变的证据，视网膜病变是导致视力丧失的主要原因。但是，尽管理论上具有很高的准确性，该工具在实际测试中被证明并不实用，结果不一致，与实际操作普遍不协调，令患者和护士都感到沮丧。美国食品和药物管理局迄今已批准了139种与人工智能相关的医疗设备，其中没有一种使用了生成式人工智能，这很能说明问题。要测试生成式人工智能工具在实验室中的表现如何转化到医院和门诊中，或许更重要的是测试其结果如何随时间变化，这异常困难。这并不是说OpenMedical-LLM没有用处或信息量不大。结果排行榜可以提醒人们，模型对基本健康问题的回答有多么糟糕。但是，OpenMedical-LLM以及其他任何基准都无法替代经过深思熟虑的真实世界测试。...PC版：https://www.cnbeta.com.tw/articles/soft/1427874.htm手机版：https://m.cnbeta.com.tw/view/1427874.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人