Databricks 发布最大开源大语言模型 DBRX

Databricks发布最大开源大语言模型DBRX美国AI初创公司Databricks周三公布,该公司开发的通用大语言模型DBRX将开源。DBRX在语言理解、编程、数学和逻辑方面轻松击败了Meta的Llama2-70B、法国MixtralAI公司的Mixtral和马斯克旗下xAI开发的Grok-1这类当前流行的开源模型。DBRX在30多种不同的最先进模型(SOTA)基准指标测试中,均优于前述三种大模型。DBRX使用混合专家架构(MoE),拥有16个专家模型,共1320亿参数。该模型使用3072英伟达H100GPU在12万亿个token的数据集上进行训练,最大支持32k的上下文窗口。同时,Databrick也开源了该模型经过指令微调(instructfinetune)的版本。——,

相关推荐

封面图片

Databricks开源DBRX高性能大语言模型

开源DBRX高性能大语言模型DBRX是Databricks开发的开源通用语言模型,在多项标准基准测试上达到了当前开源语言模型的最高水平。DBRX在多项综合基准测试中表现最好,尤其在编程和数学推理方面优于其他开源模型。与开源模型相比,DBRX在MMLU数据集上的表现也是最好的。根据测试,DBRX甚至超过了专门用于编程的CodeLLAMA-70B,并且与商业模型GPT-3.5相当甚至略胜。DBRX也与Gemini1.0Pro和MistralMedium等商业模型有竞争力。DBRX使用混合专家(MoE)架构,使其在训练和推理上更加高效。与类似参数量的非MoE模型相比,DBRX的推理吞吐量提高2-3倍。DBRX的整体训练效率比之前提高了近4倍,这得益于更好的数据、MoE架构以及其他改进。DBRX已经在Databricks的GenAI产品中进行了集成,客户可以通过API使用该模型。DBRX的训练代码和模型也在HuggingFace平台上开源。DBRX证明了Databricks可以高效地训练世界级的基础语言模型,也为企业训练自己的基础模型提供了能力。DBRX只是Databricks协助客户训练定制语言模型的一个例子。

封面图片

Mistral Large 大语言模型发布

MistralLarge大语言模型发布MistralLarge是Mistral新的尖端文本生成模型。它达到了顶级的推理能力,可用于复杂的多语言推理任务,包括文本理解、转换和代码生成。MistralLarge在常用基准测试中取得了优异的成绩,使其成为世界上排名第二的可通过API普遍使用的模型(仅次于GPT-4)。该模型也可以通过Azure直接调用。MistralLarge具有以下特点-支持英语、法语、西班牙语、德语和意大利语。-32K标记上下文窗口。-精确的指令遵循使开发人员能够设计他们的审核策略。-原生支持函数调用。Mistral还发布了一个新的优化模型MistralSmall,针对延迟和成本进行了优化,其性能优于Mixtral8x7B,并且延迟较低,这使其成为开源型号和旗舰型号之间的中间解决方案。——

封面图片

Databricks 发布开源指令微调大语言模型 Dolly 2.0

Databricks发布开源指令微调大语言模型Dolly2.0Databricks公司两周前发布了它的指令遵循(instruction-following)大语言模型Dolly,本周三它发布了——可授权商业使用的开源指令微调大语言模型。Dolly2.0有120亿参数,基于EleutherAIpythia模型家族,使用高质量的人类生成的指令遵循数据集进行微调。Databricks开源了Dolly2.0的整个系统,包括训练代码、数据集和模型权重,全都适合商业使用。而目前开源社区流行的LLaMA衍生模型使用的是非商业使用授权。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

苹果发布 OpenELM 大语言模型,基于开源训练和推理框架的语言模型

苹果发布OpenELM大语言模型,基于开源训练和推理框架的语言模型在WWDC24之前,苹果在HuggingFace平台上发布了一个“具有开源训练和推理框架的高效语言模型”,名为OpenELM。苹果这次发布了完整的框架,包括数据准备、训练、微调和评估程序,以及多个预训练的checkpoint和训练日志,以促进开源研究。其源码及预训练的模型权重和训练配方可在苹果Github库中获取。

封面图片

Google 发布开源大语言模型 Gemma

Google发布开源大语言模型Gemma谷歌今天宣布推出Gemma,这是一个新的轻量级开源大语言模型系列。现在Gemma2B和Gemma7B两个模型已经可用,每个尺寸都发布了经过预训练和指令调整的变体。谷歌同时提供了多项工具以便快速部署该模型,包括开箱即用的Colab实例,可快速部署的容器镜像,以及和其它流行开发工具的集成。Gemma模型也能够直接在开发人员笔记本电脑或台式计算机上运行。根据谷歌的技术报告,该模型在多个测试中超越的Llama2等开源模型。这些新模型“受到Gemini的启发”,使用与其相似的架构,并被许可用于商业和研究用途。此外,谷歌还发布了一个新的负责任的生成式AI工具包,以提供“使用Gemma创建更安全的人工智能应用程序的指导和基本工具”以及调试工具。——,,

封面图片

AO 发布 “AI on AO” 计划,推出链上开源大语言模型

AO发布“AIonAO”计划,推出链上开源大语言模型AO生态系统发布“AIonAO”计划,推出链上开源大语言模型(LLMs),旨在将任何AI模型(不仅仅是LLMs)带到链上。基于ApusNetwork,利用Arweave的永久链上存储,构建一个去中心化、无信任的GPU网络,致力于为AI训练和推理提供可靠、高效和低成本的计算能力。AO上的AI数据可通过ArDrive上传到Arweave的模型。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人