嘉楠科技已开源通用大语言模型Toucan,INT4量化效果媲美ChatGLM

None

相关推荐

封面图片

MAmmoTH:专门为解决通用数学问题而定制的开源大语言模型。

MAmmoTH:专门为解决通用数学问题而定制的开源大语言模型。MAmmoTH模型结合了CoT和PoT两种思维方式,使其能够更全面地解决各种数学问题(从基础算术到高等数学)。在九个数学推理数据集上显著超越了现有的开源模型,平均准确率提高了13%到29%。MAmmoTH在一个精心策划的指导调优数据集MathInstruct上进行训练,MathInstruct从13个带有中间理由的数学数据集中编译而来,其中六个是由作者新策划的。MAmmoTH基于LLaMa2和CodeLlama训练的数学领域的开源LLM,有7B、13B、34B、70B四个版本。MAmmoTH的工作原理是通过混合指导调优方法,结合两种不同的思维方式,训练模型来解决各种数学问题。这种方法确保了模型在各种数学领域都有很好的表现,并且在实际应用中也取得了显著的性能提升。

封面图片

【嘉楠科技与阿里云龙蜥开源社区达成战略合作】

【嘉楠科技与阿里云龙蜥开源社区达成战略合作】2月13日,阿里云开源社区龙蜥(OpenAnolis)宣布,与国内ASIC芯片设计龙头企业嘉楠科技达成战略合作,双方将共同探索基于龙蜥开源操作系统和勘智(KendryteAI)系列芯片平台的开发应用,积极推动本土开源项目在端侧AI芯片领域的实践。嘉楠科技董事长兼CEO张楠赓表示,开源芯片是处理器领域的关键趋势之一,相关设计IP不仅能够极大降低芯片设计成本和行业准入门槛,而且对于国内芯片自主设计和国产替代具有战略意义。

封面图片

Yandex开源大型语言模型训练工具YaFSDP跨国科技公司Yandex最近推出了用于训练大型语言模型的开源方法YaFSDP。Y

封面图片

苹果开源 OpenELM 系列语言模型

苹果在HuggingFace上最新推出了OpenELM系列语言模型。OpenELM总共有8个模型,包括270M、450M、1.1B和3B这四个参数规模(分为预训练版和指令微调版)。它们使用了总计约1.8万亿个token的多个公共数据集。目前,OpenELM的代码、预训练模型权重以及训练和评估流程全部开放。标签:#Apple#AI频道:@GodlyNews1投稿:@GodlyNewsBot

封面图片

苹果发布 OpenELM 大语言模型,基于开源训练和推理框架的语言模型

苹果发布OpenELM大语言模型,基于开源训练和推理框架的语言模型在WWDC24之前,苹果在HuggingFace平台上发布了一个“具有开源训练和推理框架的高效语言模型”,名为OpenELM。苹果这次发布了完整的框架,包括数据准备、训练、微调和评估程序,以及多个预训练的checkpoint和训练日志,以促进开源研究。其源码及预训练的模型权重和训练配方可在苹果Github库中获取。

封面图片

Google 发布开源大语言模型 Gemma

Google发布开源大语言模型Gemma谷歌今天宣布推出Gemma,这是一个新的轻量级开源大语言模型系列。现在Gemma2B和Gemma7B两个模型已经可用,每个尺寸都发布了经过预训练和指令调整的变体。谷歌同时提供了多项工具以便快速部署该模型,包括开箱即用的Colab实例,可快速部署的容器镜像,以及和其它流行开发工具的集成。Gemma模型也能够直接在开发人员笔记本电脑或台式计算机上运行。根据谷歌的技术报告,该模型在多个测试中超越的Llama2等开源模型。这些新模型“受到Gemini的启发”,使用与其相似的架构,并被许可用于商业和研究用途。此外,谷歌还发布了一个新的负责任的生成式AI工具包,以提供“使用Gemma创建更安全的人工智能应用程序的指导和基本工具”以及调试工具。——,,

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人