wesome-Chinese-LLM

网站名称:Awesome-Chinese-LLM网站功能:中文大模型梳理网站简介:一个汇集开源中文大语言模型的项目,主要包含规模较小、可私有化部署、训练成本较低的模型,包括基础模型、垂直领域微调及应用、数据集与教程等。收录了多种基础中文大语言模型,如ChatGLM、LLaMA、Baichuan等,详细介绍了每个模型的参数大小、训练数据量、训练最大长度及商用许可等信息。介绍了多种LLM训练微调框架和推理部署框架,方便用户快速上手模型训练和应用部署。网站链接:

相关推荐

封面图片

很有意思的一个研究,让 LLM 帮助培训社交沟通技能,确实有很多人需要这样的服务,LLM 又擅长这个。

很有意思的一个研究,让LLM帮助培训社交沟通技能,确实有很多人需要这样的服务,LLM又擅长这个。通过一个通用框架,利用大语言模型(LLM)进行社交技能训练。“AI伙伴,AI导师”框架将实际体验学习与真实场景练习和个性化反馈相结合。详细介绍:使用大语言模型进行社交技能训练的提议:研究者提出,可以利用大语言模型强大的对话生成能力,为社交技能练习提供一个随时可用、安全可控的环境。相关研究已经证实,当前的大语言模型已经能够较好地模拟各类人物,进行逼真的对话互动。这为将其应用于社交技能训练奠定了基础。AIPartner和AIMentor框架的提出:论文提出了一个通用的社交技能训练框架,包括两个关键组件:AIPartner负责提供对话实践的环境,AIMentor负责在关键节点给予个性化指导。二者协同,可以把体验式的实践学习与理论指导有机结合,有望大幅提升社交技能训练的可及性和有效性。使用该框架进行社交技能训练的应用场景该框架可以灵活应用于多个领域的社交技能训练,如心理咨询、谈判、教学等。通过调整AIPartner塑造的人物角色,以及AIMentor搭载的领域知识库,就可以对应不同领域的训练需求。论文通过一系列案例展示了这种适用性和灵活性。论文地址:https://arxiv.org/abs/2404.04204

封面图片

本地LLM使用指南 0.2 | #指南

#指南LLMs,即大型语言模型(LargeLanguageModels),是一种基于人工智能和机器学习技术构建的先进模型,旨在理解和生成自然语言文本。这些模型通过分析和学习海量的文本数据,掌握语言的结构、语法、语义和上下文等复杂特性,从而能够执行各种语言相关的任务。LLM的能力包括但不限于文本生成、问答、文本摘要、翻译、情感分析等。LLMs例如GPT、LLama、Mistral系列等,通过深度学习的技术架构,如Transformer,使得这些模型能够捕捉到文本之间深层次的关联和含义。模型首先在广泛的数据集上进行预训练,学习语言的一般特征和模式,然后可以针对特定的任务或领域进行微调,以提高其在特定应用中的表现。预训练阶段让LLMs掌握了大量的语言知识和世界知识,而微调阶段则使模型能够在特定任务上达到更高的性能。这种训练方法赋予了LLMs在处理各种语言任务时的灵活性和适应性,能够为用户提供准确、多样化的信息和服务。

封面图片

新手LLM训练详细指南 | #指南

#指南-Transformer是训练语言模型最常用的架构。预训练再微调是训练语言模型的主要方法。-微调需要收集任务特定的数据集,一般大小在几十MB到几GB。-数据预处理非常重要,需要将数据清理成合适的格式,如JSONL。-主要的训练超参数包括batchsize、epoch数、学习率、梯度累积步数等。-LoRA是一种减少GPU内存占用的微调方法,QLoRA则通过量化进一步降低了内存需求。-学习曲线可以诊断模型的训练情况,判断是否欠拟合、过拟合或拟合良好。-模型量化可以降低模型大小,使大模型也能在低显存环境下使用。-模型适配器方法可以进行个性化微调而不加载整个模型。-模型融合可以组合多个模型的优势得到更优的单模型。-合理配置训练超参数以及诊断学习曲线对获得期望的模型至关重要。

封面图片

《开源大模型食用指南》基于Linux环境快速部署开源大模型 | #指南

《》基于Linux环境快速部署开源大模型#指南本项目是一个围绕开源大模型、针对国内初学者、基于AutoDL平台的中国宝宝专属大模型教程,针对各类开源大模型提供包括环境配置、本地部署、高效微调等技能在内的全流程指导,简化开源大模型的部署、使用和应用流程,让更多的普通学生、研究者更好地使用开源大模型,帮助开源、自由的大模型更快融入到普通学习者的生活中。本项目的主要内容包括:基于AutoDL平台(可扩展,例如阿里云)的开源LLM环境配置指南,针对不同模型要求提供不同的详细环境配置步骤;针对国内外主流开源LLM的部署使用教程,包括LLaMA、ChatGLM、InternLM等;开源LLM的部署应用指导,包括命令行调用、在线Demo部署、LangChain框架集成等;开源LLM的全量微调、高效微调方法,包括分布式全量微调、LoRA、ptuning等。

封面图片

开源大模型使用指南 | #指南

#指南本项目是一个围绕开源大模型、针对国内初学者、基于AutoDL平台的中国宝宝专属大模型教程,针对各类开源大模型提供包括环境配置、本地部署、高效微调等技能在内的全流程指导,简化开源大模型的部署、使用和应用流程,让更多的普通学生、研究者更好地使用开源大模型,帮助开源、自由的大模型更快融入到普通学习者的生活中。本项目的主要内容包括:基于AutoDL平台(可扩展,例如阿里云)的开源LLM环境配置指南,针对不同模型要求提供不同的详细环境配置步骤;针对国内外主流开源LLM的部署使用教程,包括LLaMA、ChatGLM、InternLM等;开源LLM的部署应用指导,包括命令行调用、在线Demo部署、LangChain框架集成等;开源LLM的全量微调、高效微调方法,包括分布式全量微调、LoRA、ptuning等。本项目适合以下学习者:想要使用或体验LLM,但无条件获得或使用相关API;希望长期、低成本、大量应用LLM;对开源LLM感兴趣,想要亲自上手开源LLM;NLP在学,希望进一步学习LLM;希望结合开源LLM,打造领域特色的私域LLM;以及最广大、最普通的学生群体。

封面图片

发现了个好东西,这个老哥开源了一门课程《从头开始构建大型语言模型》,这门课程将一步步地指导你创建自己的LLM。#AI# #llm

发现了个好东西,这个老哥开源了一门课程《从头开始构建大型语言模型》,这门课程将一步步地指导你创建自己的LLM。#AI##llm#每个阶段都有清晰的文本、图表和实例来解释相关概念。课程内容包括:1.从基础理解注意力机制2.构建并预训练一个类似于GPT的模型3.学习如何加载预训练的权重4.对模型进行分类任务的微调5.使用直接偏好优化进行指令微调模型课程地址:https://github.com/rasbt/LLMs-from-scratch/tree/main

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人