很有意思的一个研究,让 LLM 帮助培训社交沟通技能,确实有很多人需要这样的服务,LLM 又擅长这个。

很有意思的一个研究,让LLM帮助培训社交沟通技能,确实有很多人需要这样的服务,LLM又擅长这个。通过一个通用框架,利用大语言模型(LLM)进行社交技能训练。“AI伙伴,AI导师”框架将实际体验学习与真实场景练习和个性化反馈相结合。详细介绍:使用大语言模型进行社交技能训练的提议:研究者提出,可以利用大语言模型强大的对话生成能力,为社交技能练习提供一个随时可用、安全可控的环境。相关研究已经证实,当前的大语言模型已经能够较好地模拟各类人物,进行逼真的对话互动。这为将其应用于社交技能训练奠定了基础。AIPartner和AIMentor框架的提出:论文提出了一个通用的社交技能训练框架,包括两个关键组件:AIPartner负责提供对话实践的环境,AIMentor负责在关键节点给予个性化指导。二者协同,可以把体验式的实践学习与理论指导有机结合,有望大幅提升社交技能训练的可及性和有效性。使用该框架进行社交技能训练的应用场景该框架可以灵活应用于多个领域的社交技能训练,如心理咨询、谈判、教学等。通过调整AIPartner塑造的人物角色,以及AIMentor搭载的领域知识库,就可以对应不同领域的训练需求。论文通过一系列案例展示了这种适用性和灵活性。论文地址:https://arxiv.org/abs/2404.04204

相关推荐

封面图片

wesome-Chinese-LLM

网站名称:Awesome-Chinese-LLM网站功能:中文大模型梳理网站简介:一个汇集开源中文大语言模型的项目,主要包含规模较小、可私有化部署、训练成本较低的模型,包括基础模型、垂直领域微调及应用、数据集与教程等。收录了多种基础中文大语言模型,如ChatGLM、LLaMA、Baichuan等,详细介绍了每个模型的参数大小、训练数据量、训练最大长度及商用许可等信息。介绍了多种LLM训练微调框架和推理部署框架,方便用户快速上手模型训练和应用部署。网站链接:

封面图片

前几天微软发了一篇挺重要的关于 LLM 的论文,但我看不太懂。

前几天微软发了一篇挺重要的关于LLM的论文,但我看不太懂。从社区讨论来看,这个研究可以大幅压缩模型体积,让120B大小的模型能在24G显存的设备上运行。再加上一些其他优化我们在消费级设备运行Llama70B也不是什么遥不可及的事情。论文简介:《1位大语言模型时代来临:一切大型语言模型均转向1.58位构架》一种1位的LLM变体,命名为BitNetb1.58。在这个模型里,大语言模型的每个参数(或权重)都是三元的{-1,0,1}。它在复杂度和实际应用性能方面与相同模型规模和训练数据的全精度(即FP16或BF16)Transformer大语言模型不相上下,但在延迟、内存、吞吐量和能源消耗方面更具成本效益。更为重要的是,1.58位LLM定义了新的扩展规律,并为训练新一代既高性能又高效的LLMs提供了方法。此外,它还开启了一个全新的计算范式,并为设计专门针对1位LLMs优化的硬件提供了可能性。论文:

封面图片

字节发布的这个MegaScale估计只有超级大厂才有用,一个在超过一万个 GPU 上训练 LLM 的生产系统。#ai##llm#

字节发布的这个MegaScale估计只有超级大厂才有用,一个在超过一万个GPU上训练LLM的生产系统。整个系统涵盖了从模型块和优化器设计到计算与通信的重叠、运算符优化、数据管道以及网络性能调整的算法和系统组件。MegaScale在训练一个175B参数的LLM模型时,在12,288GPU上实现了55.2%的模型浮点运算利用率(ModelFLOPsUtilization,MFU),相比Megatron-LM提升了1.34倍。论文地址:

封面图片

Apple发布大模型论文:多模式LLM预培训的方法、分析和见解

Apple发布大模型论文:多模式LLM预培训的方法、分析和见解2024年3月14日,苹果公司发布了自家的大型多模态基础模型MM1,该模型拥有高达300亿参数,并采用混合专家(MoE)架构。超过半数的论文作者是华人。MM1模型在多模态任务上显示出强大的性能,尤其是在少样本学习和上下文预测方面。研究团队通过对不同架构组件和数据选择的深入分析,提出了几条关键的设计准则。他们发现,图像分辨率、视觉编码器损失和容量,以及预训练数据的类型对模型性能有显著影响。MM1模型的开发,标志着苹果在生成式人工智能领域的重要进展。线索:@ZaiHuabot投稿:@TNSubmbot频道:@TestFlightCN

封面图片

Stability AI 发布了其新的开放大型语言模型(LLM)StableCode

StabilityAI发布了其新的开放大型语言模型(LLM)StableCodeStabilityAI刚刚宣布推出了StableCode,这是他们首个用于编码的LLM生成式人工智能产品。该产品旨在帮助程序员完成日常工作,同时也为准备将技能提升到新水平的新开发人员提供了一个出色的学习工具。旨在帮助开发人员生成代码,并提供三个版本:通用用例的、和,其中长上下文窗口模型支持多达16,000个令牌以进行更高级的编程。StableCode是使用来自开源BigCode项目的编码数据进行训练的,支持Python、Go、Java、JavaScript、C、Markdown和C++等语言的开发。BigCode项目被用作ServiceNowInc.的StarCoderLLM的基础,该项目是与HuggingFaceInc.合作开发的,并于五月份推出。——

封面图片

发现了个好东西,这个老哥开源了一门课程《从头开始构建大型语言模型》,这门课程将一步步地指导你创建自己的LLM。#AI# #llm

发现了个好东西,这个老哥开源了一门课程《从头开始构建大型语言模型》,这门课程将一步步地指导你创建自己的LLM。#AI##llm#每个阶段都有清晰的文本、图表和实例来解释相关概念。课程内容包括:1.从基础理解注意力机制2.构建并预训练一个类似于GPT的模型3.学习如何加载预训练的权重4.对模型进行分类任务的微调5.使用直接偏好优化进行指令微调模型课程地址:https://github.com/rasbt/LLMs-from-scratch/tree/main

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人