Google研究团队宣布AudioPaLM:一个能说能听的大型语言模型

Google研究团队宣布AudioPaLM:一个能说能听的大型语言模型除了文本生成外,还开发了像CLIP(对比性语言图像预训练)这样的模型,用于图像生成,使得可以根据图像的内容生成文本。为了在音频生成和理解方面取得进展,Google的研究团队推出了AudioPaLM,这是一个大型语言模型,可以处理语音理解和生成任务。AudioPaLM结合了两个现有模型的优势,即PaLM-2模型和AudioLM模型,以产生一个统一的多模态架构,能够处理和生成文本和语音。这使得AudioPaLM可以处理各种应用,从语音识别到语音转文字。虽然AudioLM在保持诸如说话者身份和语气信息方面表现出色,而以文本为基础的语言模型PaLM-2则专注于特定于文本的语言知识。通过结合这两个模型,AudioPaLM利用了PaLM-2的语言专业知识和AudioLM的附加语言信息保存能力,从而更全面地理解和生成文本和语音。AudioPaLM使用一个联合词汇表,可以使用有限数量的离散标记表示语音和文本。将这个联合词汇表与标记化的任务描述相结合,可以在各种声音和基于文本的任务上训练单个解码器模型。传统上需要单独模型来处理的语音识别、文本转语音合成和语音到语音翻译等任务现在可以统一到一个架构和训练过程中。经过评估,AudioPaLM在语音翻译方面的表现明显优于现有系统。它展示了对语言组合执行零样本语音到文本翻译的能力,也就是说,它可以准确地将从未遇到过的语言的语音翻译成文本,为更广泛的语言支持开辟了可能性。AudioPaLM还可以基于简短的口语提示在语言之间进行声音转换,并能捕捉并重现不同语言中的独特声音,实现语音转换和适应。团队提到的AudioPaLM主要贡献包括:AudioPaLM利用了文本预训练模型PaLM和PaLM-2的功能。在自动语音翻译和语音到语音翻译基准测试中取得了最先进的结果,并在自动语音识别基准测试中具有竞争力的表现。该模型通过语音转换来进行声音转换,超越了现有方法在语音质量和声音保留方面的表现。AudioPaLM通过使用未见过的语言组合进行自动语音翻译,展示了零样本功能。总而言之,AudioPaLM是一个统一的大型语言模型,通过利用基于文本的语言模型的能力和整合音频提示技术,可以同时处理语音和文本,成为LLM列表中强有力的补充。AudioPaLMHuggingFace页面:https://huggingface.co/papers/2306.12925...PC版:https://www.cnbeta.com.tw/articles/soft/1367209.htm手机版:https://m.cnbeta.com.tw/view/1367209.htm

相关推荐

封面图片

【谷歌计划于周三推出一款通用大型语言模型PaLM 2】

【谷歌计划于周三推出一款通用大型语言模型PaLM2】5月9日消息,据财联社报道,谷歌将于美东时间周三举行一年一度的年度开发者大会。文件显示,谷歌本次活动的主题是:人工智能如何“帮助人们充分发挥潜力”,并介绍谷歌在人工智能领域的一系列技术更新,包括提供对谷歌自家聊天机器人Bard和Search的“生成体验”。根据谷歌的内部文件,在本次大会上,谷歌将推出其最新、最先进的通用大型语言模型PaLM2。PaLM2包含100多种语言,一直在谷歌内部运行,代号为“统一语言模型。它能够执行广泛的编码和数学测试,以及创造性写作测试和分析。谷歌于2022年4月首次宣布了其PaLM语言模型。今年3月,该公司为PaLM推出了一个API,同时推出了一系列人工智能企业工具,据称这些工具将帮助企业“从简单的自然语言提示中生成文本、图像、代码、视频、音频等”。

封面图片

Petals,一个可以让多人协作运行 Llama 和 BLOOM 等大型语言模型的项目

,一个可以让多人协作运行Llama和BLOOM等大型语言模型的项目使用Llama2(70B),Falcon(180B),BLOOM(176B)(或其衍生版本)生成文本,并针对任务进行微调,可使用消费级GPU或GoogleColab。你可以加载模型的一小部分,然后加入一个网络,由其他人提供其余部分。Llama2(70B)的单批量推理速度可达6个标记/秒,Falcon(180B)的单批量推理速度可达4个标记/秒,足以用于聊天机器人和交互应用程序。

封面图片

用你自己的声音说外语:跨语言神经编解码器语言模型 VALL-E X

用你自己的声音说外语:跨语言神经编解码器语言模型VALL-EX微软亚洲研究院发布VALL-E的扩展VALL-EX,它可以通过一个几秒的源语音片段来生成目标语言的语音,同时保留说话者的声音、情感和声学环境。VALL-EX不需要说话人的跨语言语音进行训练即可执行各种语音生成任务,例如跨语言文本到语音、语音合成和语音到语音翻译。VALL-E基于Meta在2022年10月开源的EnCodec技术之上,同时在Meta组建的LibriLight音频库进行训练,音频库包含了来自7000多名演讲者的6万小时英语演讲,大部分来自LibriVox公共领域的有声读物。中展示了"中文语音转英文语音"、"英文语音转中文语音"、"英语文本转中文语音"等各种场景。投稿:@ZaiHuabot频道:@TestFlightCN

封面图片

Google最新发布PaLM 2,一种新的语言模型,具有更好的多语言和推理能力,同时比其前身PaLM更节省计算资源。

Google最新发布PaLM2,一种新的语言模型,具有更好的多语言和推理能力,同时比其前身PaLM更节省计算资源。PaLM2综合了多项研究进展,包括计算最优的模型和数据规模、更多样化和多语言的数据集、以及更有效的模型架构和目标函数。PaLM2在多种任务和能力上达到了最先进的性能,包括语言水平考试、分类和问答、推理、编程、翻译和自然语言生成等。PaLM2还展示了强大的多语言能力,能够处理数百种语言,并在不同语言之间进行翻译和解释。PaLM2还考虑了负责任的使用问题,包括推理时控制毒性、减少记忆化、评估潜在的伤害和偏见等。

封面图片

Stable Diffusion 的母公司 Stability AI 宣布开源一款全新的大语言模型

StableDiffusion的母公司StabilityAI宣布开源一款全新的大语言模型StableLM模型的Alpha版本有30亿和70亿参数,并将于后续开放150亿和650亿的参数模型。StabilityAI的创始人EmadMostaque自2020年从OpenAI团队离开后,一直秉承着开源开放的理念,持续推出了多款AI开源模型。其中影响力最广的,便有大家所熟知的文本生成图像模型StableDiffusion。本次开源的StableLM,基础功能跟GPT一样,支持生成文本和代码,在未来可以给不少应用提供基础技术支持。在项目中,StableLM提供了几个基础演示,包括聊天、撰写书信、小说创作、代码编写等功能。来源(,)来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

Spotify 测试 AI 新功能:克隆播客主播的声音并将其翻译成其它语言

Spotify测试AI新功能:克隆播客主播的声音并将其翻译成其它语言Spotify正在测试一项新的人工智能功能,该功能名为“语音翻译(VoiceTranslation)”,该功能可以克隆播客主播的声音,并用该声音使用另一种语言读出播客。该工具由Spotify在OpenAI的自动语音识别(ASR)系统Whisper的帮助下开发的,使用了语音转文本生成AI模型来翻译音频文件,并使用语音复制模型来匹配原始说话者的风格。——、

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人