Google研究团队宣布AudioPaLM:一个能说能听的大型语言模型
Google研究团队宣布AudioPaLM:一个能说能听的大型语言模型除了文本生成外,还开发了像CLIP(对比性语言图像预训练)这样的模型,用于图像生成,使得可以根据图像的内容生成文本。为了在音频生成和理解方面取得进展,Google的研究团队推出了AudioPaLM,这是一个大型语言模型,可以处理语音理解和生成任务。AudioPaLM结合了两个现有模型的优势,即PaLM-2模型和AudioLM模型,以产生一个统一的多模态架构,能够处理和生成文本和语音。这使得AudioPaLM可以处理各种应用,从语音识别到语音转文字。虽然AudioLM在保持诸如说话者身份和语气信息方面表现出色,而以文本为基础的语言模型PaLM-2则专注于特定于文本的语言知识。通过结合这两个模型,AudioPaLM利用了PaLM-2的语言专业知识和AudioLM的附加语言信息保存能力,从而更全面地理解和生成文本和语音。AudioPaLM使用一个联合词汇表,可以使用有限数量的离散标记表示语音和文本。将这个联合词汇表与标记化的任务描述相结合,可以在各种声音和基于文本的任务上训练单个解码器模型。传统上需要单独模型来处理的语音识别、文本转语音合成和语音到语音翻译等任务现在可以统一到一个架构和训练过程中。经过评估,AudioPaLM在语音翻译方面的表现明显优于现有系统。它展示了对语言组合执行零样本语音到文本翻译的能力,也就是说,它可以准确地将从未遇到过的语言的语音翻译成文本,为更广泛的语言支持开辟了可能性。AudioPaLM还可以基于简短的口语提示在语言之间进行声音转换,并能捕捉并重现不同语言中的独特声音,实现语音转换和适应。团队提到的AudioPaLM主要贡献包括:AudioPaLM利用了文本预训练模型PaLM和PaLM-2的功能。在自动语音翻译和语音到语音翻译基准测试中取得了最先进的结果,并在自动语音识别基准测试中具有竞争力的表现。该模型通过语音转换来进行声音转换,超越了现有方法在语音质量和声音保留方面的表现。AudioPaLM通过使用未见过的语言组合进行自动语音翻译,展示了零样本功能。总而言之,AudioPaLM是一个统一的大型语言模型,通过利用基于文本的语言模型的能力和整合音频提示技术,可以同时处理语音和文本,成为LLM列表中强有力的补充。AudioPaLMHuggingFace页面:https://huggingface.co/papers/2306.12925...PC版:https://www.cnbeta.com.tw/articles/soft/1367209.htm手机版:https://m.cnbeta.com.tw/view/1367209.htm
在Telegram中查看相关推荐
🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人