AudioCraft Plus：Audiocraft是一个用于音频生成深度学习研究的 PyTorch 库，包含了最先进的EnCo

：Audiocraft是一个用于音频生成深度学习研究的PyTorch库，包含了最先进的EnCodec音频压缩器，以及MusicGen，一个简单且可控的音频生成模型。AudioCraftPlus是原版AudioCraft的一体化WebUI，在其基础上添加了许多优质功能。AudioGen模型多波段扩散定制模型支持生成元数据和音频信息选项卡单声道转立体声多重提示/带结构提示的提示分段视频输出定制音乐延续

在Telegram中查看

相关推荐

RT 宝玉SoundStorm：高效并行音频生成

RT 宝玉SoundStorm：高效并行音频生成SoundStorm是Google发布的一个用于高效、非自回归音频生成的模型。看了下项目首页上的演示，我觉得生成速度还罢了，它的演示音频让我觉得厉害的地方是只要3秒的样本，就能按照原本说话的音色生成后续的音频，而且很自然。…AK: SoundStorm:EfficientParallelAudioGenerationSoundStormgenerates30secondsofaudioin0.5secondsonaTPU-v4.Demonstratetheabilityofmodeltoscaleaudiogenerationtolongersequencesbysynthesizinghigh-quality,naturaldialoguesegments,givenatranscript…

：用于深度学习音频生成研究的PyTorch库

Generating audio for video：DeepMind视频音频生成技术，为无声创造同步音轨的创新工具，结合视

：DeepMind视频音频生成技术，为无声视频创造同步音轨的创新工具，结合视频像素和自然语言提示生成丰富的音景-DeepMind研发了视频到音频(V2A)技术，可以利用视频像素和文本提示生成与视频同步的丰富音轨。-V2A可与像Veo这样的视频生成模型配合使用，为视频添加戏剧性配乐、逼真音效或与视频角色和语气匹配的对话。-V2A也可以为各类传统镜头生成音轨，如档案素材、无声电影等，拓宽创作空间。-V2A支持无限生成音轨，允许定义正向和负向提示来指导生成所需的音频。-V2A使用基于扩散的方法，先编码视觉输入，然后模型逐步从随机噪声中提炼音频。这个过程同时利用视觉输入和文本提示进行指导。-为提高音频质量，训练中加入了AI生成的含音频详细描述和语音转录的注释信息。-V2A可理解原始像素，添加文本提示是可选的。它也无需人工调整生成音频与视频的对齐。-当前局限包括视频失真可影响音频质量，语音同步存在待改进之处。-DeepMind将采取负责任的方式开发和部署V2A，正在与顶级创作者合作改进技术，并加入合成识别工具SynthID以防范技术误用。-V2A正在进行安全评估，初始结果显示它是使生成视频栩栩如生的有前景技术。

Stability AI发布免费音频生成工具可创作AI歌曲

StabilityAI发布免费音频生成工具可创作AI歌曲而StableAudio2.0提供了完整的三分钟音频片段，这个长度的歌曲大多数适合电台播放，而所有上传的音频必须是无版权的。据了解，与OpenAI的音频生成模型VoiceEngine只向一小部分用户开放不同，StabilityAI通过其网站免费向公众提供StableAudio，未来将很快提供API接口。StabilityAI表示，StableAudio2.0与其早期版本的一个主要区别在于，它能够创建与真实歌曲相似的歌曲结构，包括有序幕、进展和尾声。不过，已经试玩StableAudio2.0的媒体表示，这个水平的AI歌曲距离帮助用户用音乐表达想法，差距依然比较大。例如，有用户用“带有美国风格的民谣流行歌曲”（美国乡村音乐）作为提示，StableAudio生成的歌曲在某些部分听起来有山谷清晨的氛围，并且疑似加入了人声。理论上，StableAudio2.0的新功能允许用户调整生成的AI音频作品，使作品更符合用户的听歌风格。例如可以调整遵循提示程度，或设置转换所上传音频的哪一部分，用户还可以添加像人群的吼声或键盘敲击等音效。然而，这种AI歌曲最大的问题在于，让人感觉毫无灵魂。但这并不令人感到惊讶，因为这和其他大厂的AI音频问题一样。例如，如Meta和Google也一直在尝试AI音频生成，但两家公司都没有公开发布他们的模型，因为他们仍在收集开发者的反馈，来解决AI歌曲无灵魂的问题。StabilityAI在一份新闻稿中说，StableAudio是在AudioSparx的数据上训练的，后者拥有超过800，000个音频文件的库。不过，这些音频可能出现版权纠纷。StabilityAI表示，作品被纳入AudioSparx的艺术家可以选择退出，以避免他们的作品用于训练模型。其实，使用版权音频训练模型是StabilityAI的前音频副总裁EdNewton-Rex在StableAudio发布后不久就离开公司的原因之一。对于2.0版本，StabilityAI说它与AudibleMagic合作，使用其内容识别技术来追踪和阻止版权音频进入平台。总之，StableAudio2.0的确让AI歌曲比之前更像真正的歌曲，但还是没有完全达到这个目标。媒体表示，如果StableAudio2.0模型坚持添加某种人声，也许下一个版本的AI音频作品会出现更能令人分辨的语言。...PC版：https://www.cnbeta.com.tw/articles/soft/1426117.htm手机版：https://m.cnbeta.com.tw/view/1426117.htm

阿里云的AI模型EMO上线通义App，允许用户通过照片和音频生成唱歌视频

阿里云的AI模型EMO上线通义App，允许用户通过照片和音频生成唱歌视频由通义实验室研发的AI模型EMO已在通义App上线，供用户免费使用。EMO是一个音频驱动的AI肖像视频生成系统，能够根据输入的参考图像和语音音频生成具有表现力的面部表情和头部姿势视频。用户可以选择多种模板，如热门歌曲或网络热梗，上传肖像照片后，EMO将合成相应的唱歌视频。目前，App提供了80多个模板，但不支持自定义音频。EMO的主要特点包括音频驱动的视频生成、高表现力和逼真度、无缝帧过渡、身份保持、稳定的控制机制、灵活的视频时长以及跨语言和风格的适应能力。此外，EMO的官方项目主页、研究论文和GitHub链接均已提供，模型和源码将待开源。关注频道@TestFlightCN

云从科技：从容大模型支持通过文本和音频生成图像和视频

云从科技：从容大模型支持通过文本和音频生成图像和视频OpenAI的视频生成模型Sora引发关注，云从科技相关负责人表示，云从科技在视觉方面积累较为深厚，目前，从容大模型已实现利用diffusion、GAN等生成式技术围绕人物图像、人物视频数据进行建模，通过文本和音频实现对图像和视频内容进行生成、控制、编辑。应用上，云从科技与天津港、华为等共同开发港口大模型PortGPT，核心是AI智能体天天，通过AI生成交互画面，协同数据分析，提高港口运转效率及安全性。此外，还在文生图像、视频等跨模态领域积极布局，包括发布数字人能力平台，生成AI视频；与中国电信合作AI营销海报生成等。（科创板日报）

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人