谷歌发布音乐AI工具MusicFX：一句话就能生成一首音乐

谷歌发布音乐AI工具MusicFX：一句话就能生成一首音乐Google在介绍中指出，这一名为“MusicFX”的创作工具结合了Google此前发布的MusicLM模型和DeepMind的水印技术SynthID，以便在事后识别出它们是否由AI制作而成，一定程度上可以解决创作人对于版权问题的担忧。分析认为，MusicFX的出现也将成为AI领域的一个重要里程碑，为音乐家、制作人和音乐爱好者开辟了尝试和创作多种音乐的新可能性：MusicFX为音乐创作者提供了丰富的音效和声音素材，用户可以创作各种类型的音乐，同时支持调整音调、节奏和音量，还可以添加混响、回声等效果。无论是想要营造舒缓的氛围还是冒险紧张的氛围，MusicFX都可以满足。MusicFX当前仍需要通过Google一个AI实验性产品网站（AITestKitchen）进入，这一平台的建立是为了让用户在尽早体验其最新的AI技术的同时，也能提供早期反馈，这种合作方法能帮助Google完善技术，并遵守道德标准。媒体分析认为，MusicFX的发布不仅仅将为音乐生成提供全新的工具，也代表了AI发展过程中的趋势，用户在帮助企业完善和塑造人工智能方面的作用变得越来越重要，通过在早期阶段让用户参与进来，Google不仅增强了技术，还主动解决了潜在的道德问题。此外，MusicFX的出现可能会降低音乐创作的门槛，让更多没有经过专业音乐培训的爱好者们参与进来。但MusicFX的出现并非没有争议，有观点认为，如何解决人工智能生成的内容对版权、所有权和音乐原创性的影响还没有答案，Google决定在AI生成音乐中使用水印，表明了他们对这些问题的关注，但这一问题并没有解决，AI生成的内容是否属于原创？对于接下来的计划，Google表示，他们会继续根据用户意见继续完善MusicFX，MusicFX有可能重新定义音乐创作及与音乐互动的方式，AITestKitchen可能会成为未来AI发展的典范，这种方法可以推动人工智能发展进入负责任的新时代，在这个时代，技术与社会价值观和规范齐头并进。MusicLM有多强大？在今年年初，GoogleMusicLM横空出世，可以直接将文字、图像自动生成音乐，并且曲风多样，凡是想听的音乐，基本都能自动生成。MusicLM是一个以文本为条件的音频生成模型，可以从文本描述中生成高保真的音乐。该模型采用层次化的序列到序列的方法，这使它能够生成几分钟内一致的音乐。MusicLM使用三种模型来提取作为条件自回归音乐生成输入的音频表示。SoundStream，w2v-BERT和MuLan。其中，AudioLM模型可视作MusicLM的前身，MusicLM就是利用了AudioLM的多阶段自回归建模作为生成条件，可以通过文本描述，以24kHz的频率生成音乐，并在几分钟内保持这个频率。相较而言，MusicLM的训练数据更多。研究团队引入了首个专门为文本-音乐生成任务评估数据MusicCaps来解决任务缺乏评估数据的问题。MusicCaps由专业人士共建，涵盖5500个音乐-文本对。基于此，Google用280000小时的音乐数据集训练出了MusicLM。但媒体此前分析称，MusicLM肯定不是完美无缺的，或者说离完美仍有相当的距离。一些样本还有质量问题，而且虽然MusicLM在技术上可以生成人声，包括完成和声，但还有很多地方需要改进。大多数“歌词”也是蹩脚的英语或纯粹的胡言乱语，然后由合成的声音演唱，听起来像是奇怪的“混合物”。AI生成音乐的版权风险：到底算不算原创？AI跟人一样，偶尔会偷懒直接抄袭这些素材，版权该如何保护？Google的研究员在一次实验中发现，该系统生成的音乐中约有1%是直接复制自其训练的歌曲。这个问题足以让研究人员不愿意过早发布MusicLM。另外，用搜集来的素材供AI学习，这本身是否就已经涉及到侵犯版权？实际上目前已经有了相关案例。2020年，美国说唱歌手Jay-Z的唱片公司对YouTube频道VocalSynthesis提出版权警告，理由是它使用AI创作了Jay-Z翻唱比利·乔尔（BillyJoel）的“WeDidn‘tStarttheFire”等歌曲。美国音乐出版商协会的埃里克·桑雷（EricSunray）撰写的一份白皮书认为，像MusicLM这样的AI音乐生成器通过“从训练数据库中吸收作品中连贯的音频，侵犯了美国版权法的复制权”。进一步说，AI生成的音乐虽然是“原创”，但往往像不同音乐人作品的杂糅，也就是说有洗稿甚至是山寨的嫌疑。因而此次Google运用DeepMind的水印技术SynthID生成的ID便是对版权问题的重视，Google表示，生成的所有歌曲都带有数字水印，人的耳朵听不见也不会影响音乐的效果。主要通过音频波转换为二维可视化来实现。即便数字水印遭受了添加噪声、音质压缩、音频调速等破坏性操作，仍然可以检测到歌曲中的水印。但有分析师指出，尽管Google加了水印证明该音乐作品是AI创作而成却依旧没能解决根本问题，由AI系统生成的音乐到底算不算原创作品？可以和“人造音乐”同台竞技吗？伴随着关注与争议，或许在不远的未来，这些问题都将有清晰的答案。...PC版：https://www.cnbeta.com.tw/articles/soft/1404443.htm手机版：https://m.cnbeta.com.tw/view/1404443.htm

在Telegram中查看

相关推荐

Adobe 推出 AI 音乐生成工具

Adobe推出AI音乐生成工具Adobe在布鲁克林举行的HotPod峰会上发布了名「ProjectMusicGenAIControl」的全新AI音乐创作工具。这款工具凭借生成式人工智能技术，让即便是没有专业音频制作背景的用户也能轻松涉足音乐创作与编辑的领域。为用户提供更为全面的音频编辑解决方案。但该工具尚未对公众开放。线索：@ZaiHuabot投稿：@TNSubmbot频道：@TestFlightCN

只要一句话、30秒，AI就能做个PPT？

只要一句话、30秒，AI就能做个PPT？且不说有些明星，开个记者会都要带个PPT了。不少年轻一代打工人的一生，都要被PPT给包圆了……你看中学时要整PPT上讲台做Presentation，期末复习得熬夜背老师给的PPT资料，大学毕业答辩也要搞PPT。现在上班了，周报月报要做PPT；老板或者甲方理解能力差，得做个PPT；随便开一个会，哪个不得靠PPT出来撑场面。仿佛少了PPT，大伙们都不会说话了似的。而“25岁，拥有15年PPT制作经验”的梗，在现在这个社会，完全就不是啥段子好吧。活脱脱就是一部名叫《被PPT折磨的苦逼的一生》的电影，结合大伙们的心情，应该还得是黑白默剧。熬夜肝PPT，Deadline前用发量换PPT，也成了大家真实的写照。难怪不少人都发出来“做PPT就是浪费生命”的感叹。大伙们似乎忘记了，PPT诞生的初衷，其实正是为了摆脱以前复杂枯燥的文档，拥抱更加直观丰富的多媒体展示。屠龙勇士就这样，成了恶龙……而在过去，我还真看不到啥灵丹妙药能改变这现状，毕竟做PPT，已经成了各行各业通行的习惯。但最近差评君觉得大火的AI，或许能让PPT找回初心。昨天，百度文库就来了一波更新，在文心一言大模型的助力下，百度文库从大家熟悉的“文档搜索工具”，重构成了“一站式智能文档平台”。用人话来说其实就是，现在，大伙们能直接用百度文库办公了。其中最火的功能，就要属AI做PPT了，光是开放使用的第一天，就有超过200万人次在线使用。差评君也趁热上手试了试，发现做PPT这件费心事儿，真马上就可以放心给AI了。首先直接点进百度文库的主页，就能发现多了一个小浮窗。在这个窗口，咱们就能直接打字对AI发号施令。别的先不说，百度文库先用一个“快”字，直接惊艳到了差评君。因为只用一句话，百度文库用AI在30秒之内就能生成PPT了。在“介绍一下刘慈欣小说《三体》的世界观，做个PPT”的指令下，AI先迅速列好了大纲。点击生成PPT，并选好你想要的主题风格之后，AI就立马开始干活。生成的速度，大伙们可以直接看下面的动图，几乎都是一两秒一页PPT的速度在生成。一份儿二十多页的PPT，就这么在几十秒之内整好了……甚至连配图、排版啥的都挑不出啥问题。要知道和传统纯手打相比，在“旧时代”的办公软件上，光是新建几十个空白的PPT页面，就得花去十几秒了。就拿一篇5000字的讲稿与配套PPT为例吧，过去咱们从新建开始，到保存结束，得花2天时间查资料吧，1小时“复制、粘贴“，2小时的”润色、编辑”，最后半小时调整“居中、行间距”。总之不掉几根头发、费几杯咖啡，想迅速做个PPT几乎比让差评君不拖稿还难。传统办公软件新建PPT的速度当然单纯只有快可不够，做PPT那还得讲究一个内容准确详实、配图精准、还得有时效性。而且俗话说得好，不怕不识货，就怕货比货。差评君也立马准备拱个火，拉来了国外大火的PPTAI生成工具Gamma。让百度文库和Gamma来了一场PPT质量大对决。比如最近CityWalk这词稀里糊涂地火了，但是说实话，我到现在还不明白CityWalk和遛弯儿之间到底有啥区别。所以差评君的第一题是：做个PPT，科普一下遛弯儿和CityWalk。首先在内容的详实度上，百度文库就先赢了一局，百度文库给出了一份24页的PPT。而Gamma花了对手近两倍的时间，硬是只做出了8页。百度文库Gamma在关键问题的解答还有内容的深度上，差评君觉得都是百度文库走在了前头。百度文库从空间、目的、参与人群三个方面方面来阐述遛弯儿和CityWalk之间的差别。Gamma则只是简单地列出两个词的定义。百度文库Gamma在PPT的后半部，百度文库甚至还贴心地推荐了相关CityWalk的案例，而Gamma则是戛然而止……第一题只能说百度文库完胜。第二题，差评君则准备测一下AI们的时效性。最近我经常在B站刷到“原神启动”的梗，于是第二题目是“做个PPT科普一下原神启动的梗”。结果只能说，又是百度文库走在了前头……百度文库从传播方式、同类型梗对比等方面解梗……而Gamma，则似乎是犯了AI胡言乱语不懂装懂的坏毛病，甚至还一度认为《阴阳师》是腾讯出品的游戏……最后一题，差评君还准备从配图的准确性方面，较量一下AI。这题则比较简单，最近诺兰导演的《奥本海默》上映了，题目便是“做个PPT介绍一下科学家奥本海默”但就是这道简单的题，却把Gamma给干懵了，无论是输入“科学家奥本海默”，还是“物理学家奥本海默”，Gamma输出的都是阿尔兹海默症相关内容。配的图也是阿尔兹海默症相关……差评君估计作为一款海外的软件，Gamma背后AI大模型的中文语料可能有些少，所以理解能力上稍微逊色了一点。而在加上“原子弹之父”和“核物理学家”的定语之后，Gamma才能正常输出内容。百度文库则依旧稳定输出，在配图和内容上都没太大的毛病。反正总体体验下来，百度文库在AI生成PPT功能上，确实有些降维打击同行了……而在未来，我则希望百度文库的AI能往定制化更高的方向发展。类似于能模仿差评君的行文风格、配图习惯这类的。到时候就真成了可定制的私人PPT小秘书了。而除了PPT生成功能之外，百度文库这次其实还上线了不少其他有趣的东西。像是智能总结和智能问答功能，就挺实用的。其中，差评君就把国内某知名游戏厂商的近万字用户协议，扔给了AI。轻轻一点文档总结功能，近万字的文档直接就被概括成了一段话。而且，咱们还能继续向AI提问文档里的一些细节内容。比如我也是问了AI才知道，原来我在XX游戏的游戏账号，所有权不在我……反正这种AI智能问答的形式，肯定比逐字逐句抠文档内容来得有效率。最后总得来说，体验完百度文库的这波更新，差评君觉得以后做PPT这类的事儿，确实交给AI来就行了。并且，我看到了一种趋势，那就是办公软件的门槛，正在越来越低。要知道作为咱们熟悉办公工具，Office有80%的功能用户一辈子都用不上，PPT一共有1675个功能。但是大伙们平常能使用上的却只有5%。无数打工人就这样，把青春耗在了学习难用的办公软件，和与办公软件打交道上。而百度文库等在AI上的发展，很有可能让创作不再从“新建文档”、“新建PPT”开始。让大伙们用自然语言使唤AI，就能开始一次创作。大伙们也将有更多的精力和时间，花在那些更有创造力的事儿上。在不久的以后，像是什么30天学会Office、7天速通PPT之类的课程可能也会逐渐成为时代的眼泪。毕竟，应该是人使用工具，而不是被工具所“奴役”。PS:感兴趣的差友，来“百度文库”体验吧！（网页端，APP都已上线）...PC版：https://www.cnbeta.com.tw/articles/soft/1381093.htm手机版：https://m.cnbeta.com.tw/view/1381093.htm

谷歌正在将听不见的水印直接嵌入到其 AI 生成的音乐中

谷歌正在将听不见的水印直接嵌入到其AI生成的音乐中使用谷歌DeepMind的AILyria模型创建的音频，例如使用YouTube的新音频生成功能制作的曲目，将带有SynthID水印，以便人们在事后识别其AI生成的来源。DeepMind在一篇博客文章中表示，水印不会被人耳察觉到，并且“不会影响聆听体验”。并补充说，即使音轨被压缩、加速或降低或者增加了额外的噪音，该水印仍然是可以被检测到的。像SynthID这样的水印工具被视为防范生成式人工智能的某些危害的重要保障。例如，拜登总统关于人工智能的行政命令呼吁制定一套由政府主导的新标准，为人工智能生成的内容添加水印。——

【Meta推出AI生成式音乐工具】

【Meta推出AI生成式音乐工具】2023年08月04日05点57分老不正经报道，Facebook和Instagram的母公司Meta推出了一套生成式人工智能模型，称为AudioCraft，目的是通过各种输入进行音乐创作。这套生成式人工智能工具包括MusicGen和AudioGen，它们通过基于文本的输入来创建新的音频，还有另一个名为EnCodec的工具，它可以用更少的音损生成更高质量的音乐。Meta在公告中提到，其MusicGen模型是用其拥有或专门许可的音乐进行训练的。此工具可与谷歌今年发布的类似工具MusicLM相媲美。

Stability AI发布免费音频生成工具可创作AI歌曲

StabilityAI发布免费音频生成工具可创作AI歌曲而StableAudio2.0提供了完整的三分钟音频片段，这个长度的歌曲大多数适合电台播放，而所有上传的音频必须是无版权的。据了解，与OpenAI的音频生成模型VoiceEngine只向一小部分用户开放不同，StabilityAI通过其网站免费向公众提供StableAudio，未来将很快提供API接口。StabilityAI表示，StableAudio2.0与其早期版本的一个主要区别在于，它能够创建与真实歌曲相似的歌曲结构，包括有序幕、进展和尾声。不过，已经试玩StableAudio2.0的媒体表示，这个水平的AI歌曲距离帮助用户用音乐表达想法，差距依然比较大。例如，有用户用“带有美国风格的民谣流行歌曲”（美国乡村音乐）作为提示，StableAudio生成的歌曲在某些部分听起来有山谷清晨的氛围，并且疑似加入了人声。理论上，StableAudio2.0的新功能允许用户调整生成的AI音频作品，使作品更符合用户的听歌风格。例如可以调整遵循提示程度，或设置转换所上传音频的哪一部分，用户还可以添加像人群的吼声或键盘敲击等音效。然而，这种AI歌曲最大的问题在于，让人感觉毫无灵魂。但这并不令人感到惊讶，因为这和其他大厂的AI音频问题一样。例如，如Meta和Google也一直在尝试AI音频生成，但两家公司都没有公开发布他们的模型，因为他们仍在收集开发者的反馈，来解决AI歌曲无灵魂的问题。StabilityAI在一份新闻稿中说，StableAudio是在AudioSparx的数据上训练的，后者拥有超过800，000个音频文件的库。不过，这些音频可能出现版权纠纷。StabilityAI表示，作品被纳入AudioSparx的艺术家可以选择退出，以避免他们的作品用于训练模型。其实，使用版权音频训练模型是StabilityAI的前音频副总裁EdNewton-Rex在StableAudio发布后不久就离开公司的原因之一。对于2.0版本，StabilityAI说它与AudibleMagic合作，使用其内容识别技术来追踪和阻止版权音频进入平台。总之，StableAudio2.0的确让AI歌曲比之前更像真正的歌曲，但还是没有完全达到这个目标。媒体表示，如果StableAudio2.0模型坚持添加某种人声，也许下一个版本的AI音频作品会出现更能令人分辨的语言。...PC版：https://www.cnbeta.com.tw/articles/soft/1426117.htm手机版：https://m.cnbeta.com.tw/view/1426117.htm

文字可生成音乐！Meta发布的AI工具AudioCraft有何不同之处？

文字可生成音乐！Meta发布的AI工具AudioCraft有何不同之处？（来源：Meta官网）Meta在官网介绍称，MusicGen接受过Meta拥有的和特别授权的音乐训练，可以从文本提示生成音乐，而AudioGen接受过公共音效训练，可从文本提示生成音频，比如模拟狗叫或脚步声；再加上EnCodec编解码器的改进版本，用户可以更高效率地生成更高质量的音乐。在6月初，Meta推出了名为MusicGen的开源人工智能模型，这是一种深度学习语言模型，可以根据文本提示生成音乐。Meta的EnCodec是一个基于深度学习的音频编解码器，由人工智能驱动，可以在音频质量没有损失的前提下，将音频压缩到比MP3格式还要小10倍的程度。AudioGen则是一个来自Meta和耶路撒冷希伯来大学的研究团队的人工智能模型，可以通过输入文本来生成音频，亦可以扩展现有音频。AudioGen可以区分不同的声音对象，并在声学上将它们分开。Meta还演示了MusicGen和AudioGen工作的流程图，并表示将让这些模型开源，让研究人员和从业人员可以用自己的数据集训练适合自己的模型，并帮助推进人工智能生成音频和音乐领域的发展。与其他音乐模型相比，AudioCraft系列模型能够生成长期一致的高质量音乐和音频，还简化了音频生成模型的整体设计，使得该工具简单易用。Meta相信它的模型可以引领新一波歌曲潮流，就像合成器改变音乐一样。“我们认为MusicGen可以变成一种新型的乐器，就像最初出现的合成器一样。”当然，Meta也承认创作复杂而又优秀的音乐还是比较困难的，因此它选择将AudioCraft开源，以使用于训练它的数据多样化。今年早些时候，谷歌也发布了名为MusicLM的音乐生成模型，并于5月向上月向所有用户开放。除此之外，目前较为常见的音乐模型还有Riffusion、Mousai和Noise2Music等。...PC版：https://www.cnbeta.com.tw/articles/soft/1374669.htm手机版：https://m.cnbeta.com.tw/view/1374669.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人