Meta AI驱动的音频编解码器比MP3压缩率高10倍

MetaAI驱动的音频编解码器比MP3压缩率高10倍Meta公司于10月25日在一篇题为"高保真神经音频压缩"的论文中首次介绍了这项技术,论文作者是Meta公司的人工智能研究员AlexandreDéfossez、JadeCopet、GabrielSynnaeve和YossiAdi。Meta公司还在其专门介绍EnCodec的博客上总结了这项研究。Meta公司将其方法描述为一个由三部分组成的系统,经过训练可将音频压缩到所需的目标大小。首先,编码器将未压缩的数据转换为较低帧率的"潜空间"表示。然后,"量化器"将该表示法压缩到目标大小,同时跟踪最重要的信息,这些信息随后将被用于重建原始信号。(这个压缩信号将通过网络发送或保存在磁盘上)。最后,解码器使用一个神经网络在单个CPU上将压缩的数据实时地转变成音频。一个方框图说明Meta的EnCodec压缩是如何工作的Meta对鉴别器的使用被证明是创造一种尽可能多地压缩音频的方法的关键,同时又不失去信号的关键元素,使其与众不同并可被识别。"有损压缩的关键是识别人类无法察觉的变化,因为在低比特率下不可能实现完美的重建。为了做到这一点,我们使用鉴别器来提高生成的样本的感知质量。这就形成了一个猫捉老鼠的游戏,鉴别器的工作就是区分真实的样本和重建的样本。压缩模型试图通过推动重建的样本与原始样本在感知上更加相似来生成样本以欺骗鉴别器"。值得注意的是,使用神经网络进行音频压缩和解压远非新鲜事,特别是用于语音压缩时,但Meta公司的研究人员声称他们是第一个将该技术应用于48kHz立体声音频(比CD的44.1kHz采样率略好)的工作小组,这是在互联网上传播的最典型的音乐文件。至于应用方面,Meta公司表示,这种由人工智能驱动的"超压缩音频"可以在恶劣的网络条件下支持"更快、更优质的通话"。当然,作为Meta公司,研究人员还提到了EnCodec的元数据影响,说该技术最终可以提供"丰富的元数据体验,而不需要大幅提高带宽"。除此之外,也许有一天我们还能从它那里得到更小的音乐音频文件。目前,Meta公司的新技术仍处于研究阶段,但它指向一个高质量音频可以使用更少带宽的未来,这对流媒体造成网络负担过重的移动宽带供应商来说是个好消息。...PC版:https://www.cnbeta.com.tw/articles/soft/1331655.htm手机版:https://m.cnbeta.com.tw/view/1331655.htm

相关推荐

封面图片

Meta 开源全新音频压缩技术 EnCodec,比 MP3 小 10 倍

Meta开源全新音频压缩技术EnCodec,比MP3小10倍Meta旗下基础人工智能研究(FAIR)团队在AI驱动的音频超压缩领域取得了成功,构建了一个由三部分组成的系统,并对其进行端到端训练,以将音频数据压缩到目标大小,然后可以使用神经网络对这些数据进行解码。与64kbps的MP3相比,Meta的新技术EnCodec实现了大约10倍的压缩率,而且没有质量损失。Meta表示,该技术尚未涵盖视频,但目前已在计划中,其目标是改进视频会议、流媒体电影以及在VR中与朋友玩游戏等的音频体验。来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

高通推出 aptX Lossless 蓝牙音频编解码器:蓝牙能听无损 CD 音质了

高通推出aptXLossless蓝牙音频编解码器:蓝牙能听无损CD音质了高通aptXLossless是第一个蓝牙音频无损编解码器,它可以通过蓝牙精确传输CD质量(16bit/44.1kHz)的音频。压缩过程会将CD的1.4Mbps比特率纳入更有限的1Mbps带宽。亦可以用于传输24bit/96kHz有损压缩音频流。()比SONYLDAC的990kbps要高一丁点

封面图片

用你自己的声音说外语:跨语言神经编解码器语言模型 VALL-E X

用你自己的声音说外语:跨语言神经编解码器语言模型VALL-EX微软亚洲研究院发布VALL-E的扩展VALL-EX,它可以通过一个几秒的源语音片段来生成目标语言的语音,同时保留说话者的声音、情感和声学环境。VALL-EX不需要说话人的跨语言语音进行训练即可执行各种语音生成任务,例如跨语言文本到语音、语音合成和语音到语音翻译。VALL-E基于Meta在2022年10月开源的EnCodec技术之上,同时在Meta组建的LibriLight音频库进行训练,音频库包含了来自7000多名演讲者的6万小时英语演讲,大部分来自LibriVox公共领域的有声读物。中展示了"中文语音转英文语音"、"英文语音转中文语音"、"英语文本转中文语音"等各种场景。投稿:@ZaiHuabot频道:@TestFlightCN

封面图片

微软确认Windows 11 24H2弃用杜比数字AC-3编解码器

微软确认Windows1124H2弃用杜比数字AC-3编解码器安装Windows1124H2并尝试播放AC-3编解码器中的旧媒体内容时,媒体播放器将无法打开。这包括Windows11的现代媒体播放器和其他能够播放音频的内置应用程序。默认情况下,Windows1124H2将不再包含AC-3编解码器(通常称为杜比数字)。微软在本周早些时候悄悄发布的一份支持文档中证实了这一变化。该文件指出,Windows将继续支持FLAC或ALAC等流行的编解码器,但"从24H2版开始,Windows不再包含AC-3编解码器"。"在Windows11版本24H2之前的Windows版本中,包含AC-3编解码器。从Windows11版本24H2开始,AC-3编解码器不再包含在Windows中。不过,微软证实一些设备可能会继续使用AC-3编解码器,但这仅限于制造商选择预装的情况。例如,如果OEM是杜比公司的紧密合作伙伴,就可能预装AC-3编解码器。手动添加AC-3编解码器后,您仍然可以在本地应用程序中播放使用AC-3音频编解码器(杜比数字)编码的文件。AC-3编解码器(杜比数字)于上世纪90年代问世,目前正逐渐被淘汰,因此这一举措并不令人惊讶。所有流媒体平台和媒体公司在编码新媒体文件时都已停止使用该编解码器。不过,你可能还会遇到一些以AC-3编解码器编码的老文件,因为这种编解码器曾经在音频市场上占有重要地位。在这种情况下,您将无法使用Windows11上的原生应用程序播放音频文件,但您可以随时切换到更好的替代程序,如开源MPV播放器。微软表示,它致力于支持流行的现代编解码器。该公司继续通过MicrosoftStore中的"包"提供一些编解码器。这些编解码器包包括MPEG-2VideoExtension、HEVCVideoExtension、VP9VideoExtension、AV1VideoExtension和WebMediaExtension。该公司还澄清说,它不会取消对旧版本Windows中AC-3编解码器的支持。除AC-3编解码器外,Windows1124H2还将移除Cortana、WordPad、StepsRecorder和其他一些传统服务。该更新将于9月/10月开始在现有PC上推出。...PC版:https://www.cnbeta.com.tw/articles/soft/1432729.htm手机版:https://m.cnbeta.com.tw/view/1432729.htm

封面图片

Meta 发布开源 AI 工具 AudioCraft,用户可通过文本提示创作音乐、音频

Meta发布开源AI工具AudioCraft,用户可通过文本提示创作音乐、音频Meta开源了一款生成式AI工具AudioCraft,可帮助用户通过文本提示创作音乐和音频。根据Meta官方介绍,AudioCraft包含了三个核心组件:1、MusicGen:使用Meta拥有/特别授权的音乐进行训练,根据文本提示生成音乐。2、AudioGen:使用公共音效进行训练生成音频或扩展现有音频,后续还可生成环境音效(如狗叫、汽车鸣笛、木地板上的脚步声)。3、EnCodec(改进版):基于神经网络的音频压缩解码器,可生成更高质量的音乐并减少人工痕迹,或对音频文件进行无损压缩。该工具经过开源之后,相关研究人员和从业人员可以使用自己的数据集训练模型。官方宣称AudioCraft系列模型能够长期稳定地生成高质量音频,而且易于使用,能够为音乐家和声音设计师“提供灵感”,帮助他们快速集思广益,并“以新的方式迭代他们的作品”。AudioCraft项目地址:——、

封面图片

谷歌发布 Lyra V2 超低比特率语音编解码器,可在 56kbps 网速下语音聊天

谷歌发布LyraV2超低比特率语音编解码器,可在56kbps网速下语音聊天谷歌宣布了用于低比特率的Lyra语音编解码器,与开放的AV1编解码器相结合,可以在56kbps的网速下实现语音聊天。Lyra利用机器学习和其它技术进行极低比特率的语音压缩,甚至可以在3kbps的速度下工作。谷歌去年开放了Lyra的代码。来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人