微软的 VASA-1 模型根据一张照片和一条音轨生成该人的说话视频

微软的VASA-1模型根据一张照片和一条音轨生成该人的说话视频微软亚洲研究院发布了模型，该模型能根据一个人的一张照片和一条音轨生成其说话或唱歌的同步动画视频。VASA代表VisualAffectiveSkillsAnimator，它使用了机器学习分析静态图像和音频片段，然后生成有精确面部表情、头部运动以及与音频口型同步的逼真视频。微软声称该模型在真实性、表现力和效率方面显著优于以前的语音动画方法。微软研究员使用了VoxCeleb2数据集训练了VASA-1。该数据集包含了6112位名人的逾100万条话语，提取自上传到YouTube的视频。VASA-1能以每秒最高40帧的速度生成512x512像素分辨率的视频，它潜在可用于深度伪造，研究人员没有公开模型源代码。来源，频道：@kejiqu群组：@kejiquchat

在Telegram中查看

相关推荐

微软这个VASA-1通过照片和声音生成人物说话视频的项目强的有点离谱。

微软这个VASA-1通过照片和声音生成人物说话视频的项目强的有点离谱。从显示效果来看基本不存在瑕疵了。视频生成的技术瓶颈又一个被突破。项目特点：可以捕捉到大量的情感和表情细微差别以及自然的头部动作，从而增强真实感和生动感。支持接受可选信号作为条件，例如主眼注视方向和头部距离，以及情绪偏移。能够处理超出训练分布的照片和音频输入。它可以处理艺术照片、歌唱音频和非英语语音。支持表情和姿势的编辑。在离线批处理模式下以每秒45帧的速度生成512x512大小的视频帧，在在线流模式下可支持高达每秒40帧的速度，之前的延迟时间仅为170毫秒。项目地址：https://www.microsoft.com/en-us/research/project/vasa-1/

微软展示VASA-1人工智能模型能将照片变成"会说话的人脸"

微软展示VASA-1人工智能模型能将照片变成"会说话的人脸"该模型目前只是研究预览版，微软研究团队以外的任何人都无法试用，但演示视频看起来令人印象深刻。Runway和NVIDIA已经推出了类似的唇部同步和头部运动技术，但这种技术的质量和逼真度似乎要高得多，可以减少嘴部伪影。这种音频驱动动画的方法也与Google研究院最近推出的VLOGGER人工智能模型类似。VASA-1如何工作？微软表示，这是一个新的框架，用于创建栩栩如生的会说话的人脸，专门用于虚拟人物的动画制作。示例中的所有人物都是合成的，是用DALL-E制作的，但如果它能为逼真的人工智能图像制作动画，那么它也能为真实的照片制作动画。在演示中，我们看到人们说话时就像在被拍摄一样，动作略显生涩，但看起来非常自然。唇语同步令人印象深刻，动作自然，嘴部上下没有其他工具中出现的假象。VASA-1最令人印象深刻的一点似乎是，它不需要正面朝上的人像图像就能工作。其中有面向不同方向拍摄的例子。该模型似乎还具有很强的控制能力，能够将眼睛注视的方向、头部距离甚至情绪作为输入来引导生成。VASA-1的意义何在？其中一个最明显的应用案例就是游戏中的高级唇语同步。如果能创造出具有自然唇部动作的人工智能驱动的NPC，就能改变游戏的沉浸感。它还可用于为社交媒体视频创建虚拟化身，HeyGen和Synthesia等公司已经采用了这种技术。另一个领域是基于人工智能的电影制作。如果能让人工智能歌手看起来像在唱歌，就能制作出更逼真的音乐视频。尽管如此，该团队表示，这只是一次研究演示，并没有公开发布的计划，甚至也不会提供给开发人员在产品中使用。VASA-1的效果如何？让研究人员感到惊讶的是，VASA-1能够完美地对歌曲进行歌词嘴型同步，尽管训练数据集中没有使用音乐，但它仍能毫无问题地反映歌手的歌词。它还能处理不同风格的图像，包括蒙娜丽莎。他们让它以每秒45帧的速度创建512x512像素的图像，使用桌面级NVIDIARTX4090GPU可在大约2分钟内完成。虽然他们说这只是用于研究，但如果它不能进入公共领域，那就太可惜了，即使只是面向开发者，鉴于微软在OpenAI中拥有巨大的股份，这甚至可能成为未来CopilotSora集成的一部分。...PC版：https://www.cnbeta.com.tw/articles/soft/1427876.htm手机版：https://m.cnbeta.com.tw/view/1427876.htm

阿里云的AI模型EMO上线通义App，允许用户通过照片和音频生成唱歌视频

阿里云的AI模型EMO上线通义App，允许用户通过照片和音频生成唱歌视频由通义实验室研发的AI模型EMO已在通义App上线，供用户免费使用。EMO是一个音频驱动的AI肖像视频生成系统，能够根据输入的参考图像和语音音频生成具有表现力的面部表情和头部姿势视频。用户可以选择多种模板，如热门歌曲或网络热梗，上传肖像照片后，EMO将合成相应的唱歌视频。目前，App提供了80多个模板，但不支持自定义音频。EMO的主要特点包括音频驱动的视频生成、高表现力和逼真度、无缝帧过渡、身份保持、稳定的控制机制、灵活的视频时长以及跨语言和风格的适应能力。此外，EMO的官方项目主页、研究论文和GitHub链接均已提供，模型和源码将待开源。关注频道@TestFlightCN

Generating audio for video：DeepMind视频音频生成技术，为无声创造同步音轨的创新工具，结合视

：DeepMind视频音频生成技术，为无声视频创造同步音轨的创新工具，结合视频像素和自然语言提示生成丰富的音景-DeepMind研发了视频到音频(V2A)技术，可以利用视频像素和文本提示生成与视频同步的丰富音轨。-V2A可与像Veo这样的视频生成模型配合使用，为视频添加戏剧性配乐、逼真音效或与视频角色和语气匹配的对话。-V2A也可以为各类传统镜头生成音轨，如档案素材、无声电影等，拓宽创作空间。-V2A支持无限生成音轨，允许定义正向和负向提示来指导生成所需的音频。-V2A使用基于扩散的方法，先编码视觉输入，然后模型逐步从随机噪声中提炼音频。这个过程同时利用视觉输入和文本提示进行指导。-为提高音频质量，训练中加入了AI生成的含音频详细描述和语音转录的注释信息。-V2A可理解原始像素，添加文本提示是可选的。它也无需人工调整生成音频与视频的对齐。-当前局限包括视频失真可影响音频质量，语音同步存在待改进之处。-DeepMind将采取负责任的方式开发和部署V2A，正在与顶级创作者合作改进技术，并加入合成识别工具SynthID以防范技术误用。-V2A正在进行安全评估，初始结果显示它是使生成视频栩栩如生的有前景技术。

阿里云通义千问 App 上线“通义舞王”：一张照片就能生成跳舞视频

阿里云旗下的通义千问App近日上线了一项免费的新功能“通义舞王”：用户在按照提示要求上传照片后，经过十几分钟的等待，即可自动生成舞蹈视频。据介绍，该功能背后的算法为阿里通义实验室自研的视频生成模型AnimateAnyone。用户使用人物全身照片生成的舞蹈视频号称能够保留原始形象的面部表情、身材比例、服装乃至背景等特征。当前该功能内置了12种舞蹈模板，包括当前较为热门的“科目三”，还有蒙古舞、划桨舞、鬼步舞等等。via匿名标签:#通义千问频道:@GodlyNews1投稿:@GodlyNewsBot

2月28日，阿里巴巴智能计算研究所发布了一款全新的生成式AI模型EMO（Emote Portrait Alive）。EMO仅需一

2月28日，阿里巴巴智能计算研究所发布了一款全新的生成式AI模型EMO（EmotePortraitAlive）。EMO仅需一张人物肖像照片和音频，就可以让照片中的人物按照音频内容“张嘴”唱歌、说话，且口型基本一致，面部表情和头部姿态非常自然。EMO不仅能够生成唱歌和说话的视频，还能在保持角色身份稳定性的同时，根据输入音频的长度生成不同时长的视频。()https://humanaigc.github.io/emote-portrait-alive/线索：@ZaiHuabot投稿：@TNSubmbot频道：@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人