国外爆火emo模型国内上线了，阿里可以让人像照片变成唱歌视频的项目 EMO 终于发布了，体验了一下非常强。

国外爆火emo模型国内上线了，阿里可以让人像照片变成唱歌视频的项目EMO终于发布了，体验了一下非常强。一张简单的照片加上克隆的语音模型，就可以定制自己的数字人出镜。Heygen之类的产品都需要录制一段相当长的视频，并且算力成本也很高，这个直接是免费的。明天开放公测，想要提前体验的同学可以找我要一个内测邀请码。而且不局限于写实的人像，3D模型、二次元漫画都可以生成视频，生成一张自己喜欢的二次元图片然后加上自己的克隆语音就可以当Vtuber了。EMO效果为什么这么自然：通过阅读EMO的论文发现，他们在talkinghead领域首次提出了weakcondition（弱控制）的设计，即剔除掉了任何针对人脸的显示表征建模，转而采用一些相对较弱的控制条件来引导diffusion去噪过程，这一点其实灵感来源于文生图模型中，采用粗粒度的prompt描述来生成图片。他们在算法pipeline中加入了facelocator和speedlayers，分别用来控制人脸的生成区域（人头摆动幅度）与人头的动作频率。通过这些操作，可以最大化地保留diffusion模型强大的生成创造能力，由于没有针对表情的显示表征的限制，所生成的人脸表情都会有较高的丰富度，从而表现力有较大的提升EMO没有针对人脸生成做过多的控制，人物会做什么表情，头部会如何运动，都是由模型从数据中学习到相关的知识决定。表情、口型的一致如何保证：模型会在训练中找到音频特征与图像中像素的对应关系，从而放大音频特征对于这些相关像素的影响，比如嘴部，眉眼等位置的像素，让图像中的人物表情口型与音频特征保持一致。EMO在250小时的人物讲话视频上训练，不仅仅找到了audio中具体发音与人像口型的匹配关系，更重要是发现了音频中的语气特征与人物表情的关联性，从而将音频中的语气特征，甚至暗含的情绪色彩反映到了人物微表情上，它模型在训练中慢慢学习并编码了人类表达情绪的能力。

在Telegram中查看

相关推荐

阿里云的AI模型EMO上线通义App，允许用户通过照片和音频生成唱歌视频

阿里云的AI模型EMO上线通义App，允许用户通过照片和音频生成唱歌视频由通义实验室研发的AI模型EMO已在通义App上线，供用户免费使用。EMO是一个音频驱动的AI肖像视频生成系统，能够根据输入的参考图像和语音音频生成具有表现力的面部表情和头部姿势视频。用户可以选择多种模板，如热门歌曲或网络热梗，上传肖像照片后，EMO将合成相应的唱歌视频。目前，App提供了80多个模板，但不支持自定义音频。EMO的主要特点包括音频驱动的视频生成、高表现力和逼真度、无缝帧过渡、身份保持、稳定的控制机制、灵活的视频时长以及跨语言和风格的适应能力。此外，EMO的官方项目主页、研究论文和GitHub链接均已提供，模型和源码将待开源。关注频道@TestFlightCN

2月28日，阿里巴巴智能计算研究所发布了一款全新的生成式AI模型EMO（Emote Portrait Alive）。EMO仅需一

2月28日，阿里巴巴智能计算研究所发布了一款全新的生成式AI模型EMO（EmotePortraitAlive）。EMO仅需一张人物肖像照片和音频，就可以让照片中的人物按照音频内容“张嘴”唱歌、说话，且口型基本一致，面部表情和头部姿态非常自然。EMO不仅能够生成唱歌和说话的视频，还能在保持角色身份稳定性的同时，根据输入音频的长度生成不同时长的视频。()https://humanaigc.github.io/emote-portrait-alive/线索：@ZaiHuabot投稿：@TNSubmbot频道：@TestFlightCN

AI 根据声音内容帮照片“对口型”，蚂蚁集团开源 EchoMimic 项目

AI根据声音内容帮照片“对口型”，蚂蚁集团开源EchoMimic项目蚂蚁集团开源了名为的新项目，其能够通过人像面部特征和音频来帮人物“对口型”，结合面部标志点和音频内容生成较为稳定、自然的视频。该项目具备较高的稳定性和自然度，通过融合音频和面部标志点（面部关键特征和结构，通常位于眼、鼻、嘴等位置）的特征，可生成更符合真实面部运动和表情变化的视频。其支持单独使用音频或面部标志点生成肖像视频，也支持将音频和人像照片相结合做出“对口型”一般的效果。据悉，其支持多语言（包含中文普通话、英语）及多风格，也可应对唱歌等场景。来源，频道：@kejiqu群组：@kejiquchat

微软推出VASA-1 AI框架，实现高分辨率逼真对口型人像视频的即时生成

微软推出VASA-1AI框架，实现高分辨率逼真对口型人像视频的即时生成微软公布了其最新研发的VASA-1AI框架，该技术能够利用一张真人肖像照片和一段个人语音音频，生成精确且逼真的对口型视频。这项技术特别注重面部表情和头部动作的自然性，解决了以往面部生成技术中存在的僵硬和缺乏说服力的问题，克服了恐怖谷现象。VASA-1框架通过扩散Transformer模型进行面部动态和头部运动的训练，将嘴唇动作、表情、眼睛注视和眨眼等行为视为单一潜在变量，实现了512×512分辨率40FPS的视频生成。此外，微软还采用了3D技术辅助标记人脸面部特征，并设计了损失函数，以增强面部3D结构的捕捉和重现能力。关注频道：@TestFlightCN

4月26日消息，阿里通义实验室研发的视频生成模型EMO昨天上线通义APP，免费对所有人开放，应用全量开放的瞬间，通义APP一度被

4月26日消息，阿里通义实验室研发的视频生成模型EMO昨天上线通义APP，免费对所有人开放，应用全量开放的瞬间，通义APP一度被挤爆，需要排队数小时。在通义APP的“全民舞台”频道内，用户上传一张肖像照就能让图中人物唱歌说话，嘴型、表情、神态都栩栩如生。EMO自2月底公布模型论文以来在海内外引发广泛关注，外媒将其与OpenAI的Sora模型相提并论，国内外多家科技巨头快速跟进同类模型的研发。据悉，通义实验室已接到大量企业客户的问询，正在加速推进算法迭代和安全策略论证，将尽快开放企业客户合作。（全天候科技）

阿里云通义千问 App 上线“通义舞王”：一张照片就能生成跳舞视频

阿里云旗下的通义千问App近日上线了一项免费的新功能“通义舞王”：用户在按照提示要求上传照片后，经过十几分钟的等待，即可自动生成舞蹈视频。据介绍，该功能背后的算法为阿里通义实验室自研的视频生成模型AnimateAnyone。用户使用人物全身照片生成的舞蹈视频号称能够保留原始形象的面部表情、身材比例、服装乃至背景等特征。当前该功能内置了12种舞蹈模板，包括当前较为热门的“科目三”，还有蒙古舞、划桨舞、鬼步舞等等。via匿名标签:#通义千问频道:@GodlyNews1投稿:@GodlyNewsBot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人