2月28日,阿里巴巴智能计算研究所发布了一款全新的生成式AI模型EMO(Emote Portrait Alive)。EMO仅需一

2月28日,阿里巴巴智能计算研究所发布了一款全新的生成式AI模型EMO(EmotePortraitAlive)。EMO仅需一张人物肖像照片和音频,就可以让照片中的人物按照音频内容“张嘴”唱歌、说话,且口型基本一致,面部表情和头部姿态非常自然。EMO不仅能够生成唱歌和说话的视频,还能在保持角色身份稳定性的同时,根据输入音频的长度生成不同时长的视频。()https://humanaigc.github.io/emote-portrait-alive/线索:@ZaiHuabot投稿:@TNSubmbot频道:@TestFlightCN

相关推荐

封面图片

阿里云的AI模型EMO上线通义App,允许用户通过照片和音频生成唱歌视频

阿里云的AI模型EMO上线通义App,允许用户通过照片和音频生成唱歌视频由通义实验室研发的AI模型EMO已在通义App上线,供用户免费使用。EMO是一个音频驱动的AI肖像视频生成系统,能够根据输入的参考图像和语音音频生成具有表现力的面部表情和头部姿势视频。用户可以选择多种模板,如热门歌曲或网络热梗,上传肖像照片后,EMO将合成相应的唱歌视频。目前,App提供了80多个模板,但不支持自定义音频。EMO的主要特点包括音频驱动的视频生成、高表现力和逼真度、无缝帧过渡、身份保持、稳定的控制机制、灵活的视频时长以及跨语言和风格的适应能力。此外,EMO的官方项目主页、研究论文和GitHub链接均已提供,模型和源码将待开源。关注频道@TestFlightCN

封面图片

国外爆火emo模型国内上线了,阿里可以让人像照片变成唱歌视频的项目 EMO 终于发布了,体验了一下非常强。

国外爆火emo模型国内上线了,阿里可以让人像照片变成唱歌视频的项目EMO终于发布了,体验了一下非常强。一张简单的照片加上克隆的语音模型,就可以定制自己的数字人出镜。Heygen之类的产品都需要录制一段相当长的视频,并且算力成本也很高,这个直接是免费的。明天开放公测,想要提前体验的同学可以找我要一个内测邀请码。而且不局限于写实的人像,3D模型、二次元漫画都可以生成视频,生成一张自己喜欢的二次元图片然后加上自己的克隆语音就可以当Vtuber了。EMO效果为什么这么自然:通过阅读EMO的论文发现,他们在talkinghead领域首次提出了weakcondition(弱控制)的设计,即剔除掉了任何针对人脸的显示表征建模,转而采用一些相对较弱的控制条件来引导diffusion去噪过程,这一点其实灵感来源于文生图模型中,采用粗粒度的prompt描述来生成图片。他们在算法pipeline中加入了facelocator和speedlayers,分别用来控制人脸的生成区域(人头摆动幅度)与人头的动作频率。通过这些操作,可以最大化地保留diffusion模型强大的生成创造能力,由于没有针对表情的显示表征的限制,所生成的人脸表情都会有较高的丰富度,从而表现力有较大的提升EMO没有针对人脸生成做过多的控制,人物会做什么表情,头部会如何运动,都是由模型从数据中学习到相关的知识决定。表情、口型的一致如何保证:模型会在训练中找到音频特征与图像中像素的对应关系,从而放大音频特征对于这些相关像素的影响,比如嘴部,眉眼等位置的像素,让图像中的人物表情口型与音频特征保持一致。EMO在250小时的人物讲话视频上训练,不仅仅找到了audio中具体发音与人像口型的匹配关系,更重要是发现了音频中的语气特征与人物表情的关联性,从而将音频中的语气特征,甚至暗含的情绪色彩反映到了人物微表情上,它模型在训练中慢慢学习并编码了人类表达情绪的能力。

封面图片

微软的 VASA-1 模型根据一张照片和一条音轨生成该人的说话视频

微软的VASA-1模型根据一张照片和一条音轨生成该人的说话视频微软亚洲研究院发布了模型,该模型能根据一个人的一张照片和一条音轨生成其说话或唱歌的同步动画视频。VASA代表VisualAffectiveSkillsAnimator,它使用了机器学习分析静态图像和音频片段,然后生成有精确面部表情、头部运动以及与音频口型同步的逼真视频。微软声称该模型在真实性、表现力和效率方面显著优于以前的语音动画方法。微软研究员使用了VoxCeleb2数据集训练了VASA-1。该数据集包含了6112位名人的逾100万条话语,提取自上传到YouTube的视频。VASA-1能以每秒最高40帧的速度生成512x512像素分辨率的视频,它潜在可用于深度伪造,研究人员没有公开模型源代码。来源,频道:@kejiqu群组:@kejiquchat

封面图片

AI 根据声音内容帮照片“对口型”,蚂蚁集团开源 EchoMimic 项目

AI根据声音内容帮照片“对口型”,蚂蚁集团开源EchoMimic项目蚂蚁集团开源了名为的新项目,其能够通过人像面部特征和音频来帮人物“对口型”,结合面部标志点和音频内容生成较为稳定、自然的视频。该项目具备较高的稳定性和自然度,通过融合音频和面部标志点(面部关键特征和结构,通常位于眼、鼻、嘴等位置)的特征,可生成更符合真实面部运动和表情变化的视频。其支持单独使用音频或面部标志点生成肖像视频,也支持将音频和人像照片相结合做出“对口型”一般的效果。据悉,其支持多语言(包含中文普通话、英语)及多风格,也可应对唱歌等场景。来源,频道:@kejiqu群组:@kejiquchat

封面图片

4月26日消息,阿里通义实验室研发的视频生成模型EMO昨天上线通义APP,免费对所有人开放,应用全量开放的瞬间,通义APP一度被

4月26日消息,阿里通义实验室研发的视频生成模型EMO昨天上线通义APP,免费对所有人开放,应用全量开放的瞬间,通义APP一度被挤爆,需要排队数小时。在通义APP的“全民舞台”频道内,用户上传一张肖像照就能让图中人物唱歌说话,嘴型、表情、神态都栩栩如生。EMO自2月底公布模型论文以来在海内外引发广泛关注,外媒将其与OpenAI的Sora模型相提并论,国内外多家科技巨头快速跟进同类模型的研发。据悉,通义实验室已接到大量企业客户的问询,正在加速推进算法迭代和安全策略论证,将尽快开放企业客户合作。(全天候科技)

封面图片

AtomoVideo:阿里巴巴开发的高保真图像到视频生成开源模型 可以生成符合真实世界运动状态的

:阿里巴巴开发的高保真图像到视频生成开源模型可以生成符合真实世界运动状态的视频主要功能:1、高保真视频生成:AtomoVideo可以从单一静态图像生成高保真的视频序列,视频中的内容不仅与原始图片保持高度一致,而且动作自然流畅。2、动作强度和连贯性:AtomoVideo生成的视频具有自然流畅的动作和良好的时间连贯性。视频中的运动看起来既自然又符合逻辑,没有突兀或不自然的过渡。为了让视频里的动作看起来自然,AtomoVideo引入了时间卷积和时间注意力模块,这些模块专门处理视频帧之间的时间关系,帮助模型预测下一帧画面的变化,从而实现连贯的视频动作。AtomoVideo会特别处理视频的时间信息,让图片中的物体像在真实世界那样随时间移动和变化。3、个性化适配:AtomoVideo能够与不同的个性化文本到图像(T2I)模型兼容,无需进行特定调整,这让它能够广泛适用于各种场景。AtomoVideo还能结合文字描述来生成视频。比如,你给它一张静态的海边图片,并告诉它“海浪轻轻拍打沙滩”,它就能根据这个描述生成一段海浪真的拍打沙滩的视频。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人