微软这个VASA-1通过照片和声音生成人物说话视频的项目强的有点离谱。
微软这个VASA-1通过照片和声音生成人物说话视频的项目强的有点离谱。从显示效果来看基本不存在瑕疵了。视频生成的技术瓶颈又一个被突破。项目特点:可以捕捉到大量的情感和表情细微差别以及自然的头部动作,从而增强真实感和生动感。支持接受可选信号作为条件,例如主眼注视方向和头部距离,以及情绪偏移。能够处理超出训练分布的照片和音频输入。它可以处理艺术照片、歌唱音频和非英语语音。支持表情和姿势的编辑。在离线批处理模式下以每秒45帧的速度生成512x512大小的视频帧,在在线流模式下可支持高达每秒40帧的速度,之前的延迟时间仅为170毫秒。项目地址:https://www.microsoft.com/en-us/research/project/vasa-1/
在Telegram中查看相关推荐
🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人