a16z的一篇文章，详细盘点了现在人工智能视频生成领域的现状，看完就可以对这个领域有个大概的了解，感兴趣可以看看。

a16z的一篇文章，详细盘点了现在人工智能视频生成领域的现状，看完就可以对这个领域有个大概的了解，感兴趣可以看看。他们列出了2023视频生成产品的时间表以及对应产品的详细信息。同时对视频生成目前需要解决的问题以及视频生成领域的ChatGPT时刻到来需要具备的条件进行了探讨。下面是主要内容，也可以去链接看全文翻译：AI视频领域目前需要解决的核心问题？控制：你能否控制场景中的事件以及“摄像机”的运动？对于后者，一些产品增加了可以让你进行缩放或平移摄像机，甚至添加特效的功能。至于前者—即动作是否如所描述的那样—这个问题更加棘手。这是一个关于基础模型质量的问题（模型是否能理解并执行你的提示）。时间连贯性：如何确保在视频的不同帧之间，角色、物体和背景的一致性，防止它们在画面中突变或扭曲？这是目前所有公开的模型普遍面临的问题。视频长度：如何制作时长超过几秒的视频片段？这个问题与时间连贯性密切相关。因为保持视频在几秒钟后仍具有一致性存在难度，许多公司限制了用户能生成的视频长度。AI视频领域的ChatGPT时刻何时到来，需要回答的几个问题？当前的扩散架构是否适合视频制作？目前的视频模型是基于扩散技术的：它们主要通过生成连续的帧并尝试创建时间上连贯的动画（采用多种策略实现）。这些模型没有对三维空间及物体间互动的内在理解，这就是扭曲或变形的原因。高质量的训练数据将从何而来？训练视频模型比训练其他内容模态更加困难，主要原因是缺乏足够的高质量、有标签的训练数据。这些用例将如何在不同平台或模型间区分开来？我们在几乎所有内容模态中观察到的现象是，没有一个模型能在所有用例中独占鳌头。谁将主导视频制作的工作流程？在目前的情况下，除了视频本身的生成，制作一段优质的视频或电影通常还需要进行编辑。我们预计视频生成平台将开始引入视频编辑需要的附加功能。翻译及原文链接：https://quail.ink/op7418/p/why-2023-ai-video-breakthrough-2024-outlook

在Telegram中查看

相关推荐

StoryDiffusion 是一个开源的图像和视频生成模型，它通过一致自注意力机制和运动预测器，能够生成连贯的长序列图像和

StoryDiffusion是一个开源的图像和视频生成模型，它通过一致自注意力机制和运动预测器，能够生成连贯的长序列图像和视频。这个模型的主要优点在于它能够生成具有角色一致性的图像，并且可以扩展到视频生成，为用户提供了一个创造长视频的新方法。该模型对AI驱动的图像和视频生成领域有积极的影响，并且鼓励用户负责任地使用该工具。使用场景示例：使用StoryDiffusion生成一系列漫画风格的图像。创建一个基于文本提示的长视频，展示一个连贯的故事。利用StoryDiffusion进行角色设计和场景布局的预可视化。产品特色：一致自注意力机制：生成长序列中的角色一致图像。运动预测器：在压缩的图像语义空间中预测运动，实现更大的运动预测。漫画生成：利用一致自注意力机制生成的图像，无缝过渡创建视频。图像到视频的生成：提供用户输入的条件图像序列来生成视频。两阶段长视频生成：结合两个部分生成非常长且高质量的AIGC视频。条件图像使用：图像到视频模型可以通过提供一系列用户输入的条件图像来生成视频。短视频生成：提供快速的视频生成结果。

AtomoVideo：阿里巴巴开发的高保真图像到视频生成开源模型可以生成符合真实世界运动状态的

：阿里巴巴开发的高保真图像到视频生成开源模型可以生成符合真实世界运动状态的视频主要功能：1、高保真视频生成：AtomoVideo可以从单一静态图像生成高保真的视频序列，视频中的内容不仅与原始图片保持高度一致，而且动作自然流畅。2、动作强度和连贯性：AtomoVideo生成的视频具有自然流畅的动作和良好的时间连贯性。视频中的运动看起来既自然又符合逻辑，没有突兀或不自然的过渡。为了让视频里的动作看起来自然，AtomoVideo引入了时间卷积和时间注意力模块，这些模块专门处理视频帧之间的时间关系，帮助模型预测下一帧画面的变化，从而实现连贯的视频动作。AtomoVideo会特别处理视频的时间信息，让图片中的物体像在真实世界那样随时间移动和变化。3、个性化适配：AtomoVideo能够与不同的个性化文本到图像（T2I）模型兼容，无需进行特定调整，这让它能够广泛适用于各种场景。AtomoVideo还能结合文字描述来生成视频。比如，你给它一张静态的海边图片，并告诉它“海浪轻轻拍打沙滩”，它就能根据这个描述生成一段海浪真的拍打沙滩的视频。

终于有普通人可以立刻使用的类 Sora 视频生成工具了！#ai# #sora#

终于有普通人可以立刻使用的类Sora视频生成工具了！#ai视频##sora#海外产品viva发布了首个开放给全部用户使用的Sora同架构视频生成模型，而且现阶段免费。支持文本生成视频、图片生成视频以及4K分辨率放大功能，另外也支持提示词的自动优化。文生视频单次可以生成一条5秒的视频，图生视频是4秒视频我测试了一下应该是目前运动幅度最大的视频生成模型，同时图像分辨率也是现在可以用的视频生成产品中最大的。文生视频的效果比图生视频要更好，同时如果要是用的话建议把运动幅度调到20左右比较合适。viva优势领域就是可以生成比较好的竖屏视频，目前很多视频模型的演示都是横屏视频，竖屏的表现并不好，但是短视频又是视频内容的大头，所以竖屏视频的生成质量是个很重要的指标。但是一致性有一部分测试中保持的不是很好，同时没有表现出Sora那样强大的物理特性模拟以及3D一致性。跟谷歌刚发布的Veo模型对比来看在写实内容上其实以及差不多了。下面是viva的视频演示，15秒开始有相同的提示词跟谷歌刚发布的Veo模型的对比。这里体验viva：https://vivago.ai/video?type=1

LUMIERE 这是谷歌这段时间发布的第三个视频生成模型了，不过看起来是最重要的一个，演示的质量非常高，运动幅度和一致性表现

LUMIERE这是谷歌这段时间发布的第三个视频生成模型了，不过看起来是最重要的一个，演示视频的质量非常高，运动幅度和一致性表现都很好。整个模型的能力非常全面，除了视频生成之外支持各种视频编辑和生成控制能力。支持各种内容创建任务和视频编辑应用程序，包括图像到视频、视频修复和风格化生成。详细介绍：Lumiere——一款将文本转换为视频的先进模型，它专门用于制作展现真实、多样化及连贯动态的视频，这在视频合成领域是一大挑战。为了实现这一目标，我们采用了一种创新的空间-时间U-Net架构（Space-TimeU-Netarchitecture）。这种架构能够在模型中一次性完成整个视频时长的生成，这与传统视频模型不同。传统模型通常是先合成关键的远程帧，然后通过时间上的超级分辨率技术来处理，这种方法往往难以保持视频的全局时间连贯性。Lumiere通过在空间和关键的时间维度进行上下采样，并利用预先训练好的文本到图像扩散模型（text-to-imagediffusionmodel），使我们的模型能够直接生成全帧率、低分辨率的视频，并且在多个空间-时间尺度上进行处理。我们展现了该模型在将文本转换成视频方面的领先成果，并且证明了该设计能够轻松应用于各种内容创作和视频编辑任务，包括将图像转换为视频、视频修补和风格化视频创作。项目地址：https://lumiere-video.github.io/Invalidmedia:

【蚂蚁集团投资视频生成模型公司爱诗科技，由

【蚂蚁集团投资视频生成模型公司爱诗科技，由#字节前视觉技术负责人王长虎创立】据悉，蚂蚁集团已于近期独家投资了中国视频生成大模型公司爱诗科技的A2轮，该轮金额超过1亿元人民币。接近蚂蚁的人士说，蚂蚁除自研大模型并落地应用外，也在持续关注行业的前瞻探索，围绕大模型技术能力、产业应用和AI算力等核心技术和生态，已陆续投资了智谱AI、月之暗面等大模型创业公司和专注多模态的生数科技等。爱诗科技成立于2023年4月，目前团队约有30人，创始人兼CEO王长虎曾任字节跳动视觉技术负责人，在视频理解、数据处理、内容安全和视频生成等领域都有积累。（《晚点LatePost》）

云从科技：从容大模型支持通过文本和音频生成图像和视频

云从科技：从容大模型支持通过文本和音频生成图像和视频OpenAI的视频生成模型Sora引发关注，云从科技相关负责人表示，云从科技在视觉方面积累较为深厚，目前，从容大模型已实现利用diffusion、GAN等生成式技术围绕人物图像、人物视频数据进行建模，通过文本和音频实现对图像和视频内容进行生成、控制、编辑。应用上，云从科技与天津港、华为等共同开发港口大模型PortGPT，核心是AI智能体天天，通过AI生成交互画面，协同数据分析，提高港口运转效率及安全性。此外，还在文生图像、视频等跨模态领域积极布局，包括发布数字人能力平台，生成AI视频；与中国电信合作AI营销海报生成等。（科创板日报）

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人