Sora炸裂科技圈：真神还是焦虑制造机？

Sora炸裂科技圈：真神还是焦虑制造机？▲图：主角出场镜头拉近，可以清晰看到小美修长的脖子和优美的下颌线，让整个画面充满了令人无法抗拒的神秘和美感。▲图：细节展示实际上，整个短视频中，从街景到行人，包括小美，在现实中根本不存在。这是OpenAI最新产品Sora制作的演示视频，而正是这个视频，让周鸿祎做出了AGI发展将会10倍提速的预言。传统方式制作这样一段1分钟的视频成本非常高。除了需要选址，选演员，提前进行分镜构图，架设机位外等，想要碰上如此理想的天气，还需要赌一赌运气。落日转瞬即逝，一旦失误就只能第二天重头来过。拍摄完成后，是非常耗时的后期制作。不仅要调整画面色调，还要仔细核对画面中是否有瑕疵，比如眼镜反射的画面会不会导致穿帮、路人中是否出现不协调元素等等。但Sora出马，全部流程就是（字面意义上的）一句话的事。Sora官网上公布了十几段“制作”精良的高清演示短片，从现实人物到3D动画，所有短片都是通过一句话生成的。▲图：Sora展示视频看过这些短片后，我科技圈的朋友集体表示“炸裂”；大众圈的朋友表示“AI都到了这种程度了吗”；而摄影圈的朋友表示，尽管还是能看出和人类摄影师有一点点差距，但依然被Sora的效果震撼了，进而纷纷开始和我讨论起失业以后，除了送外卖还可以从事什么工作。但如果我们抛开网上铺天盖地、对Sora近乎玄幻的赞誉，跳出官网演示视频的魅惑就会发现，Sora本质上是生成式AI在视频领域的一个应用，一个diffusiontransformer模型。而官方宣传的Sora所有功能，例如通过文字或者图片生成高清短视频，在此基础上进行扩展生成一段更长的视频等，其实很多公司都在做。比较知名的产品包括已经商用的Runway，免费的Pika，以及还在完善阶段的GoogleLumiere、MetaMake-A-Video，还有一些知名度稍低的产品如Leonardo，FinalFrame等等。这里就有一个很大的疑问：凭什么出圈的又是Sora，它真有网上说的那么神吗？凭借更逼真的效果OpenAI再次出圈1月24日，Google研究人员公布了一段Lumiere的演示视频。画质非常高清，且真实。▲图：由Lumiere生成的游泳海龟视频Lumiere除了可以生成真实图片外，还可以实现一键换装、根据图片和提示词生成动态视频等功能。▲图：一键换装▲图：通过图片生成视频2月15日，刚刚过完情人节的Google在疯狂星期四又重磅推出了下一代AI产品Gemini1.5。在此前的演示视频中，Gemini已经展现了其在图像识别和多轮对话中的逆天能力。演示视频中，演示人员画了一个类似鸭子的轮廓让Gemini辨认，Gemini表示它觉得像个鸟。▲图：Gemini演示但是当演示人员画上了波浪后，Gemini表示通过长脖子长嘴又会游泳这几个依据，判断这是只鸭子。▲图：Gemini演示随后演示人员拿了个玩具小鸭子问Gemini这个东西是什么材质做的，Gemini表示看起来可能是橡胶也可能是塑料。而当演示人员捏响橡胶鸭子后，Gemini立刻判断出是用柔软的橡胶做成的。▲图：Gemini演示就在圈内很多人认为Google将要凭借Lumiere和Gemini拿下今年头条的时候，OpenAI仅仅用Sora就轻松获得了更高的关注度。Sora这个词很有意思，它在韩语中表示海螺壳，在日语中表示天空，在芬兰语中表示砂砾。这就很难不让人想到《海底两万里》的鹦鹉螺号，《沙丘》，以及“我们的目标是星辰大海”的豪情壮志。而且Sora是一个比较常见的名字，比Lumiere（法语，光）更短、更好读。和GPT当年的故事如出一辙，Sora也是踩着竞争对手以碾压式的优势胜出。相比同类产品，Sora能抓住提示词的精髓，巧妙地生成具有多个角色和特定动作的场景。有人做过对比，使用同样的提示词，让AI生成一个在花园里、似乎正在追逐什么东西、快乐奔跑的黄白相间的猫，最终结果的差距十分明显。▲图：不同AI产品的效果对比上面由Sora生成的视频看起来非常真实，甚至在奔跑时候，猫腮帮子上的毛都会随着脑袋起伏。而下面通过Pika,Runway,Leonardo,FinalFrame生成的视频，猫不仅看起来不像真的，连动作都很诡异。在生成的视频时长上，Sora也碾压友商。Sora可以生成1分钟的视频，相对的，Pika是3秒，Runway是4秒，Lumiere是5秒。最重要的是，Sora有望解决一个生成式AI的痛点，那就是同样的提示词通常不会生成同样的结果，例如“黄白相间的猫”这个提示词，不同的视频里会出现不同模样的黄白相间的猫。导致的结果，就是无法通过拼接来创作更长的视频。尽管Sora一出道就秀出了远超同行的肌肉，但Sora并没有选择像Pika、Runway一样，开放给大众使用，而是采取了Google、Meta类似的保守策略，先官宣来吊足大家胃口，然后慢慢内测，等待一个合适的时机，再向大众开放。因为，有很多关键问题，大家都没有找到好的解决方案。AI一调皮人类就头疼生成式AI天生就有一个“不按物理定律出牌”的老毛病，即便是看起来已经非常接近真实世界的Sora也不例外。这个问题过于明显，以至于OpenAI都懒得去遮掩，干脆自己先大方的说了出来。从内测用户流出的视频可以发现，Sora无视物理法则随意发挥的意愿十分高涨，而这种意愿在“必须还原物理世界”的规则约束下，很容易生成像人类做梦一样的场景。有过做梦经历的朋友应该会这样的体会：明明梦是虚幻的，但在梦里你的感受又很“真实”。下面就是个很典型的例子。▲图：Sora的梦境物理注意看，视频中的这个杯子莫名其妙的跳了起来并侧翻在桌面上，杯中的液体在杯子跳起来的一瞬间穿透了杯底铺满桌面，而最终杯子连同里面剩余的液体一起，融进了桌面。▲图：融进桌面的杯子这样的视频显然无法应用在正式的场合，大概率只能出现在B站的鬼畜区，告诉你一个学了3年动画的人，是如何因为一个毕业作品被老师轰出门外的故事。此外，Sora对算力有很高的要求。下面这个视频演示了低算力和高算力之间的差距能有多可怕。▲图：算力差距而想要高算力，就得花更多的钱。以Runway为例，个人版收费模式分3档，标准版为每月15美元，可以制作一个125秒的Gen-1视频，或者44秒的Gen-2视频，相当于每秒1-2.4元人民币，超出部分需要额外付费。Pro版每月35美元，至尊版每月95美元。而用户如果希望加快视频的产出效率，也需要额外购买“时间”。能力越大危险越大生成式AI在社会层面有几个老生常谈的问题。首先就是造假问题。AI生成的视频越真实，造假就越容易。最直接的解决办法是将AI生成的内容打上一个特殊的标签，以便于平台将其和人工拍摄的视频进行区分，OpenAI和Google的确也在做这件事。但水印的问题在于，它可以在分享的过程中会被人恶意抹除。例如通过截图、录屏的方式获得视频副本，不会带有任何水印。其次是版权问题。版权问题比造假更加复杂，它既是一个形而上的宏大概念，又和每一个创作者的个人利益息息相关。目前对版权的争论主要集中在AI和人类对齐的过程中，比如，AI通过学习别的艺术家的风格在此基础上进行的创作，和人类以同样方式进行的创作，本质上有没有区别？而更直白的问题则是，AI到底是来帮我赚钱的，还是来跟我抢钱呢？这些问题一个比一个难解决，也就意味着Sora们至少在短时间内不会向公众开放。从某种角度来看，这或许对于视频制作者是一个好消息，至少有了更多的缓冲时间，来思考如何应对接下来Sora们带来的冲击。无论如何，Sora们向公众开放，只是时间问题，至于会不会像周鸿祎预言的那么快，可能还存在疑问。但有一点毫无疑问：那时候的Sora们，...PC版：https://www.cnbeta.com.tw/articles/soft/1419351.htm手机版：https://m.cnbeta.com.tw/view/1419351.htm

在Telegram中查看

相关推荐

下午察：Sora激起中国科技圈焦虑？

下午察：Sora激起中国科技圈焦虑？继生成式人工智能（AI）ChatGPT之后，美国AI巨头OpenAI在2月16日凌晨继续震动四方，凭借更逼真的视频生成技术再次出圈。在影视业人士担忧这项AI技术可能让自己失业的同时，中美科技博弈的紧迫感也在升级。Sora是OpenAI开发的首个AI视频生成模型，只要输入内容、提示词或图片，Sora就能在一秒内生成长达一分钟的高保真视频。没有导演、专业演员的参与，Sora的视频却能生成出高度细致的背景、复杂的多角度镜头及富有情感的角色。以往视频制作的选址、选演员、分镜构图，架设机位、后期制作等复杂流程，对Sora而言都只是一句话的功夫。2024年2月20日8:50PM

终于有普通人可以立刻使用的类 Sora 视频生成工具了！#ai# #sora#

终于有普通人可以立刻使用的类Sora视频生成工具了！#ai视频##sora#海外产品viva发布了首个开放给全部用户使用的Sora同架构视频生成模型，而且现阶段免费。支持文本生成视频、图片生成视频以及4K分辨率放大功能，另外也支持提示词的自动优化。文生视频单次可以生成一条5秒的视频，图生视频是4秒视频我测试了一下应该是目前运动幅度最大的视频生成模型，同时图像分辨率也是现在可以用的视频生成产品中最大的。文生视频的效果比图生视频要更好，同时如果要是用的话建议把运动幅度调到20左右比较合适。viva优势领域就是可以生成比较好的竖屏视频，目前很多视频模型的演示都是横屏视频，竖屏的表现并不好，但是短视频又是视频内容的大头，所以竖屏视频的生成质量是个很重要的指标。但是一致性有一部分测试中保持的不是很好，同时没有表现出Sora那样强大的物理特性模拟以及3D一致性。跟谷歌刚发布的Veo模型对比来看在写实内容上其实以及差不多了。下面是viva的视频演示，15秒开始有相同的提示词跟谷歌刚发布的Veo模型的对比。这里体验viva：https://vivago.ai/video?type=1

上午看 Sora 的几点收获：

上午看Sora的几点收获：Sora完全站在了Openai成功产品的肩膀上。chatGPT背后是个大语言模型，把一个句子拆成若干个token，可能是一个单词、一个词组、一个短句，通过海量数据训练，推测下一个最大概率的token（生成文字）。Sora模型，同样是把海量视频拆成一个个分块，配合GPT强大的语言能力，给视频分块增加和扩充文字描述。当海量的训练视频都用这种分块统一拆分学习后，用户输入新指令，就可以从不同的分块里预测和生成新的视频分块，再变成一整条视频。即：用语言模型把用户指令扩写和改写输入视频模型生成新视频这相当于人类给了一个作文题，语言模型写一篇描写场景的小作文，Sora再根据这篇作文生成视频，所以细节会比其他AI视频产品强太多。新世界降临前夕，我们普通人可以做什么？快刀青衣老师的观点：不管是文生视频、文生图，技术底层关注的是「生」，而我们普通人需要关注的是「文」。表达有短板、想象力不够，出来的图和视频是没有意境的。有文化的你输入“大漠孤烟直，长河落日圆”，没文化的我输入“沙漠上空挂着一个圆太阳”，出来的效果就是卖家秀和买家秀的区别。保持阅读、在阅读的时候记录下具有画面感的段落、收集经典电影的精彩镜头……在技术逐渐平权的时代当下，期待我们每个人都能有“超能力”。

Google Gemini 1.5 Pro 评价 OpenAI 最新 Sora 视频

GoogleGemini1.5Pro评价OpenAI最新Sora视频让GoogleGemini1.5Pro判断OpenAI在TikTok发布的最新Sora视频是否是AI生成的，有什么不合理的地方，它表示，这段视频是由人工智能生成的。视频中的蜜蜂飞得太快，而且不稳定，似乎能够瞬间改变方向。此外，蜜蜂的翅膀拍打方式也不真实。TikTok视频链接：https://www.tiktok.com/@openai/video/7345507213349408046via匿名标签:#Google#Gemini频道:@GodlyNews1投稿:@GodlyNewsBot

Sora证明马斯克的是对的但特斯拉和人类可能都输了

Sora证明马斯克的是对的但特斯拉和人类可能都输了随后他在X上转发了一条2023年的视频，内容是特斯拉自动驾驶总监AshokElluswamy向外界介绍特斯拉如何用AI模拟真实世界驾驶。视频中，AI同时生成了七个不同角度的驾驶视频，同时只需要输入‘直行’或者‘变道’这样的指令，就能让这七路视频同步变化。当然，这不意味着特斯拉早在一年前就掌握了Sora的技术，毕竟特斯拉的生成技术只用于模拟车辆行驶，而Sora能够处理的环境、场景、Prompt、物理规律等信息更加复杂，二者在难度上不可同日而语。但特斯拉AI和Sora训练的思路是一致的：并不是训练AI如何生成视频，而是训练AI理解和生成一个真实的场景或者世界，视频只是从某一个视角观察这个场景的一段时空。这是两家在现有业务上完全不同的公司，以彼此不同的方法来感知真实世界，而他们共同希望通向的，都是AGI（通用人工智能），甚至更具体一些，就是具身智能和智能体。理解这个观点的核心，是理解OpenAI为Sora赋予的使命，并不只是替代视频生成的创作者，而是将视频生成作为帮助AI理解真实世界的‘模拟器’。如果说特斯拉数以百万计的车辆仍然需要用‘肉身’感受这个世界，那么Sora则是单纯依靠数据的输入，建立起对世界的认知。OpenAI官网上，关于Sora的这篇研究论文名为《把视频生成模型作为世界模拟器》。请注意‘世界模拟器’（worldsimulators）这个关键词，它是比生成视频更关键的核心所在。其实，早在特斯拉发布FSDV12的时候，这家以汽车为主要消费产品的人工智能公司，就已经展示了类似的能力。如何理解呢？首先，在FSDV12上，工程师删除了超过30万行定义驾驶规则的代码，系统将从被‘投喂’的驾驶视频中，学习如何应对真实的驾驶场景，而不是向过往那样，按照写好的规则，在某个特定场景下执行某一个具体的命令。当然，和作为‘生成式模型’的Sora不同，FSD的目标是实现自动驾驶，所以它并不需要真正生成一个具体的视频。你可以想象成一个人（或者智能体）正在进行‘防御性驾驶’，基于过往经验，可以对周围环境中交通参与者的下一步移动趋势做出判断。这个判断存在在头脑里就行了，不需要真正把它画在纸上。因此，特斯拉的FSD也不需要把对未来的想象，生成为一个真实视频，并呈现在车辆的某一个屏幕上。所以，现在有OpenAI和特斯拉两家完全不同的公司，用截然不同的方式和路径，实现‘通过视频生成，让AI理解物理世界’这个相同的目标。简单了解一下Sora的运行逻辑：OpenAI表示，Sora结合了Transformer和Diffusion两个过去几年最重要的模型。ChatGPT、Gemini、LLaMA等语言模式都是基于Transformer模型，它对词语进行标记，并生成下一个单词；Diffusion模型则是‘文生图’的代表。如果从‘理解世界’的角度来审视Sora，那么某一帧图像的画质、画面关系绝不是模型质量高低的评判标准，甚至官网释出的60秒一镜到底视频也不是最核心的部分。重要的是这个生成的视频可以被剪辑——在不同的机位下，无论是广角、中景、近景、特写，视频中人物和背景的关系都保持着高度的‘一致性’。这才是Sora遥遥领先并接近真实的地方。这一点和特斯拉在FSD上采取‘纯视觉’方案可以结合理解。简单来说，99%的车企或者智驾团队都会在车辆上保留激光雷达，通过激光束的发射和接收，辅助计算周围物体和车辆间的距离关系。但马斯克不仅删除了30万行代码，还移除了雷达，只依靠高清摄像头采集和神经网络学习来判断距离关系。无论是对特斯拉，还是对OpenAI，这都是巨大的挑战。毕竟输入的画面是2D的，但输出的结果（无论是驾驶指令还是视频）都需要基于对3D世界的深刻理解。规模和质量是训练模型的核心。特斯拉的数据来源于真实道路上，搭载了传感器的车辆；而OpenAI的大量数据，从目前的公开信息来看，来源于网络。在质量的维度，在《马斯克传》里，作者艾萨克森写道特斯拉通过和Uber合作，获取‘五星司机’的素材训练FSD；而从规模出发，奥特曼最近希望筹集万亿规模的资金，就是重注算力和规模的具体体现。最后，回到一开始的那个问题，为什么我们会认为Sora和FSDv12是相似的？Sora和OpenAI未来的想象空间又是什么呢？它们和AGI又有什么关系？在马斯克看来，当人工智能可以真正解决一个问题（物理、数学、化学等等）的时候，AGI就到来了。不过还有另外一个理解维度，那就是具身智能。毕竟现实世界里，并不是只有数学公式和文字规则，拥有一定的智商的小猫小狗也可以依靠运动真实地和物理世界进行互动。这点对于过去只能输入二维信息的AI来说很难做到。这也是为什么马斯克看到Sora后在X上评价是‘GGHumans’，在他看来Sora今天做到的，已经打破了过去的次元壁，而能理解真实世界并继续学习，AI也就有了更进一步影响真实世界的能力。而就像特斯拉把这种生成能力用于训练车辆，Sora的价值也不仅仅是生成一个难以让人区分真假的视频，用作影视创作者的生产力工具（尽管这是一个非常困难且刚需的场景）。就像周鸿祎所说，‘Sora只是小试牛刀，它展现的不仅仅是一个视频制作的能力，而是大模型对真实世界有了理解和模拟之后，会带来新的成果和突破。’...PC版：https://www.cnbeta.com.tw/articles/soft/1419067.htm手机版：https://m.cnbeta.com.tw/view/1419067.htm

谷歌测试由 Gemini AI 创建的视频演示

谷歌在Workspace实验室推出了新的Vids生产力应用，理念是“如果你能做幻灯片，就能在Vids里做视频。”Vids在四月宣布，允许用户将文档、幻灯片、旁白和视频录音拖放到时间线上，制作一个可以与同事分享的演示视频。通过Workspace实验室预览提供，该功能让Workspace管理员可以选择让用户试用这个由人工智能驱动的视频制作工具。虽然你可以在Vids中生成视频，但不要与像OpenAI的Sora这样的AI工具混淆，后者可以根据提示生成逼真的画面。相比之下，Vids是通过描述你希望Gemini创建的内容来生成展示视频，然后你可以在之后修改视频。你也可以选择使用众多可用模板之一手动开始你的GoogleVids演示草稿，并且有免版权的素材可以用来提升你的创作。标签:#Google#AI#Vids#Gemini频道:@GodlyNews1投稿:@GodlyNewsBot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人