鉴于我们团队从去年开始就在做【世界模型(worldmodel)我必须要坚决地站在Yann 佬这边地指出OpenAI的Sora根

鉴于我们团队从去年开始就在做【世界模型(worldmodel)我必须要坚决地站在Yann佬这边地指出OpenAI的Sora根本不是世界模型,甚至除了都属于图像领域模型以外没有半毛钱关系。事实上,人家openAI从未在任何官方宣传资料上使用过【世界模型(英文:worldmodel)】这个名词来宣传sora,关于sora和世界模型的关系基本来自于翻译的误读、部分人群的颅内高潮外加营销号的刻意造势。【世界模型】的定义并不在于它生成的东西能不能像一个世界。一个模型如果能够被认定为【世界模型】它必须要向人们证明:其模型的预测结果可以随着环境中的主动交互进行变化,且这种变化还需要符合正确且统一的物理规律。(即图1中action的影响部分)也正因为如此,【世界模型】才可以被应用到训练、测试和端到端的决策系统上。从sora的技术方案中可看出(图2),sora的生成行为为:一次性生成视频而非不断地生成单帧图片。这意味着:sora生成的视频内容无法在其生成过程中被影响。sora的生成行为从技术本质上来说是:一次生成=一个完整的视频。(抽一次卡一个视频),而基于【世界模型】的文生视频模型需要能够让你看到这个视频在时间线上的生成过程并且你还能够在这个过程没有走到结束的时候影响它的结果。举个,如果你让sora生成一个:林克在草丛中奔跑,它也许能很好的完成任务,比如模仿出塞尔达的场景,让一个穿着英杰服拿着大师剑的林克在草丛中奔跑,也许它还能更好比如能转个弯跳一下。但是如果它是【世界模型】的话,你可以随时按照你的需要改变他奔跑的轨迹,甚至让他停下来,就像在玩游戏一样。sora当然做不到这些甚至连物理规律都没学好如果还有人告诉你它是世界模型,那么要么它就不该是你收集信息的信息源了,要么ta想骗你点什么。

相关推荐

封面图片

OpenAI的Sora视频生成模型也能用来渲染游戏

OpenAI的Sora视频生成模型也能用来渲染视频游戏这篇题为《作为世界模拟器的视频生成模型》(Videogenerationmodelsasworldsimulators)的论文由多位OpenAI研究人员共同撰写,揭开了Sora架构关键方面的神秘面纱--例如,Sora可以生成任意分辨率和长宽比(最高1080p)的视频。根据论文所述,Sora能够执行一系列图像和视频编辑任务,从创建循环视频、向前或向后延伸视频到更改现有视频的背景。但最吸引笔者的还是Sora"模拟数字世界"的能力,OpenAI的合著者如是说。在一次实验中,OpenAI将Sora放到Minecraft上,让它在控制玩家的同时渲染世界及其动态(包括物理)。Sora在Minecraft中控制一名玩家,并渲染视频游戏世界,请注意,颗粒感是由视频到GIF的转换工具造成的,而不是Sora。图片来源:OpenAIOpenAI那么,Sora是如何做到这一点的呢?正如NVIDIA高级研究员JimFan(通过Quartz)所说,与其说Sora是一个创意引擎,不如说它是一个"数据驱动的物理引擎"。它不仅能生成单张照片或视频,还能确定环境中每个物体的物理特性,并根据这些计算结果渲染照片或视频(或交互式3D世界,视情况而定)。合著者写道:"这些功能表明,继续扩展视频模型是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的途径。"现在,Sora在视频游戏领域也有其通常的局限性。该模型无法准确模拟玻璃碎裂等基本互动的物理过程。即使在可以建模的互动中,Sora也经常出现不一致的情况,例如在渲染一个人吃汉堡时,却无法渲染汉堡上的咬痕。不过,如果我没看错的话,Sora似乎可以为更逼真(甚至可能是逼真)的程序生成游戏铺平道路。这既令人兴奋,又令人恐惧(考虑到Deepfake的影响)--这也许就是为什么OpenAI选择暂时将Sora关在一个非常有限的访问程序后面的原因。相关文章:OpenAI推出文本到视频人工智能模型SoraOpenAI首个视频生成模型发布能生成长达1分钟的高清视频...PC版:https://www.cnbeta.com.tw/articles/soft/1418461.htm手机版:https://m.cnbeta.com.tw/view/1418461.htm

封面图片

OpenAI Sora:“原始版”世界模拟器 我们离黑客帝国还有多远?

OpenAISora:“原始版”世界模拟器我们离黑客帝国还有多远?Sora:大力出奇迹的产物刚刚发布Gemini1.5Pro的谷歌,没有尝到半点甜头。刚刚官宣更新几个小时,OpenAI就拿着Sora来炸场,和Gemini有关的消息,基本都被埋在了铺天盖地的Sora新闻流里。据一些观察人士推测,OpenAI可能早在去年3月就已经完成了Sora的开发,所以才能在公关战中稳稳占据主动权。Sora到底优秀在哪里?简单来说,它是一个“大力出奇迹”的产物。Sora结合了扩散模型(DALL-E3)和转换器架构(ChatGPT)。通过这种组合,该模型可以像ChatGPT处理文本一样处理视频(即图像帧的时间序列)。最令人印象深刻的特点是它能够逼真地模拟物理世界(OpenAI将其描述为“新兴的模拟能力”)。在此之前,还没有任何文字视频模型能与之相媲美。例如,Sora“可以在单个生成的视频中创建多个镜头,准确地体现人物和视觉风格”。它可以制作长达1分钟的视频,但你也可以随心所欲地制作短视频。可以制作不同分辨率的竖版、方形和水平视频。而且计算量越高,视频质量也会越高。AI科学家、创业者贾佳亚在社交媒体上表示:Sora基于视频的三维结构分解压缩,用不同分辨率,不同时长,不同场景的各类视频大量训练diffusionmodel。在学术界连VIT的256*256的分辨率都没法改的情况下,Sora直接用上了高清以及更大的分辨率,这没几千上万张H100都不敢想象如何开始这个项目。Sora能够学习真实世界的物理规则OpenAI表示,Sora不仅能理解提示中出现的风格、场景、角色、物体和概念等,还能理解“这些事物在物理世界中是如何存在的”。Sora通过海量视频,以梯度下降的方式在神经参数中隐含地学习物理引擎。Sora是一个可学习的模拟器,或称“世界模型”。亦即,Sora可能已经学会了一套隐含的物理规则,为视频生成过程提供信息。毫无疑问,这是AI理解世界的关键一步。OpenAI在博文的最后写道:Sora是能够理解和模拟现实世界的模型的基础,我们相信这种能力将成为实现AGI的重要里程碑。在OpenAI的Dalle-3图像生成器所使用的扩散模型版本和GPT-4基于变换器的引擎的支持下,Sora不仅能按照提示要求制作视频,而且还能显示出对电影技术的熟练掌握。这就是讲故事的天赋。在另一部根据“渲染华丽的珊瑚礁纸艺世界,到处都是五颜六色的鱼和海洋生物”的提示制作的视频中。该项目的另一位研究员BillPeebles指出,Sora通过拍摄角度和时机的选择,创造了一种叙事的推动力:实际上有多个镜头的变化——这些变化不是拼接在一起的,而是由模型一次性生成的。我们没有告诉它要这么做,它只是自动这么做了。Sora不仅能根据文本制作图像和视频,或将图像和视频转换为其他视频,而且还能以通用、可扩展的方式完成这些工作,这一点与竞争对手不同。这种通用性和可扩展性促使人们预测人工智能将颠覆好莱坞和整个电影制作。考虑到进步的速度,想象一下几个月后人工智能模型能够制作出长达5或10分钟的多场景、多角色复杂视频并不是什么疯狂的事情。目前Sora还在接受安全检查和对抗性测试,没有正式发布。OpenAI希望从“世界各地的政策制定者、教育工作者和艺术家”那里收集反馈意见。他们还在开发一种检测分类器来识别Sora制作的视频,并研究如何防止错误信息。要想让文字视频威胁到真正的电影制作,恐怕还需要很长一段时间。你不可能把120个一分钟长的Sora片段拼接成一部连贯的电影,因为模型不会以完全相同的方式对提示做出反应,因此无法确保输出视频的连续性。但时间限制并不妨碍Sora和类似的软件颠覆TikTok、Reel和其他短视频平台的生产方法。一位研究者表示:要制作一部专业电影,你需要大量昂贵的设备,这种模式将使在社交媒体上制作视频的普通人有能力制作出非常高质量的内容。...PC版:https://www.cnbeta.com.tw/articles/soft/1418735.htm手机版:https://m.cnbeta.com.tw/view/1418735.htm

封面图片

人工智能公司 OpenAI 向好莱坞推荐视频生成技术Sora

人工智能公司OpenAI向好莱坞推荐视频生成技术Sora人工智能公司OpenAI在好莱坞发起了魅力攻势,与派拉蒙、环球和华纳兄弟探索等主要电影公司举行了会议,展示其视频生成技术Sora,并缓解对人工智能模型将损害电影行业的担忧。据多位知情人士透露,首席执行官萨姆•奥尔特曼和首席运营官布拉德•莱特卡普在最近几天举行的会议上向电影行业巨头的高管们做了介绍。奥尔特曼和莱特卡普展示了Sora—一个新的生成式人工智能模型,能够根据简单的文字提示生成细节栩栩如生的视频。——

封面图片

国泰君安:OpenAI 发布 Sora 模型,实现 AIGC 领域的里程碑式进展

国泰君安:OpenAI发布Sora模型,实现AIGC领域的里程碑式进展国泰君安发布研报称,OpenAI发布首个文生视频模型Sora,效果震撼。Sora模型可以通过文本描述生成60秒长视频,还可以对视频色彩风格等要素精确理解,创造出人物表情丰富、情感生动的视频内容。Sora三大亮点突出,实现AIGC领域的里程碑式进展。首先是60秒长视频,Sora可以保持视频主体与背景的高度流畅性与稳定性。其次是单视频多角度镜头,Sora在一个视频内实现多角度镜头,分镜切换符合逻辑且十分流畅。再是理解真实世界的能力,Sora对于光影反射、运动方式、镜头移动等细节处理得十分优秀,极大地提升了真实感。Sora模型推动AI多模态领域飞跃式发展,AI创作等相关领域将迎来深度变革,AI赋能范围进一步扩大,多模态相关的训练及推理应用也将进一步提升对算力基础设施的相关需求。

封面图片

上午看 Sora 的几点收获:

上午看Sora的几点收获:Sora完全站在了Openai成功产品的肩膀上。chatGPT背后是个大语言模型,把一个句子拆成若干个token,可能是一个单词、一个词组、一个短句,通过海量数据训练,推测下一个最大概率的token(生成文字)。Sora模型,同样是把海量视频拆成一个个分块,配合GPT强大的语言能力,给视频分块增加和扩充文字描述。当海量的训练视频都用这种分块统一拆分学习后,用户输入新指令,就可以从不同的分块里预测和生成新的视频分块,再变成一整条视频。即:用语言模型把用户指令扩写和改写输入视频模型生成新视频这相当于人类给了一个作文题,语言模型写一篇描写场景的小作文,Sora再根据这篇作文生成视频,所以细节会比其他AI视频产品强太多。新世界降临前夕,我们普通人可以做什么?快刀青衣老师的观点:不管是文生视频、文生图,技术底层关注的是「生」,而我们普通人需要关注的是「文」。表达有短板、想象力不够,出来的图和视频是没有意境的。有文化的你输入“大漠孤烟直,长河落日圆”,没文化的我输入“沙漠上空挂着一个圆太阳”,出来的效果就是卖家秀和买家秀的区别。保持阅读、在阅读的时候记录下具有画面感的段落、收集经典电影的精彩镜头……在技术逐渐平权的时代当下,期待我们每个人都能有“超能力”。

封面图片

OpenAI 发布文生视频模型 Sora

OpenAI发布文生视频模型Sora2月16日凌晨,OpenAI再次扔出一枚深水炸弹,发布了首个文生视频模型。Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。一位YouTube博主PaddyGalloway发表了对Sora的感想,他表示内容创作行业已经永远的改变了,并且毫不夸张。“我进入YouTube世界已经15年时间,但OpenAI刚刚的展示让我无言…动画师/3D艺术家们有麻烦了,素材网站将变得无关紧要,任何人都可以无壁垒获得难以置信的产品,内容背后的‘想法’和故事将变得更加重要。”但Sora模型当前也存在弱点。OpenAI称它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。例如,一个人可能咬了一口饼干后,饼干会没有咬痕,玻璃破碎的物理过程可能也无法被准确呈现。频道:@kejiqu群组:@kejiquchat

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人