上午看 Sora 的几点收获:

上午看Sora的几点收获:Sora完全站在了Openai成功产品的肩膀上。chatGPT背后是个大语言模型,把一个句子拆成若干个token,可能是一个单词、一个词组、一个短句,通过海量数据训练,推测下一个最大概率的token(生成文字)。Sora模型,同样是把海量视频拆成一个个分块,配合GPT强大的语言能力,给视频分块增加和扩充文字描述。当海量的训练视频都用这种分块统一拆分学习后,用户输入新指令,就可以从不同的分块里预测和生成新的视频分块,再变成一整条视频。即:用语言模型把用户指令扩写和改写输入视频模型生成新视频这相当于人类给了一个作文题,语言模型写一篇描写场景的小作文,Sora再根据这篇作文生成视频,所以细节会比其他AI视频产品强太多。新世界降临前夕,我们普通人可以做什么?快刀青衣老师的观点:不管是文生视频、文生图,技术底层关注的是「生」,而我们普通人需要关注的是「文」。表达有短板、想象力不够,出来的图和视频是没有意境的。有文化的你输入“大漠孤烟直,长河落日圆”,没文化的我输入“沙漠上空挂着一个圆太阳”,出来的效果就是卖家秀和买家秀的区别。保持阅读、在阅读的时候记录下具有画面感的段落、收集经典电影的精彩镜头……在技术逐渐平权的时代当下,期待我们每个人都能有“超能力”。

相关推荐

封面图片

腾讯混元文生图模型开源 采用Sora同架构

腾讯混元文生图模型开源采用Sora同架构5月14日,腾讯宣布旗下混元文生图模型升级并开源,参数量15亿,目前已在平台及上发布,包含模型权重、推理代码、模型算法等完整模型,企业与个人开发者可免费商用。该模型支持文生图功能且可作为视频等多模态视觉生成的基础。随着腾讯混元文生图大模型入局,采用DiT架构的大模型玩家再增一名。OpenAI的视频生成模型Sora也采用DiT架构。腾讯方面介绍,混元文生图大模型是业内首个中文原生的DiT架构文生图模型,综合指标在文生图算法中排名第三。——

封面图片

终于有普通人可以立刻使用的类 Sora 视频生成工具了!#ai# #sora#

终于有普通人可以立刻使用的类Sora视频生成工具了!#ai视频##sora#海外产品viva发布了首个开放给全部用户使用的Sora同架构视频生成模型,而且现阶段免费。支持文本生成视频、图片生成视频以及4K分辨率放大功能,另外也支持提示词的自动优化。文生视频单次可以生成一条5秒的视频,图生视频是4秒视频我测试了一下应该是目前运动幅度最大的视频生成模型,同时图像分辨率也是现在可以用的视频生成产品中最大的。文生视频的效果比图生视频要更好,同时如果要是用的话建议把运动幅度调到20左右比较合适。viva优势领域就是可以生成比较好的竖屏视频,目前很多视频模型的演示都是横屏视频,竖屏的表现并不好,但是短视频又是视频内容的大头,所以竖屏视频的生成质量是个很重要的指标。但是一致性有一部分测试中保持的不是很好,同时没有表现出Sora那样强大的物理特性模拟以及3D一致性。跟谷歌刚发布的Veo模型对比来看在写实内容上其实以及差不多了。下面是viva的视频演示,15秒开始有相同的提示词跟谷歌刚发布的Veo模型的对比。这里体验viva:https://vivago.ai/video?type=1

封面图片

Sora 出世 人工智能将引领新一轮行业变革

Sora出世人工智能将引领新一轮行业变革2月16日凌晨,OpenAI公司发布最新“文生视频”大模型Sora,并附带发布了多条由Sora生成的视频,相较于目前“文生视频”业内主流的数秒钟版本,此次发布的Sora可以一次性生成一分钟的视频。Sora的发布毫无悬念地再次引发了整个市场的高度关注。有人认为Sora创新的模型架构为大模型的发展开辟了新道路,也有人认为Sora的推出让通用人工智能到来的日期大大提前,还有市场人士表示Sora的爆红与OpenAI高超的营销密不可分。可以预见的是,Sora的横空出世,无疑将促使人工智能引领新一轮行业变革。(上海证券报)

封面图片

Sora证明马斯克的是对的 但特斯拉和人类可能都输了

Sora证明马斯克的是对的但特斯拉和人类可能都输了随后他在X上转发了一条2023年的视频,内容是特斯拉自动驾驶总监AshokElluswamy向外界介绍特斯拉如何用AI模拟真实世界驾驶。视频中,AI同时生成了七个不同角度的驾驶视频,同时只需要输入‘直行’或者‘变道’这样的指令,就能让这七路视频同步变化。当然,这不意味着特斯拉早在一年前就掌握了Sora的技术,毕竟特斯拉的生成技术只用于模拟车辆行驶,而Sora能够处理的环境、场景、Prompt、物理规律等信息更加复杂,二者在难度上不可同日而语。但特斯拉AI和Sora训练的思路是一致的:并不是训练AI如何生成视频,而是训练AI理解和生成一个真实的场景或者世界,视频只是从某一个视角观察这个场景的一段时空。这是两家在现有业务上完全不同的公司,以彼此不同的方法来感知真实世界,而他们共同希望通向的,都是AGI(通用人工智能),甚至更具体一些,就是具身智能和智能体。理解这个观点的核心,是理解OpenAI为Sora赋予的使命,并不只是替代视频生成的创作者,而是将视频生成作为帮助AI理解真实世界的‘模拟器’。如果说特斯拉数以百万计的车辆仍然需要用‘肉身’感受这个世界,那么Sora则是单纯依靠数据的输入,建立起对世界的认知。OpenAI官网上,关于Sora的这篇研究论文名为《把视频生成模型作为世界模拟器》。请注意‘世界模拟器’(worldsimulators)这个关键词,它是比生成视频更关键的核心所在。其实,早在特斯拉发布FSDV12的时候,这家以汽车为主要消费产品的人工智能公司,就已经展示了类似的能力。如何理解呢?首先,在FSDV12上,工程师删除了超过30万行定义驾驶规则的代码,系统将从被‘投喂’的驾驶视频中,学习如何应对真实的驾驶场景,而不是向过往那样,按照写好的规则,在某个特定场景下执行某一个具体的命令。当然,和作为‘生成式模型’的Sora不同,FSD的目标是实现自动驾驶,所以它并不需要真正生成一个具体的视频。你可以想象成一个人(或者智能体)正在进行‘防御性驾驶’,基于过往经验,可以对周围环境中交通参与者的下一步移动趋势做出判断。这个判断存在在头脑里就行了,不需要真正把它画在纸上。因此,特斯拉的FSD也不需要把对未来的想象,生成为一个真实视频,并呈现在车辆的某一个屏幕上。所以,现在有OpenAI和特斯拉两家完全不同的公司,用截然不同的方式和路径,实现‘通过视频生成,让AI理解物理世界’这个相同的目标。简单了解一下Sora的运行逻辑:OpenAI表示,Sora结合了Transformer和Diffusion两个过去几年最重要的模型。ChatGPT、Gemini、LLaMA等语言模式都是基于Transformer模型,它对词语进行标记,并生成下一个单词;Diffusion模型则是‘文生图’的代表。如果从‘理解世界’的角度来审视Sora,那么某一帧图像的画质、画面关系绝不是模型质量高低的评判标准,甚至官网释出的60秒一镜到底视频也不是最核心的部分。重要的是这个生成的视频可以被剪辑——在不同的机位下,无论是广角、中景、近景、特写,视频中人物和背景的关系都保持着高度的‘一致性’。这才是Sora遥遥领先并接近真实的地方。这一点和特斯拉在FSD上采取‘纯视觉’方案可以结合理解。简单来说,99%的车企或者智驾团队都会在车辆上保留激光雷达,通过激光束的发射和接收,辅助计算周围物体和车辆间的距离关系。但马斯克不仅删除了30万行代码,还移除了雷达,只依靠高清摄像头采集和神经网络学习来判断距离关系。无论是对特斯拉,还是对OpenAI,这都是巨大的挑战。毕竟输入的画面是2D的,但输出的结果(无论是驾驶指令还是视频)都需要基于对3D世界的深刻理解。规模和质量是训练模型的核心。特斯拉的数据来源于真实道路上,搭载了传感器的车辆;而OpenAI的大量数据,从目前的公开信息来看,来源于网络。在质量的维度,在《马斯克传》里,作者艾萨克森写道特斯拉通过和Uber合作,获取‘五星司机’的素材训练FSD;而从规模出发,奥特曼最近希望筹集万亿规模的资金,就是重注算力和规模的具体体现。最后,回到一开始的那个问题,为什么我们会认为Sora和FSDv12是相似的?Sora和OpenAI未来的想象空间又是什么呢?它们和AGI又有什么关系?在马斯克看来,当人工智能可以真正解决一个问题(物理、数学、化学等等)的时候,AGI就到来了。不过还有另外一个理解维度,那就是具身智能。毕竟现实世界里,并不是只有数学公式和文字规则,拥有一定的智商的小猫小狗也可以依靠运动真实地和物理世界进行互动。这点对于过去只能输入二维信息的AI来说很难做到。这也是为什么马斯克看到Sora后在X上评价是‘GGHumans’,在他看来Sora今天做到的,已经打破了过去的次元壁,而能理解真实世界并继续学习,AI也就有了更进一步影响真实世界的能力。而就像特斯拉把这种生成能力用于训练车辆,Sora的价值也不仅仅是生成一个难以让人区分真假的视频,用作影视创作者的生产力工具(尽管这是一个非常困难且刚需的场景)。就像周鸿祎所说,‘Sora只是小试牛刀,它展现的不仅仅是一个视频制作的能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。’...PC版:https://www.cnbeta.com.tw/articles/soft/1419067.htm手机版:https://m.cnbeta.com.tw/view/1419067.htm

封面图片

国产文生视频大模型 “筑梦” 亮相:在生成能力、时长、质量上与 Sora 还存在差距

国产文生视频大模型“筑梦”亮相:在视频生成能力、时长、质量上与Sora还存在差距在日前举行的中国首部AI动画片《千秋诗颂》启播暨中央广播电视总台人工智能工作室揭牌仪式上,上海人工智能实验室研发的文生视频大模型“书生・筑梦”亮相。这个AI模型已经开源,授权用户单位免费商用。它的参数量超过30亿,可根据输入的提示词生成有故事性、含多镜头的分钟级视频,具有转场流畅、故事连贯、画质高清等特点。上海人工智能实验室领军科学家林达华说,“由于数据、算力等资源限制,‘筑梦’在视频生成能力、时长、质量上与Sora还存在差距。”(解放日报)

封面图片

鉴于我们团队从去年开始就在做【世界模型(worldmodel)我必须要坚决地站在Yann 佬这边地指出OpenAI的Sora根

鉴于我们团队从去年开始就在做【世界模型(worldmodel)我必须要坚决地站在Yann佬这边地指出OpenAI的Sora根本不是世界模型,甚至除了都属于图像领域模型以外没有半毛钱关系。事实上,人家openAI从未在任何官方宣传资料上使用过【世界模型(英文:worldmodel)】这个名词来宣传sora,关于sora和世界模型的关系基本来自于翻译的误读、部分人群的颅内高潮外加营销号的刻意造势。【世界模型】的定义并不在于它生成的东西能不能像一个世界。一个模型如果能够被认定为【世界模型】它必须要向人们证明:其模型的预测结果可以随着环境中的主动交互进行变化,且这种变化还需要符合正确且统一的物理规律。(即图1中action的影响部分)也正因为如此,【世界模型】才可以被应用到训练、测试和端到端的决策系统上。从sora的技术方案中可看出(图2),sora的生成行为为:一次性生成视频而非不断地生成单帧图片。这意味着:sora生成的视频内容无法在其生成过程中被影响。sora的生成行为从技术本质上来说是:一次生成=一个完整的视频。(抽一次卡一个视频),而基于【世界模型】的文生视频模型需要能够让你看到这个视频在时间线上的生成过程并且你还能够在这个过程没有走到结束的时候影响它的结果。举个,如果你让sora生成一个:林克在草丛中奔跑,它也许能很好的完成任务,比如模仿出塞尔达的场景,让一个穿着英杰服拿着大师剑的林克在草丛中奔跑,也许它还能更好比如能转个弯跳一下。但是如果它是【世界模型】的话,你可以随时按照你的需要改变他奔跑的轨迹,甚至让他停下来,就像在玩游戏一样。sora当然做不到这些甚至连物理规律都没学好如果还有人告诉你它是世界模型,那么要么它就不该是你收集信息的信息源了,要么ta想骗你点什么。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人