国产文生视频大模型 “筑梦” 亮相：在生成能力、时长、质量上与 Sora 还存在差距

国产文生视频大模型“筑梦”亮相：在视频生成能力、时长、质量上与Sora还存在差距在日前举行的中国首部AI动画片《千秋诗颂》启播暨中央广播电视总台人工智能工作室揭牌仪式上，上海人工智能实验室研发的文生视频大模型“书生・筑梦”亮相。这个AI模型已经开源，授权用户单位免费商用。它的参数量超过30亿，可根据输入的提示词生成有故事性、含多镜头的分钟级视频，具有转场流畅、故事连贯、画质高清等特点。上海人工智能实验室领军科学家林达华说，“由于数据、算力等资源限制，‘筑梦’在视频生成能力、时长、质量上与Sora还存在差距。”（解放日报）

在Telegram中查看

相关推荐

腾讯混元文生图模型开源采用Sora同架构

腾讯混元文生图模型开源采用Sora同架构5月14日，腾讯宣布旗下混元文生图模型升级并开源，参数量15亿，目前已在平台及上发布，包含模型权重、推理代码、模型算法等完整模型，企业与个人开发者可免费商用。该模型支持文生图功能且可作为视频等多模态视觉生成的基础。随着腾讯混元文生图大模型入局，采用DiT架构的大模型玩家再增一名。OpenAI的视频生成模型Sora也采用DiT架构。腾讯方面介绍，混元文生图大模型是业内首个中文原生的DiT架构文生图模型，综合指标在文生图算法中排名第三。——

上海人工智能实验室发布自动驾驶视频生成模型 GenAD

上海人工智能实验室发布自动驾驶视频生成模型GenAD上海人工智能实验室3月20日发文宣布，近日，该实验室联合香港科技大学、德国图宾根大学、香港大学推出大规模自动驾驶视频生成模型GenAD，通过预测和模拟真实世界场景，为自动驾驶技术的研究和应用提供支撑。视频生成模型GenAD进一步拓宽了自动驾驶技术的研究路径。结合此前推出的端到端自动驾驶模型UniAD、“语言+自动驾驶”全栈数据集DriveLM，上海人工智能实验室从多个技术维度对自动驾驶技术进行探索，从而多方位提升其智能性。同时，联合团队构建了包含1747小时驾驶视频的数据集OpenDV-YouTube，现已开源。

字节跳动辟谣推出中文版 Sora：还无法完善产品落地，距离国外模型有很大差距

字节跳动辟谣推出中文版Sora：还无法完善产品落地，距离国外模型有很大差距今日有消息称，在Sora引爆文生视频赛道之前，国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与Gen-2、Pink1.0等模型不同的是，Boximator可以通过文本精准控制生成视频中人物或物体的动作。对此，字节跳动相关人士回应称，Boximator是视频生成领域控制对象运动的技术方法研究项目，目前还无法作为完善的产品落地，距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。（新浪科技）

人工智能公司 OpenAI 向好莱坞推荐视频生成技术Sora

人工智能公司OpenAI向好莱坞推荐视频生成技术Sora人工智能公司OpenAI在好莱坞发起了魅力攻势，与派拉蒙、环球和华纳兄弟探索等主要电影公司举行了会议，展示其视频生成技术Sora，并缓解对人工智能模型将损害电影行业的担忧。据多位知情人士透露，首席执行官萨姆•奥尔特曼和首席运营官布拉德•莱特卡普在最近几天举行的会议上向电影行业巨头的高管们做了介绍。奥尔特曼和莱特卡普展示了Sora—一个新的生成式人工智能模型，能够根据简单的文字提示生成细节栩栩如生的视频。——

新华网：多模态大模型是必经之路通用人工智能进程加快

新华网：多模态大模型是必经之路通用人工智能进程加快近期，OpenAI发布视频生成模型Sora，引发人们对文生视频AI大模型的关注。Sora在视频生成方面的进展进一步打开了AI应用想象空间。AI视频是被看好的AI应用落地的重要场景之一，文生视频并不是一个新概念，国内市场早已存在不少公开的AI视频模型。有券商预测，国内大模型厂商将加快步伐，加大对文成视频大模型的投入力度。IDC中国研究总监卢言霞认为，要全面打开生成式AI的想象力，就要依托多模态大模型，国内很多公司早就已经在投入多模态大模型的研发，这是AI的必经之路。今天，Sora让文生视频迈出新的一步，将刺激其他科技巨头加快在该领域的技术攻关力度以及产品发布速度。在许多业内人士看来，Sora大幅缩短了通用人工智能（AGI）的实现时间，但文生视频本身只是AGI发展道路上的一小步。

重磅： Open AI 正式推出文生视频模型 Sora

重磅：OpenAI正式推出文生视频模型Sora名为Sora视频模型突然降临，OpenAI目前提供的情报，所揭示的一些惊人能力：-Sora根据用户提示可以生成长达一分钟的视频，同时保持视觉质量。（在这部电影预告片的提示词，非常简介：讲述30岁的太空人头戴红色羊毛针织摩托车头盔的冒险故事，蓝天、盐碱沙漠、电影风格、35毫米胶片拍摄、色彩鲜明。）-Sora能够生成包含多个角色、特定运动类型以及主体和背景准确细节的复杂场景。-Sora将理解你。这意味着和Dall·E3有着类似的体验，它具有非凡的语言理解力。-Sora还能理解这些事物在物理世界中是如何存在的；换句话说，Sora理解关于世界如何通过知识和规律进行表征，这可能是重大突破之一。（Hans注，这并不代表它是完美理解世界）-Sora还能在单个生成的视频中创建多个镜头，准确地体现角色和视觉风格。-Sora是一种采取了Transformer架构的扩散模型，不仅能生成还能延长，让模型一次性预测多帧画面，确保主体一致性。-更多官方案例参考https://openai.com/sora安全方面的声明和步骤：OpenA正在与红队人员（错误信息、仇恨内容和偏见等领域的专家）合作，他们将对模型进行对抗性测试。还在开发一些工具来帮助检测误导性内容，例如检测分类器，它可以分辨出视频是由Sora生成的。OpenAI相信，从现实世界的使用中学习，是随着时间的推移创建和发布越来越安全的人工智能系统的重要组成部分。Text2Video的生态位差不多在去年这个时候，Runway所引爆的Text2Video相关的生态位开启了重构好莱坞的想象空间。不到一年Sora的横空出生，其必将带来难以想像的变革力量。这是山峰再一次的快速攀升。从多模态的深远意义来说，我强烈意识到OpenAI描述的野心：「Sora是能够理解和模拟现实世界的模型的基础，我们相信这种能力将是实现AGI的重要里程碑。」Invalidmedia:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人