视频不能 P 所以是真的?现在 AI 可以在任何中添加拟真物体

视频不能P所以是真的?现在AI可以在任何视频中添加拟真物体研究员提出了一种AnythinginAnyScene视频模拟框架,能够将任何物体完美融入到任何动态视频中。它可以使物体稳定放置在特定位置上(光流跟踪),并处理与其它物体的遮挡关系(分割掩模),它还能估计场景光照与生成阴影(HDR+光线追踪),最后用场景风格迁移使物体表现更加自然(图像生成/修复)。、投稿:@TNSubmbot频道:@TestFlightCN

相关推荐

封面图片

Unity 6 配备人工智能工具、支持WebGPU并与苹果和Meta合作

Unity6配备人工智能工具、支持WebGPU并与苹果和Meta合作Unity的优势在于可以提供跨平台的无缝工具,让开发人员可以事半功倍地创建最先进的3D游戏和应用程序。使用Unity创建的游戏可以在iOS、macOS、tvOS、Android、Web等多个平台上同时发布。计划于2024年发布的Unity6LTS新功能包括用于角色和场景创建的新人工智能功能、WebGPU支持以及针对XR(扩展现实)头显(包括即将发布的AppleVisionPro)的增强功能。Unity6LTS还将改进多人游戏和性能,并支持WebGPU。WebGPU是W3C联盟正在开发的一个新的开放图形标准,将采用基于Vulkan、微软Direct3D12和苹果Metal图形API的JavaScriptAPI。如果移动设备支持上述API,新标准还将为这些设备带来标准化的图形界面。WebGPU还将包括一个标准化的基于网络的图形显示视图,可"随时随地"在任何系统的所有网络浏览器上提供3D渲染。3D游戏光照将通过Unity6的自适应探针卷和通用管道渲染功能得到增强。其他新功能还将支持空间-时间后处理、GPU遮挡剔除和GPU驻留抽屉。遮挡剔除功能通过移除网格物体中被其他物体或部分场景环境遮挡的部分来加快渲染性能。Unity云UnityCloud是Unity的协作和资产共享环境。升级版将包括对仪表盘、团队管理、资产管理器和DevOps工具的改进。目前,UnityCloud处于注册用户早期访问预览阶段。人工智能改进UnityMuse和UnitySentis的人工智能功能也有了改进和新功能。Muse将为精灵和纹理加入生成式人工智能功能,而Sentis将加入新的人工智能功能,用于生成游戏角色,这些角色可以内置游戏人工智能,并知道如何自动响应其他游戏角色和事件。Muse还将对现有的Unity资产进行人工智能修改。UnityBehavior将允许开发人员只需输入文字提示,即可要求人工智能创建角色行为和交互。开发人员人工智能将提供开发工具和代码答案。对Muse的全面支持将于2024年底到来。与苹果和Meta合作Unite2023大会还宣布了Unity与苹果和Meta的合作关系。苹果和Meta都宣布将与Unity合作,为AppleVisionPro和MetaQuest以及SmartGlassesXR头显创建开发者工具。今年6月,在苹果WWDC主题演讲上,苹果全球开发者关系副总裁苏珊-普雷斯科特(SusanPrescott)宣布:"今天,我们很高兴地与大家分享,我们一直在与Unity合作,将这些应用引入VisionPro,因此基于Unity的流行游戏和应用可以完全访问visionOS功能,例如穿透、高分辨率渲染和原生手势。"Unity6承诺允许开发者将许多基于Unity构建的现有游戏移植到苹果VisionPro,但目前还不清楚这一兼容性升级何时发布。...PC版:https://www.cnbeta.com.tw/articles/soft/1402809.htm手机版:https://m.cnbeta.com.tw/view/1402809.htm

封面图片

全球最大的游戏引擎Unity要出生成式AI工具了 能不能做好3D是个问题

全球最大的游戏引擎Unity要出生成式AI工具了能不能做好3D是个问题Unity中国AI技术负责人暴林超在演讲中谈到这一构想,“通过建立大语言模型和用户交互这样一个更自然的交互界面,来串联起我们的3DAIGC模型,以及Unity引擎内部可以提供的一些工具(如程序化生成等)。同时我们会探索将用户的隐私数据更安全地在本地做管理,在保护用户隐私的情况下,用户可以实现在本地部署引擎,并以这样的方式接入Copilot。”“Copilot”(直译为“副驾驶”)的说法目前被广泛用于GitHubCopilot和Microsoft365Copilot等产品,几乎已经成为AI辅助工具的代称。不过从Unity技术开放日当天透露的信息来看,U3DCopilot目前还只停留在构想,Unity中国并没有在现场进行任何相关演示。这场活动是Unity时隔两年之后再次举办线下巡回技术开放日。“前两年大家还都在讲元宇宙,今年都在讲AIGC,几乎是引爆了整个(游戏)行业。”Unity中国CEO张俊波在当天的致辞中讲到。不仅是行业,Unity的中国业务也在过去两年经历了较大变化。去年8月,Unity中国宣布成立,引入了阿里巴巴、中国移动、吉比特、米哈游、OPPO、佳都科技和抖音等投资者,成为Unity在中国的合资公司。张俊波的title从“Unity大中华区总经理”变为“Unity中国总裁兼首席执行官”,负责AI技术的暴林超则是在不久前刚加入Unity中国。“这也是我们关注中国开发者的新起点。”张俊波在致辞中说。Unity中国关注生成式AI的步调和Unity基本一致。Unity可以说是最早宣布将投入生成式AI大模型的大型游戏引擎。今年3月举办的GDC开发者大会上,Unity发布了一段名叫“UnityAI”的视频。视频以文本框的形式输入了一系列指令,包括“生成一个女性3D角色”,“生成一片拥有灰暗天空的大型地貌”,“慢慢推进摄像机,并加入戏剧性的光线”等等,暗示这些效果和资产未来都可以跳过繁琐的代码与调试,在Unity中通过文字prompt直接生成。UnityCEOJohnRiccitiello在接受采访时同时提到,未来不排除会开放一片AIGC专用的交易市场,供开发者在其中买卖AI工具。而后在今年5月发布第一季度财报时,Unity在股东信中专门开辟了“Gen-AI(AI时代)”专栏来回答股东提问。比如提到会在今年内推出使用自然语言的UI页面,而“一键生成游戏”的工具现阶段还不太可能,其目前对AI工具的定位更多是草稿的快速生成助手。此外,Unity还计划将引擎打造为一个供开发商训练AI模型的工具,帮助开发商“按照自己的需求进行数据创造、模拟和训练”。Unity中国频繁因为AI被关注也是最近一个月的事情。5月初,Unity中国在采访中透露已建立了中国本土AI研发团队,其负责人也开始频繁出现在各种关于AIGC的活动上,如张俊波“有八成原画师下岗”和“今后的游戏公司不一定会像现在那么集中在几个大厂等巨头公司”等言论也频繁在行业中被提及。而在6月8日举办的北京站技术开放日上,Unity中国引擎技术负责人左瑞文也在介绍中明确提到,Unity中国在今年的首要任务——研发Unity中国版引擎的三大方向之一,就是以生成式AI为主的智能化(其他两个方向是本地化和云化)。当然这其中不乏难点,难点在于3D内容开发的复杂性。暴林超在当天的AI主题演讲中先是回溯了生成式AI在近一年发展的节点性事件,介绍了stablediffusion和ChatGPT两大热门生成式AI工具的核心技术原理,以及AI技术从“领域专用AI小模型”到“生成式AI大模型”、生成式AI大模型从“通用”到“专用”的发展趋势,接着便谈到了3D生成式AI的三大技术难点:第一,3D的数据表示有非常多的选择,如体素、点云、Mesh、SDF和隐式场等,尽管经常会有针对不同数据表示的论文发布,但距离达到生产质量都还有一定差距;第二,3D数据的呈现依赖也非常多,也就是说,要在引擎里渲染出一个比较好的效果,不但取决于模型本身,还受到贴图、材质、Shader、光照、动画和VFX等的影响,这些也给3D的AIGC生产带来了很多困难;第三,3D高质量数据相对而言比较稀缺,而1D或2D维度不管是文本还是图片生成,数据量都是巨大的,目前3D的数据量还远远达不到这些量级。由于Unity引擎主要专注于游戏中3D技术的应用,这些3D数据的难点也都给其生成式AI工具的开发带来了挑战。暴林超接着提到了Unity中国3D生成式AI主要的几个技术方向:分别是3D模型、材质和贴图、3D场景、3D虚拟人,还有隐式场及神经渲染。就目前来说,Unity引擎界面依然非常复杂,看上去仍不够“智能”。未来Unity中国能否将以上存在在PPT和演示视频中的构想一一实现,将决定它究竟是履行了“帮助开发者更好地应对技术和市场革新的天然使命”,还是只是在取悦投资者。...PC版:https://www.cnbeta.com.tw/articles/soft/1364661.htm手机版:https://m.cnbeta.com.tw/view/1364661.htm

封面图片

真能听懂人话 谷歌发布又一AI大模型黑科技

真能听懂人话谷歌发布又一AI大模型黑科技RT-2相当于机器人版ChatGPT,被GoogleDeepMind称作是其视觉-语言-动作(VLA)模型的新版本。该模型可以教会机器人更好地识别视觉和语言模态,能够解释人类用自然语言发出的指令,并推断出如何做出相应的行动。它还可以理解英语以外的语言的指示。结合思维链推理,RT-2可以执行多阶段语义推理。即便是一些抽象概念,RT-2也能理解并指挥机械臂做出正确的动作。比如让它找一把临时用的简易锤子,它会抓起石头;让它给疲惫的人选一款饮料,它会选择红牛;让它把可乐罐移到泰勒·斯威夫特的照片上,它也能顺利完成。根据论文,RT-2模型基于网络和机器人数据进行训练,利用了Google自己的Bard等大型语言模型的研究进展,并将其与机器人数据(例如要移动的关节)相结合,然后将这些知识转化为机器人控制的通用指令,同时保留web-scale能力。GoogleDeepMind博客文章写道,RT-2显示出超越其所接触的机器人数据的泛化能力以及语义和视觉理解能力,包括解释新命令并通过执行基本推理(例如关于对象类别或高级描述的推理)来响应用户命令。其将信息转化为行动的能力表明,机器人有望更快地适应新的情况和环境。在对RT-2模型进行了超过6000次的机器人试验后,研究团队发现,RT-2在训练数据或“可见”任务上的表现与之前的模型RT-1一样好。它在新奇的、不可预见的场景中的表现几乎翻番,从RT-1的32%提高到62%。01让机器人用AI大模型学习新技能机器人技术领域正悄然进行一场革命——将大型语言模型的最新进展引入机器人,让机器人变得更聪明,并具备新的理解和解决问题的能力。《纽约时报》技术专栏作家凯文·罗斯(KevinRoose)在Google机器人部门观看了实际演示,工程师给机器人发出指令:“捡起灭绝的动物”,一个单臂机器人呼呼地响了一会儿,然后伸出机械臂,爪子张开落下,准确抓住了它面前桌子上的恐龙塑料制品。▲《纽约时报》拍摄的视频在这场长达1小时的演示中,RT-2还成功执行了“将大众汽车移到德国国旗上”的复杂指令,RT-2找到并抓住一辆大众巴士模型,并将其放在几英尺外的微型德国国旗上。▲两名Google工程师RyanJulian(左)和QuanVuong成功指示RT-2“将大众汽车移到德国国旗上”。(图源:《纽约时报》)多年以来,Google和其他公司的工程师训练机器人执行机械任务(例如翻转汉堡)的方式是使用特定的指令列表对其进行编程。然后机器人会一次又一次地练习该任务,工程师每次都会调整指令,直到得到满意的结果为止。这种方法适用于某些有限的用途。但以这种方式训练机器人,既缓慢又费力。它需要从现实世界的测试中收集大量数据。如果你想教机器人做一些新的事情(例如从翻转汉堡改做翻转煎饼),你通常必须从头开始重新编程。部分源于这些限制,硬件机器人的改进速度慢于基于软件的同类机器人。近年来,Google的研究人员有了一个想法:如果机器人使用AI大型语言模型(来为自己学习新技能,而不是逐一为特定任务进行编程,会怎样?据Google研究科学家卡罗尔·豪斯曼(KarolHausman)介绍,他们大约两年前开始研究这些语言模型,意识到它们蕴藏着丰富的知识,所以开始将它们连接到机器人。高容量视觉-语言模型(VLM)在web-scale数据集上进行训练,使这些系统非常擅长识别视觉或语言模式并跨不同语言进行操作。但要让机器人达到类似的能力水平,他们需要收集每个物体、环境、任务和情况的第一手机器人数据。RT-2的工作建立在RT-1的基础上。这是一个经过多任务演示训练的模型,可学习机器人数据中看到的任务和对象的组合。更具体地说,Google的研究工作使用了在办公室厨房环境中用13个机器人在17个月内收集的RT-1机器人演示数据。Google首次尝试将语言模型和物理机器人结合起来是一个名为PaLM-SayCan的研究项目,该项目于去年公布,它引起了一些关注,但其用处有限。机器人缺乏解读图像的能力,而这是能够理解世界的一项重要技能。他们可以为不同的任务写出分步说明,但无法将这些步骤转化为行动。Google的新机器人模型RT-2就能做到这一点。这个“视觉-语言-动作”模型不仅能够看到和分析周围的世界,还能告诉机器人如何移动。它通过将机器人的动作转换为一系列数字(这一过程称为标注)并将这些标注合并到与语言模型相同的训练数据中来实现这一点。最终,就像ChatGPT或Bard学会推测一首诗或一篇历史文章中接下来应该出现什么词一样,RT-2可以学会猜测机械臂应该如何移动来捡起球,或将空汽水罐扔进回收站垃圾桶。02采用视觉语言模型进行机器人控制RT-2表明视觉-语言模型(VLM)可以转化为强大的视觉-语言-动作(VLA)模型,通过将VLM预训练与机器人数据相结合,直接控制机器人。RT-2以视觉-语言模型(VLM)为基础,将一个或多个图像作为输入,并生成一系列通常代表自然语言文本的标注。此类VLM已接受web-scale数据的训练,能够执行视觉问答、图像字幕或对象识别等任务。GoogleDeepMind团队采用PaLI-X和PaLM-E模型作为RT-2的支柱。为了控制机器人,必须训练它输出动作。研究人员通过将操作表示为模型输出中的标注(类似于语言标注)来解决这一挑战,并将操作描述为可以由标准自然语言标注生成器处理的字符串,如下所示:▲RT-2训练中使用的动作字符串的表示形式。这种字符串的示例可以是机器人动作标记编号的序列,例如“1128912415101127217”。该字符串以一个标志开头,指示是继续还是终止当前情节,而不执行后续命令,然后是更改末端执行器的位置和旋转以及机器人夹具所需延伸的命令。研究人员使用了与RT-1中相同的机器人动作离散版本,并表明将其转换为字符串表示使得可以在机器人数据上训练VLM模型,因为此类模型的输入和输出空间不需要改变了。▲RT-2架构和训练:研究人员针对机器人和网络数据共同微调预先训练的VLM模型。生成的模型接收机器人摄像头图像并直接预测机器人要执行的动作。03泛化性能和紧急技能显著更好研究人员在RT-2模型上进行了一系列定性和定量实验,进行了6000多次机器人试验。在探索RT-2的新兴功能时,他们首先搜索了需要将web-scale数据的知识与机器人的经验相结合的任务,然后定义三类技能:符号理解、推理和人类识别。每项任务都需要理解视觉语义概念以及执行机器人控制以操作这些概念的能力。需要诸如“捡起即将从桌子上掉下来的袋子”之类的命令,其中要求机器人对机器人数据中从未见过的物体或场景执行操作任务将知识从基于网络的数据转化为可操作的。▲机器人数据中不存在的新兴机器人技能示例,需要通过网络预训练进行知识迁移。在所有类别中,研究人员观察到与之前的基线(例如之前的RT-1模型和VisualCortex(VC-1)等模型)相比,RT-2的泛化性能提高到3倍以上,这些模型是在大型视觉数据集上进行预训练的。▲紧急技能评估的成功率:RT-2模型优于之前的RT-1和VC-1基线。研究人员还进行了一系列定量评估,从最初的RT-1任务开始,在机器人数据中提供了示例,然后继续对机器人进行不同程度的以前未见过的物体、背景和环境,要求机器人从VLM预训练中学习泛化能力。▲机器人以前未见过的环境示例,RT-2可以推广到新的情况。RT-2保留了机器人数据中看到的原始任务的性能,并提高了机器人在以前未见过的场景上的性能,从RT-1的32%提高到了62%,展示了大规模预训练的巨大优势。PC版:https://www.cnbeta.com.tw/articles/soft/1373791.htm手机版:https://m.cnbeta.com.tw/view/1373791.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人