NVIDIA实现从图像中抽象出概念再生成新的图像人类幼崽技能AI终于学会了

NVIDIA实现从图像中抽象出概念再生成新的图像人类幼崽技能AI终于学会了人类幼崽2岁就能做的事，AI竟然才学会？早在2017年，就有网友吐槽：2岁幼童只要见过一次犀牛的照片，就能在其他图片里认出不同姿势、视角和风格的卡通犀牛，但AI却做不到。直到现在，这一点终于被科学家攻克了！最新研究发现，只要给AI喂3-5张图片，AI就能抽象出图片里的物体或风格，再随机生成个性化的新图片。有网友评价：非常酷，这可能是我这几个月来看到的最好的项目。它是如何工作的？让我们先来看几个例子。当你上传3张不同角度的陶瓷猫照片，可能会得到以下4张新图像：两只在船上钓鱼的陶瓷猫、陶瓷猫书包、班克斯艺术风格的猫以及陶瓷猫主题的午餐盒。同样的例子还有艺术品：铠甲小人：碗：不只是提取图像中的物体，AI还能生成特定风格的新图像。例如下图，AI提取了输入图像的绘画风格，生成了一系列该风格的新画作。更神奇的是，它还能将两组输入图像相结合，提取一组图像中的物体，再提取另一组的图像风格，两者结合，生成一张崭新的图像。除此之外，有了这个功能，你还可以对一些经典图像“下手”，给它们添加一些新元素。那么，这么神奇的功能背后是什么原理呢？尽管近两年来，大规模文本-图像模型，如DALL·E、CLIP、GLIDE等，已经被证明有很强的自然语言推理能力。但有一点：如果用户提出一些特定的需求，比如生成一张包含我最喜欢的童年玩具的新照片，或者把孩子的涂鸦变成一件艺术品，这些大规模模型都很难做到。为了应对这一挑战，研究给出了一个固定的、预先训练好的文本-图像模型和一个描述概念的小图像集（用户输入的3-5张图像），目标是找到一个单一的词嵌入，从小集合中重建图像。由于这种嵌入是通过优化过程发现的，于是称之为“文本倒置（TextualInversion）”。具体来说，就是先抽象出用户输入图像中的物体或风格，并转换为“S∗”这一伪词（pseudo-word），这时，这个伪词就可以被当作任何其他词来处理，最后根据“S∗”组合成的自然语句，生成个性化的新图像，比如：“一张S∗在海滩上的照片”、”一幅挂在墙上的S∗的油画”、”以S2∗的风格画一幅S1∗”。值得注意的是，由于本次研究应用了一个小规模、经过策划的数据集，因此在生成图像时能有效地避免刻板印象。例如下图，当提示“医生”时，其他模型倾向于生成白种人和男性的图像，而本模型生成图像中则增加了女性和其他种族的人数。目前，该项目的代码和数据已开源，感兴趣的小伙伴可以关注一下。作者介绍该篇论文来自特拉维夫大学和英伟达的研究团队，作者分别是RinonGal、YuvalAlaluf、YuvalAtzmon、OrPatashnik、AmitH.Bermano、GalChechik、DanielCohen-Or。第一作者RinonGal，是特拉维夫大学的计算机科学博士生，师从DanielCohen-Or和AmitBermano，主要研究方向是在减少监督的条件下生成2D和3D模型，目前在英伟达工作。参考链接：[1]https://textual-inversion.github.io/[2]https://github.com/rinongal/textual_inversion[3]http...PC版：https://www.cnbeta.com/articles/soft/1304219.htm手机版：https://m.cnbeta.com/view/1304219.htm

在Telegram中查看

相关推荐

NVIDIA 正在设法大幅提高生成 AI 图像和视频的速度

NVIDIA正在设法大幅提高生成AI图像和视频的速度Nvidia多伦多人工智能实验室的研究人员正在解决生成图像和视频的时间问题，本周在该公司的GTC2024会议上，他们概述了这项工作的一些成果，展示了旨在实现这一目标的进步更快（因此更经济）生成“噪音”明显更少的图像和更详细的3D图像，将时间从几周或几个月缩短为几天或几分钟。对于图像生成，研究人员着眼于加速扩散模型的工作，该模型用于解决生成高保真度高分辨率图像的棘手问题，并且是OpenAI的Dall-E3等文本到图像模型的基础谷歌的图像。从本质上讲，它们消除了“噪声”——图像原始场景内容中不存在的伪影，但这些伪影可能使图像看起来模糊、像素化、颗粒状或以其他方式表现不佳。——

Google推出Lumiere生成式AI 可基于文本提示创建逼真的图像和视频

Google推出Lumiere生成式AI可基于文本提示创建逼真的图像和视频这听起来可能并不令人印象深刻，但有了最新的生成式人工智能工具的帮助，我们就能走得更远，创造出令人惊叹的作品。Lumiere还使用扩散概率模型来帮助生成图像。这与时空U-Net相结合。对于那些不了解的人来说，U-Net是一种架构，它能带来时间上的放大和缩小，以及添加到图像中的注意力区块。最棒的是，这种新的生成式人工智能工具可以与许多其他模型一起使用，这将有助于创建比我们之前看到的任何图像和视频都更加逼真的图像和视频。Lumiere可用于创建以下内容：电影胶片将图像的单一部分制作成动画动画视频中的一个物体可以被另一个物体取代风格化生成：任何创作的艺术风格都可以改变为其他风格图像到视频：帮助制作任何所需图像的动画视频到视频：允许用户创建不同艺术风格的视频在撰写本文时，Lumiere创建的视频长度最长仅为5秒，而且还不具备创建视频转换和多角度摄像的功能。另外值得注意的是，如果你想试用Lumiere，仅靠标准GPU是不行的。PC本身必须有强大的图形处理能力，否则该工具根本无法运行。访问试用：https://lumiere-video.github.io/...PC版：https://www.cnbeta.com.tw/articles/soft/1415363.htm手机版：https://m.cnbeta.com.tw/view/1415363.htm

【Adobe发布名为“Firefly”的图像生成人工智能模型】

【Adobe发布名为“Firefly”的图像生成人工智能模型】2023年03月22日11点03分3月22日消息，Adobe公司发布名为“Firefly”的图像生成人工智能模型，目前主要专注于图像生成和文本效果，如文字生成矢量/笔刷/模板、根据自定义风格生成图像、指定纵横比扩展图像、据3D模型生成图像、为黑白图像上色、使用画笔修改图像并用文字描述的风格进行填充等。未来，Firefly将被实装在Adobe全家桶中。该模型的学习数据来源于Adobe旗下AdobeStock数据库、经授权的作品以及版权已过期的公共内容。据Adobe表示，用户的内容不会被用来训练Firefly。

Stability AI 发布草图到图像生成 AI 工具

StabilityAI发布草图到图像生成AI工具StabilityAILtd.今天推出了StableDoodle，进一步丰富了其生成式人工智能工具库。该公司表示，这是一款草图到图像工具，可以将简单的草图转换为更动态的图像，它的目标受众是从创意专业人士到业余艺术家的所有人。该公司表示，StableDoodle可供专业人士和新手使用，并且不需要熟悉人工智能工具。用户只需勾画出基本草图并上传，模型就会根据用户的选择将其转换为专业的卡通风格动画、折纸模型甚至逼真的图像。https://clipdrop.co/stable-doodle——

【NFT市场LimeWire收购AI图像生成平台BlueWillowAI】

【NFT市场LimeWire收购AI图像生成平台BlueWillowAI】2023年09月20日03点15分9月20日消息，NFT市场LimeWire宣布收购AI图像生成平台BlueWillowAI，此次收购紧随LimeWire上个月推出LimeWireAIStudio之后。BlueWillow自今年初推出以来，声称已有超过230万活跃用户，并在今年已创建了超过5亿张图片。LimeWire计划将BlueWillow的专有文本到图像和图像到图像的AI模型集成到其AIStudio中。

AI图像自动生成实例或将带来新的世界变革

AI图像自动生成实例或将带来新的世界变革近期AI图像自动生成工具突然爆火，不少玩家带来了最新作品，实际上只要输入有意义的单词或句子就会生成各种图像，有业界人士表示或将带来新的世界变革。如今AI图像自动生成界有Midjourney以及StableDiffusion等主流工具软件，而StableDiffusion近期则刚刚免费开源，可以用于动漫游戏电影等多领域图像生成制作，而且用户完全不需要专业绘画绘图技术。•以下则是各种示例，比如输入“勇者斗恶龙的毕加索风格”、“勇者斗恶龙的北斎风格”以及“将勇者斗恶龙变成照片”等等，另外还有其他类型作品，一起来开开眼。PC版：https://www.cnbeta.com/articles/soft/1309539.htm手机版：https://m.cnbeta.com/view/1309539.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人