卧槽,字节昨天发布这个项目DreamTuner,可以一举解决图像生成中角色一致性的问题。

卧槽,字节昨天发布这个项目DreamTuner,可以一举解决图像生成中角色一致性的问题。效果也太好了,可以将输入图片的角色在生成新图是完美保留,并且融合度非常好,这下小说、漫画和视频的人物一致性和商品一致性问题彻底解决了。并且可以和ContorlNet联动确保动画的稳定,间接实现了前段时间的让单张图片动起来的功能。项目简介:我们提出了一种新颖的方法DreamTurner,该方法将定制主题的参考信息从粗到细注入。首先提出了一个主题编码器,用于粗略主题身份保留,通过额外的注意力层在视觉-文本交叉注意力之前引入了压缩的一般主题特征。然后,注意到预训练的文本到图像模型中的自注意力层自然地执行了详细的空间上下文关联功能,我们将其修改为自主题注意力层,以细化目标主题的细节,生成的图像从参考图像和自身查询详细特征。值得强调的是,自主题注意力是一种优雅、有效且无需训练的方法,用于保持定制概念的详细特征,可在推断过程中作为即插即用的解决方案。最后,通过对单个图像进行额外微调,DreamTurner在受主题驱动的图像生成方面取得了显著的表现,可由文本或其他条件(如姿势)进行控制。项目地址:https://dreamtuner-diffusion.github.io/

相关推荐

封面图片

StoryDiffusion 是一个开源的图像和视频生成模型,它通过一致自注意力机制和运动预测器,能够生成连贯的长序列图像和

StoryDiffusion是一个开源的图像和视频生成模型,它通过一致自注意力机制和运动预测器,能够生成连贯的长序列图像和视频。这个模型的主要优点在于它能够生成具有角色一致性的图像,并且可以扩展到视频生成,为用户提供了一个创造长视频的新方法。该模型对AI驱动的图像和视频生成领域有积极的影响,并且鼓励用户负责任地使用该工具。使用场景示例:使用StoryDiffusion生成一系列漫画风格的图像。创建一个基于文本提示的长视频,展示一个连贯的故事。利用StoryDiffusion进行角色设计和场景布局的预可视化。产品特色:一致自注意力机制:生成长序列中的角色一致图像。运动预测器:在压缩的图像语义空间中预测运动,实现更大的运动预测。漫画生成:利用一致自注意力机制生成的图像,无缝过渡创建视频。图像到视频的生成:提供用户输入的条件图像序列来生成视频。两阶段长视频生成:结合两个部分生成非常长且高质量的AIGC视频。条件图像使用:图像到视频模型可以通过提供一系列用户输入的条件图像来生成视频。短视频生成:提供快速的视频生成结果。

封面图片

Google推出新图像控制方式 可在StableDiffusion图像生成中保证内容特征一致性

Google推出新图像控制方式可在StableDiffusion图像生成中保证内容特征一致性论文地址:https://arxiv.org/pdf/2311.10093.pdf这项技术的实现方法包括三个步骤。首先是身份聚类,通过生成一系列图像,并将它们嵌入到语义空间中,使用聚类算法将这些图像分组,每个组代表一种可能的角色身份。这个过程旨在识别出一组视觉上一致的图像,从而确定角色的主要视觉特征。接下来是身份提取,一旦确定了一组具有高内聚性的图像,就会在这些图像上训练模型,以提取出更一致的角色身份。这意味着模型将学习到特定角色的关键视觉特征,以便在未来的生成中更准确地重现这些特征。...PC版:https://www.cnbeta.com.tw/articles/soft/1398313.htm手机版:https://m.cnbeta.com.tw/view/1398313.htm

封面图片

Midjourney推出了角色一致性功能!--cref参数使用Midjourney推出了角色一致性功能“CharacterRef

Midjourney推出了角色一致性功能!--cref参数使用Midjourney推出了角色一致性功能“CharacterReference”(角色参考)!这个功能可以帮助用户在不同场景或不同图片中创作出外观和特征一致的角色形象。与之前推出的“StyleReference”(风格参考)功能类似,“CharacterReference”也是通过匹配参考图片来生成新的图像。但不同之处在于,CharacterReference专注于匹配参考图片中角色的特征,如面部、发型和服装等,而不是整体风格。

封面图片

卧槽 MagicClothing 这个AI 换装的演示效果有点强啊。

卧槽MagicClothing这个AI换装的演示效果有点强啊。而且还可以与ControlNet和IP-Adapter等其他技术结合使用。还是开源的,期待对应的ComfUI节点。详细介绍:推出了一种名为MagicClothing的新型网络架构,它基于潜在扩散模型(LDM)进行开发,专门处理一项新的图像合成任务——服装驱动的图像合成。该系统旨在生成根据不同文本提示定制的、穿着特定服装的角色。在这一过程中,图像的可控性至关重要,主要是要确保服装的细节得以保留,并且生成的图像要忠实于文本提示。为了实现这一点,我们开发了一种服装特征提取器,用以详细捕捉服装的特征,并通过自注意力融合技术,将这些特征有效整合到预训练好的LDMs中,确保目标角色的服装细节不发生改变。同时,我们还使用了一种称为联合无分类器指导的技术,以平衡服装特征和文本提示在生成图像中的影响。此外,我们提出的服装提取器是一个可插拔模块,可以应用于多种经过微调的LDMs,并能与ControlNet和IP-Adapter等其他技术结合使用,进一步提高生成角色的多样性和可控性。我们还开发了一种名为匹配点LPIPS(MP-LPIPS)的新型评估指标,用于评价生成图像与原始服装之间的一致性。论文地址:https://arxiv.org/abs/2404.09512

封面图片

华为发布 DiT 架构的图像生成模型,可以直出 4K 分辨率图像。#ai画图#

华为发布DiT架构的图像生成模型,可以直出4K分辨率图像。论文简介:我们引入了PixArt-\Sigma,一个能够直接生成4K分辨率图像的DiffusionTransformer(DiffusionTransformer,DiT)模型。相比其前身PixArt-\alpha,PixArt-\Sigma有了显著进步,提供了明显更高保真度的图像,并改进了与文本提示的一致性。PixArt-\Sigma的一个关键特点是其训练效率。借助PixArt-\alpha的基础预训练,它通过合并更高质量的数据,从"较弱"的基线演变为"较强"的模型,我们将这个过程称为"弱到强训练"。PixArt-\Sigma的进步主要体现在两个方面:高质量训练数据:PixArt-\Sigma结合了更高质量的图像数据,与更精确和详细的图像标题配对。高效的Token压缩:我们在DiT框架内提出了一个新的注意力模块,可以压缩键(Key)和值(Value),显著提高效率,并促进超高分辨率图像生成。得益于这些改进,PixArt-\Sigma以显著较小的模型规模(6亿参数)实现了优于现有文本到图像扩散模型(如SDXL(26亿参数)和SDCascade(51亿参数))的图像质量和用户提示遵从能力。此外,PixArt-\Sigma生成4K图像的能力支持创建高分辨率海报和壁纸,有效地增强了电影和游戏等行业中高质量视觉内容的制作。项目地址:

封面图片

这个真不错,TCD 模型解决了 LCM 模型由于多步采样中累积的错误导致的图像细节丢失和性能下降的问题。#ai画图#

这个真不错,TCD模型解决了LCM模型由于多步采样中累积的错误导致的图像细节丢失和性能下降的问题。可以快速生成图片,并且保证生成图片的质量和细节。还支持SDXL生态的所有内容,比如Lora和Controlnet。详细介绍:潜在一致性模型(LatentConsistencyModel,LCM)通过将一致性模型扩展到潜在空间,并利用引导一致性蒸馏技术,在加速文本到图像合成方面取得了令人印象深刻的性能。然而,研究人员观察到LCM在生成清晰且细节精致的图像方面存在困难。为了解决这一限制,研究人员首先深入研究并阐明了潜在的原因,发现主要问题源自三个不同的领域的错误。因此,他们引入了轨迹一致性蒸馏(TrajectoryConsistencyDistillation,TCD),包括轨迹一致性函数(TrajectoryConsistencyFunction,TCF)和战略性随机采样(StrategicStochasticSampling,SSS)。轨迹一致性函数通过扩大自我一致性边界条件的范围,减少了蒸馏错误,并使TCD能够准确追踪整个概率流常微分方程(ProbabilityFlowODE)的轨迹。此外,战略性随机采样专门设计用于规避多步一致性采样中固有的累积错误,这种采样方式被精心设计以补充TCD模型。实验表明,TCD不仅在低噪声函数评估次数(NumberofFunctionEvaluations,NFEs)时显著提高了图像质量,而且与教师模型相比,在高NFEs时产生了更详细的结果。TCD在低NFEs和高NFEs时都保持了优越的生成质量,甚至超过了带有原始SDXL的DPM-Solver++(2S)的性能。值得注意的是,在训练期间没有额外的鉴别器或LPIPS监督。研究人员展示了在20NFEs下的一些示例。与Turbo系列相比,TCD采样的NFEs可以随意变化,而不会对结果质量产生不利影响;与LCMs相比,TCD解决了由于多步采样中累积的错误导致的图像细节丢失和性能下降的问题。在推理过程中,可以通过调整一个超参数gamma来简单地修改图像的细节水平,这不需要引入任何额外的参数。TCD可以适应社区中基于SDXL的各种扩展和插件,例如LoRA、ControlNet、IPAdapter以及其他基础模型,例如AnimagineXL。项目地址:Invalidmedia:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人