CVPR2025 |MCA
发布时间:2025-05-15 16:06
本文由中国科学院计算技术研究所的研究团队完成。第一个是杨韩,与Zhulin的助理研究员和助理研究员Yang Chuangang相对应。 Paper Title: Multi-Party Collaborative Attention Control for Image Customization Paper Address: https://arxiv.org/abs/2505.01428 Paper Code: https://github.com/yanghan-yh/mca-ctrl background In recent years, breakthrough progress in gelative ai technology, especially the rapid development of the rapid development of the rapid development of Text-to-image T2I Generation Model, enables AI systems为了产生高文本到图像T2I生成模型,启用具有快速文本对图像T2I的AI系统,启用具有基于文本文本符号的较高文本到图像T2I生成的AI系统。 (标志)。从早期的・ e到稳定的扩散,Midjourney和其他模型,该领域的技术重复显示出加速的PA开发的CE。在持续改进基本T2I模型功能的后面,对图像定制的需求变得更加突出。 SO称为图像自定义是指基于文本或视觉条件在参考图像中维持该主题中的身份特征和重要特征的前提下基于文本或视觉条件的新表达。该技术对于电子商务(例如虚拟配件),数字内容创建(例如个性化角色设计),广告和营销等应用程序方案具有很大价值。当前,图像自定义的基本方法主要与三个技术路线一起形成:MGA重复方法,基于多模式编码器的过程以及新兴的基于注意力的技术。尽管这些方法在特定情况下取得了一些结果,但通过系统的实验分析和实际应用验证,我们发现现有技术ICAL解决方案仍然面临一些基本的技术瓶颈。 1。控制不足:文本驱动的基本方法难以准确控制背景,布局和其他元素。尽管诸如Photoswap之类的新技术试图引入图像条件,但它们仍然仅限于单个功能(替换或添加),无法实现统一的控制。 2。处理复杂的视觉场景的困难:面对复杂的场景,例如与多对象和遮挡接触时,受试者传播特征的问题经常发生,这是由于高响应区域中模型的不准确生成所致。 3。无法解释的背景集成:在图像条件的控制下,生成的结果与原始背景的融合通常是不自然的。方法本文提出了一种常规图像自定义方法,而无需微调MCA-CTRL,这是一种使用内部知识的多主体合作方式来控制注意力扩散模型的DGE以实现图像自定义。它的主要变化在于设置图像/文本信号的语义条件的图表与主题图像的内容结合在一起,以实现小说的特定主题的呈现。 MCA-CTRL三种任务的主要目标:厚度一个主题,主题生成和主题增加。该方法按条件图像和文本条件分为图像自定义,如下数(a)和(b)所示。具体而言,该方法首先引入了一个主题的位置模块(SLM)来准确搜索图像,然后使用三种自我注射机制并并行扩散查询以获得特定主题的视觉特征表示,同时维持条件信息的语义空间布局。具体而言,在扩散的每个步骤中,MCA-CTRL执行以下基本操作:1)从Subj中提取背景的外观和内容通过目标本地查询(SALQ)ECT信息和条件,如图(c)所示; 2)如图(d)所示,通过自我强度全球注入(sagi)将注意力图表直接注入对象信息和条件直接对目标过程。 1。从任务的角度看,本地查询中的本地监护权是我们的目标是从主题图像中捕获外观的特征,并从条件中查询背景内容和语义布局。受MASACTRL的启发,我们使用自动层的价值关键特征来识别图像的内容。如上图(c)所示,目标过程通过询问Q捕获主题和条件的前景/背景内容,并使用主题和背景掩码来防止查询区域。该设计确保了相同的布局,并提供了特定对象背景的外观和背景。 2。在全球注射自我强度之后,是奥萨尔克的灭亡,图像产生通常有两个问题:(1)真实性不足,以及(2)特征的轻微混乱。我们认为这是因为查询过程本质上是原始功能和查询功能的局部融合,这不可避免地导致特色十字路口。因此,我们建议一种混合注入的全球混合机制,以增强细节的真实性和内容的一致性。如上图(d)所示,首先计算受试者条件和图像的完整矩阵注意,然后通过过滤掩码来获取主题功能和背景特征,最后将其注入目标的扩散过程。重新建立的功能更换直接改善了前景/背景性能,同时有效地散发着功能的混乱。下图显示了MCA-CTRL编辑和发电能力。前三行主要显示主题编辑的性能,包括t他的主题替换,除了主题外,主题以及主题替换在复杂的视觉场景中,这完全反映了MCA-CTRL在主题和背景自定义中的高度一致性和现实性能。第四行具有MCA-CTRL零样本生成的能力,可以在各种类别(例如对象,动物和角色)中获得高质量,一致和创造性的效果。表1显示了基于Dreamga主题的基于Dreamga的结果。与Blip-diffusion,DreamAdh和Photoswap等技术相比,MCA-CTRL与所有指标表现出更好的性能。表2在Dreamnchch中提供了受试者一代的工作产生的结果。在统一的参数测试中,MCA-CTRL的性能优于文本,重新图像和IP-ADAPTER,但比Dreammooth和Blip-diffusion稍差。优化之后E参数,MCA-CTRL在Blip-扩展和Dreammooth方面取得了可比的结果。此外,表3中手动综述的结果表明,MCA-CTRL在主题的主题对齐和文本对齐中都保持不变。我们在下图展示了对图像产生的影响。实验表明,在复杂的情况下,如果完全删除了萨吉的操作,这将导致诸如目标定位失败和整体特征中的混乱之类的问题。尽管Jokingi逐渐增加,但受试者的特征将显示出更清晰的性能。但是,值得注意的是,当总成分步骤中有60%超过(这是大多数情况下这是经验阈值)时,改善持续添加SAGI实施步骤对图像质量的影响的影响将饱和。具体而言,这种现象显示了两个重要发现:(1)在否定过程的第一阶段,萨吉可以有效地促进语义关系在主题和背景之间; (2)在否定的最后阶段,过多的全球注射功能实际上可以破坏形成的详细特征。 “边缘效应还原”功能提供了优化算法参数的重要指南。我们还设置了代码存储库中图像自定义的演示系统。 Poetryd如下所示,用户可以根据本文根据自己的需求来轻松完成图像自定义任务。摘要:要算,本文提出了一种无需培训的图像生成方法的自定义方法-MCA -CTRL。该模型通过在三个传播过程之间的协调控制来实现高质量和高诚实的编辑主题和世代。此外,MCA-CTRL可以通过引入主题位置模块有效地解决复杂视觉场景中的混乱问题。大量实验结果表明,MCA-CTRL在编辑和属方面的性能更好与大多数有争议的活动相比,活动活动。
购买咨询电话
400-123-4567