黑料爆料不打烊入口-黑料独家爆料网-吃瓜黑料爆料网站
    主页 / 资讯 / 观点 / 解决视频生成问题!和王理工大学、清华大学、智普开源“多图参考学生视频”

解决视频生成问题!和王理工大学、清华大学、智普开源“多图参考学生视频”

2025-10-29 10:36


近年来,视频生成技术,尤其是基于扩散模型的技术发展迅速,在文本转视频(T2V)、图像转视频(I2V)等任务上不断取得突破。商业系统(如Sora、Veo3、Kling、Vidu)可以制作媲美专业制作的视频内容,大大提高创作效率,同时降低成本。在此过程中,主题到视频(S2V)生成的工作开始引起关注。 S2V 的目标是生成具有一致的主体外观和由一幅或多幅参考图像提供的可控背景的动态视频。该方法结合了文本生成的创造性和图像生成的准确性,适用于数字人物、虚拟试穿、电商广告、艺术创作等场景的行动。然而,现有的开源S2V模型很难在多智能体场景下保持主题一致性并获得有效的背景信息信息化分解。论文地址:https://arxiv.org/pdf/2510.18573 代码地址:https://github.com/criliasmiller/kaleido 为了应对这些挑战,来自合肥工业大学、清华大学和智普的研究团队提出了官方多智能体参考视频生成框架——Kaleido,瞄准了最优竞赛的最优水平 级别 在一致性和背景剪裁方面开放资源模型。图片| Kaleido 的 S2V 生成涵盖了单人和多人场景中角色、物体和可控背景的生成。实验表明,Kaleido 在一致性、保真度和整体能力方面优于以前的方法,代表了 S2V 生成领域的重要进步。图片| S2V 评估(左)和用户研究结果(右)。现有S2V方法的研究框架在保持多主体一致性和处理背景解耦方面仍然存在缺陷。温德在多图像条件下,往往会导致参考保真度较低和语义漂移,这可归因于以下几个因素:训练数据不足且质量低:包括覆盖范围不足、低质量样本污染以及常用方法“不适当的背景”,这导致难以泛化。弱条件注入技术:现有方法在引入多san图像特征时,在视频生成中,主题信息混叠和空间位置冲突 很容易发生,导致多个主题的错误融合或生成的视频中细节丢失。基于此,研究团队提出了一种新的数据构建管道和相应的条件注入方法。变化点主要有三点: 1、高质量多样化构建数据管道多类型主题采样和精细过滤(大小、模糊度、亮度、类别一致性)。 Introducing cross-paired data genera化:将主题图像与不相关的视频配对会破坏背景信息,迫使模型学习主题和背景场景的解耦。背景擦除以及姿势和运动增强:使用图像恢复和变化姿势来扩展主题表现。 2.参考旋转位置编码(R-ROP)注入条件机制令牌使用视频令牌序列对多个参考图像进行编码,但人为地偏移时空坐标以确保模型区分“视频帧”和“参考图像”。避免多主体场景中的 token 混淆,并在生成的视频中保持每个主体独立且一致。 3、两阶段训练策略在200万个数据集上进行预训练,建立通用生成能力。然后,对 500,000 组高质量数据进行监督微调 (SFT),以提高受试者一致性和背景衰减。多维分析的实验结果及效果lysesal,Kaleido表现出了强劲的性能:主体一致性(S2V一致性):在测试集中达到了0.723,达到了测试模型的最高水平。背景去耦(S2V Decoupling):得分0.319,明显优于现有方法,几乎​​消除了参考背景污染。美观质量和视频流畅度:VBench框架下的美观质量在开源模型中排名第一,视频中运动的流畅度接近闭源模型Kling。主题评价:在用户调查中,Kaleido 在视频质量、主题一致性和背景解耦方面获得了最高的平均得分。更具体地说,消融实验表明,使用交叉配对数据,背景解耦能力显着提高(+0.013 点)。 R-ROPE 在宽维和高维偏移方面均表现最佳,避免了多主体场景中的主体混乱。卡通、动物、复杂人群等多种场景s,Kaleido生成的视频保持了合理的主题细节和动态动作。缺点和未来方向虽然Kaleido在开源系统中表现出色,但仍然存在一些局限性:极端背景和多主体过载场景:当背景非常复杂或主体数量非常大时,可能会出现细节丢失或轻微身份混淆的情况;长视频一致性:当前模型在保持长视频主体连续性方面仍有进一步改进的空间。未来的研究方向包括:Aof研究更轻量级的多参考融合机制,以提高识别速度和可用性;优化长视频生成的时间一致性;继续扩展开源数据集,使模型能够覆盖更多风格和主题类型;将S2V扩展为多任务统一框架(如视频编辑、虚拟试穿、角色动画),实现“视频一体化””。如需转载,请直接在本文评论区留言 特别声明:以上内容(如有则包括照片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。 注意:iheight中的内容(包括照片和视频,如有)由网易号用户上传并发布,网易号是一个社交媒体平台,仅提供信息存储服务。

服务支持

我们珍惜您每一次在线询盘,有问必答,用专业的态度,贴心的服务。

让您真正感受到我们的与众不同!