位置: 首页 > 实时讯息 >

腾讯混元宣布开源定制化图像生成插件InstantCharacter

0次浏览     发布时间:2025-04-18 19:26:00    

IT之家 4 月 18 日消息,腾讯混元今日宣布开源定制化图像生成插件 InstantCharacter,并实现了对开源文生图模型 Flux 的兼容。

腾讯官方介绍称,通过这个插件,在大模型中,只需要一张图加一句话,就可以让任何角色以你想要的姿势出现在任何地方

输入原始图片

+ prompt :a rabbit is in the kitchen holding a spoon and drinking soup

就能得到下面的图:

+prompt:a rabbit in the city,cyberpunk

就可以得到:

角色一致性是多轮文生图场景中的一大难题。InstantCharacter 的优势在于可以确保角色在不同场景中的一致性和真实性、画质和精度高,同时具有灵活的文本编辑性,用户可以根据需要灵活切换任意场景,让人物生成任意动作。

其在角色一致性和图像生成的精确度上号称超过了此前业界的相关技术,能够处理多种风格和复杂度的图像。

通过这个插件,内容创作者可以让生成的角色保持高度一致,能够更高效地创作出符合其需求的视觉作品,可以用于连环画、影片创作等场景

实际的测评中,开源的 InstantCharacter 实现的效果媲美 GPT 4o 等模型。

从技术上看,现有基于学习的方法主要依赖于 U-Net 架构,但在泛化能力和图像质量上存在局限性,而基于优化的方法则需要针对特定主体进行微调,这不可避免地降低了文本可控性。

为了解决这些挑战,InstantCharacter 利用 DiT 模型构建了一个创新的框架。框架引入了一个可扩展的适配器(adapter),采用多个 transformer encoder,能够有效处理开放域的角色特征,并与现代扩散变换器的潜在空间无缝交互。这种设计使得系统能够灵活适应不同的角色特征。

同时,为了有效训练框架,腾讯混元团队还构建了一个包含千万级样本的大规模角色数据集。数据集被系统地组织为成对(多视角角色)和非成对(文本-图像组合)子集。这种双数据结构使得身份一致性和文本可编辑性能够通过不同的学习路径同时优化。

IT之家附项目相关链接:

  • 项目官网:https://instantcharacter.github.io/

  • 代码:https://github.com/Tencent/InstantCharacter

  • Hugging Face Demo:https://huggingface.co/spaces/InstantX/InstantCharacter

  • 论文:https://arxiv.org/abs/2504.12395

相关文章

“折价”卖身腾讯音乐后 喜马拉雅再发内部信:回应变革 拥抱AI

《科创板日报》6月11日讯(记者 张洋洋)在公开腾讯音乐收购消息后,喜马拉雅联合创始人陈小雨、余建军发布全员内部信,发布内部信阐述这起交易的由来和对公司的战略思考。内部信称,这一决定,是在双方经过多轮深入探讨、达成共识后的慎重抉择,是公司发展历程中关键的里程碑,这次并购,并非偶然发生,源于公司对正在

2025-06-11 12:50:00

微软代表确认:ROG Xbox Ally掌机能玩索尼PS第一方游戏

IT之家 6 月 10 日消息,微软 ROG Xbox Ally 掌机已正式亮相,玩家们对这款手持设备期待已久,而等待显然是值得的,因为 PlayStation 第一方游戏可在该掌机上游玩。一位微软代表表示,即将推出的 ROG Xbox Ally 将能够运行 PlayStation 的第一方游戏。在

2025-06-10 12:59:00

英国首相斯塔默呼吁英伟达CEO黄仁勋:为我们培训更多AI人才

IT之家 6 月 9 日消息,据彭博社报道,英国首相基尔・斯塔默今日将与英伟达 CEO 黄仁勋一同出席活动,凸显其政府将科技与 AI 作为提振经济核心动力的方针。斯塔默将在伦敦与黄仁勋展开对谈,正式启动一项合作协议 —— 英伟达将协助英国开展 AI 人才培训,并在布里斯托尔的大学及公司自营实验室扩大

2025-06-09 13:52:00

2026年发行:万代南梦宫放出《Code Vein 2》游戏首支预告片

IT之家 6 月 7 日消息,在 2025 夏日游戏节活动中,万代南梦宫(Bandai Namco)发布了《Code Vein 2》游戏,官方计划于 2026 年在 PS5、Xbox Series X / S 以及 PC 平台发行。 开发团队官宣并放出了《Code Vein 2》游戏首支预告片,展现

2025-06-07 06:03:00

6月26日发行,《死亡搁浅2:冥滩之上》游戏新预告放出

IT之家 6 月 7 日消息,在 2025 夏日游戏节上,《死亡搁浅 2:冥滩之上》(Death Stranding 2: On The Beach)游戏发布了全新预告片。预告片中,意大利演员 Luca Marinelli 饰演关键角色 Neil,而 Alyssa Jung 则饰演其治疗师 Lucy

2025-06-07 05:41:00

入局人形机器人,宁波想靠这张“隐藏王牌”拼过京沪深

宁波期望成为国内重要的人形机器人研发制造应用基地。作为一个制造业强市,如何才能形成一个好的人形机器人产业生态?《宁波人形机器人产业创新发展行动方案(2024—2027年)》提出,力争到2027年,跻身国内人形机器人产业链竞争力头部城市。去年3月,浙江人形机器人创新中心落地宁波。去年8月,浙江人形机器

2025-06-06 00:13:00

全球首款安卓AR眼镜亮相,上海产业链抢占先机!

5月20日,谷歌全球开发者大会上,全球首款安卓系统AR(增强现实)眼镜正式亮相,由谷歌和上海AI硬件企业XREAL联合打造,开启了AR行业的“安卓时刻”。记者注意到,受益于国内开源生态的持续影响,以AR眼镜、AI电脑、AI手机为代表的AI硬件正快速走向市场,成为AI应用的新风口。上海凭借完善的产业链

2025-05-31 09:07:00

o3不听指令拒绝关机,7次破坏关机脚本,AI正在学会「自我保护」机制

AI居然不听指令,阻止人类把自己给关机了???有测试者编写了一个关机脚本来测试AI模型,结果显示Codex-mini、o3、o4-mini忽略了该指令,并至少一次成功破坏了关机脚本。o3甚至还重新定义脚本命令!这不禁让人想到那句经典的“I’m sorry Dave, I’m afraid I can

2025-05-27 12:26:00