腾讯正式发布混元图像 2.0:首个实现商用级实时生成的图像模型

早报1个月前发布 小马良
48 0

腾讯正式发布了混元图像 2.0,这是一款业内首个实现商用级实时生成的图像模型。该模型能够在几毫秒内生成高质量、写实的图像,适用于多种应用场景,包括创意设计、影视制作和实时交互体验。凭借其创新技术和卓越性能,混元图像 2.0 正在重新定义 AI 图像生成的标准。

核心亮点与功能

1. 实时文本转图像

混元图像 2.0 是首款支持商用级毫秒级响应的文本转图像模型,比行业基准快 15 倍。无论是通过文本输入还是语音指令,用户都能即时看到生成的图像。这一特性使其非常适合直播、实时创作和互动场景。

腾讯正式发布混元图像 2.0:首个实现商用级实时生成的图像模型

2. 超现实纹理

通过自研的慢思考奖励函数和结构化重写模型,混元图像 2.0 消除了传统 AI 生成图像中的“人工痕迹”(AIGC 外观),呈现出电影级别的纹理和光影效果。生成的图像不仅写实,还具有高度的艺术美感。

腾讯正式发布混元图像 2.0:首个实现商用级实时生成的图像模型

3. 双画布工作室

混元图像 2.0 提供了双画布工作室功能,支持跨画布同步创意。通过 AI 驱动的视角和光影协调技术,用户可以在多个画布间自由切换,结合多层融合功能释放无限创造力。

4. 自研超高压缩编解码器

混元图像 2.0 的主要技术创新之一是自研的超高压缩倍率图像编解码器。这一技术大幅降低了图像编码序列的长度,从而显著加快了图像生成速度,同时保持了高分辨率和高质量输出。

5. 支持 ID 保持与主体参考

模型支持基于轮廓图生成图片,并能够保持主体的身份一致性(ID 保持)。这对于需要连续生成特定角色或物体的应用场景尤为重要。

6. 实时画板与语音输入

混元图像 2.0 还提供了一个实时画板功能,用户可以通过语音输入实时生成图像。这种交互方式为创作者提供了全新的灵感来源,也让生成过程更加直观和有趣。

腾讯正式发布混元图像 2.0:首个实现商用级实时生成的图像模型

技术突破:为什么混元图像 2.0 如此快?

混元图像 2.0 的核心优势在于其自研的超高压缩倍率图像编解码器。传统图像生成模型通常需要处理较长的编码序列,这会显著增加计算时间和资源消耗。而混元图像 2.0 通过压缩编码序列长度,大幅减少了计算量,从而实现了毫秒级的生成速度。

此外,模型还优化了生成流程中的慢思考奖励函数和结构化重写机制,确保生成的图像不仅速度快,而且质量高。

不足之处

尽管混元图像 2.0 在图像生成速度和质量上表现出色,但在文字生成方面仍存在一定局限性。经过测试发现,无论是中文还是英文,模型在生成包含文字的图像时表现欠佳,无法准确呈现文字内容。相比之下,字节跳动和 OpenAI 在这一领域表现更为出色。

腾讯正式发布混元图像 2.0:首个实现商用级实时生成的图像模型
© 版权声明

相关文章

暂无评论

none
暂无评论...