ChatGPT图像生成功能升级:GPT-4o模型原生生成和修改图像及照片

早报5天前更新 小马良
27 0

在本周二(3月25日)的直播中,OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)宣布了对ChatGPT图像生成功能的重大升级,这是自推出以来的首次重大更新。此次升级将彻底改变ChatGPT在图像生成领域的表现,使其能够原生创建和修改图像及照片,为用户带来更强大、更实用的创作工具。(来源

ChatGPT图像生成功能升级:更强大、更实用

1. 原生图像生成功能上线

ChatGPT现可利用OpenAI旗下的GPT-4o模型原生创建和修改图像及照片。GPT-4o长期以来一直是AI驱动的聊天机器人平台的基础,但直到现在,该模型仅能生成和编辑文本,而非图像。此次升级后,GPT-4o不仅能够生成文本,还能生成高质量的图像。

ChatGPT图像生成功能升级:GPT-4o模型原生生成和修改图像及照片

2. 面向Pro用户率先推出

GPT-4o的原生图像生成功能已于今日在ChatGPT及OpenAI的AI视频生成产品Sora中上线,目前仅适用于订阅公司每月200美元Pro计划的用户。不过,OpenAI表示,该功能将很快推广至ChatGPT的Plus用户、免费用户以及使用公司API服务的开发者。

3. 更准确、更详细的图像

与它所替代的图像生成模型DALL-E 3相比,具备图像输出的GPT-4o在生成图像时“思考”时间稍长,但能够生成更准确、更详细的图像。GPT-4o能够编辑现有图像,包括包含人物的图像——可以对它们进行转换或“修补”细节,如前景和背景物体。

ChatGPT图像生成功能升级:GPT-4o模型原生生成和修改图像及照片

4. 训练数据的严格管理

为了支持这一新图像功能,OpenAI向《华尔街日报》透露,他们使用“公开可用数据”以及与Shutterstock等公司合作获得的专有数据训练了GPT-4o。OpenAI首席运营官布拉德·莱特卡普(Brad Lightcap)表示:“我们在输出方式上尊重艺术家的权利,并制定了政策,防止生成直接模仿任何在世艺术家作品的图像。”此外,OpenAI还提供了一份退出表格,允许创作者请求将其作品从训练数据集中移除,并尊重禁止其网络抓取机器人从网站收集训练数据的请求。

GPT-4o图像生成的核心优势

实用的图像生成

从最早的洞穴壁画到现代信息图表,人类一直使用视觉图像来沟通、说服和分析——不仅仅是为了装饰。GPT-4o的图像生成在准确渲染文本、精确遵循指令以及利用4o固有的知识库和聊天上下文方面表现出色,能够帮助用户通过视觉效果更有效地沟通,并将图像生成提升为一个兼具精确性和实用性的工具。

改进的功能

  • 文本渲染:GPT-4o能够将精确符号与图像结合,使图像生成成为视觉沟通的工具。
  • 多轮生成:用户可以通过自然对话优化图像,GPT-4o可以在聊天上下文中基于图像和文本进行构建,确保一致性。
  • 指令遵循:GPT-4o的图像生成能详细遵循指令,注重细节,最多可处理10-20个不同对象。
  • 上下文学习:GPT-4o可以分析并从用户上传的图像中学习,将其细节无缝整合到上下文中以指导图像生成。
  • 世界知识:原生图像生成使4o能够将文本与图像的知识联系起来,生成一个感觉更智能、更高效的模型。
  • 逼真度与风格:模型能够令人信服地创建或转换图像,反映多种图像风格。

安全性与局限性

安全性

OpenAI在模型规范中明确表示,旨在通过支持游戏开发、历史探索和教育等有价值的用例来最大化创作自由,同时保持严格的安全标准。具体措施包括:

  • C2PA元数据:所有生成的图像都带有C2PA元数据,标识图像来自GPT-4o,提供透明度。
  • 阻止不良内容:继续阻止可能违反内容政策的生成图像请求,特别是在涉及真实人物的图像时,有更高的限制。
  • 推理增强安全性:训练了一个推理LLM,直接根据人类编写且可解释的安全规范运行,帮助识别和解决政策中的模糊性。

局限性

尽管GPT-4o在图像生成方面取得了显著进步,但模型仍存在一些局限性。OpenAI表示将在初始发布后通过模型改进加以解决。

访问与可用性

从今天起,GPT-4o图像生成功能已向Pro用户推出,并将很快推广至ChatGPT的Plus用户、免费用户以及使用公司API服务的开发者。开发者将很快能够通过API使用GPT-4o生成图像,访问将在未来几周内推出。

© 版权声明

相关文章

暂无评论

none
暂无评论...