ChatGPT图像生成功能升级：GPT-4o模型原生生成和修改图像及照片

早报12个月前更新小马良

200 0

在本周二（3月25日）的直播中，OpenAI首席执行官萨姆·奥尔特曼（Sam Altman）宣布了对ChatGPT图像生成功能的重大升级，这是自推出以来的首次重大更新。此次升级将彻底改变ChatGPT在图像生成领域的表现，使其能够原生创建和修改图像及照片，为用户带来更强大、更实用的创作工具。（来源）

ChatGPT图像生成功能升级：更强大、更实用

1. 原生图像生成功能上线

ChatGPT现可利用OpenAI旗下的GPT-4o模型原生创建和修改图像及照片。GPT-4o长期以来一直是AI驱动的聊天机器人平台的基础，但直到现在，该模型仅能生成和编辑文本，而非图像。此次升级后，GPT-4o不仅能够生成文本，还能生成高质量的图像。

2. 面向Pro用户率先推出

GPT-4o的原生图像生成功能已于今日在ChatGPT及OpenAI的AI视频生成产品Sora中上线，目前仅适用于订阅公司每月200美元Pro计划的用户。不过，OpenAI表示，该功能将很快推广至ChatGPT的Plus用户、免费用户以及使用公司API服务的开发者。

3. 更准确、更详细的图像

与它所替代的图像生成模型DALL-E 3相比，具备图像输出的GPT-4o在生成图像时“思考”时间稍长，但能够生成更准确、更详细的图像。GPT-4o能够编辑现有图像，包括包含人物的图像——可以对它们进行转换或“修补”细节，如前景和背景物体。

4. 训练数据的严格管理

为了支持这一新图像功能，OpenAI向《华尔街日报》透露，他们使用“公开可用数据”以及与Shutterstock等公司合作获得的专有数据训练了GPT-4o。OpenAI首席运营官布拉德·莱特卡普（Brad Lightcap）表示：“我们在输出方式上尊重艺术家的权利，并制定了政策，防止生成直接模仿任何在世艺术家作品的图像。”此外，OpenAI还提供了一份退出表格，允许创作者请求将其作品从训练数据集中移除，并尊重禁止其网络抓取机器人从网站收集训练数据的请求。

GPT-4o图像生成的核心优势

实用的图像生成

从最早的洞穴壁画到现代信息图表，人类一直使用视觉图像来沟通、说服和分析——不仅仅是为了装饰。GPT-4o的图像生成在准确渲染文本、精确遵循指令以及利用4o固有的知识库和聊天上下文方面表现出色，能够帮助用户通过视觉效果更有效地沟通，并将图像生成提升为一个兼具精确性和实用性的工具。

改进的功能

文本渲染：GPT-4o能够将精确符号与图像结合，使图像生成成为视觉沟通的工具。
多轮生成：用户可以通过自然对话优化图像，GPT-4o可以在聊天上下文中基于图像和文本进行构建，确保一致性。
指令遵循：GPT-4o的图像生成能详细遵循指令，注重细节，最多可处理10-20个不同对象。
上下文学习：GPT-4o可以分析并从用户上传的图像中学习，将其细节无缝整合到上下文中以指导图像生成。
世界知识：原生图像生成使4o能够将文本与图像的知识联系起来，生成一个感觉更智能、更高效的模型。
逼真度与风格：模型能够令人信服地创建或转换图像，反映多种图像风格。

安全性与局限性

安全性

OpenAI在模型规范中明确表示，旨在通过支持游戏开发、历史探索和教育等有价值的用例来最大化创作自由，同时保持严格的安全标准。具体措施包括：

C2PA元数据：所有生成的图像都带有C2PA元数据，标识图像来自GPT-4o，提供透明度。
阻止不良内容：继续阻止可能违反内容政策的生成图像请求，特别是在涉及真实人物的图像时，有更高的限制。
推理增强安全性：训练了一个推理LLM，直接根据人类编写且可解释的安全规范运行，帮助识别和解决政策中的模糊性。

局限性

尽管GPT-4o在图像生成方面取得了显著进步，但模型仍存在一些局限性。OpenAI表示将在初始发布后通过模型改进加以解决。

访问与可用性

从今天起，GPT-4o图像生成功能已向Pro用户推出，并将很快推广至ChatGPT的Plus用户、免费用户以及使用公司API服务的开发者。开发者将很快能够通过API使用GPT-4o生成图像，访问将在未来几周内推出。

早报 # ChatGPT # GPT-4o # OpenAI

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

谷歌视频编辑器Flow即将上线：模块化生成 + 信用点系统初现

谷歌视频编辑器Flow即将上线：模块化生成 + 信用点系统初现

早报 # Flow # 视频编辑器 # 谷歌

10个月前

01740

OpenAI将为ChatGPT加家长控制功能：源于16岁青少年自杀事件，同步探索紧急联系人机制

OpenAI将为ChatGPT加家长控制功能：源于16岁青少年自杀事件，同步探索紧急联系人机制

早报 # ChatGPT # OpenAI

7个月前

02580

Claude 推出记忆功能：让 AI 真正“记住”你的工作

Claude 推出记忆功能：让 AI 真正“记住”你的工作

早报 # Claude # 记忆

6个月前

03740

HeyGen发布Avatar IV ：用一张照片和声音生成逼真说话视频

早报 # Avatar IV # HeyGen

11个月前

01570

暂无评论

none

暂无评论...