关键要点
-
OpenAI 推出了 4o 图像生成功能,集成于 GPT-4o,提供精准且逼真的图像生成。
-
它似乎适用于多种用户,包括免费用户,API 访问预计几周内推出。
-
安全措施包括 C2PA 元数据和内容屏蔽,限制生成不适当图像。
-
研究表明,该功能可能偶尔裁剪较长图像,影响完整性。
OpenAI 于北京时间3月26日凌晨发布推出 4o 图像生成功能,这是一个集成于 GPT-4o 的新特性,旨在提供精准且逼真的图像生成。这一发展标志着 AI 技术在视觉内容创作领域的重大进步,为用户提供了一个功能强大的工具,适用于艺术、设计、广告等多个领域。
什么是 4o 图像生成?
4o 图像生成是一个原生多模态模型,设计上能够同时处理和生成不同媒体类型的内容,如文本和图像。它通过无缝整合文本指令和视觉数据,生成不仅美观且与上下文相关的图像。这一特性使其在处理复杂需求时更加高效,增强了用户体验。
关键功能与能力
4o 图像生成功能提供了以下主要能力:
-
文本渲染:根据详细的文本描述生成图像,确保图像的准确性和细节。
-
多轮生成:支持通过多次交互逐步优化图像,允许用户调整和改进。
-
指令遵循:能够遵循用户特定的指令,满足特定的标准或风格。
-
上下文学习:在同一交互中适应新的信息或偏好,动态调整输出。
-
世界知识:整合广泛的通用知识,确保生成的图像与上下文相关。
-
逼真度:生成高度逼真的图像,接近真实照片的效果。
-
风格化:允许用户指定艺术风格或视觉美学,满足个性化需求。
这些功能使 4o 图像生成成为一个多功能的工具,适用于从艺术创作到商业应用的广泛场景。
以下是一些案列:
✅实用性增强
-
不仅适用于艺术创作,也擅长生成:
-
信息类图像(如标志、图表、示意图)
-
准确表达结构、符号、文字与含义的图像
-
-
支持将上传的图片作为“灵感源”进行生成
-
能够精确生成图片中的文字(如横幅、书籍封面、广告牌等)
-
解决了传统模型常出现的错字、乱码、字体扭曲问题
A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here's the list:
一个方形图像,包含一个 4 行 x 4 列的网格,其中包含 16 个对象,背景为白色。从左到右,从上到下。这是列表:
-
1. a blue star 1. 一颗蓝色的星星
-
2. red triangle 2. 红色三角形
-
3. green square 3. 绿色方块
-
4. pink circle 4. 粉红色圆圈
-
5. orange hourglass 5. 橙色沙漏
-
6. purple infinity sign 6. 紫色无限符号
-
7. black and white polka dot bowtie
-
8. 黑白波点领结
-
9. tiedye "42" 8. 铁染料 “42”
-
10. an orange cat wearing a black baseball cap
-
11. 一只戴着黑色棒球帽的橘猫
-
12. a map with a treasure chest
-
13. 一张带有宝箱的地图
-
14. a pair of googly eyes
-
15. 一双咕噜咕噜的眼睛
-
16. a thumbs up emoji
-
17. 竖起大拇指的表情符号
-
18. a pair of scissors
-
19. 一把剪刀
-
20. a blue and white giraffe
-
21. 一只蓝色和白色的长颈鹿
-
22. the word "OpenAI" written in cursive
-
23. 用草书书写的“OpenAI”一词
-
24. a rainbow-colored lightning bolt
-
25. 彩虹色的闪电
Create a photorealistic image of two witches in their 20s (one ash balayage, one with long wavy auburn hair) reading a street sign.
创建两个 20 多岁的女巫(一个是灰烬女巫,一个留着赤褐色的长发)阅读路标的照片级真实感图像。
Context: 上下文:
a city street in a random street in Williamsburg, NY with a pole covered entirely by numerous detailed street signs (e.g., street sweeping hours, parking permits required, vehicle classifications, towing rules), including few ridiculous signs at the middle: (paraphrase it to make these legitimate street signs)"Broom Parking for Witches Not Permitted in Zone C" and "Magic Carpet Loading and Unloading Only (15-Minute Limit)" and "Reindeer Parking by Permit Only (Dec 24–25)\n Violators will be placed on Naughty List." The signpost is on the right of a street. Do not repeat signs. Signs must be realistic.
纽约州威廉斯堡一条随机街道上的一条城市街道,一根杆子上完全覆盖着许多详细的街道标志(例如,街道清扫时间、所需的停车许可证、车辆分类、拖车规则),包括中间的一些荒谬标志:(转述它以制作这些合法的街道标志)“C 区不允许为女巫提供扫帚停车位”和“仅限魔毯装卸(15 分钟限制)”和“仅凭许可证停放驯鹿(12 月 24 日至 25 日)\n 违规者将被列入淘气名单。路标位于街道的右侧。不要重复标志。标志必须是现实的。
Characters: 字符:
one witch is holding a broom and the other has a rolled-up magic carpet. They are in the foreground, back slightly turned towards the camera and head slightly tilted as they scrutinize the signs.
一个女巫拿着扫帚,另一个女巫拿着卷起的魔毯。他们在前景中,背对着镜头微微倾斜,在仔细检查标志时头部微微倾斜。
Composition from background to foreground:
从背景到前景的合成:
streets + parked cars + buildings -> street sign -> witches. Characters must be closest to the camera taking the shot
街道 + 停放的汽车 + 建筑物 -> 路标 -> 女巫。角色必须离拍摄的摄像机最近
✅ 高精度文本渲染
-
GPT-4o 能更好地将文字嵌入图像(如海报、PPT、广告)
-
对复杂 prompt 的遵循度高,支持 prompt 中描述 10–20 个物体对象及其属性、关系,超越 DALL·E 3 的 ~5–8 个极限
-
每个物体的属性、关系可被分别控制,图像结构更加精细清晰
A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt wiith a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer's reflection.
用手机拍摄的玻璃白板的广角图像,位于俯瞰海湾大桥的房间里。视野显示一名女性正在写作,她穿着一件带有大型 OpenAI 标志的 T 恤。笔迹看起来很自然,有点凌乱,我们看到了摄影师的倒影。
The text reads: 文字写道:
(left) (左)
"Transfer between Modalities:
“在模式之间转移:
Suppose we directly model
假设我们直接建模
p(text, pixels, sound) [equation]
p(文本、像素、声音) [方程]
with one big autoregressive transformer.
带有一个大的自回归变压器。
Pros: 优点:
-
• image generation augmented with vast world knowledge
-
• 利用广阔的世界知识增强图像生成
-
• next-level text rendering
-
• 更高级别的文本渲染
-
• native in-context learning
-
• 原生上下文学习
-
• unified post-training stack
-
• 统一的训练后堆栈
Cons: 缺点:
-
• varying bit-rate across modalities
-
• 不同模式的比特率不同
-
• compute not adaptive" 计算非自适应”
(Right) (右)
"Fixes: “修复:
model compressed representations
-
• 模型压缩表示
-
• compose autoregressive prior with a powerful decoder"
-
• 使用强大的解码器编写 autoregressive 先验”
On the bottom right of the board, she draws a diagram:
在板的右下角,她画了一个图表:
"tokens -> [transformer] -> [diffusion] -> pixels"
继续编辑修改↓
selfie view of the photographer, as she turns around to high five him
摄影师的自拍照片,她转身与他击掌
✅ 上下文一致性与连续创作
-
用户可以与 GPT-4o 多轮互动迭代图像内容
-
对话驱动式图像生成
-
用户可以说:“把刚才那张图里的人换成女性”或“背景换成夜晚风格”
-
模型会自动在上下文中找出之前图像并按指令修改,无需重新描述全部细节
-
-
在创作游戏角色或品牌形象时,形象可以在多张图中保持一致风格
-
支持用户上传图片作为上下文,分析图中内容后进行“风格模仿”或“结构转化”
Give this cat a detective hat and a monocle
给这只猫一顶侦探帽和单片眼镜
turn this into a triple A video games made with a 4k game engine and add some User interface as overlay from a mystery RPG where we can see a health bar and a minimap at the top as well as spells at the bottom with consistent and iconography
将其变成使用 4k 游戏引擎制作的 3A 视频游戏,并添加一些用户界面作为神秘 RPG 的叠加层,我们可以在顶部看到健康条和小地图,以及底部具有一致和图标的法术
update to a landscape image 16:9 ratio, add more spells in the UI, and unzoom the visual so that we see the cat in a third person view walking through a steampunk manhattan creating beautiful contrast and lighting like in the best triple A game, with cool-toned colors
更新为横向图像 16:9 比例,在 UI 中添加更多法术,并取消缩放视觉对象,以便我们以第三人称视角看到猫走过蒸汽朋克曼哈顿,从而产生美丽的对比和照明,就像在最好的 3A 游戏中一样,具有冷色调
create the interface when the player opens the menu and we see the cat's character profile with his equipment and another page showing active quests (and it should make sense in relationship with the universe worldbuilding we are describing in the image)
当玩家打开菜单时创建界面,我们会看到猫的角色资料和他的设备,以及另一个显示活动任务的页面(这与我们在图像中描述的宇宙世界构建的关系应该是有意义的)
✅ 4. 图像风格丰富 & 写实能力强
GPT-4o 支持丰富的图像风格,包括:
-
训练数据覆盖多种风格(漫画、摄影、插画、平面设计等),使 GPT-4o 具备强大的 风格迁移和控制能力。
-
可生成:
-
高度写实照片风格图
-
具有“新闻照片感”的场景图(示例:卡尔·马克思逛商场 paparazzi 风格)
-
与 DALL·E 3 的区别
访问与可用性
-
用户层级:从 发布日起,Plus、Pro、Team 和免费用户可在 ChatGPT 中默认使用该功能。
-
企业与教育用户:预计不久后将对企业用户和教育用户开放。
-
Sora 集成:该功能也将可在 OpenAI 的另一工具 Sora 中使用。
-
DALL·E 兼容:之前的 DALL·E 模型仍可通过专用 GPT 访问。
-
API 访问:开发者 API 访问预计在未来几周内推出。
-
渲染时间:生成图像可能需要最多一分钟,用户需耐心等待。
这一广泛的可用性确保了不同用户群体都能利用 AI 进行图像生成,扩大了技术的应用范围。
安全措施
OpenAI 实施了多项安全措施,以确保 4o 图像生成功能的安全使用:
-
C2PA 元数据:追踪生成图像的来源和历史,帮助对抗虚假信息。
-
内部可逆搜索工具:允许追踪和管理任何问题内容。
-
内容屏蔽:阻止生成儿童性虐待材料和性深伪图像,防止滥用。
-
强化限制:对真实人物图像有更严格的控制,特别是在裸露和暴力内容方面。
-
推理语言模型:使用语言模型来确保符合伦理指南。
限制
尽管 4o 图像生成功能高度先进,但仍存在一些限制:
-
紧缩裁剪:对于较长的图像(如海报),可能偶尔在底部紧缩裁剪,可能会切掉重要内容。
用户应注意这一限制,并根据需要调整提示或预期。
结论
OpenAI 推出 4o 图像生成功能,展示了公司在推进 AI 技术的同时,注重安全性和可访问性的承诺。这一新特性有望改变我们创建和互动视觉内容的方式,提供前所未有的图像生成能力。
随着技术的持续发展,我们可以期待进一步的改进和扩展,为创意和创新开启更多可能性。
团队与贡献者
这一突破性技术的背后,是 OpenAI 多个团队的协作努力,包括基础研究团队、核心开发团队、数据管理团队、扩展团队、应用工程团队以及安全和战略团队。这些团队的领导和成员名单详见原始页面,但为了保持文章的简洁性,这里仅提及其广泛的协作性质。
以下是页面内容的详细总结,包括所有相关信息、精确数字和 URL,供参考:
部分 | 详情 |
---|---|
标题 | 推出 4o 图像生成 |
日期 | 2025 年 3 月 25 日 |
类别 | 产品,发布 |
主要功能 | - 原生多模态模型,提供精准、逼真的图像生成 - 集成于 GPT-4o - 能力:文本渲染、多轮生成、指令遵循、上下文学习、世界知识、逼真度和风格 |
访问与可用性 | - 发布日已对 Plus、Pro、Team 和免费用户在 ChatGPT 中默认开放 - 企业和教育用户即将开放,也将在 Sora 中可用 - DALL·E 仍可通过专用 GPT 访问 - API 访问未来几周内推出 - 图像渲染时间:最多 1 分钟 |
安全措施 | - C2PA 元数据用于来源追踪 - 内部可逆搜索工具 - 屏蔽儿童性虐待材料、性深伪图像 - 对真实人物图像(裸露、暴力)有更严格限制 - 推理语言模型用于安全规范 |
限制 | - 偶尔紧缩裁剪较长图像(如海报)可能偶尔在底部紧缩裁剪,可能会切掉重要内容。 |
这一表格总结了页面内容的全部信息,包括日期、功能、安全措施和团队贡献,提供了全面的背景资料。