就在两天前,DeepSeek 刚用一场低调升级震动了技术圈:V3-0324 版本以 6850 亿参数的 MoE 架构,把单次代码生成量怼到 958 行,连 Claude 用户都跑来围观“前端代码秒出完整网页”的现场演示。
但OpenAI的“反击”来得比所有人预想得更快。24 小时后,GPT-4o 突然解锁原生图像生成,将{BANNED}最佳新图像生成模型正式内置于 GPT-4o 中,并且和谷歌的 Gemini 一样能“用嘴改图”,效果比 Gemini 还要好,所以有网友认为这波更新也是被谷歌“逼急了”。

新功能的亮点包括:
- 能够精确渲染文本内容,提供高质量的图像效果;
- 支持多种输入输出方式,涵盖文本、图像和音频等多种形式;
- 理解复杂指令并结合上下文,创造出具有真实感的{BANNED}中国第一人称视角图像;
目前可以在 ChatGPT 上体验 4o Image Generation 功能。

先来看看官网给出的出图案例:
提示词:一张用手机拍摄的宽幅图像,显示一个玻璃白板,位于俯海湾大桥的房间里。视野中可以看到一位穿着印有大型 OpenAl 标志的T恤的女性正在书写。字迹看起来自然且有些凌乱,我们可以看到摄影师的倒影。

更令人瞩目的是,GPT-4o 支持多轮对话修改功能。用户可以通过连续的对话逐步调整图像内容。
例如:摄影师的自拍视角,她转身与他击掌。

同时,4o 将精确符号与图像融合的能力,将图像生成变为一种真正的视觉交流工具。
小编也来实测了一波:
提示:水墨画风格的老虎,背景是泼墨山水,留白构图。
短短几秒的时间,就生成了一张效果不错的中国风图片。
可以看出 GPT-4o 的出图质量已经非常成熟。它的颠覆性在于其原生多模态基因:不同于传统AI绘画工具需要单独调用图像模型,GPT-4o 的神经网络能同时处理文本、图像、语音输入,实现真正的“全链路创作闭环”
对比 Midjourney 30 美元/月的订阅费,GPT-4o 每日 3 次免费额度也能满足个人创作者轻量需求。
AI绘画生态或将被重构
这场看似简单的功能升级,有可能会改变 AI 绘画格局,重构整个创作生态。当我们在讨论 GPT-4o多 模态生图时,本质上在讨论创作本质的重新定义。
GPT-4o带给绘画生态的不仅是技术冲击,更是一场关于AI绘图交互方式的革命。
大家有什么看法呢?欢迎在评论区留言讨论哦~