Chinaunix首页 | 论坛 | 博客
  • 博客访问: 993
  • 博文数量: 40
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 411
  • 用 户 组: 普通用户
  • 注册时间: 2025-03-05 10:20
文章分类
文章存档

2025年(35)

我的朋友
最近访客

分类: IT业界

2025-04-17 17:52:28


刚刚,ChatGPT 能力迎来了一次重大飞跃。

在凌晨的直播中,OpenAI 正式发布了 o3 推理模型,同时发布的还有下一代推理模型 o4-mini。o3 以 o1 十倍的算力效率和多模态深度思考能力,将 AI 推理技术推向了“天才级”的高度,推动了编码、数学、科学、视觉感知等领域的发展。




据官方介绍,o3 是 OpenAI 迄今为止最智能、最强大的推理模型。它的核心突破在于多模态思维链的深度融合。不同于传统模型仅能识别图像,o3可将图像直接嵌入推理逻辑中,实现了“用图片思考”。

从官方示例可以看到,模型可以直接将图像整合到它们的思维链中,通过图像思考。这解锁了一种新的问题解决类别,融合了视觉和文本推理。


用户上传一张模糊的白板草图,o3 不仅能识别内容,还能调用 Python 工具进行旋转、缩放甚至生成数据可视化图表。在一些需要详细分析的复杂查询中,这种能力十分重要。

目前,o3 在包括 Codeforces、SWE-bench和 MMMU 在内的基准测试中刷新了SOTA,在分析图像、图表和图形等视觉任务中表现尤为出色。




在外部专家的评估中,o3 在困难的现实任务中比 OpenAI o1 犯的重大错误减少 20%,尤其是在编程、商业、咨询和创意构思等领域表现出色。


o4-mini :经济高效的轻量化模型



o3 “算力换精度”的策略,既能满足科研极客的需求,也为商业场景提供了灵活的选择。当然,这是投入了 o1 十倍算力换来的。

相较于 o3,o4-mini 是一款体型更小的模型,专为快速、经济高效的推理而优化。

它在 AIME 2024 和 2025 基准测试中拿下了表现最佳模型,尤其擅长数学、编程和视觉任务方面。



在专家评估中,它在非 STEM 任务以及数据科学等领域的表现也优于其前身  o3-mini。

得益于其效率,o4-mini 支持的使用限制远高于 o3,使其成为解决需要推理能力的问题的强大高容量、高吞吐量解决方案。

伴随两款模型发布的还有 Codex CLI 开源工具,它支持开发者将 AI 无缝集成至本地代码库,甚至通过终端指令生成网页应用。



o3 的发布,标志着 AI 竞争从单点突破转向生态霸权。OpenAI 通过系列工具链的整合,构建自己的生态护城河—— o3 能自主调用网页搜索、Python 执行、图像生成等功能,形成从数据分析到决策输出的闭环。

而这场技术革命的终局,或许藏在 OpenAI 的下一步棋中。今年 2 月,OpenAI 曾宣布搁置 o3 的独立发布计划,技术会打包塞进 GPT-5 里。现在 o3 先发布了,GPT-5 反而得等等。

推迟发布的 GPT-5 或许将整合 o3 的推理能力,打造真正的 AGI。而当 AI 既能思考又能“行动”,人类与机器的协作边界将再次模糊。





阅读(9) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~