2025年(35)
分类: IT业界
2025-04-17 17:52:28
在凌晨的直播中,OpenAI 正式发布了 o3 推理模型,同时发布的还有下一代推理模型 o4-mini。o3 以 o1 十倍的算力效率和多模态深度思考能力,将 AI 推理技术推向了“天才级”的高度,推动了编码、数学、科学、视觉感知等领域的发展。
据官方介绍,o3 是 OpenAI 迄今为止最智能、最强大的推理模型。它的核心突破在于多模态思维链的深度融合。不同于传统模型仅能识别图像,o3可将图像直接嵌入推理逻辑中,实现了“用图片思考”。
从官方示例可以看到,模型可以直接将图像整合到它们的思维链中,通过图像思考。这解锁了一种新的问题解决类别,融合了视觉和文本推理。
用户上传一张模糊的白板草图,o3 不仅能识别内容,还能调用 Python 工具进行旋转、缩放甚至生成数据可视化图表。在一些需要详细分析的复杂查询中,这种能力十分重要。
目前,o3 在包括 Codeforces、SWE-bench和 MMMU 在内的基准测试中刷新了SOTA,在分析图像、图表和图形等视觉任务中表现尤为出色。相较于 o3,o4-mini 是一款体型更小的模型,专为快速、经济高效的推理而优化。
它在 AIME 2024 和 2025 基准测试中拿下了表现最佳模型,尤其擅长数学、编程和视觉任务方面。
在专家评估中,它在非 STEM 任务以及数据科学等领域的表现也优于其前身 o3-mini。
得益于其效率,o4-mini 支持的使用限制远高于 o3,使其成为解决需要推理能力的问题的强大高容量、高吞吐量解决方案。
伴随两款模型发布的还有 Codex CLI 开源工具,它支持开发者将 AI 无缝集成至本地代码库,甚至通过终端指令生成网页应用。