OpenAI發布視覺推理模型o3和o4-mini 開源輕量級編程Agent Codex CLI
4月17日,OpenAI發布兩大視覺推理模型OpenAI o3和o4-mini,這也是OpenAI o系列中首次可以使用圖像進行思維鏈推理的模型。OpenAI還開源了輕量級編程Agent——Codex CLI。
據報道,OpenAI o3是最強大的推理模型,它非常適合需要多方面分析的復雜查詢,它在分析圖像、圖表和圖形等視覺任務上表現尤其出色。o3在解決困難的現實世界任務中比OpenAI o1犯的主要錯誤少20%,尤其是在編程、商業/咨詢和創造性思維等領域表現出色。
OpenAI o4-mini是一個針對快速、成本效益推理進行優化的較小模型。它在大小和成本方面取得了顯著的性能,特別是在數學、編碼和視覺任務方面。它在非STEM任務以及數據科學等領域的表現也優于其前身o3-mini。
值得注意的是,OpenAI特別強調,o3和o4-mini可以通過API中的函數調用完全訪問ChatGPT中的工具,以及用戶自己的自定義工具。這些模型經過訓練,能夠推理如何解決問題,選擇何時以及如何使用工具,以正確的輸出詳細而周到的答案。
OpenAI舉例稱,例如,用戶可能會問:“與去年相比,加利福尼亞州的夏季能源使用情況如何?”該模型可以在網絡上搜索公用事業數據,編寫Python代碼來構建預測,生成圖表或圖像,并解釋預測背后的關鍵因素,將多個工具調用鏈接在一起。推理允許模型根據需要對遇到的信息做出反應和調整。例如,他們可以在搜索提供商的幫助下多次搜索網絡,查看結果,并在需要更多信息時嘗試新的搜索。這種靈活的戰略方法使模型能夠處理需要訪問模型內置知識之外的最新信息、擴展推理、綜合和跨模式輸出生成的任務。
目前,ChatGPT Plus、Pro和Team用戶可以使用o3、o4-mini和o4-mini-high,這些模型會取代o1、o3-mini和o3-mini-high。o3和o4-mini通過Chat Completions API和Responses API向開發者開放。
OpenAI預計在幾周內發布OpenAI o3-pro,并配備完整工具支持。同時,OpenAI還宣布開源編程Agent Codex CLI,目前Codex CLI已在github上完全開源。Codex CLI是一個可以在端側運行的輕量級編碼Agent,它直接在用戶的計算機上工作,旨在最大限度地提高o3和o4-mini等模型的推理能力,并將支持GPT‑4.1等其他API模型。