Claude Opus 4.1發(fā)布:智能體、代碼、推理能力全面提升
8月6日,Anthropic 突然發(fā)布了 Claude Opus 4.1,這是對 Claude Opus 4 在 agentic 任務(wù)、真實世界編程和推理能力上的全面升級,并稱計劃在未來幾周內(nèi)發(fā)布對模型的大幅改進。據(jù)介紹,Claude Opus 4.1 將編碼性能提升至 SWE-bench Verified 測試中的 74.5%,同時還提升了深度研究和數(shù)據(jù)分析能力,尤其在細(xì)節(jié)追蹤和 agentic 搜索方面。
Anthropic 還提到了第三方合作伙伴對 Claude Opus 4.1 的真實感受。除此之外,GitHub 指出,與 Opus 4 相比,Claude Opus 4.1 在大多數(shù)能力上均有提升,其中多文件代碼重構(gòu)的性能提升尤為顯著。
Rakuten Group 發(fā)現(xiàn),Opus 4.1 在大型代碼庫中精準(zhǔn)定位具體修正點時表現(xiàn)優(yōu)異,不會進行不必要的調(diào)整或引入 bug,他們更傾向于在日常調(diào)試任務(wù)中使用這種精準(zhǔn)度。Windsurf 報告稱,Opus 4.1 在其初級開發(fā)者基準(zhǔn)測試中較 Opus 4 提升了一個標(biāo)準(zhǔn)差,與從 Sonnet 3.7 到 Sonnet 4 的性能飛躍大致相當(dāng)。