为什么你的 Agent 知道得越多,表现越差
Princeton 给 GPT-4 换了一套接口,SWE-bench 分数从 3.97% 跳到 12.47%。同一个模型,同一组题,同样的算力预算。唯一的变量是 Agent 看到信息的方式。 同一时期,Anthropic 让 Opus 4.5 自主构建一个生产级 Web 应用——失败了。不是模型不够强:它试图一次做完所有功能,context 耗尽后留下一地半成品,下一个 session 看了一圈代码就宣布完成。Anthropic 没换模型,重新设计了运行环境。同一个模型开始交付可用的软件。 ...