Harness Engineering

Princeton 给 GPT-4 换了一套接口，SWE-bench 分数从 3.97% 跳到 12.47%。同一个模型，同一组题，同样的算力预算。唯一的变量是 Agent 看到信息的方式。同一时期，Anthropic 让 Opus 4.5 自主构建一个生产级 Web 应用——失败了。不是模型不够强：它试图一次做完所有功能，context 耗尽后留下一地半成品，下一个 session 看了一圈代码就宣布完成。Anthropic 没换模型，重新设计了运行环境。同一个模型开始交付可用的软件。 ...

Harness Engineering

为什么你的 Agent 知道得越多，表现越差

同一个模型，换套壳，排名从 Top 30 跳到 Top 5