同一个模型,换套壳,排名从 Top 30 跳到 Top 5

Terminal Bench 2.0,同一个 Opus 4.6。一个团队仅靠改 harness——不换模型、不动权重——排名从 Top 30 跳到了 Top 5。 这不是个别现象。OpenAI 的 harness engineering 博客描述了一种新的工程形态:五个月产出一百万行代码,没有一行是人手写的。工程师做的事情是设计环境、构建反馈回路、编码架构约束——然后 Agent 负责写代码。他们给这种工作方式起了个名字:harness engineering。 ...

2026-03-10 · 9 分钟 · 4400 字 · zjding