同一个模型,换套壳,排名从 Top 30 跳到 Top 5
Terminal Bench 2.0,同一个 Opus 4.6。一个团队仅靠改 harness——不换模型、不动权重——排名从 Top 30 跳到了 Top 5。 这不是个别现象。OpenAI 的 harness engineering 博客描述了一种新的工程形态:五个月产出一百万行代码,没有一行是人手写的。工程师做的事情是设计环境、构建反馈回路、编码架构约束——然后 Agent 负责写代码。他们给这种工作方式起了个名字:harness engineering。 ...