Context Engineering

两小时，一个 Sonnet，七万星仓库的完整移植

583 次工具调用，311 个请求，58 美元。Random Labs 用一个 Sonnet 模型——不是 Opus，不是 o1——把一个 7 万星的 Python 库完整移植成了 TypeScript。两个小时，全程自主运行。 ...

为什么你的 Agent 知道得越多，表现越差

Princeton 给 GPT-4 换了一套接口，SWE-bench 分数从 3.97% 跳到 12.47%。同一个模型，同一组题，同样的算力预算。唯一的变量是 Agent 看到信息的方式。同一时期，Anthropic 让 Opus 4.5 自主构建一个生产级 Web 应用——失败了。不是模型不够强：它试图一次做完所有功能，context 耗尽后留下一地半成品，下一个 session 看了一圈代码就宣布完成。Anthropic 没换模型，重新设计了运行环境。同一个模型开始交付可用的软件。 ...

一个 Markdown 文件让 Agent 快了 28%

有人把这件事量化了。给 AI Coding Agent 一个 AGENTS.md 文件，任务完成时间中位数减少 28.64%，输出 token 中位数减少 16.58%。实验设计是配对受控：10 个真实仓库，124 个合并 PR，每个任务跑两次，一次有 AGENTS.md，一次没有，Docker 隔离环境，其他变量全部相同。 ...