两小时,一个 Sonnet,七万星仓库的完整移植

583 次工具调用,311 个请求,58 美元。Random Labs 用一个 Sonnet 模型——不是 Opus,不是 o1——把一个 7 万星的 Python 库完整移植成了 TypeScript。两个小时,全程自主运行。 ...

2026-03-19 · 6 分钟 · 2972 字 · zjding

为什么你的 Agent 知道得越多,表现越差

Princeton 给 GPT-4 换了一套接口,SWE-bench 分数从 3.97% 跳到 12.47%。同一个模型,同一组题,同样的算力预算。唯一的变量是 Agent 看到信息的方式。 同一时期,Anthropic 让 Opus 4.5 自主构建一个生产级 Web 应用——失败了。不是模型不够强:它试图一次做完所有功能,context 耗尽后留下一地半成品,下一个 session 看了一圈代码就宣布完成。Anthropic 没换模型,重新设计了运行环境。同一个模型开始交付可用的软件。 ...

2026-03-15 · 11 分钟 · 5344 字 · zjding

一个 Markdown 文件让 Agent 快了 28%

有人把这件事量化了。 给 AI Coding Agent 一个 AGENTS.md 文件,任务完成时间中位数减少 28.64%,输出 token 中位数减少 16.58%。实验设计是配对受控:10 个真实仓库,124 个合并 PR,每个任务跑两次,一次有 AGENTS.md,一次没有,Docker 隔离环境,其他变量全部相同。 ...

2026-03-04 · 5 分钟 · 2195 字 · zjding