不要低估Autoresearch所带来的影响
Karpathy 前几天在Twitter上讲了个故事,他睡前启动了一个 630 行的 Python 脚本。醒来时,83 次实验已经跑完,15 次改进被保留,验证损失从 0.9979 降到 0.9697。他继续让它跑了两天——700 次实验,20 个可叠加的训练优化,迁移到更大模型后训练速度快了 11%。Shopify CEO Tobi Lütke 拿到代码的第二天早上,报告了 19% 的性能提升。 ...
Karpathy 前几天在Twitter上讲了个故事,他睡前启动了一个 630 行的 Python 脚本。醒来时,83 次实验已经跑完,15 次改进被保留,验证损失从 0.9979 降到 0.9697。他继续让它跑了两天——700 次实验,20 个可叠加的训练优化,迁移到更大模型后训练速度快了 11%。Shopify CEO Tobi Lütke 拿到代码的第二天早上,报告了 19% 的性能提升。 ...
583 次工具调用,311 个请求,58 美元。Random Labs 用一个 Sonnet 模型——不是 Opus,不是 o1——把一个 7 万星的 Python 库完整移植成了 TypeScript。两个小时,全程自主运行。 ...
Princeton 给 GPT-4 换了一套接口,SWE-bench 分数从 3.97% 跳到 12.47%。同一个模型,同一组题,同样的算力预算。唯一的变量是 Agent 看到信息的方式。 同一时期,Anthropic 让 Opus 4.5 自主构建一个生产级 Web 应用——失败了。不是模型不够强:它试图一次做完所有功能,context 耗尽后留下一地半成品,下一个 session 看了一圈代码就宣布完成。Anthropic 没换模型,重新设计了运行环境。同一个模型开始交付可用的软件。 ...
Terminal Bench 2.0,同一个 Opus 4.6。一个团队仅靠改 harness——不换模型、不动权重——排名从 Top 30 跳到了 Top 5。 这不是个别现象。OpenAI 的 harness engineering 博客描述了一种新的工程形态:五个月产出一百万行代码,没有一行是人手写的。工程师做的事情是设计环境、构建反馈回路、编码架构约束——然后 Agent 负责写代码。他们给这种工作方式起了个名字:harness engineering。 ...
有人把这件事量化了。 给 AI Coding Agent 一个 AGENTS.md 文件,任务完成时间中位数减少 28.64%,输出 token 中位数减少 16.58%。实验设计是配对受控:10 个真实仓库,124 个合并 PR,每个任务跑两次,一次有 AGENTS.md,一次没有,Docker 隔离环境,其他变量全部相同。 ...
让 Claude Opus 4.5 用一条指令构建一个 claude.ai 克隆——它失败了。但失败的方式比成功更有意思。 1. 失败模式和人类团队一模一样 把失败拆开看,每一条都和人类工程团队犯的错一模一样: ...
TiDB Cloud 上每天新建的集群,超过 90% 是 AI Agent 创建的。不是人类开发者点按钮,是 Agent 自己调 API 拉起来的。 这个数字改变了一个根本性的设计问题:当你的软件的主要用户不再是人,它应该长什么样? ...