不要低估Autoresearch所带来的影响

Karpathy 前几天在Twitter上讲了个故事,他睡前启动了一个 630 行的 Python 脚本。醒来时,83 次实验已经跑完,15 次改进被保留,验证损失从 0.9979 降到 0.9697。他继续让它跑了两天——700 次实验,20 个可叠加的训练优化,迁移到更大模型后训练速度快了 11%。Shopify CEO Tobi Lütke 拿到代码的第二天早上,报告了 19% 的性能提升。 ...

2026-03-25 · 7 分钟 · 3202 字 · zjding

两小时,一个 Sonnet,七万星仓库的完整移植

583 次工具调用,311 个请求,58 美元。Random Labs 用一个 Sonnet 模型——不是 Opus,不是 o1——把一个 7 万星的 Python 库完整移植成了 TypeScript。两个小时,全程自主运行。 ...

2026-03-19 · 6 分钟 · 2972 字 · zjding

为什么你的 Agent 知道得越多,表现越差

Princeton 给 GPT-4 换了一套接口,SWE-bench 分数从 3.97% 跳到 12.47%。同一个模型,同一组题,同样的算力预算。唯一的变量是 Agent 看到信息的方式。 同一时期,Anthropic 让 Opus 4.5 自主构建一个生产级 Web 应用——失败了。不是模型不够强:它试图一次做完所有功能,context 耗尽后留下一地半成品,下一个 session 看了一圈代码就宣布完成。Anthropic 没换模型,重新设计了运行环境。同一个模型开始交付可用的软件。 ...

2026-03-15 · 11 分钟 · 5344 字 · zjding

同一个模型,换套壳,排名从 Top 30 跳到 Top 5

Terminal Bench 2.0,同一个 Opus 4.6。一个团队仅靠改 harness——不换模型、不动权重——排名从 Top 30 跳到了 Top 5。 这不是个别现象。OpenAI 的 harness engineering 博客描述了一种新的工程形态:五个月产出一百万行代码,没有一行是人手写的。工程师做的事情是设计环境、构建反馈回路、编码架构约束——然后 Agent 负责写代码。他们给这种工作方式起了个名字:harness engineering。 ...

2026-03-10 · 9 分钟 · 4400 字 · zjding

预测市场里,0.50 的价格是信息最少的价格

Polymarket 上最基础的操作:买一张合约,赌某件事会不会发生。合约价格代表概率,0.70 就是 70% 的意思。大多数人的使用方式是看一眼价格,觉得低估了就买,觉得高估了就跳过。 ...

2026-03-05 · 11 分钟 · 5497 字 · zjding

一个 Markdown 文件让 Agent 快了 28%

有人把这件事量化了。 给 AI Coding Agent 一个 AGENTS.md 文件,任务完成时间中位数减少 28.64%,输出 token 中位数减少 16.58%。实验设计是配对受控:10 个真实仓库,124 个合并 PR,每个任务跑两次,一次有 AGENTS.md,一次没有,Docker 隔离环境,其他变量全部相同。 ...

2026-03-04 · 5 分钟 · 2195 字 · zjding

Agent 和人类工程团队犯一模一样的错

让 Claude Opus 4.5 用一条指令构建一个 claude.ai 克隆——它失败了。但失败的方式比成功更有意思。 1. 失败模式和人类团队一模一样 把失败拆开看,每一条都和人类工程团队犯的错一模一样: ...

2026-03-01 · 3 分钟 · 1362 字 · zjding

给 AI 做软件的反直觉法则:越旧越好

TiDB Cloud 上每天新建的集群,超过 90% 是 AI Agent 创建的。不是人类开发者点按钮,是 Agent 自己调 API 拉起来的。 这个数字改变了一个根本性的设计问题:当你的软件的主要用户不再是人,它应该长什么样? ...

2026-02-28 · 6 分钟 · 2697 字 · zjding

代码搜索的下一形态:ast-grep 与 PageIndex 的双向增强

问题:代码搜索的两难困境 “这个项目的用户认证流程是怎么实现的?” 这个问题看似简单,但现有工具都不太好回答: 向量搜索:把代码切成 chunks,做 embedding,然后相似度匹配。问题是"相似"不等于"相关"——搜"认证"可能返回一堆包含 auth 字符串的注释和配置文件,而不是真正的认证逻辑。 ...

2025-11-28 · 7 分钟 · 3292 字 · zjding

ast-grep,具有更大想象空间的 grep 工具?

问题 “这个函数在哪被调用了?” 我敲下 rg "getUserInfo" 然后回车。屏幕刷出几十行结果——注释里的、字符串里的、真正的调用、还有一堆看起来像但其实不是的。 ...

2025-11-23 · 4 分钟 · 1793 字 · zjding