Posts

不要低估Autoresearch所带来的影响

Karpathy 前几天在Twitter上讲了个故事，他睡前启动了一个 630 行的 Python 脚本。醒来时，83 次实验已经跑完，15 次改进被保留，验证损失从 0.9979 降到 0.9697。他继续让它跑了两天——700 次实验，20 个可叠加的训练优化，迁移到更大模型后训练速度快了 11%。Shopify CEO Tobi Lütke 拿到代码的第二天早上，报告了 19% 的性能提升。 ...

两小时，一个 Sonnet，七万星仓库的完整移植

583 次工具调用，311 个请求，58 美元。Random Labs 用一个 Sonnet 模型——不是 Opus，不是 o1——把一个 7 万星的 Python 库完整移植成了 TypeScript。两个小时，全程自主运行。 ...

为什么你的 Agent 知道得越多，表现越差

Princeton 给 GPT-4 换了一套接口，SWE-bench 分数从 3.97% 跳到 12.47%。同一个模型，同一组题，同样的算力预算。唯一的变量是 Agent 看到信息的方式。同一时期，Anthropic 让 Opus 4.5 自主构建一个生产级 Web 应用——失败了。不是模型不够强：它试图一次做完所有功能，context 耗尽后留下一地半成品，下一个 session 看了一圈代码就宣布完成。Anthropic 没换模型，重新设计了运行环境。同一个模型开始交付可用的软件。 ...

同一个模型，换套壳，排名从 Top 30 跳到 Top 5

Terminal Bench 2.0，同一个 Opus 4.6。一个团队仅靠改 harness——不换模型、不动权重——排名从 Top 30 跳到了 Top 5。这不是个别现象。OpenAI 的 harness engineering 博客描述了一种新的工程形态：五个月产出一百万行代码，没有一行是人手写的。工程师做的事情是设计环境、构建反馈回路、编码架构约束——然后 Agent 负责写代码。他们给这种工作方式起了个名字：harness engineering。 ...

预测市场里，0.50 的价格是信息最少的价格

Polymarket 上最基础的操作：买一张合约，赌某件事会不会发生。合约价格代表概率，0.70 就是 70% 的意思。大多数人的使用方式是看一眼价格，觉得低估了就买，觉得高估了就跳过。 ...

一个 Markdown 文件让 Agent 快了 28%

有人把这件事量化了。给 AI Coding Agent 一个 AGENTS.md 文件，任务完成时间中位数减少 28.64%，输出 token 中位数减少 16.58%。实验设计是配对受控：10 个真实仓库，124 个合并 PR，每个任务跑两次，一次有 AGENTS.md，一次没有，Docker 隔离环境，其他变量全部相同。 ...

Agent 和人类工程团队犯一模一样的错

让 Claude Opus 4.5 用一条指令构建一个 claude.ai 克隆——它失败了。但失败的方式比成功更有意思。 1. 失败模式和人类团队一模一样把失败拆开看，每一条都和人类工程团队犯的错一模一样： ...

给 AI 做软件的反直觉法则：越旧越好

TiDB Cloud 上每天新建的集群，超过 90% 是 AI Agent 创建的。不是人类开发者点按钮，是 Agent 自己调 API 拉起来的。这个数字改变了一个根本性的设计问题：当你的软件的主要用户不再是人，它应该长什么样？ ...

代码搜索的下一形态：ast-grep 与 PageIndex 的双向增强

问题：代码搜索的两难困境 “这个项目的用户认证流程是怎么实现的？” 这个问题看似简单，但现有工具都不太好回答：向量搜索：把代码切成 chunks，做 embedding，然后相似度匹配。问题是"相似"不等于"相关"——搜"认证"可能返回一堆包含 auth 字符串的注释和配置文件，而不是真正的认证逻辑。 ...

ast-grep,具有更大想象空间的 grep 工具？

问题 “这个函数在哪被调用了？” 我敲下 rg "getUserInfo" 然后回车。屏幕刷出几十行结果——注释里的、字符串里的、真正的调用、还有一堆看起来像但其实不是的。 ...