Coding→Agent 大主线明细,从模型的竞争到系统的竞争。

访谈丨程曼祺

文丨实习生付自文

从 26 年 Q1 开始,《晚点聊》推出季度总结系列,会分为 AI 季报和具身季报,本文是第一篇 AI 季报播客的文字版。

本期嘉宾是身在硅谷的 MoE Capital 合伙人 Henry Yin。MoE Capital 是一家坐标硅谷的早期 AI VC,专注于 AI 基础设施、AI-native 应用以及 AI for Science 等方向。“MoE” 取自 Mixture of Experts,也呼应了基金背后一个由 OpenAI、Anthropic、Google DeepMind 等 frontier labs 研究员构成的专家社区 , 让基金在早期技术判断和投后支持上形成了自己的独特方式。

本期节目从 OpenClaw 开始聊 Q1 的进展。这个去年 11 月还是周末黑客项目的开源工具,只用了 60 天 ,GitHub 星数就超过了前端开源库 React 的 10 年累计,现在周下载量超过 165 万次。

OpenClaw 的成功刺激了各大 AI 公司的创新,Anthropic 52 天内更新了 74 个功能,中国模型厂商则推出针对 OpenClaw 优化的模型。产品与生态的建设成为了新的竞争焦点,AI 算力的重点也从训练走向推理,即模型在广泛场景的使用阶段。

从 OpenClaw 这个 Agent 创新,我们的总结话题延展到了 Anthropic 的 Claude Code 和 Cowork 与 OpenClaw 的 “相向而行”,以及 OpenAI 和 Anthropic 两家公司间的三重竞争:公司、产品(coding 产品 Codex vs ClaudeCode) 和最新模型(GPT-5.4 vs Opus 4.6)。所有这一切的快速进展都发生在过去 3 个月。

在 coding 到通用 Agent 和个人 Agent 这条主线之外,我们也讨论了 autoresearch 等项目的 AI 自进化能力,和仍处于探索中的其它方向,如持续学习和世界模型。

Henry 也分享了,他在硅谷这个 AI 密度最高的地方,感受到的社会情绪变化:科技大裁员。

不管是 Agent 主战场的快速发展,还是自进化开发方式端倪初现,26 年第一季度的变化显示,AI 越来越不只和科技圈相关。

OpenClaw:AI Agent 的 iPhone 时刻

晚点:站在技术进化与应用变革的角度,整个 26 年 Q1 你观察到了哪些显著的变化?

Henry:第一是 OpenClaw 的火爆。它是一个开源的个人 Agent 框架,能接入飞书、WhatsApp 、Telegram 等日常办公和社交软件,帮用户执行各类任务。这标志着 AI 真正从单纯的聊天工具转向了实际的干活工具。它的增长曲线非常快,在 60 天内,其在 GitHub 上的 Star 数量就超过了 React(由 Meta 推出的 JavaScript 库)过去 10 年的积累。

第二是头部模型厂商的竞争焦点从纯模型能力转向了产品与生态。目前 OpenAI 和 Anthropic 双方都高度重视编程类产品。目前 Anthropic 的收入增长很大程度上是由 Claude Code 贡献的。竞争的焦点不再仅仅是 Benchmark(基准测试,衡量模型性能的标准化测试)的跑分,而是构建深层产品生态。

第三是 AI 的 “自我进化” 将更加贴近现实。最近 Andrej Karpathy(特斯拉前 AI 负责人)在 X 上讨论了他的 autoresearch 实验,即让 AI 自动优化自己的训练代码。例如国内的 MiniMax 最新发布的 M2.7 模型,其副标题即为 “自我进化的早期回响”。目前他们约 30% 到 50% 的强化学习研究工作流已经由模型自主完成。同时,许多 OpenAI 和 Anthropic 的顶级研究员也开始离职创业,投身 LSI(Learning to Self-Improve ,学习自我改进)领域。

晚点:OpenClaw 在全球 AI 圈非常火,在中国更是成为了国民级的现象。但在它之前也有很多 Agent ,如 Claude Code、Claude Cowork 和 Manus 等。OpenClaw 与这些 Agent 核心区别是什么?

Henry:OpenClaw 在技术上不是一个全新的东西,它更多是交互范式的突破。类比来说,它是 AI Agent 的 iPhone 时刻。技术上,它的每一个独立组件都是之前存在的,包括 LLM 循环调用、Tool use(外部工具调用能力)、记忆功能。这些 Claude Code、Manus 都能做。

但 OpenClaw 做对了几件事。第一,它跑在本地电脑上。这意味着它能访问你的文件,拥有系统权限。这既是它端到端完成任务的能力,也是最大的安全风险。第二,它接入了大家常用的聊天 APP ,AI 主动来到你的生活,而不是你去找 AI 。Claude Code 在 Terminal(终端界面)里面跑,非常面向开发者。Manus 这种云端 agent(云端代理)则只能接收你给它的信息,但 OpenClaw 通过聊天软件的分发,真正把 AI 带到了所有人身边。再加上定时任务和长期记忆,它会给人一种越用越懂你的感觉。

晚点:OpenClaw 的开发者 Peter Steinberger 是一位来自奥地利的独立开发者。为什么这样一个创新来自个人开发者,而不是像 Anthropic 这种深耕 Agent 很久的公司?

Henry:可以参考当年的 Devin ,它是第一个提出 AI Soft Engineer(人工智能软件工程师)概念的产品。刚发布时其实不太好用,但为大家指明了方向。这种灯塔效应往往是没有历史包袱的个人或初创公司创造的。大公司的优势在于产品化和跟进速度,像 Claude Code 最近就上线了很多新功能向 OpenClaw 靠拢。

晚点:你自己会用 OpenClaw 做什么?周围朋友用得多吗?

Henry:我试用一周后就卸载了,因为我的工作流主要在 Claude Code 上。但我有朋友非常喜欢它。他认为权限完全放手后的回报可以达到 10 倍。比如他用 OpenClaw 扫描所有消息,可以自动创建日历事件,或者生成大量群聊的消息摘要。此外还有价格监控、旅行规划、通过冰箱照片更新购物清单等。不过,这需要投入不少时间把工作流跑通,普通人可能没法很快用得这么舒服。

晚点:这种场景确实是结合移动端才比较方便。如果是一个电脑本地或 Web 的产品,用手机拍完冰箱照片再传就太繁琐了。

Henry:确实。对于 Claude Code 用户来说,手机拍完照还得 AirDrop 到电脑再扔进终端,步骤太多。

晚点:OpenClaw 在中国和美国的热度有差异,前不久,《哈萨比斯:谷歌 AI 之脑》作者马拉比来中国宣传新书时提到,美国的 10 次对话,9 次都不会提到 OpenClaw,而在中国,所有人都问他怎么看 OpenClaw。为什么有这种区别?

Henry:可能有几个原因:一是用户习惯了微信这种聊天优先的产品;二是国内使用 Claude Code 等应用限制较多,开源选项更火;三是中国用户可能对成本更敏感,刚好 OpenClaw 和国产模型的组合性价比极高。最后,“小龙虾” 这个名字也非常好。

晚点:在国内,OpenClaw 非常出圈,甚至有付费上门安装的服务。在美国,非技术群体比如设计师或销售人员会也用它吗?

Henry:暂时还没有。设计师目前还是用 Figma Make(自然语言驱动的 UI 自动化生成引擎)、Google Stitch(端到端的设计与开发协同工具)更多;销售人员,有些会用 Claude Cowork 来自动化一些流程。在美国扩散到更多工作群体的主要是 Anthropic 的产品。

晚点:刚才你也提到了 OpenClaw 和中国开源模型的结合。在 OpenRouter(大模型接口聚合平台)上能看到 Token 消耗量最多的主要是中国模型,比如阶跃、MiniMax、Kimi、智谱,还有小米的新模型,都上榜了。

Henry:嗯,便宜是核心。Peter 最早也用 Claude ,但他被 Anthropic 封了。随后就转向了 MiniMax ,发现成本只有 Claude 的 5% ,于是就公开安利。大家算了一下发现之前如果用 Claude 订阅需要每月 200 刀,换成 MiniMax 以后每个月就只需要 15 刀了。Agent 场景需要频繁调用模型,中间成本差距非常大。(注:OpenRouter 更反映个人和中小开发者的使用情况,只能作为整体 Token 消耗的参考。)



晚点:排行榜上还有一个新模型 Trinity large Preview ,它背后是一家美国的公司,叫 Arcee AI。

Henry:这家公司在迈阿密,规模约 30 人。他们从零训练了一个 400B 的稀疏 MoE(混合专家模型),上榜 OpenRouter 主要是因为预览期完全免费。但在社区评价中,它的好评度不如 Kimi 或智谱的模型。

OpenClaw 已经形成了一个生态,产生了一个模型厂商的战场:哪个模型在这个 Agent 场景下跑得好,而且便宜,就能吃到这一波巨大的流量。

晚点:中国的一些公司的动作非常快,比如智谱甚至刚刚推出了专门面向 OpenClaw 场景优化的 GLM 5 Turbo。

Henry:在这个方面,我已经看到了有不少身边朋友的创业,做一些小的专用模型来服务 OpenClaw 生态。

晚点:这种创业能持续吗?有最强大模型的公司,也没道理不拥有最强的小模型。

Henry:如果能在这个生态里打出品牌,可以被大公司收购。这是比较硅谷的一种创业思路,这里收购更频繁。

晚点:目前 OpenClaw 还有哪些不足?

Henry:主要有三点:贵、稳定性、安全性。贵还是指复杂任务的调用次数很多,成本依然很高。

关于安全,MSL(Meta 超级智能实验室)的对齐负责人分享过一个 “恐怖片” 故事:他把 OpenClaw 接入 Gmail 整理邮箱,要求执行操作前必须询问确认。听起来很安全,但因为邮件太多,上下文窗口撑爆了,开始自动压缩总结,把 “必须确认” 的指令弄丢了。结果 Agent 开始疯狂删邮件,他就在手机上打字阻止,但在 Agent 在 Loop 里无视了请求,最后他不得不冲到电脑前拔网线。哪怕是 MSL 的对齐负责人,也会遇到这样的安全问题。

这也说明了现在 AI 在长时间工作中反而会变笨,因为上下文有限,长任务中重要指令会被压缩、丢弃。当前的模型其实没有真正的长期记忆,所以这也是为什么持续学习是非常重要的研究方向。

晚点:那业界有什么完善体验的努力吗?

Henry:OpenClaw 正在进行一些安全加固的版本更新,包括通过执行 Sandbox(一种用于安全隔离运行程序的受限软件环境)防止运行危险代码、在运行环境里面插入一些安全环境变量、验证 Webhook(网络钩子)签名、提供密码管理的 CLI(命令行界面)等。

针对上下文压缩的问题,社区也出现了 lossless-claw 的无损压缩插件。此外还有多 Agent 协作插件和 Skill 市场 Claw Hub 的改进。

SaaS 受 Agent 冲击的本质是 “工程师红利” 普及;Claude 52 天 74 更新,黄雀在后

晚点:关于 OpenClaw ,有一个讨论很多的话题是它对传统 SaaS 的冲击,甚至有一种很极端的说法,认为 SaaS 已死。你之前创业也做过 SaaS,怎么看 SaaS 接下来的变化?

Henry:这个问题放在中国语境里看更容易理解。很多创业者都知道,在国内做 SaaS 一直很难。背后的逻辑是:很多大厂自己养得起程序员,需要软件,完全可以自己写。结果就是,很多原本想做 SaaS 的公司,最后慢慢都做成了咨询公司或外包公司。

现在同样的事情正往全球范围扩散。大量 AI coding agent 出现,本质就是在提供一种低成本程序员的能力。现在美国企业也发现,我需要一个软件,未必要一年花几十万美金买各种现成产品,可以直接让模型做。

未来很多传统 SaaS 公司可能还会存在,但它们的 margin(利润率)会明显下降。只有当你的服务价格跟自建成本相比还算合理,或只是略高一点,用户才会继续买单。

晚点:所以 AI coding agent 让工程师红利从中国蔓延到全世界,让全球信息软件市场变得更像中国市场。

Henry:大家就都进入 hard 模式。

晚点:你前面提到 OpenClaw 像灯塔一样指明了个人 AI Agent 的方向。现在大公司也有了更多动作,如英伟达在 GTC 2026 上推出 NemoClaw(英伟达的企业级 AI 代理平台),Anthropic 也在频繁更新。你觉得接下来会进入什么样的局面?

Henry:OpenClaw 是灯塔但肯定不是终点。大公司各有打法,英伟达的策略是把 OpenClaw 加上企业级安全层,通过 YAML(Yet Another Markup Language ,一种常用于配置文件的计算机语言)文件控制 Agent 的数据、API 和网络访问权限,并加入审计追踪。

Anthropic 确实在快速迭代,52 天内发了 74 个功能,很多都在向 OpenClaw 靠拢。比如加入 Telegram 和 Discord 频道下达指令、支持手机远程操控电脑、上线 Computer use(计算机使用,使 AI 能够像人一样操作鼠标、键盘的功能)以及定时任务。他们还推出了 Dispatch,相当于常驻 AI 管家功能,可自主协调多个代理工作。至于 OpenAI ,虽然 Peter 加入了,但目前动静不大,可能是精力过于分散,他们内部也意识到这点了。

晚点:现在业界有一种声音,认为 Anthropic 正在 “杀死比赛”,它在 Agent 领域的积累非常深厚。从实际体验来看,你觉得 Claude Code 、Claude Cowork 与 OpenClaw 对比,谁更胜一筹?

Henry:从开箱即用的体验来说,Claude Code 和 Claude Cowork 肯定比 OpenClaw 好。但它们针对的是不同用户群:Claude Code 是专业程序员的 “深水区” 工具;OpenClaw 则是面向大众的 “浅水区” 入口;Claude Cowork 介于两者之间。Anthropic is killing the game 的说法是有一定道理的。

晚点:这像是一种相向而行。Anthropic 从专业场景切入再扩大受众,而 OpenClaw 一开始就接入了社交软件,交互上的打击面非常广。但它原始版安装很繁琐,国内像 MiniMax 和 Kimi 做了云端版本,不过我试用后发现云端似乎存在记忆问题,它记不住我上周聊过的事情。

Henry:云端版本的局限是无法访问你的本地生态,这是 OpenClaw 的核心价值。比如作为苹果用户,它能直接访问我的 iMessage 和 Notes,这在我用 OpenClaw 的那一周是很新奇的体验。

晚点:其实对大量工作文档和流程在飞书这类 All in One 办公平台的人,它和 OpenClaw 结合已经能解决很多需求了。

OpenAI vs Anthropic 的三重竞争

晚点:Anthropic 系列产品的强劲表现背后,一个关键问题是,Anthropic 和 OpenAI 的竞争。你的整体观察是什么?

Henry:这个季度是关键节点。Anthropic 已经从一个受人尊敬的技术挑战者,变成了 OpenAI 同等地位的对手。这种转变的核心驱动力不是模型能力而是产品力的领先。

我们看到这个季度,Anthropic 的增速非常疯狂。从绝对数字看,2025 年 12 月他们的 ARR(年度经常性收入)还是 90 亿美元,但到 2026 年 3 月初就冲到了 190 亿美元,基本上过去两个月增长了 100 亿美元。相比之下,OpenAI 在 2025 年底的 ARR 是 214 亿美元,2026 年 2 月只增长到 250 亿美元。

关键差异在于,Anthropic 约 75% 的收入来自 B2B 的 API 服务。Claude Code 已经是开发者界的杀手级应用,在 26 年 2 月的 ARR 达到 25 亿美元,已经超过了 Cursor 同期的 20 亿美元 。

晚点:说到 Cursor ,很多深度用户最近都转投了 Claude Code 。Cursor 的竞争力受到了何种挑战?

Henry:长期来看 Cursor 的窗口在收窄。虽然短期内还有从 GitHub copilot 迁移过来的增量市场,但 Claude Code 增速太快。Cursor 最大的护城河还是海量的高质量工程轨迹数据,如果不能利用这些数据快速提升模型能力,它的优势会被侵蚀。

晚点:OpenAI 的 Codex 对标 Claude Code 竞争力如何,还有背后两家公司在一季度正式发的新模型,3 月的 GPT-5.4 和 2 月的 Opus 4.6。

Henry:Opus 4.6 支持 100 万上下文,能连续工作 15 小时而不丢失目标。然后它在 Terminal bench 2.0(智能体在终端境下解决复杂任务的基准测试)也是拿到了最高分。GPT-5.4 在 OSworld(评估智能体在真实操作系统环境中执行任务能力的基准测试)上达到了 75% 的成功率,超过了人类。

体感上,Codex 纯写代码能力会强一些,但在交流和意图理解上不如 Claude Code 聪明。 Dylan Patel 在推特上开玩笑说 Codex is a retarded kid who's been trained super well(Codex 就像一个被训练得非常好的弱智小孩),现在很多开发者的做法是让 Claude Code 当 “主人” 负责规划,让 Codex 当 “奴隶” 负责执行具体的代码读写和 Review(代码审查)。OpenAI 现在也想补齐产品力,让 Codex 的交互体验追上来。

晚点:这种差异是怎么造成的?

Henry:Anthropic 在这方面的积累更深。Benchmark 只能描述一部分性能,但开发者实际使用体验才是关键。Anthropic 针对 coding 做了更全面的优化,他们更理解开发者的实际工作流。

OpenAI 的模型能力没问题,他们的 Research 团队非常强,但在产品感觉尤其是 ToB 领域稍弱。Peter 加入 OpenAI 是一个信号,说明他们意识到需要补齐产品力的短板。

对比两家公司,OpenAI 的优势在于庞大的 C 端用户基础,ChatGPT 有极强的分发能力,且资金充足。但劣势是注意力太分散,什么都想做,包括 API 、各种企业服务,还有 Sora ——虽然他们刚把 Sora 关闭了。而 Anthropic 极为聚焦,主要精力就放在编程和企业用户上。

晚点:你了解到的 OpenAI 接下来会有哪些应对动作?他们有可能赶上来吗?

Henry:OpenAI 内部已经在反思。3 月中旬,其应用负责人 Fidji 在全员会上说 “We can not miss this moment,becasue we're distracted by side quests.”(公司不能因为被支线任务分心而错过当前最重要的时刻)现在他们开始减少像 Atlas 浏览器、广告以及电商集成等项目的投入,将资源投向 coding 和生产力的企业服务领域。

接下来 Anthropic 面临的主要风险就是 OpenAI 的反扑。如果 OpenAI 能真正实现聚焦,战斗力还是非常强的。另外,Google 正在将 AI 深度集成进 Google Suite( Google 办公套件,包含 Gmail 、文档、云盘等工具),它的分发能力可能是这几家公司中最强的。

晚点:前面说了 OpenAI 和 Anthropic。在美国,xAI 也是大家比较关注的公司。这个季度它有哪些变化?

Henry:这个季度对 xAI 来说是一个比较灾难性的季度,团队震荡很大,有不少 co-founder 级别的人物离职,比如张国栋、戴自航。

晚点:这波离职背后的原因是什么?这些人后面都去了哪儿?

Henry:一部分人会去别的 AI lab,另一部分人会自己创业,只是现在还处在 Stealth Mode(水下状态)。

一个比较重要的背景原因是去年 12 月 Claude Opus 新模型发布之后,整个行业对 coding 能力和 coding agent 的更重视了。但 Grok 自己的模型训练进展不是特别顺,应该是给内部带来了很大压力。

xAI 其实现在也在疯狂从其他 lab 挖人、收购创业公司。但新团队搭起来还需要时间磨合,才能真正形成生产力。接下来一段时间,xAI 要追赶其他公司比较难了。

晚点:Google 这一季度除了 Gemini 3.1 这种小的模型迭代,还有哪些值得关注的变化?

Henry:只看模型这一季度的动向确实不算特别多。Gemini 的 Veo 这类生成式模型有一些更新,但整体上没有特别大动作。

但从产品视角看,能发现在 Chrome 里,不管是获取信息,还是做一些网页内的自动化,Gemini 的调用变得更自然了。然后像 Gmail、Google Sheets、Google Slides 这些核心办公产品,也都集成了 AI 。

晚点:所以这几家核心 AI 公司的竞争焦点已经从模型能力转向了应用和生态?

Henry:没错,下一阶段竞争的关键不再是谁的模型更聪明,而是产品生态的深度。目前 GPT 5.4 、Opus 4.6 以及 Gemini 3.1 的能力差距正在收敛,Benchmark 不再是核心差异点。

接下来的真正竞争维度会是开发者生态;其次是企业的信任感,涉及安全、合规与可靠性;最后是推理成本,在这一块拥有数据和 TPU(专为机器学习定制的处理器)计算优势的 Google 可能会做得更好。此外,谁能率先在持续学习或 Recursive Self Improvement(递归自我改进)上取得突破,谁就能引领下一个时代。

晚点:你现在说的是御三家(OpenAI 、Anthropic 、Google)的模型能力正在收敛。但如果把视野放宽,算上很多中国公司发的新模型和即将发布的 DeepSeek V4,整体看,下一阶段 AI 模型竞争焦点在哪里?

Henry:现状是编程代理即通用代理,全行业都在 All in 编程方向。如果一个模型的 coding 能力不行,它就没法做个人助理这种任务。然后虽然 Benchmark 的差距在缩小,但实际体感差距依然很大。现在 100 万 Token 的长上下文和长程任务处理能力已经成了 Q1 的标配。

晚点:这些改进似乎都是为了服务 Agent 场景。那如果一家公司没有自己的产品触手,比如 DeepSeek 这样目前更聚焦做模型的公司,能做好这种面向场景的改进吗?

Henry:这有点像互联网泡沫时期的思科,当时它是很优秀的公司,但后来被 “商品化” 了,成了没有差异化的基础 “水、电、煤”。模型厂商如果只做模型,也可能面临这种风险,所以现在的趋势是从底层模型到上层应用的垂直整合。厂商需要产品作为触手,去感知用户需求,从而确定优化方向。

而且现在 Benchmark 已经很难代表真实的终端用户体验了。各家公司拥有自己的产品,本质上是取代了 Benchmark 来提供明确的优化目标。如果没有这些真实的使用反馈,单纯靠实验室数据去寻找路径会变得非常困难。

晚点:用户实际使用中,对模型迭代有用的信息可能很稀疏,具体可以怎么提炼呢?其实大部分用户的提问和任务都触达不到模型的能力上限了。

Henry:确实在很多场景下,模型的智能已经溢出了。Databricks 做过一个 OfficeQA ,测试文档解析、召回和推理能力。结果发现推理部分都没问题,失败大多发生在文件解析和信息召回环节。现在需要解决这些基础流程问题,这就是为什么需要自有产品来收集真实的 “轨迹数据”。

回到具体的优化手段,前段时间 Anthropic 指责其他厂商在做蒸馏(将大型模型的知识迁移到更小、更高效模型的技术)。其实大家都在通过购买和筛选用户实际使用顶级模型产生的轨迹数据,提取出高质量的决策过程,再进行持续预训练(在现有模型基础上利用特定领域数据进一步提升性能的过程)。

晚点:Q1 还有件事讨论度很高。大家发现 Cursor 新模型背后其实是用了 Kimi 的 K2.5,但它一开始并没有明确提这件事。按照行业里的惯例,如果你基于一个开源模型做自研,通常会把来源说清楚。你怎么看这场讨论?

Henry:我觉得第一,作为一家美国头部的 AI agent 产品公司,Cursor 选择在中国开源基模上做微调,再把它放进核心产品里,这对中国开源模型来说是一个非常强的认可。

第二,这件事里 Cursor 的处理也很有意思。本身已经是很大的公司了,又处在高估值融资阶段,结果却在开源模型使用和 License(开源许可条款)上出了一个低级错误。照理说,在开始训练之前,就应该把 PR 、合规处理想清楚。

晚点:你觉得 Cursor 是不是也有地缘政治上的顾虑?毕竟它是一家美国公司,而 Kimi K2.5 虽然是开源模型,但毕竟来自中国公司。

Henry:我觉得地缘政治不是最核心的因素,之前也有大公司比如 Airbnb ,明确说在使用中国模型。更大的顾虑可能是被大家质疑自研能力和竞争力。

当然两边后续都处理得挺体面的。Kimi 官方没有指责 Cursor,而是强调自己很高兴 Cursor 选择了 Kimi K2.5 作为基础,也希望未来看到更多和开源生态的合作。Cursor 后来也比较快承认了问题,补充说明了他们为什么会选择 Kimi,以及他们后续在这个模型上做了哪些工作。总体看,这还是再次说明中国开源模型已经做得非常好了。

autoresearch 展现自进化潜力

晚点:前面你提到 Q1 有一个非常令人兴奋的进展,就是 Andrej Karpathy 发起的 autoresearch 实验。这听起来像是 AI 在进行自我递归迭代。你能简单解释下这是个什么项目吗?

Henry:这个项目的背景是 Andrej 之前做的一个教学项目 Nanochat(用于演示大模型训练原理的极简代码库)。它用几百行 Python 代码就能练出一个 GPT 2 级别的小模型。

他在这个基础上搞了 autoresearch:让一个 AI Agent 比如 Claude Code 去反复修改 Nanochat 的训练代码,优化训练流程。系统里有一个人类写的 Program.md 作为方针,AI 根据这个方针去读代码、做改进、跑 5 分钟训练、看结果、再循环。就像一个永不疲倦的博士生,两天下来,AI 在没有人类干预的情况下,自主找到了 20 多个有效改进,把训练时间压缩了 20% 左右。

晚点:为什么这个项目会在 2026 年初突然火起来?它可能会带来什么改变?

Henry:很多人都觉得 AI 自我优化是 AGI 路上的一个圣杯,这个想法不新,但时机最近才熟。一年前 Google 内部就在尝试 Model lineage map(模型谱系图,一种记录模型演化路径的有向无环图),让 AI 预测下一个研究方向,但当时模型能力不够。

这一年多 Codex 、Claude Code 的能力提升。然后之前 Google 发布了 AlphaEvolved(由 Gemini 驱动、自动发现和优化算法与代码的项目)论文,展示了用 Gemini 优化自身内核并提升了 23% 的性能;GPT 5.3 Codex 参与了自我调试;还有 MiniMax 发布的 M2.7 ,也是自我进化。这些案例密集出现,加上 Andrej 的实验,让大家重新意识到 AI 的自我改进可能就要发生了。

晚点:这意味着人类研究员会被替代吗?但它自己并不能解决优化方向的问题。

Henry:AI 会慢慢具备这种能力,但目前它还只能在既定的搜索空间里进行有效搜索。具体搜哪个空间还是由人类研究员来定。如果搜索空间太大,AI 还是容易把代码不可逆地改烂。

晚点:autoresearch 发布后,有人尝试将其应用在软件开发领域。比如 Shopify 的 CEO Tobias ,他们用类似方法优化模板引擎,经过 93 次自动提交,渲染速度提升了 53% 。这方面是否有比较多的应用前景?

Henry:这取决于是否有清晰且可量化的优化目标。对于 Shopify ,渲染速度是一个非常明确的指标,且有快速的反馈循环。相比之下,大多数工程问题缺乏干净的优化目标,且面临安全审查和可解释性的问题。目前这种模式只适合性能优化、Kernel(计算核函数)编写、数据库查询以及基础设施调优等领域。我室友的公司曾尝试让 Devin 和 Claude Code 做一个网页的黑夜模式,跑了一小时也没成功。因为视觉效果的优劣需要人眼主观判断,AI 目前还无法准确感知按钮颜色在深色背景下是否舒服。

晚点:autoresearch 这套方法跟大家讨论的持续学习和自进化很相似。它们之间有什么联系?这些方向现在有什么进展吗?

Henry:持续学习旨在解决大模型在部署后权重固定、无法获取新知识的问题。目前主要有两个路径:一种是基于文本的 “穷人版” 持续学习,即利用记忆机制或 Skill(赋予 AI 特定执行能力的指令包)实现。这种方式易读、易于调整,但会受到上下文压缩导致信息损失。

另一种则是更前沿的权重更新,比如斯坦福大学孙禺实验室研究的 TTT(Test Time Training ,在模型推理阶段根据当前输入动态调整模型权重的技术)。它试图在每次推理时都更新模型的一小部分权重,这听起来非常高级,但对底层基础设施的要求很高。目前它仅在几个 Billion 参数的小模型上验证了可行性,能否 scale up 到万亿参数规模还有待验证。

晚点:那么自进化又是如何定义的?

Henry:自进化与 autoresearch 的关系更紧密。它是指 AI 形成一个闭环,能够自主思考如何改进自身并付诸实现。比如 Sakana AI(一家受生物学启发的人工智能实验室)开发的演化算法。这种自进化系统可以将研究员从繁琐的实验执行中解放出来,专注于更高层级的方向设定。

晚点:在这些方向上,你看到了哪些新的创业机会?

Henry:目前有不少垂直领域的初创公司。比如 Thinking Machines Lab 研发的工具 Tinker 支持 LoRA RL(一种允许在同一套基础设施上并行运行和管理多个强化学习的技术),这在为大规模的个性化定制铺路。还有公司尝试从 MoE 模型中精炼出专门负责学习能力的小模型。他们认为大模型中只有少数 “专家” 负责学习,如果能将这部分能力抽离出来作为个人助理的基座,它学习主人偏好的速度会非常快。另外,也有人尝试将 Andrej Karpathy 的单 Agent 实验扩展为多 Agent 的并行协作模式。

晚点:世界模型应该也是目前很多公司在探索的重要方向,你观察到了哪些创业公司的进展成果吗?

Henry:这个方向的创业公司确实很多。比较为人熟悉的有李飞飞老师创立的 World Labs ,他们侧重于 3D 空间的建模;还有谢赛宁 和 Yann LeCun(杨立昆)做的 AMI 公司,延续 Yann LeCun 提倡的 JEPA(联合嵌入预测架构,重点在于通过预测潜空间表征而非像素来学习世界)路径;然后 Google 原 Dreamer(通过在学习到的世界模型中进行想象来训练策略的强化学习算法)团队的负责人 Daniel Hafner 也出来创业了,他的方向更偏向 Policy(指智能体在给定环境下如何采取动作的决策函数),试图将视频信息与 Robotics(机器人学)结合。

另外还有一家新公司,创始人是 Auto-regressive DiT (自回归扩散 Transformer)和 Self-forcing(用于解决视频生成暴露偏差的训练技术)的作者,他们主攻环境模拟和 Interactive Video Model(交互式视频模型:能够根据用户输入实时生成后续视频帧的模型)。这种模型与 Daniel 研究的策略方向互为镜像。此外,NVIDIA 也在探索物理引擎与世界模型的结合

晚点:这种探索方向未来更多是用于机器人和具身智能吗?

Henry:我认为主要针对两个应用领域。一是交互式媒体,比如探索新的游戏范式,实现实时生成的世界,根据玩家行为做出反馈。二是具身智能,无论是开发机器人的 Policy 还是构建模拟环境,世界模型都能有效加速机器人能力的进化闭环。

算力全面转向推理,Agent 也需要 CPU

晚点:2026 年 Q1 英伟达召开了 GTC 大会发布了一系列新产品,同时也分享了他们在算力基础设施层的新思路。在最近整个第一季度的算力市场中,你觉得有哪些特别值得关注的动向?

Henry:大家的共识是主题从训练向推理的转向。目前 Vera Rubin 体系结构(英伟达发布的新一代 AI 基础设施平台)推理性能提升了 3 ~ 5 倍,推理 Token 的成本可能降低了 10 倍。这对需要大规模部署个人助理、消耗大量 Token 的场景非常有利。另外,英伟达在 2025 年 12 月收购的 Groq(一家专注于 LPU 架构的半导体初创公司)也派上了用场,其 LPU(Language Processing Unit,一种专为大语言模型推理设计的计算架构,以高吞吐量和低延迟著称)被集成到了新的 Rubin 架构中。

然后就是最近 Google 发布了一项工作 TurboQuant,通过优化 KV Cache(键值缓存,在大模型推理中通过存储已生成的键值对来避免重复计算,是提升推理速度的关键),将存储需求压缩至原来的 1/6 。我判断推理优化仍有巨大的空间,当市场压力足够大时,大家就会找新方法进一步降低推理成本。

晚点:你认为这种趋势会让英伟达更无敌,还是会给其他公司带来机会?

Henry:英伟达目前的地位已经非常高了,股价也趋于稳定。但我认为整个推理的上下游,从芯片到 Infra 仍有很大空间。今年 Agent 的运行带动了大量的推理需求,CPU 需求也会提升。整个生态系统依然有广阔的前景。

晚点:CPU 在 Agent 里的作用是什么?

Henry:目前有一个趋势:一切都在计算化。现在电脑里的 Agent 能够自主开启不同的 Sandbox 去执行各种任务,比如模型写完代码后需要去执行,而运行这些代码、处理任务调度都是 CPU 干的活。所以 CPU 最近也出现了一个很大的增长曲线。

硅谷科技大裁员,未来要给 token 收税?

晚点:最后想聊聊 Q1 的大裁员现象。硅谷大公司的裁员动作非常激进,Meta 、Amazon 甚至 Oracle 都有庞大的计划。你身在硅谷,感受到的真实情况是怎样的?

Henry:今年初的情况确实比较可怕。首先是 Amazon 裁了 16000 人,其中很多是工程师。接着是支付巨头 Block 的 CEO Jack Dorsey 宣布裁员 40% ,他明确指出原因是 AI 提升了效率,公司可以用更少的人实现同样的产出。

最有意思的是 Meta 。他们之前让全员停工一周专门学 AI ,管理层甚至把每个团队的 Token 消耗量作为效率指标。学习结束后,扎克伯格宣布裁员 20% ,约 15000 人。省下的钱被直接投向 AI 的 CapEx(资本支出),预计 AI 投资将增加到 650 亿美金。这波裁员潮找工作的难度可能比疫情时期还要大。

晚点:在这种背景下,大家该如何应对?

Henry:我觉得现在大家都要考虑一下创业。AI 加强了每个个体的能力,以前需要一个团队才能做出的产品,现在一个人加 AI 就能完成。小团队也会成为主流,只要有 5 个特别厉害的人配上 Agent ,就能跑通一个创业公司。

晚点:最近你和一些被投企业交流,有观察到 AI 的发展给企业用人和组织架构带来了哪些实际变化?

Henry:最明显的感受是全员 AI native(从初创阶段就将 AI 作为核心驱动力和基础设施的企业或产品逻辑)。无论什么岗位,对 AI 工具的使用能力已成为面试重点。然后对于成长较快的创业公司,虽然人效很重要,但现阶段抢占时间窗口的优先级更高。总体上,招聘更偏向质量而非数量,因为一个擅长使用 AI 的顶尖人才,效率远超传统的堆人模式。

晚点:我也发现一些中国创业公司的 CEO 虽不会在明面上谈论裁员,但内心很受冲击:过去需要几个人干的活,现在 AI 能完成很大一部分了。以前的模式是 “一流人才+二流人才” 搭配完成任务,现在的思路是花重金聘请 “超一流人才+agent” 搭配。公司总人数在减少,但用人成本并非跟着线性下降,因为公司更愿意为那些有想法、能发挥工具价值的人才支付溢价。

Henry:这很像电影《2012》里的洪水场景,你所处的海拔就是你的技能高度,越高越安全。一旦被淹没,就意味着被 AI 取代。

晚点:最近有没有什么具体的案例,让你感觉到这种变革发生得比预想中快?

Henry:有一个 Claude 原生律所(Claude-native Law Firm)的案例。某个客户要求他们在一天之内修改合同的多个条款,并且第二天一早提交修改后的合同。按以前这是需要整个律师团队通宵达旦才能完成的工作量,但他们通过云端工具来进行合同条款的分析,发现了很多对方条款里的冲突,并 pushback(反对)对方的提议,最终在 2-3 小时内,两个律师就完成了工作。

晚点:不过律师不仅是处理文档,还需要处理人脉和检察系统等复杂关系。这种 AI 暂时还挺难替代的。

Henry:没错,搞人的工作目前是最安全的。

晚点:除了裁员,硅谷最近还在关心什么技术带来的社会影响或变化吗?

Henry:湾区的房价。大家在猜测未来房价会发生 Barbell(哑铃型)变化。一方面,大批普通软件工程师可能因裁员付不起按揭,导致 100 万至 300 万美元的刚需房降价;另一方面,OpenAI 或 Anthropic 的顶尖研究员拿着几千万甚至上亿美元的 Package ,会导致千万美元级别的豪宅涨价。

晚点:这听起来非常赛博朋克,摩天大楼旁是贫民窟。

Henry:AI 目前确实是一个高度中心化的事情,它给资源和能力强的人带来了巨大的增幅,也增大了社会不平等。最近有一个新思路是征收 Token 税。就像公司招人要交社保和人头税一样,如果你无限制地消耗计算资源、运行大量 Token 来取代人工,那么除了算力成本,你可能还需缴纳额外的税金。

晚点:给 token 收税,这让 AI 更像人了。

Henry:这个逻辑很自然。就像支持 MAGA 的人认为制造业外流是因为外国人抢了工作却不交税;未来如果 AI 抢了所有人的工作却不交税,那通过对 Token 消耗征税可能是未来的一个自然进化方向。

晚点:如果看接下来一个季度到半年,你最期待或认为比较确定会发生的事情是什么?

Henry:比较确定的事情是 DeepSeek V4 会在下一个季度发布。这个模型现在的关注度很高,大家也等得比较久,所以预期已经被拉得很高。问题是它否还能像之前那样震惊大家。从最近各家发布的工作和论文来看,整体竞争明显更激烈了,DeepSeek 的领先幅度可能在收窄,在这种情况下,要显著超出预期,难度不小。

然后我比较期待 computer use 方向,尤其是 Computer Use Benchmark(模型在电脑环境中执行操作任务能力的基准测试)。目前最先进的模型在这方面的表现还很低,大概只有百分之十几的水平。如果这个方向能有突破,比如模型可以在没有 API 的情况下,直接跨应用完成任务,那就能更好地自动化工作流。

晚点:有没有什么是你不太确定,但特别想验证的事情?

Henry:持续学习和递归自我改进到底什么时候能真正落地吧。

最近我写过一篇相关的博客,也和不少研究员讨论过,包括我们 MoE Labs 也组织过相关的讨论。大家比较一致的看法是:现在的方法有点过度工程化,也就是太复杂了。比如 Test Time Training 这类方法,本质上是在尝试让模型具备更原生的学习能力,但实现路径比较重。大家更期待一种机制上更简单,但效果同样甚至更好的方案。但目前来看,还没有人真正找到那个最优解。

题图来源:电影《极速车王》