Model Is Good Enough：2026 年，AI 真正稀缺的是应用而不是更大的模型

最近重新翻到 LiMu 在 SJTU 的一次讲座草稿，我印象最深的不是某个参数规模，也不是某个模型排行榜，而是一句简单的判断：Model is good enough.

这句话当然不是说模型研究结束了，更不是说底层能力不再重要。它真正刺中的，是另一个更不舒服的事实：对绝大多数研究者、创业者和应用团队来说，继续把主要注意力押在 Better Model 上，边际回报已经没那么高了。

过去几年，我们最关心的问题是：模型能不能更强？今天真正更稀缺的问题开始变成：这些能力到底该放到哪里去，怎样被组织进真实任务，又怎样沉淀成持续的数据与反馈闭环。

换句话说，2026 年最值得认真思考的，不是模型还会不会继续进步，而是：模型已经够用了之后，我们有没有把它用在真正值得的地方。

它和 The Second Half 在说同一个转折，但关注点不同

在我之前那篇从 RL Agent 到 LLM Agent：The Second Half 之后的范式转移与不确定性建模里，我已经写过 Shunyu Yao 那条线的核心判断：当模型、算法与 RL 已经展现出某种泛化能力之后，瓶颈会从 Better Model 转向 Better Evaluation、Better Dataset，以及更接近真实世界的问题定义。

LiMu 这次讲座在我看来说的是同一个时代转折，只是重心更往前推了一步。

The Second Half 更强调：模型已经强到足以迫使我们重写 benchmark 与 evaluation。
LiMu 的提醒 更强调：模型已经跨过够用的阈值，接下来更重要的是找到什么应用真正值得做、什么数据真正值得积累、什么 post-training 真正能把能力压向现实问题。

所以二者不是冲突，而是前后相接。评测是桥，应用是目的地。 我们之所以要重写评测，不是为了再造一套更漂亮的 leaderboard，而是为了让模型能力真正迁移到现实场景里。而一旦你把视角继续往前推，就会发现：很多时候，真正定义评测的，恰恰就是应用本身。

这也是我现在越来越强烈的一个感觉：如果说 The Second Half 让我们意识到问题定义比继续刷模型更重要，那么 LiMu 的提醒其实更直接——没有成立的应用，所谓更好的问题定义最后也可能只是另一套研究圈自洽。

为什么 2026 年更该把注意力放在应用

今天的 AI 已经很难再被描述成“不会做事”。它会写代码、会做数学、会分析文档、会搜索资料、会调用工具、会在一批 benchmark 上稳定超过过去的系统。能力当然还在往上走，但“有没有能力”本身已经不是最有信息量的问题了。

真正尴尬的现实是另一面：模型越来越强，并没有自动变成生活和工作方式的同步重构。

我们已经拥有一批强得惊人的模型，但大多数人的日常生活并没有因此被彻底改写。对很多人来说，AI 仍然更多停留在聊天窗口、搜索增强、偶尔写点东西的层次；真正深度嵌入长期工作流和生活组织层的场景，仍然很少。

这不是因为能力不存在，而是因为能力还没有被组织进足够合适的应用界面。

合适这两个字比很多人想得更苛刻。不是每个需求都适合今天的模型，也不是每个看起来有需求的方向都能形成稳定产品。一个场景如果没有足够清晰的任务边界、没有足够稳定的反馈、没有可沉淀的数据回流，那模型再强，也往往只能停留在 demo、试玩和短期惊艳里。

所以我现在更愿意把问题说得更尖锐一点：AI 现在不缺能力，缺的是接口；不缺回答，缺的是被组织进现实的方式。

下一阶段真正稀缺的，不是再多一个比前代 benchmark 强 3 个点的模型，不是再次取得了某某比赛的金牌与leaderboard的第一，而是那些既真实、又稳定、还能持续积累反馈的任务形态。

应用为什么不是商业问题，而是技术问题

应用重要很容易被说成一句偏产品经理口吻的话，好像它只是商业落地、市场选择或用户运营的问题。但如果把这件事放回今天的大模型技术栈里，你会发现它其实是一个非常硬的技术问题。

因为应用并不只是模型能力的出口，它还是后续数据与训练信号的入口。

更准确地说，这里面有一条非常清楚的链条：

应用先定义任务边界。 你到底是在做代码修改、网页操作、医学辅助、实验规划，还是个人事务管理？
任务边界决定能采什么数据。 你能不能拿到轨迹、结果、错误类型、人工修正、长期偏好、环境后果？
数据质量决定 post-training 是否有意义。 如果拿不到稳定反馈，所谓面向场景优化最后往往只剩 Prompt 反复试错（当然目前确实很多应用局限于此，比如大火的Skills已经快变成Prompt黑盒优化了）。
反馈结构决定模型能否持续变得更有用。 即便底模再强，没有清晰 reward proxy、没有可验证结果、没有可复用经验，也很难形成真正的闭环。

这也是为什么我越来越同意草稿里那句很朴素、但其实非常关键的话：pre-train 和 post-train 同等重要；而对大多数普通研究者和应用团队来说，post-training 往往更接近现实杠杆。

pre-train 决定的是一个系统有没有广泛先验、有没有足够通用的基础能力；但 post-train 真正决定的是，这些能力能不能被压进具体场景，变成可重复、可交付、可持续优化的东西。而 post-train 值不值得做、做完有没有用，根本上又取决于应用本身能不能提供稳定高质量的数据。

所以应用不是模型之外的问题。恰恰相反，它越来越像模型能力是否还能继续增长出真实价值的前提条件。

说得再直接一点：没有好的应用，数据闭环就起不来；没有数据闭环，post-training 就很难不沦为局部修修补补；没有 post-training 真的压进场景，模型能力就很难变成社会价值。

两个正在发生的应用样本：Claude Code 与 OpenClaw

如果只在抽象层面谈应用转向，结论很容易显得空。所以这里我想放两个正在发生的样本进来，不是为了做产品比较，而是为了把前面的判断落到现实任务结构上。

Claude Code：为什么 coding agent 是第一批跑通的应用

Anthropic 官方把 Claude Code 定义为一种面向真实开发流程的 agentic coding tool：它不是单纯回答代码问题的聊天模型，而是能够读代码库、编辑文件、运行命令、接入开发工具，并工作在终端、IDE、桌面和网页这些实际开发表面上的系统。再往外一层，Claude Code 官方文档以及 Agent Skills 文档也已经把 instructions、hooks、MCP、skills 这类机制明确放进了它的能力边界里，说明它的目标从来不是更像聊天，而是更像工作流接口。

这件事非常重要。因为 Claude Code 所代表的，并不是某个模型突然变聪明了，而是一类 agentic coding workflow 已经开始跑通。

它之所以是第一批真正兑现价值的应用，不是偶然的：

环境高度数字化。 代码、终端、测试、日志、版本控制，本来就全部存在于机器可读环境中。
成败相对可验证。 代码能不能跑、测试过不过、构建成不成功、diff 合不合理，都能给出部分明确反馈。
工具链天然存在。 开发流程本来就依赖编辑器、shell、Git、CI、issue tracker；agent 不是平地起楼，而是插进已有基础设施。
人类审核位点清楚。 很多任务可以先让 agent 做，再由工程师 review，而不是一开始就把控制权完全交出去。
数据回流快。 一次失败的修复、一次被拒绝的 patch、一次通过的测试、一次代码审查意见，都可以很快形成下一轮优化信号。

这也解释了为什么 coding agent 在过去一年里会成为最有说服力的应用前沿之一。它不是因为程序员更愿意尝鲜才成功，而是因为这个任务空间天然符合今天模型的优势：语言理解强、工具使用强、局部规划强、错误可快速暴露、外部反馈密度高。

因此，Claude Code 真正说明的是：一旦任务空间足够数字化、反馈足够清晰、工作流接口足够成熟，今天的大模型已经可以稳定创造价值。

这也是为什么我更愿意把它看成一个应用层信号，而不是单纯的产品信号。Claude Code 的意义不只在于 Anthropic 做出了一款好工具，而在于它证明了：有些场景不是AI 也许能做，而是AI 已经可以被组织成持续生产力。

OpenClaw：为什么个人助理智能体更接近未来，也更难做成

另一边，OpenClaw 代表的则是另一种更诱人的想象。

OpenClaw 官方 GitHub README 将它描述为一个面向个人使用场景的 personal AI assistant。从它公开呈现的方向看，它试图做的并不是一个会聊天的第二个手机 App，而是一个真正进入个人数字生活的助手：通过聊天、语音、设备接入、技能扩展、自动化与个人知识组织，去承接提醒、搜索、控制、记录、协调和长期陪伴式交互这类任务。

如果说 Claude Code 代表的是AI 进入专业工作流，那么 OpenClaw 所代表的方向，其实更接近很多人心目中 AI 的最终形态：不是你去一个工具里找它，而是它开始跟着你、理解你、服务你，并逐步接入你真正的生活界面。

也正因为如此，它比 coding agent 更直接触碰AI 如何真正影响日常生活这个问题，毕竟不是每个人都都需要写代码，Coding普及到极限也是一个小众需求。

但问题恰恰也出在这里：越接近生活，这件事就越难。

和 coding agent 相比，个人助理智能体面临的是另一套任务结构：

目标更主观。 “这个提醒算不算及时”“这个安排是不是体贴”“这条建议是否真的有帮助”，往往没有统一答案。
反馈更滞后。 一次个人安排是否成功，可能要几小时、几天甚至更久才能知道。
环境更异构。 手机、消息、日历、邮件、定位、家居设备、浏览器、语音输入、第三方服务，全部是不同系统。
权限边界更敏感。 它越贴近生活，就越需要碰到隐私、支付、联系人、设备控制、长期记忆这些高风险区域。
成功标准不清晰。 coding agent 可以看测试结果，个人助理更多时候只能看“用户是不是感觉更轻松了”，而这很难被稳定程序化。

所以 OpenClaw 的价值，不在于它今天是不是已经把个人助理问题彻底做完，而在于它把难题暴露得非常直接：越接近生活，越不是模型再强一点就能解决的问题。 真正难的是如何定义任务、怎样管理权限、如何组织长期记忆、如何把分散环境统一成可行动的界面，以及如何从这些交互里提炼出可信的数据和反馈。

这也是为什么我对这类方向既看好、又警惕。看好，是因为它确实更接近“AI 真正进入生活”；警惕，是因为它太容易被误写成“只要把模型换得更强就行”。事实上，个人助理智能体最难的部分，很可能根本不在模型本身，而在应用结构本身。

这两个样本说明了什么

把 Claude Code 和 OpenClaw 放在一起看，需要在意的不是谁更先进，而是它们几乎把今天应用层的两种状态直接摆在了眼前。

Claude Code 代表的是：高数字化、高验证性、高工作流耦合 的场景，已经开始稳定兑现价值。
OpenClaw 代表的是：高生活贴近度、高环境复杂度、高权限敏感性 的场景，方向极其诱人，但还远没有跑通。

这两者共同说明了一件事：应用的难度，首先是任务结构的难度，而不是模型参数量的难度。 一个应用之所以难，往往不是因为模型不会续写、不够会推理，而是因为环境太碎、反馈太慢、目标太模糊、权限太重、评价太主观。

而这也正是为什么“更好的应用”会直接变成“更好的数据”问题。任务结构清楚的地方，更容易形成稳定反馈；稳定反馈存在的地方，更容易做出有意义的 post-training；post-training 真有意义的地方，应用才会继续变得更强。

真正值得下注的应用，至少要满足什么条件

如果把前面的讨论压缩成一组更可复用的判断，我会说，下一阶段真正值得下注的应用，至少要满足下面几个条件：

高频。 任务不是偶尔才发生一次，而是能持续产生真实需求。
相对稳定。 环境与目标不能每天都完全重写，否则很难沉淀经验。
存在部分可验证反馈。 不一定要像代码测试那样完美，但至少要有一些明确结果可用来校正系统。
能够形成数据回流。 用户修正、环境后果、执行轨迹、长期偏好要能被记录下来。
能嵌入已有流程。 好应用不是强迫用户改变全部习惯，而是把能力插进已经存在的工作流或生活流里。
能通过后训练或工作流迭代持续改进。 如果一个系统无法随着使用积累而变得更贴合场景，它很难长期成立。

用这套标准回看，为什么 coding agent 先成功就很清楚了：它高频、数字化、可验证、可审查、可回流。为什么 personal assistant 更诱人却更难也很清楚：它当然高频，但反馈主观、环境分散、权限敏感，最难的一层并不在模型本身。

这也是为什么我越来越不相信“只要模型继续更强，一切应用都会自然长出来”这种乐观判断。很多 demo 之所以一直是 demo，不是因为模型只差最后一点能力，而是因为它们从一开始就没有足够好的任务结构。

技术世界最容易高估模型进展的线性外推，却低估应用结构本身的硬约束。模型能力上升当然重要，但真正决定价值上限的，越来越不是参数量，而是任务设计、反馈设计、权限设计和工作流设计。

结语：2026 年最重要的问题，不是更强，而是更有用

如果说 The Second Half 让大家意识到，AI 研究的重点会从继续做更好的 model转向重新定义 evaluation 与真实问题；如果说关于 environment 和 reward 的那条线让我越来越相信，反馈结构决定了经验学习到底有没有方向；那么 LiMu 这次讲座真正提醒我的，则是另一件更朴素、但也更难的事：如果没有真正成立的应用承接，前面两者都不会自动变成社会价值。

所以我现在的判断很明确：未来几年真正重要的，不只是 better model，也不只是 better evaluation，而是 把能力组织进真实应用，并让应用反过来生成更好的数据。

模型当然还会继续变强。但对大多数人来说，更值得下注的地方，可能已经不是去追下一个抽象的最强模型，而是去找到那些真正能进入工作流、进入生活、进入长期反馈闭环的应用界面。

那才是 2026 年之后，AI 最真实的主战场。

参考资料

从 RL Agent 到 LLM Agent：The Second Half 之后的范式转移与不确定性建模
AEnvironment：Agent 需要一个统一的环境层吗？
Anthropic Docs, Claude Code overview
Anthropic Docs, Agent Skills overview
OpenClaw, GitHub repository