Model Is Good Enough:2026 年,AI 真正稀缺的是应用而不是更大的模型
最近重新翻到 LiMu 在 SJTU 的一次讲座草稿,我印象最深的不是某个参数规模,也不是某个模型排行榜,而是一句简单的判断:Model is good enough.
这句话当然不是说模型研究结束了,更不是说底层能力不再重要。它真正刺中的,是另一个更不舒服的事实:对绝大多数研究者、创业者和应用团队来说,继续把主要注意力押在 Better Model 上,边际回报已经没那么高了。
过去几年,我们最关心的问题是:模型能不能更强?今天真正更稀缺的问题开始变成:这些能力到底该放到哪里去,怎样被组织进真实任务,又怎样沉淀成持续的数据与反馈闭环。
换句话说,2026 年最值得认真思考的,不是模型还会不会继续进步,而是:模型已经够用了之后,我们有没有把它用在真正值得的地方。
它和 The Second Half 在说同一个转折,但关注点不同
在我之前那篇 从 RL Agent 到 LLM Agent:The Second Half 之后的范式转移与不确定性建模 里,我已经写过 Shunyu Yao 那条线的核心判断:当模型、算法与 RL 已经展现出某种泛化能力之后,瓶颈会从 Better Model 转向 Better Evaluation、Better Dataset,以及更接近真实世界的问题定义。
LiMu 这次讲座在我看来说的是同一个时代转折,只是重心更往前推了一步。
- The Second Half 更强调:模型已经强到足以迫使我们重写 benchmark 与 evaluation。
- LiMu 的提醒 更强调:模型已经跨过够用的阈值,接下来更重要的是找到什么应用真正值得做、什么数据真正值得积累、什么 post-training 真正能把能力压向现实问题。
所以二者不是冲突,而是前后相接。评测是桥,应用是目的地。 我们之所以要重写评测,不是为了再造一套更漂亮的 leaderboard,而是为了让模型能力真正迁移到现实场景里。而一旦你把视角继续往前推,就会发现:很多时候,真正定义评测的,恰恰就是应用本身。
这也是我现在越来越强烈的一个感觉:如果说 The Second Half 让我们意识到问题定义比继续刷模型更重要,那么 LiMu 的提醒其实更直接——没有成立的应用,所谓更好的问题定义最后也可能只是另一套研究圈自洽。
为什么 2026 年更该把注意力放在应用
今天的 AI 已经很难再被描述成“不会做事”。它会写代码、会做数学、会分析文档、会搜索资料、会调用工具、会在一批 benchmark 上稳定超过过去的系统。能力当然还在往上走,但“有没有能力”本身已经不是最有信息量的问题了。
真正尴尬的现实是另一面:模型越来越强,并没有自动变成生活和工作方式的同步重构。
我们已经拥有一批强得惊人的模型,但大多数人的日常生活并没有因此被彻底改写。对很多人来说,AI 仍然更多停留在聊天窗口、搜索增强、偶尔写点东西的层次;真正深度嵌入长期工作流和生活组织层的场景,仍然很少。
这不是因为能力不存在,而是因为能力还没有被组织进足够合适的应用界面。
合适这两个字比很多人想得更苛刻。不是每个需求都适合今天的模型,也不是每个看起来有需求的方向都能形成稳定产品。一个场景如果没有足够清晰的任务边界、没有足够稳定的反馈、没有可沉淀的数据回流,那模型再强,也往往只能停留在 demo、试玩和短期惊艳里。
所以我现在更愿意把问题说得更尖锐一点:AI 现在不缺能力,缺的是接口;不缺回答,缺的是被组织进现实的方式。
下一阶段真正稀缺的,不是再多一个比前代 benchmark 强 3 个点的模型,不是再次取得了某某比赛的金牌与leaderboard的第一,而是那些既真实、又稳定、还能持续积累反馈的任务形态。
应用为什么不是商业问题,而是技术问题
应用重要很容易被说成一句偏产品经理口吻的话,好像它只是商业落地、市场选择或用户运营的问题。但如果把这件事放回今天的大模型技术栈里,你会发现它其实是一个非常硬的技术问题。
因为应用并不只是模型能力的出口,它还是后续数据与训练信号的入口。
更准确地说,这里面有一条非常清楚的链条:
- 应用先定义任务边界。 你到底是在做代码修改、网页操作、医学辅助、实验规划,还是个人事务管理?
- 任务边界决定能采什么数据。 你能不能拿到轨迹、结果、错误类型、人工修正、长期偏好、环境后果?
- 数据质量决定 post-training 是否有意义。 如果拿不到稳定反馈,所谓面向场景优化最后往往只剩 Prompt 反复试错(当然目前确实很多应用局限于此,比如大火的Skills已经快变成Prompt黑盒优化了)。
- 反馈结构决定模型能否持续变得更有用。 即便底模再强,没有清晰 reward proxy、没有可验证结果、没有可复用经验,也很难形成真正的闭环。
这也是为什么我越来越同意草稿里那句很朴素、但其实非常关键的话:pre-train 和 post-train 同等重要;而对大多数普通研究者和应用团队来说,post-training 往往更接近现实杠杆。
pre-train 决定的是一个系统有没有广泛先验、有没有足够通用的基础能力;但 post-train 真正决定的是,这些能力能不能被压进具体场景,变成可重复、可交付、可持续优化的东西。而 post-train 值不值得做、做完有没有用,根本上又取决于应用本身能不能提供稳定高质量的数据。
所以应用不是模型之外的问题。恰恰相反,它越来越像模型能力是否还能继续增长出真实价值的前提条件。
说得再直接一点:没有好的应用,数据闭环就起不来;没有数据闭环,post-training 就很难不沦为局部修修补补;没有 post-training 真的压进场景,模型能力就很难变成社会价值。
两个正在发生的应用样本:Claude Code 与 OpenClaw
如果只在抽象层面谈应用转向,结论很容易显得空。所以这里我想放两个正在发生的样本进来,不是为了做产品比较,而是为了把前面的判断落到现实任务结构上。
Claude Code:为什么 coding agent 是第一批跑通的应用
Anthropic 官方把 Claude Code 定义为一种面向真实开发流程的 agentic coding tool:它不是单纯回答代码问题的聊天模型,而是能够读代码库、编辑文件、运行命令、接入开发工具,并工作在终端、IDE、桌面和网页这些实际开发表面上的系统。再往外一层,Claude Code 官方文档以及 Agent Skills 文档 也已经把 instructions、hooks、MCP、skills 这类机制明确放进了它的能力边界里,说明它的目标从来不是更像聊天,而是更像工作流接口。
这件事非常重要。因为 Claude Code 所代表的,并不是某个模型突然变聪明了,而是一类 agentic coding workflow 已经开始跑通。
它之所以是第一批真正兑现价值的应用,不是偶然的:
- 环境高度数字化。 代码、终端、测试、日志、版本控制,本来就全部存在于机器可读环境中。
- 成败相对可验证。 代码能不能跑、测试过不过、构建成不成功、diff 合不合理,都能给出部分明确反馈。
- 工具链天然存在。 开发流程本来就依赖编辑器、shell、Git、CI、issue tracker;agent 不是平地起楼,而是插进已有基础设施。
- 人类审核位点清楚。 很多任务可以先让 agent 做,再由工程师 review,而不是一开始就把控制权完全交出去。
- 数据回流快。 一次失败的修复、一次被拒绝的 patch、一次通过的测试、一次代码审查意见,都可以很快形成下一轮优化信号。
这也解释了为什么 coding agent 在过去一年里会成为最有说服力的应用前沿之一。它不是因为程序员更愿意尝鲜才成功,而是因为这个任务空间天然符合今天模型的优势:语言理解强、工具使用强、局部规划强、错误可快速暴露、外部反馈密度高。
因此,Claude Code 真正说明的是:一旦任务空间足够数字化、反馈足够清晰、工作流接口足够成熟,今天的大模型已经可以稳定创造价值。
这也是为什么我更愿意把它看成一个应用层信号,而不是单纯的产品信号。Claude Code 的意义不只在于 Anthropic 做出了一款好工具,而在于它证明了:有些场景不是AI 也许能做,而是AI 已经可以被组织成持续生产力。
OpenClaw:为什么个人助理智能体更接近未来,也更难做成
另一边,OpenClaw 代表的则是另一种更诱人的想象。
OpenClaw 官方 GitHub README 将它描述为一个面向个人使用场景的 personal AI assistant。从它公开呈现的方向看,它试图做的并不是一个会聊天的第二个手机 App,而是一个真正进入个人数字生活的助手:通过聊天、语音、设备接入、技能扩展、自动化与个人知识组织,去承接提醒、搜索、控制、记录、协调和长期陪伴式交互这类任务。
如果说 Claude Code 代表的是AI 进入专业工作流,那么 OpenClaw 所代表的方向,其实更接近很多人心目中 AI 的最终形态:不是你去一个工具里找它,而是它开始跟着你、理解你、服务你,并逐步接入你真正的生活界面。
也正因为如此,它比 coding agent 更直接触碰AI 如何真正影响日常生活这个问题,毕竟不是每个人都都需要写代码,Coding普及到极限也是一个小众需求。
但问题恰恰也出在这里:越接近生活,这件事就越难。
和 coding agent 相比,个人助理智能体面临的是另一套任务结构:
- 目标更主观。 “这个提醒算不算及时”“这个安排是不是体贴”“这条建议是否真的有帮助”,往往没有统一答案。
- 反馈更滞后。 一次个人安排是否成功,可能要几小时、几天甚至更久才能知道。
- 环境更异构。 手机、消息、日历、邮件、定位、家居设备、浏览器、语音输入、第三方服务,全部是不同系统。
- 权限边界更敏感。 它越贴近生活,就越需要碰到隐私、支付、联系人、设备控制、长期记忆这些高风险区域。
- 成功标准不清晰。 coding agent 可以看测试结果,个人助理更多时候只能看“用户是不是感觉更轻松了”,而这很难被稳定程序化。
所以 OpenClaw 的价值,不在于它今天是不是已经把个人助理问题彻底做完,而在于它把难题暴露得非常直接:越接近生活,越不是模型再强一点就能解决的问题。 真正难的是如何定义任务、怎样管理权限、如何组织长期记忆、如何把分散环境统一成可行动的界面,以及如何从这些交互里提炼出可信的数据和反馈。
这也是为什么我对这类方向既看好、又警惕。看好,是因为它确实更接近“AI 真正进入生活”;警惕,是因为它太容易被误写成“只要把模型换得更强就行”。事实上,个人助理智能体最难的部分,很可能根本不在模型本身,而在应用结构本身。
这两个样本说明了什么
把 Claude Code 和 OpenClaw 放在一起看,需要在意的不是谁更先进,而是它们几乎把今天应用层的两种状态直接摆在了眼前。
- Claude Code 代表的是:高数字化、高验证性、高工作流耦合 的场景,已经开始稳定兑现价值。
- OpenClaw 代表的是:高生活贴近度、高环境复杂度、高权限敏感性 的场景,方向极其诱人,但还远没有跑通。
这两者共同说明了一件事:应用的难度,首先是任务结构的难度,而不是模型参数量的难度。 一个应用之所以难,往往不是因为模型不会续写、不够会推理,而是因为环境太碎、反馈太慢、目标太模糊、权限太重、评价太主观。
而这也正是为什么“更好的应用”会直接变成“更好的数据”问题。任务结构清楚的地方,更容易形成稳定反馈;稳定反馈存在的地方,更容易做出有意义的 post-training;post-training 真有意义的地方,应用才会继续变得更强。
真正值得下注的应用,至少要满足什么条件
如果把前面的讨论压缩成一组更可复用的判断,我会说,下一阶段真正值得下注的应用,至少要满足下面几个条件:
- 高频。 任务不是偶尔才发生一次,而是能持续产生真实需求。
- 相对稳定。 环境与目标不能每天都完全重写,否则很难沉淀经验。
- 存在部分可验证反馈。 不一定要像代码测试那样完美,但至少要有一些明确结果可用来校正系统。
- 能够形成数据回流。 用户修正、环境后果、执行轨迹、长期偏好要能被记录下来。
- 能嵌入已有流程。 好应用不是强迫用户改变全部习惯,而是把能力插进已经存在的工作流或生活流里。
- 能通过后训练或工作流迭代持续改进。 如果一个系统无法随着使用积累而变得更贴合场景,它很难长期成立。
用这套标准回看,为什么 coding agent 先成功就很清楚了:它高频、数字化、可验证、可审查、可回流。为什么 personal assistant 更诱人却更难也很清楚:它当然高频,但反馈主观、环境分散、权限敏感,最难的一层并不在模型本身。
这也是为什么我越来越不相信“只要模型继续更强,一切应用都会自然长出来”这种乐观判断。很多 demo 之所以一直是 demo,不是因为模型只差最后一点能力,而是因为它们从一开始就没有足够好的任务结构。
技术世界最容易高估模型进展的线性外推,却低估应用结构本身的硬约束。模型能力上升当然重要,但真正决定价值上限的,越来越不是参数量,而是任务设计、反馈设计、权限设计和工作流设计。
结语:2026 年最重要的问题,不是更强,而是更有用
如果说 The Second Half 让大家意识到,AI 研究的重点会从继续做更好的 model转向重新定义 evaluation 与真实问题;如果说关于 environment 和 reward 的那条线让我越来越相信,反馈结构决定了经验学习到底有没有方向;那么 LiMu 这次讲座真正提醒我的,则是另一件更朴素、但也更难的事:如果没有真正成立的应用承接,前面两者都不会自动变成社会价值。
所以我现在的判断很明确:未来几年真正重要的,不只是 better model,也不只是 better evaluation,而是 把能力组织进真实应用,并让应用反过来生成更好的数据。
模型当然还会继续变强。但对大多数人来说,更值得下注的地方,可能已经不是去追下一个抽象的最强模型,而是去找到那些真正能进入工作流、进入生活、进入长期反馈闭环的应用界面。
那才是 2026 年之后,AI 最真实的主战场。
参考资料
- 从 RL Agent 到 LLM Agent:The Second Half 之后的范式转移与不确定性建模
- AEnvironment:Agent 需要一个统一的环境层吗?
- Anthropic Docs, Claude Code overview
- Anthropic Docs, Agent Skills overview
- OpenClaw, GitHub repository