为什么更好的 Simulator 往往是 Learning + Rules:从 PDE、光线追踪到 DLSS
tldr :更好的 simulator 很少来自把规则丢掉、让模型自己理解,而更常来自把现实世界已经知道的结构写进去,让 learning 去补那些我们算得慢、建模差、或根本写不清的部分。
很多经典计算问题,并不是被 data driven 整体替代了,而是被 重新分解 了。过去我们把整个系统都写成规则;现在我们更愿意把其中的一部分交给学习器,比如 closure、surrogate、逆问题、重建、降噪、超分辨、近似求解;但剩下那部分真正决定状态空间、几何关系、守恒约束、边界条件和可行解范围的结构,反而比以前更重要了。
我希望这篇文章解释清楚三个问题:
- 为什么传统 simulator 天生是 rule-heavy 的;
- 为什么 learning 真能替代其中一部分计算;
- 为什么最好的新系统通常不是纯学习,而是 learning + rules 的混合体。
Take Home Message
先把我认为最值得记住的结论放在最前面。
- Learning 最擅长补充的是昂贵映射、模糊规律和感知型重建,而不是从零发明世界规则。 例如 operator learning 学的是参数到解的映射,DLSS 学的是稀疏/低分辨/带噪信号到更稳定画面的重建。
- Rules 的价值并没有下降,反而从手工求整个解转移成约束学习器的解空间。 守恒、几何、边界条件、可见性、采样结构、相机模型、网格拓扑,这些都在决定什么是合理答案。
- Hybrid 的优势不只是折中,而是效率、泛化与一致性的共同提升。 如果你知道一部分结构,最优策略往往不是让模型重新学一遍,而是把它变成归纳偏置,让模型只学剩下那部分。
前言:纯 rules vs 纯 learning是个假问题
在很多讨论里,rules 和 learning 会被描述成一种零和对立:要么你相信解析规则、数值求解、人工建模;要么你相信数据、神经网络、端到端学习。但只要认真看一眼现实中的强系统,就会发现这种划分本身就过于粗糙。
一个 simulator 真正在做的事情,不是给出一个看起来像真的结果,而是在一个受约束的状态空间中,执行可解释的状态转移或观测生成。这句话非常重要。因为它意味着:无论是流体模拟、材料模拟、光线追踪还是视觉重建,系统都在回答同一个问题——什么状态是合法的,什么演化是可能的,什么观测是由这些状态生成的。
把这个框架拆开来看:
- 流体模拟:状态是速度场和压力场,约束来自 Navier-Stokes 方程与不可压条件,状态转移就是时间步进,观测则是可测量的流速、压力或阻力。
- 材料模拟:状态是应力-应变场和位移场,约束来自本构关系与力平衡,状态转移是载荷路径上的演化,观测是形变、裂纹或断裂行为。
- 光线追踪:状态是场景中光的分布,约束来自渲染方程与几何可见性,”演化”是光线在反射、折射、散射中的传播,观测是最终像素值。
- 视觉重建(NeRF、3DGS):状态是底层 3D 场景表示,约束来自相机模型与多视图几何一致性,观测是从各视角渲染出的图像。
一旦你接受这个统一视角,很多看似不相关的方法论争都能被还原成同一个设计问题:你把多少约束写进系统,把多少留给数据去学? 写进去的越多,状态空间越紧,搜索越高效,但灵活性越低;留给数据的越多,模型越灵活,但也越容易落入非法解或 OOD 失效。这才是 rules 与 learning 之间真正的张力——不是谁替代谁,而是约束预算的分配问题。
如果这件事完全没有结构,那么 learning 当然可以从海量数据里去学;但现实世界不是没有结构,恰恰相反,它有太多结构。守恒律、连续性、边界条件、相机投影、遮挡、反射、折射、局部性、时间一致性,都是硬约束。当这些结构早就存在时,最聪明的做法通常不是把它们扔掉,而是把它们变成归纳偏置(bias)的一部分。
所以我越来越不喜欢rule-based 会被 learning 全面取代这种讲法。更准确的说法应该是:传统规则系统正在被重构成“结构化外壳 + 学习化内核”的混合系统。 你可以把这看成一种工程分工变化:过去是 rules 负责从头到尾;现在是 rules 负责搭骨架,learning 负责填充。
旧世界:为什么光追和 PDE 求解本来是 rule-heavy
先看科学计算。经典 PDE 求解不是看数据像什么就输出什么,而是从一开始就写下控制方程。最抽象的写法通常像这样:
\[\partial_t u + \mathcal{N}[u] = 0\]其中 $u$ 是状态,$\mathcal{N}[u]$ 是微分算子。真实工作并不止于写方程,还包括离散化、网格、数值稳定性、边界条件、时间推进、误差控制。也就是说,一个经典 solver 从设计上就在问:什么样的解满足物理律,什么样的更新会发散,什么样的边界是不允许被破坏的。
这类系统的强项,从来不只是精确,更是它知道哪里不能乱来。你可以批评它慢,批评它对复杂逆问题不友好,批评它在多次查询场景下成本太高,但你很难否认:它对合法状态空间的理解非常深。
图形学也是一样。早期 Whitted 1980 的递归光线追踪,本质上已经把反射、折射、阴影这些几何-光学关系编码成了一套明确规则。到了 Kajiya 1986,渲染方程则把“场景中一点向某个方向的辐射亮度”写成了积分形式:
\[L_o(x, \omega_o) = L_e(x, \omega_o) + \int_{\Omega} f_r(x, \omega_i, \omega_o) L_i(x, \omega_i) (n \cdot \omega_i) \, d\omega_i\]这个公式厉害的地方,不是它让渲染突然变容易了,而是它把“图像从哪里来”这件事写成了物理上自洽的问题。此后几十年的 path tracing、importance sampling、MIS、denoising,本质都在围绕它展开。
所以无论是 PDE solver 还是 ray tracer,旧世界的共同点都不是“全手工”,而是:
- 状态空间是显式定义的;
- 合法更新由规则约束;
- 误差分析和稳定性有理论;
- 每个模块都知道自己在近似什么。
这也是为什么经典 simulator 虽然慢,但它们很少出现一些奇怪的输出。它们会贵,会粗糙,会难调,但不太会把完全非法的答案输出。对很多科学和工程任务来说,这种特性本身就是资产。
| 路线 | 先验来自哪里 | 最擅长什么 | 典型短板 | 代表场景 |
|---|---|---|---|---|
| 纯 rules | 方程、几何、解析近似、数值格式 | 可解释、稳定、约束清晰 | 慢、难逆、难覆盖复杂感知 | CFD、FEM、路径追踪 |
| 纯 learning | 数据分布、参数拟合、端到端目标 | 快、灵活、适合逆映射与重建 | OOD 脆弱、合法性难保证 | 图像重建、近似 surrogate |
| hybrid | rules 给结构,learning 学剩余误差或映射 | 兼顾效率、泛化与一致性 | 系统设计更复杂 | learned simulators、NeRF、DLSS |
学习真正替代了什么:从 surrogate 到 learned component
如果认真观察近十年的变化,你会发现 learning 真正替代的,通常不是整个物理过程,而是其中某类 高成本子任务。
第一类是 surrogate / emulator。原始 solver 很贵,但同一个方程族、同一类边界条件、同一种参数扫描会被反复查询。这时学习器就不再试图做“世界定律的发明者”,而更像是在学一个近似算子:给定参数、几何或初值,快速返回一个近似解。像 DeepONet、FNO、MeshGraphNets 基本都落在这条线上。
第二类是 closure / unresolved scale modeling。很多真实系统里,小尺度效应并不容易显式建模,比如湍流 closure、子网格参数化、复杂材料响应、地球系统中的 parameterization。这里 learning 的角色,是去学一个传统规则写得不完美、或者写出来也非常贵的闭合项。你没有抛弃方程;你是在方程里换掉那块最难写清的局部模块。
第三类是 inverse problem。前向模拟往往知道怎么做,但反过来“从观测恢复状态、几何、材料、参数”会非常难。这个方向上,learning 往往比纯优化更有优势,因为它天然适合从观测空间回到潜在变量空间。像 NVDiffrec 这种 inverse rendering 系统,本质就是把“从图像反推几何、材质、光照”这件事变成可微优化与学习结合的问题。
第四类是 reconstruction / denoising / super-resolution。这在实时图形里尤其明显。路径追踪可以给你高质量信号,但采样预算永远不够,于是图像会噪、分辨率会低、时序会抖。此时 learning 不是去接管光线传播本身,而是去学习如何从稀疏、带噪、不完整的信号中恢复出更稳定的图像。DLSS 与 Ray Reconstruction 正是这个范式。
所以,learning 替代的不是规律,而是下面这些东西:
- 昂贵但重复的查询;
- 规则写不清的闭合项;
- 从观测到隐变量的逆映射;
- 从不完整信号到高质量结果的重建过程。
这也是我觉得最重要的认知转变:data driven 的胜利,不是证明 rules 没用了,而是说明我们终于学会把问题拆得更合理了。
一个实用框架:把 rules 看成不同强度的归纳偏置
“规则作为归纳偏置”这句话很容易说得太抽象。更实用的理解方式,是把它拆成四层。
1. 表示层 bias:先决定状态空间长什么样
你让模型直接输出像素、直接输出网格节点、直接输出隐式场,差别非常大。表示本身就决定了模型更容易学到什么,也更难学到什么。
- 在 PDE 中,网格、点云、谱域、函数空间表示都不一样。
- 在图形学中,mesh、radiance field、Gaussian primitives 也不一样。
- 在时序系统中,显式 latent state 与纯 observation model 也完全不同。
很多所谓学习突破,其实先发生在表示层。比如 Instant-NGP 的关键不是一句更大的神经网络,而是多分辨率 hash encoding 这种高度结构化的表示;3D Gaussian Splatting 的关键也不是更深的网络,而是把场景表示改写成可高效渲染的 Gaussian primitive。表示学习是神经网络的关键,也是AI4S的核心,找到符合场景需求的表示并实现可能比研究算法本身更重要。
2. 目标层 bias:把什么算错写进 loss
PINNs 最直观的一点,就是它把 PDE residual 写进损失函数。你不是只拿数据点监督,而是显式告诉网络:这些导数关系、这些边界、这些守恒不能违背。
Karniadakis 等人的综述 有一句很关键的话:physics-informed learning 不是只有数据,也不是只有数学模型,而是把 noisy data 和 physical law 一起纳入训练。这个视角非常重要,因为它说明 loss 不是附属品,而是世界观,loss是引导模型到我们所需的空间的surrogate。
3. 架构层 bias:把相互作用模式写进网络
DeepONet 用 branch/trunk 结构学习 operator;FNO 把积分核参数化搬到 Fourier 空间;MeshGraphNets 直接把 mesh 上的局部相互作用和拓扑关系写进图网络;Geo-FNO 则显式处理一般几何而不只是在规则网格上做 FFT。
这些方法的共同点都是:它们没有假装世界是一张任意表格。 它们把局部性、拓扑、频域结构、函数到函数映射这些先验提前塞进了架构里。
4. 推理层 bias:让学习器嵌在 solver 或 rendering loop 里
最强的 hybrid 系统往往不是训练时有规则,推理时没规则,而是让 learning 模块直接工作在原有求解环中。比如 differentiable rendering 把可微渲染器放在优化回路里;很多 scientific ML 工作把学习器作为 emulator、closure 或预条件器,嵌进原有数值流程。
这一层特别像现实中的工程智慧:不是把旧系统推翻,而是把最昂贵的一段换成 learned component。
graph LR
A[现实世界规则<br/>守恒 几何 边界条件 可见性 采样] --> B[归纳偏置<br/>表示 损失 架构 推理环]
B --> C[学习模块<br/>surrogate closure inverse mapping denoiser super-resolution]
C --> D[混合 simulator / model]
A --> D
我会把这个图当成全文最核心的 mental model:规则不是 learning 的对立面,而是 learning 的压缩先验。
Case 1:科学计算里的 learned simulator
如果说哪条线最能说明 learning + rules 不是一句口号,那就是 scientific machine learning。
从 PINNs 开始:把 PDE 直接写进训练目标
PINNs 最经典的写法,是用网络近似 $u(t, x)$,再用自动微分构造 PDE residual,把初值、边界和方程残差一起放进损失。它的吸引力非常大:
- 不需要完全依赖大规模标注数据;
- 对 inverse problem 很友好;
- 可以直接利用控制方程;
- 在数据稀缺场景里能把先验变成有效监督。
但 PINNs 也暴露了一个很重要的事实:把 physics 写进 loss,不等于问题自动解决。 Nature Reviews Physics 2021 综述 已经把它的能力和限制都说得很清楚:这类方法在 forward / inverse problems 上很有潜力,但可扩展性、鲁棒性、标准化 benchmark 仍然是核心难题。换句话说,物理先验确实重要,但如果实现方式不对,训练仍然会很难。
我对 PINNs 的理解是:它像是第一代“把规则塞进 learning”的范式。它让整个领域意识到,神经网络不是只能吃 i.i.d. 样本,它也能吃结构。 但它还不是最终答案。
从单个解到解算子:DeepONet 与 FNO
接下来很关键的一步,是从学某一个 PDE 的某一个解转向学一族 PDE 问题的解算子。
DeepONet 的意义正在这里。它把问题写成函数到函数的映射,用 branch net 编码输入函数,用 trunk net 编码输出位置。它要学的不再只是一个静态近似器,而是一个 operator:
\[\mathcal{G}: a(x) \mapsto u(x)\]这一步非常像把 simulator 从单次求解器升级成可复用的映射器。你不再为每个参数实例单独迭代求解,而是训练一个可反复调用的近似算子。
FNO 则更进一步。它把 kernel 参数化到 Fourier 空间,最早一批结果就已经展示出:在 Burgers、Darcy、Navier-Stokes 这类 PDE 上,它可以比传统求解器快很多,并且在某些设定下表现出 zero-shot super-resolution 的能力。这个结果的重要性,不只是“更快”,而是它说明:如果任务本质是多次查询同一类 operator,那么学 operator 本身就可能比每次都从头数值求解更划算。
从规则网格到复杂拓扑:MeshGraphNets 与 Geo-FNO
不过,现实问题很快就会告诉你:规则网格不是全部世界。真正的工程问题常常牵涉复杂边界、不规则网格、变形体和多尺度耦合。
这时候 MeshGraphNets 非常有代表性。它直接在 mesh graph 上做 message passing,并把 adaptivity 纳入 forward simulation。它的意义在于:离散结构本身就是物理 bias。 你不再逼着模型把一切压扁成规则 tensor,而是承认物理系统天然有拓扑。
Geo-FNO 则解决了另一个关键痛点:经典 FNO 依赖 FFT,天然更适合规则网格和矩形域;Geo-FNO 明确把任意几何 deform 到 latent uniform grid,再在潜空间里应用 FNO。它说明一个很深刻的事实:当问题不适合某种架构时,不是放弃 bias,而是重写 bias。
近一年真正发生了什么:不是更像黑箱,而是更像软件组件
如果把时间窗口收窄到近一年,我觉得有三条变化尤其值得记住。
第一,领域开始更认真地讨论 benchmark 和 OOD。例如 2025 年关于复杂几何流动预测的 benchmark 很直接地点出:传统 simulation 虽然准确,但昂贵;SciML 被拿来追求更快、更可扩展的方案。然而一旦几何复杂、分布外、精度要求上来,方法之间的差距会迅速暴露出来。也就是说,现在已经不是能不能学的问题,而是学出来的 surrogate 在什么边界内可靠。
第二,研究开始重新把 solver 放回闭环。例如 SC-FNO 这类 2025 工作,不再满足于只拟合解本身,而是强调 sensitivity、inverse problems 和 differentiable numerical solvers。这个方向很说明问题:领域没有朝更纯的黑箱走,反而是在继续把数值结构引回 operator learning。
第三,emulator 开始被当成真正的软件组件,而不是论文里的 demo。像 2026 年 climate emulator perspective 就明确提出三件事:simulator 和 emulator 要 co-design,benchmark 要 machine-learning-ready,而且 emulator 要被当作可靠的软件组件去部署和分析。我很喜欢这个判断,因为它说明 learned simulator 正在走向工程系统的一部分”。
| 方法 | 学什么 | rules 从哪里进入 | 优势 | 典型问题 | 代表来源 |
|---|---|---|---|---|---|
| PINNs | 单个 PDE 解或逆问题参数 | PDE residual、边界条件、守恒写进 loss | 小样本、逆问题友好 | 训练病态、尺度化难 | PINNs, 综述 |
| DeepONet / FNO | 参数到解的 operator | branch-trunk 结构、频域卷积 | 多次查询快、可学函数到函数映射 | OOD 与复杂几何受限 | DeepONet, FNO |
| MeshGraphNets | 网格上动力学 rollout | mesh topology、局部相互作用、adaptivity | 适合复杂拓扑和形变 | 长时稳定性、层级设计难 | MeshGraphNets |
| recent physics-informed operator variants | 在 operator learning 上继续加敏感度、几何与 solver 结构 | differentiable solvers、geometry-aware mapping、benchmark co-design | 更接近真实工程流程 | 系统复杂、验证要求高 | Geo-FNO, SC-FNO, 2025 benchmark |
如果你只记一句话,我会把 scientific ML 的主线概括为:不是让网络替代 PDE,而是让网络学习 PDE family 里最值得被 amortize 的那部分计算。
Case 2:图形学里的 differentiable rendering、NeRF 与 3DGS
如果说科学计算告诉我们rules 可以变成 loss 和 operator bias,那图形学告诉我们的则是:很多看上去最 data-driven 的方法,内部反而非常 rule-heavy。
Differentiable rendering:先有渲染环,再谈学习
differentiable rendering / inverse rendering 的思路其实非常朴素:我有图像观测,我想恢复几何、材质、光照,于是我构造一个可以反传梯度的渲染器,把差异通过渲染过程回传到隐变量上。
这件事一点都不learning。它依赖的是:
- 相机模型;
- 可见性与投影;
- 光照与材质参数化;
- 可微 rasterization 或可微 Monte Carlo rendering;
- 几何表示与 mesh 提取。
像 NVDiffrec 或 NVIDIA 关于 Differentiable Slang / nvdiffrec 的材料就很典型:学习和优化可以恢复 shape、material、lighting,但整个问题之所以可做,是因为渲染 loop 本身极其结构化。这里 learning 的角色不是替代渲染方程,而是利用渲染方程去解 inverse problem。
NeRF:看起来像神经场,实际上站在传统渲染肩膀上
NeRF 往往会被拿来当神经网络直接学 3D 世界的代表。但它的真正精妙之处,不是只靠 MLP,而是把神经表示和 classic volume rendering 紧紧绑在一起。
NeRF 输入 3D 位置和视角方向,输出密度与辐射颜色;真正把这些量变成图像的,不是神经网络单独完成,而是沿着 camera rays 采样、积分、累积透射率的 体渲染过程。也就是说:
- 相机姿态是已知或另行估计的;
- 射线采样是写死的几何过程;
- 颜色合成遵守体渲染积分;
- 优化目标依赖多视图几何一致性。
所以 NeRF 从来不是用网络替代渲染,而更像是:把场景表示神经化,但保留渲染过程的结构。 这正是我们要讨论的 hybrid。
Instant-NGP:真正改变游戏规则的是结构化表示
NVIDIA 的 Instant-NGP 之所以重要,不只是因为它快,而是因为它告诉大家:提升 learning-based simulator / renderer 的一个关键方向,不一定是更大模型,而可能是 更强的表示 bias。
它用多分辨率 hash table 存 trainable feature,再配一个很小的网络。这个设计极大减少了训练与推理成本,让高质量 neural graphics primitive 的训练时间从过去的论小时/天压缩到论秒/分。这其实很像一堂关于 inductive bias 的公开课:当你把空间结构写进编码方式,网络就不必再从头学习那份几何组织。
3D Gaussian Splatting:从“让神经网络记住场景”到“让表示直接适合渲染”
3D Gaussian Splatting 的冲击更大。它的 project page 写得很清楚:方法通过 3D Gaussians、interleaved optimization / density control 以及 visibility-aware rendering,实现了 1080p 下 100fps 以上 的高质量 novel-view synthesis。
我觉得 3DGS 最值得学的,不只是“又快又好”,而是它体现出一个更普遍的趋势:当某个问题已经有了很明确的几何与渲染结构时,研究者会越来越倾向于把网络从通用逼近器,改造成强结构化表示的一部分。
从 NeRF 到 Instant-NGP,再到 3DGS,这条线其实在不断回答同一个问题:如果我们已经知道 camera model、sampling path、visibility、compositing 这些规则,为什么还要让一个笨重的黑箱去重新发现它们?更好的做法当然是:把它们直接保留下来,让网络只学 appearance、density、local detail 和更难写的那部分。
Case 3:实时图形里的 ray tracing、denoiser 与 DLSS
如果前两个 case 还带一点学术味道,那么实时图形里的 DLSS 就是工程世界里最直观的例子。
为什么光线追踪天然需要 hybrid
光追或路径追踪的优点非常明确:它尊重几何、阴影、反射、折射、全局光照的生成机制。坏消息也同样明确:采样预算不够时,它天然会噪。 你当然可以继续加 sample,但实时渲染预算不会凭空变多。
于是现实的工程答案不是放弃 ray tracing 改让 AI 自己画,而是:
- 用 ray tracing 负责产生受物理约束的底层信号;
- 用 denoiser / reconstruction 负责把有限样本变成可看的图像;
- 用 super-resolution 和 frame generation 去换取实时性。
这就是一个非常纯粹的 hybrid stack:底层结构仍然是 rule-based 的,上层重建则 increasingly learned。
DLSS 3.5:学习模块不是替代光追,而是替代一堆手工调参 denoiser
NVIDIA 对 DLSS 3.5 Ray Reconstruction 的官方描述 非常有代表性:它明确说 Ray Reconstruction 通过 single neural network 取代多个 hand-tuned denoisers,以改善 ray-traced effects 的图像质量。
这句话其实点穿了整件事的本质。DLSS 3.5 不是在说AI 比物理更懂光追,而是在说:当你已经有 ray-traced signal,但它因为预算限制而噪声很大时,统一的 learned reconstructor 比一堆人工调参数的专用 denoiser 更合适。
这非常像科学计算里的 learned closure:底层规律还在,学习器接管的是那个最昂贵、最难手工调、也最依赖 perceptual prior 的部分。
DLSS 4 与 4.5:学习模块继续加强,但仍站在渲染管线上工作
按我在 2026 年 3 月 15 日 检索到的 NVIDIA 官方资料,DLSS 4 Technology 页面 已明确写到:DLSS Super Resolution、Ray Reconstruction 和 DLAA 使用 transformer AI models。而 2026 年 1 月 14 日的 DLSS 4.5 公告 进一步给出更具体的信息:DLSS 4.5 的 Super Resolution 升级到 2nd generation transformer model。
这说明什么?说明 industrial system 的结论和学术系统的结论是同向的:当重建问题足够复杂时,学出来的模块确实可以持续替代 hand-crafted heuristics。 但它仍然是工作在已有渲染管线之上的:没有底层 G-buffer、ray-traced samples、时间历史、渲染约束,这些神经模块也无从着力。
所以我会把 DLSS 看成一个很好的教学案例。它告诉我们:
- 真实世界里,学习模块往往是在替代 heuristics,不是在替代物理;
- 真正可落地的 AI 渲染,通常依赖高度结构化的输入;
- 最强系统来自“signal generation by rules + signal reconstruction by learning”。
| 系统 | rules 提供什么 | learning 负责什么 | 为什么 hybrid 更强 | 代表来源 |
|---|---|---|---|---|
| Ray tracing / path tracing | 可见性、反射折射、采样与光传输 | 通常不学核心传播,只学降噪或重建 | 底层信号可信,上层重建更高效 | Whitted 1980, Kajiya 1986 |
| NeRF | 相机模型、ray sampling、volume rendering | density / radiance field 表示 | 学习场景表示,但不放弃渲染结构 | NeRF |
| 3DGS | visibility-aware rendering、Gaussian splat compositing | 场景表示与优化 | 用更适合渲染的表示替代大黑箱 | 3D Gaussian Splatting |
| DLSS-RR | 渲染管线、ray-traced buffers、时序结构 | denoising、super-resolution、frame reconstruction | 用 learned reconstructor 替代 hand-tuned heuristics | DLSS 3.5 RR, DLSS 4 |
什么应该交给 learning,什么仍该写进 rules
到这里,一个真正实用的问题就出来了:如果我要设计一个更好的 simulator / model,到底哪些部分该学,哪些部分该手写?
更适合交给 learning 的部分
- 逆问题:从观测恢复隐变量、参数、材质、几何、状态。
- surrogate / emulator:同类问题要重复查询很多次时,学习 operator 非常划算。
- closure / unresolved physics:子网格、经验项、复杂材料响应、难显式建模的交互。
- 感知驱动的重建:降噪、超分、插帧、缺失信息补全。
- 多模态和统计规律很强的部分:例如复杂视觉外观、真实纹理、噪声模型。
更应该写进 rules 的部分
- 合法状态空间的定义:什么是守恒、可行、稳定、无穿透、无负密度。
- 几何和拓扑约束:网格邻接、可见性、边界条件、物体接触关系。
- 基础生成机制:光如何传播、流体如何守恒、边界如何生效。
- 评估接口:什么叫误差、什么叫 physically valid、什么叫视觉一致。
- 高风险硬约束:涉及安全、科学结论、工程认证的部分。
最值得优先考虑的 hybrid 形态
如果一定要给一个默认推荐,我最推荐的是以下三种结构:
- solver outside, learner inside:让学习器当 closure、preconditioner、sub-grid model。
- learner outside, solver inside:让学习器预测参数、初值、边界或 proposal,再交给 solver 修正。
- structured generator + learned reconstructor:底层用 rules 产生受约束信号,上层用 learning 做重建、补全和加速。
这三种结构几乎能覆盖本文讨论的大多数成功案例。也就是说,真正有价值的设计不是all in end-to-end,而是找到那个既可学、又值得学、还不会破坏系统合法性的模块边界。
最后的判断
如果要把全文压成一句话,我会这样写:
更好的 simulator / model,不是把 world rules 忘掉以后再从数据里盲学一遍,而是把那些已经知道的结构——守恒、几何、边界条件、可见性、采样、拓扑——变成 bias,让 learning 去专注于真正值得学习的部分。
这也是为什么我越来越相信:未来更强的 world model,本质上也会越来越像更强的 simulator。它不会只会接着预测下一个 token 或下一帧,而会更擅长在一个受现实规则约束的 latent state space 里演化状态。到那时,learning 和 rules 的关系也许会变得更像今天的 DLSS、NeRF 或 neural operator:不是互相替代,而是彼此分工。
从这个角度看,“用现实世界存在的核心规则作为归纳偏置,构建更好的 simulator / model”并不只是一个 engineering trick,它更像是通向更可靠 AI 的一条主线。因为真正值得学习的,从来不是世界已经白纸黑字写出来的那部分;而是那些写不全、算不快、却又真实存在的复杂剩余项。
参考资料
- J. Turner Whitted, An Improved Illumination Model for Shaded Display, 1980.
- James T. Kajiya, The Rendering Equation, SIGGRAPH 1986.
- Maziar Raissi et al., Physics Informed Deep Learning / PINNs project page.
- George Em Karniadakis et al., Physics-informed machine learning, Nature Reviews Physics, 2021.
- Lu Lu et al., DeepONet, 2019/2020.
- Zongyi Li et al., Fourier Neural Operator for Parametric Partial Differential Equations, 2020.
- Tobias Pfaff et al., Learning Mesh-Based Simulation with Graph Networks, 2020/ICLR 2021.
- Zongyi Li et al., Fourier Neural Operator with Learned Deformations for PDEs on General Geometries, JMLR 2023.
- Huayu Deng et al., Sensitivity-Constrained Fourier Neural Operators for Forward and Inverse Problems in Parametric Differential Equations, ICLR 2025.
- A. Radha et al., Benchmarking scientific machine-learning approaches for flow prediction around complex geometries, Communications Engineering, 2025.
- A. Mankin et al., Rewiring climate modeling with machine learning emulators, Communications Earth & Environment, 2026.
- Ben Mildenhall et al., NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis, 2020.
- Thomas Muller et al., Instant Neural Graphics Primitives with a Multiresolution Hash Encoding, SIGGRAPH 2022.
- Jon Hasselgren et al., Extracting Triangular 3D Models, Materials, and Lighting From Images, CVPR 2022.
- NVIDIA Developer Blog, Differentiable Slang: Example Applications, 2023.
- Bernhard Kerbl et al., 3D Gaussian Splatting for Real-Time Radiance Field Rendering, SIGGRAPH 2023.
- NVIDIA, NVIDIA DLSS 3.5 Ray Reconstruction, 2023.
- NVIDIA, DLSS 4 Technology, accessed 2026-03-15.
- NVIDIA, NVIDIA DLSS 4.5 Super Resolution Available Now, 2026-01-14.