本文内容基于 Christoph Bergmeir 在 NeurIPS 2024 上的演讲 “Fundamental limitations of foundational forecasting models - The need for multimodality and rigorous evaluation”。

Christoph Bergmeir 教授是莫纳什大学时间序列预测库 (Monash Time Series Forecasting Repository) 的主要维护者之一。

Fundamental limitations of foundational forecasting models - The need for multimodality and rigorous evaluation

引言：从随机游走谈起

时间序列预测是数据科学中最基础但也最棘手的话题之一。不同于图像或自然语言处理，时间序列往往面临着信噪比极低的问题。

如果我们面对的是一个完全随机游走 (Random Walk) 的序列——即它没有任何内在的模式可以被发现——那么理论上对这个序列最好的预测就是 Naive 预测，即简单地用前一刻的观测值作为下一刻的预测值 ($y_{t+1} = y_t$)。在这种情况下，无论多么复杂的模型（如 BP 神经网络、SVM、随机森林等），其表现往往都不如最简单的 Naive 方法。

这个看似简单的道理，却在当今的深度学习预测研究中经常被忽视。

金融领域的“虚假 SOTA”

股票市场是随机游走的一个典型例子。金融领域的有效市场假说 (EMH) 认为，股价不是过去价格的函数，而是未来预期的体现。换句话说，股价本身包含的信息几乎全部反映了当前的公开信息，其未来的变动主要受不可预测的新信息影响。

因此，股价往往被视为具有鞅 (Martingale) 性质。在这种假设下，超出 Naive 预测的精度在理论上几乎是不可能的。实际上，金融领域的量化研究往往并不关注单纯的点预测（即明天股价是多少），而是更关注风险 (Risk) 与波动 (Volatility)。

然而，令人遗憾的是，许多发表在顶尖会议上的文章声称自己在金融预测领域实现了 SOTA (State of the Art)。但当你仔细审视这些论文时，会发现它们往往只与其他的深度学习 (DL) 方法进行比较，而完全忽略了 Naive 预测这一最强基准。虽然这些模型的计算时间不断膨胀，但在性能上并没有实质性的突破。

气象预测与错误的基准

除了金融数据，深度学习研究者也热衷于在天气与电力数据上展开预测。但这里同样存在常识性的误区。

气象学家普遍认为，由于混沌效应的存在，超过两周（14天）的长期天气预测是物理上不可能的。这就意味着，任何声称能进行长期（大于两周）精确逐小时天气预测的模型，本质上都是在拟合噪声或随机猜测。

当我们打开这些相关的论文，虽然他们确实比较了 ARIMA 或 ETS 等传统统计方法，但往往设置了错误的基准。例如，在面对具有复杂季节性（如小时级数据）的天气序列时，简单的 ARIMA 并不是合适的对手。真正的强基准应该是 DHR-ARIMA (Dynamic Harmonic Regression with ARIMA errors)。当我们引入这种复杂度较高但更适合该类型数据的统计模型时，那些所谓的 SOTA 深度学习模型往往会败下阵来。

评估陷阱：Drop Last Trick

为了让自己的模型效果“看起来”更好，部分学者甚至在评估流程上动起了脑筋。一个典型的例子就是 “Drop Last Trick”。

在许多深度学习的时间序列库中，处理数据时往往会将数据集划分为多个 Batch。如果测试集的最后一个 Batch 不满，部分代码库（如错误配置的 DataLoader）会默认将其丢弃。

但在时间序列预测中，数据是有序的。测试集的最后一部分数据，往往是最新、最接近当下的数据，也是最具参考价值的数据。随意丢弃这部分数据，会导致评估结果严重失真。在很多文章中，同一个方法在不同论文中的性能差异巨大，往往就是使用了各种不同的（甚至是不严谨的）测试标准来实现所谓的 SOTA，而实际效果甚至远不如几十年前的 Baseline。

全局模型 (Global Models) 的双刃剑

近年来，利用大量的多来源时间序列构建全局模型 (Global Models) 成为了趋势。只有深度学习技术能够有效处理这种海量数据。

有研究表明，即使在毫不相关的数据上训练全局模型，再进行领域的微调，也可以实现优于本地模型的效果。这种思想在基础统计领域其实早有对应，被称为 James-Stein 悖论。它允许我们利用完全无关的数据来改进预测的效果，通过引入偏差 (Bias) 来换取方差 (Variance) 的降低，这本质上也是正则化理论的基础。

但是，全局上有效的模型并不能保证在特定的局部数据上有效。

目前的时间序列大模型 (Foundation Model for Time Series) 往往面临一个问题：算法在学习过程中会将各种来源的数据混为一谈。这种“平均化”的处理方式，导致模型无法结合真实的情景和对应的训练数据做出精准的预测。简单来说，算法会将不同的隐含模式平均，而不是分别加以利用。隐含在数据来源中的信息，被算法无情地“平均化”了。

虽然语言模型也通过预训练学习通用的语言模式，但我们可以在一轮轮对话中通过 Prompt 纠正模型。而在纯数值的时间序列预测中，这种“即时纠正”要困难得多。

出路：上下文与多模态 (Context is King)

那么，基础预测模型的未来在哪里？

Christoph Bergmeir 指出，单纯的时间序列缺少足够的可以被利用的信息。如果仅凭历史数据，我们很难突破随机游走的限制。

想要在 LLM4TS (Large Language Models for Time Series) 上真正解决这个问题，关键在于利用 上下文 (Context)。这不仅仅是更长的历史窗口，而是指多模态 (Multimodality) 的信息引入——包括文本新闻、宏观经济报告、图像数据等。

只有当模型能够理解“公司突发丑闻”这个文本 Context 时，它才有可能预测出股价的暴跌；只有当模型能够结合实时的气象云图，它才可能突破纯数值预测的瓶颈。

这就是 TS 基准模型的未来路线：从单模态的数值拟合，走向多模态的上下文理解。