统计学的应用与应用的统计学
博客列表 主页

统计学的应用与应用的统计学

“Statistics represents the science of learning from data.”
统计学本应是关于从数据中学习的科学。

在大数据与人工智能尤其是生成式AI席卷全球的今天,我们经常听到这样的争论:统计学是否通过了时代的考验?统计学是否因为无法处理大数据而过时了?

这其实是一个伪命题。统计学从不畏惧数据的大小,真正让传统统计学在现代应用中显得步履蹒跚的,不是数据的,而是我们对待数据的态度范式

本文希望围绕“统计学的应用”与“应用的统计学”这两个看似纠缠的概念,探讨统计学是如何在追求数学严谨性的道路上迷失了应用的初衷,而现代数据科学与机器学习又是如何通过“数据驱动”的方式,让统计学回归了其解决现实问题的本质。

迷失的初衷:从解决问题到追求数学完美

数学与统计学的“层级化”歧途

数学的初衷是研究现实世界的实际问题(如丈量土地、计算天文),但随着发展,它逐渐分化出了明显的层级:

  1. 纯粹数学家:研究抽象的结构与逻辑,追求理论的极致突破。
  2. 应用数学家:虽然冠以“应用”之名,但往往研究的是被高度抽象后的结构(如PDE数值解的收敛性),而非直接的现实问题。
  3. 数学应用者:各个具体学科(物理、工程、经济)的研究者,他们对现实世界进行抽象,形成自己学科的理论,只在一个很小的环节调用数学工具。

统计学似乎也未能免俗,走上了类似的道路。

统计学诞生之初(如Fisher时期),无论是为了分析农业实验数据还是生物遗传特征,其目的都是为了解决具体的应用问题。然而,随着学科的发展,统计学家们开始沉迷于构建宏大的理论大厦。为了让体系在数学上完备,各种精妙的假设被引入,理论的推导变得越来越复杂与优美。

最终,统计学也形成了类似数学的塔状结构:处于顶层的统计学家不再处理具体的数据,而是研究抽象的分布族、渐进性质和最优性证明。应用的统计学逐渐异化为了统计学的应用——即拿着锤子找钉子,强行将现实问题削足适履,以套用那些完美的理论模型。

原本应用的学科在和真正的应用渐行渐远,对应的对学生的培养也逐渐离开了关注应用的本质,最终导致无法培养具备解决应用问题需要的人才。

Leo Breiman 的警示

早在 1994 年,加州大学伯克利分校的统计学巨擘 Leo Breiman 就发出过振聋发聩的警示。他在一次演讲中提到:

“也没有一个学科会和统计一样理论和实践差距如此之远,大多数统计理论和统计人员处理的问题相距甚远,仿佛生活在不同世界。”

Breiman 敏锐地指出,统计学的核心不应是成为二流的数学家,而应是成为收集信息、分析信息并得出结论的专家。如果统计学家不能在语音处理、天文、医学等具体的应用问题中找到乐趣并解决问题,那么统计学的身份危机将永远无法解决。

迟到的醒悟:十字路口的统计学

Breiman 的声音在当时或许显得过于激进,但在 25 年后的今天,这已成为学界的共识。

2019年,在一份由美国国家科学基金会(NSF)资助的重要报告《Statistics at a Crossroads》中,包括 Bin Yu 在内的多位顶尖统计学家终于集体承认了这一点。报告指出,统计学正面临被边缘化的风险,必须进行根本性的文化改革。

报告中最核心的观点是实践(Practice)必须回到舞台的中央。长久以来,统计学界存在一种错误的二元对立:将“理论统计学”视为高贵的上层建筑,而将“应用统计学”视为次要的体力劳动。这种价值观导致了学科的异化——学者们为了获得终身教职(Tenure),不得不通过发表晦涩难懂的数学理论来证明自己的智力,而对真正解决科学或社会问题缺乏兴趣。

这份迟到的报告呼吁:评价一个统计学家的标准,不应再是数学技巧的复杂性,而应是其对解决实际问题的影响力(Impact)

大数据时代的枷锁:难以核查的假设

当时间来到 21 世纪,大数据的爆发让传统统计学的尴尬境地暴露无遗。

统计学可以处理大数据,但处理不了不再满足假设的数据。

传统的数理统计学往往依托于一系列精妙的假设,其中最经典的莫过于:

  • IID 假设:数据是独立同分布(Independent and Identically Distributed)的。
  • 正态性假设:误差项服从正态分布。
  • 线性假设:变量之间的关系是线性的。

在小数据时代,这些假设是我们认识世界的拐杖,必不可少。但在大数据时代,数据的来源变得极其复杂,维度呈指数级增长(High Dimensionality),观测之间的相关性变得错综复杂。

此时,如果我们依然坚持先假设,再推断的传统范式,就会发现:真实世界的数据几乎从未真正满足过这些通过数学推导出来的完美假设。

  • 当我们用线性回归去强行拟合一个高度非线性的复杂系统时;
  • 当我们用 p 值去检验一个并不满足正态分布且样本量巨大的数据集时;

我们得到的往往是一个精确的错误答案。依靠难以核查的假设,统计学失去了在真实复杂世界中的应用前景。

但应用统计学在现实中并没有因此停摆。很多时候,统计模型之所以还能用相关关系去说明某种“因果”,并不是因为模型真的从数据中自行识别出了因果结构,而是因为因果关系早已内嵌在研究人员对问题的理解、研究设计与变量选择之中。研究者往往并不是真的要从数据里“发现因果”,而是先基于领域知识对什么可能影响什么形成判断,再借助统计模型去估计强度、比较方向、量化不确定性。我们当然可以说,这并不是严格意义上真正由数据推出的因果识别,但这恰恰就是今天许多应用统计研究的现实:模型并不创造因果解释,它只是在尝试把研究者已经带入分析中的因果理解参数化、数量化。

应用的统计学:数据科学与机器学习的接棒

既然传统的理论统计学在应用面前碰了壁,那么是谁接过了应用的统计学这一棒呢?

数据科学(Data Science or Data Mining)机器学习(Machine Learning)

殊途同归:从 Inference 到 Prediction

人们常问:统计学和机器学习有什么区别? 一种精辟的回答是:它们没有区别,它们都关注同一个问题——我们如何从数据中学习?

但它们侧重点的差异,正好解释了为什么机器学习在大数据时代大放异彩:

  • 统计学:强调统计推断(Inference)。关注置信区间、假设检验、参数的估计。它试图解释模型(Explainability),为此不得不对数据分布做出强假设(如逻辑回归)。
  • 机器学习:强调预测(Prediction)。它将数据生成机制视为一个黑盒,不强求理解内部的参数含义,只求 $f(x)$ 能最准确地预测 $y$。

在很多高维、复杂的现实问题中(如图像识别、推荐系统),人类根本无法预设正确的数学分布形式。机器学习摒弃了对形式完美的追求,通过交叉验证(Cross-Validation)等经验主义手段来评估模型的好坏,而非依赖理论上的渐进正态性。

但直到今天,仍有不少统计学家以及一些社会科学研究者,将“解释”视为更高贵、更科学的目标,而把“预测”贬低为一种不够学术、只关心工程效果的技术活动。这种看法本身就是站不住脚的。解释与预测并不是科学与非科学的对立,而是科学研究中两种同样重要的目标。 解释帮助我们理解机制、组织知识、形成理论;预测帮助我们检验模型是否抓住了稳定结构,帮助我们在未知样本、未来情境与现实决策中衡量一个方法到底有没有用。一个只能解释却无法在新数据上表现稳定的模型,很难说真正把握了世界;而一个能够持续做出准确预测的模型,也绝不能轻易被说成“不科学”。

这恰恰是对“应用的统计学”初衷的回归——不管黑猫白猫,解决问题(预测准确)就是好猫。

第四范式的崛起

数据科学的诞生,正是为了应对这种数据维度的爆炸和来源的复杂化。作为科学研究的第四范式(数据密集型科学发现),数据科学不再依赖于理论推演或计算仿真所需的先验知识,而是直接从数据出发,发现模式。

它不仅仅是简单的学科叠加,而是深度的融合与进化:

  • 计算机科学提供了基础设施:从核心的数据库技术(存储与提取)到云计算与分布式系统,计算能力的飞跃使得海量数据的处理成为可能。
  • 统计学提供了方法论的演进:
    • 计算统计学(如 MCMC、EM 算法)取代了部分传统解析解,有力支撑了复杂统计结构的处理。
    • 探索性数据分析(EDA)在大数据时代重新焕发光彩,帮助我们从数据海洋中“嗅探”信息。
    • 高维统计学结合压缩感知与稀疏性处理,为“维度诅咒”提供了数学上的解药。
  • 人工智能提供了强大的工具:从传统的模式识别进化到现代机器学习,再到深度学习的爆发,提供了自动化特征提取与非线性建模的强大能力。

这也印证了一个观点:虽然统计学要用到数学的许多工具来把整个体系完备化,但是统计学中根本性的 0-1 大突破,一定是从为了解决重大应用问题而产生的。 无论是当年的 Fisher 还是今天的数据科学,都是为了解决实际问题而生,而非为了完善数学结构而生。

统计学与机器学习:殊途同归还是重蹈覆辙?

Kiri Wagstaff 在 Machine Learning That Matters 中曾写道:

“Much of current machine learning (ML) research has lost its connection to problems of import to the larger world of science and society.”

(当前大部分机器学习研究已经失去了与科学界和社会界重大问题的联系。)

这句批评听起来如此耳熟。如果我们把这句话中的 “Machine Learning” 替换成 “Statistics”,它可以无缝地出现在 1980 年代,用来批评那些沉迷于渐进理论而忽视现实数据的统计学家。他好像和Leo Breiman 1994年加州大学伯克利分校的那次著名演讲不谋而合。

历史似乎在以前所未有的速度重演:当一个领域为了追求单纯的指标(Metrics)刷榜(SOTA)而忽略了问题(Problems)本身时,它就在重蹈当年统计学的覆辙。

这也是目前 AI 领域面临的严峻挑战:

  • 工程化压倒理论:大量的研究集中在“炼丹”式的调参技巧,End-to-End 的模型越来越复杂,黑盒性质越来越强。
  • 理论滞后于实践:深度学习在横扫各大榜单的同时,其背后的数学理论(如泛化能力的解释、鲁棒-精确悖论)却远远落后。学术界往往难以回答工业界提出的实际问题,甚至出现“工业界彻底领先学术界”的尴尬局面。

如果说传统统计学的危机在于理论脱离了现实,那么现代机器学习的危机则在于现实抛弃了理论,两者的共同之处都在于研究与真正的实践脱节

这就回到了我们对这两个领域的本质讨论。统计学和机器学习到底有什么区别? 简而言之:没有本质区别。它们都关注同一个问题——我们如何从数据中学习?

如果要概括它们目前的主要区别:

  • 统计学:侧重于低维问题中的形式统计推断(置信区间、假设检验、最优估计量),强调解释性
  • 机器学习:侧重于高维问题中的预测准确性(Prediction),强调泛化能力

虽然侧重点不同,但这两个领域正在日益融合。数据科学的核心并不在于你用的是 t 检验还是深度神经网络,而在于你是否真正利用这些工具解决了一个真实存在的科学或社会问题

数据科学的应用方向

那么又要讨论到数据科学应该怎么应用了,大致看来应该分为两个方向:

  • 继续服务学术界:用数据科学的方法去解决物理、生物、社会科学等领域正在处理的复杂问题(这正是许多“计算X学”正在做的事)。
  • 转向工业界:处理最末端的现实世界应用。在这里,我们可以进一步细分为两个紧密联系但侧重点不同的角色:
    • 数据科学家(Data Scientist, DS):侧重于从数据中提取见解(Insights),通过分析帮助企业或组织做出科学决策。他们更接近于“咨询者”和“发现者”。
    • 机器学习工程师(Machine Learning Engineer, MLE):侧重于构建产品(Products)。他们的首要任务是将算法模型工程化、落地化,转化为实际可用的服务。

理论上,MLE 是广义 DS 的一部分,但它们代表了从数据中挖掘价值的两种不同形态:一种是为了理解,一种是为了行动

无论是哪个方向,核心都是为了解决那个真实存在的问题。

回归田野:溜进后院的钥匙

加州大学伯克利分校的 Terry Speed 教授曾有一句名言:

“统计学本来就应该成就其他学科,我太爱统计了,它像把钥匙一样让我们能溜进任何学科的后院里随便玩耍。”

这或许是所有数据工作者(无论是自称统计学家还是数据科学家)最应铭记的信条。

统计学不应是象牙塔里的数学游戏,它应该是解决实际问题的利器。不管是叫应用统计学还是数据科学,其核心价值在于:我们能否利用手中的数据,为生物学、经济学、医学乃至社会科学的种种难题,在不确定性中找到确定的答案。

当我们放下对假设的执念,拥抱数据的真实复杂性,我们才能真正实现统计学的应用,让这门古老而迷人的学科在数据时代焕发出新的生命力。