数据科学的第60年
这是一个蛮宏大的话题,本文的核心思想将来自David Donoho的 50 Years of Data Science ,但会添加很多我觉得有意思的内容。距离 Donoho 发表本文又过去了将近10年,生成式人工智能的浪潮正在改变整个社会,数据科学也不例外。
在撰写此文档时参考了以下内容,在本文的其余地方将不会额外强调内容的来源:
- 50 Years of Data Science (David Donoho)
- A Conversation with John W. Tukey and Elizabeth Tukey
- C. Radhakrishna Rao: A Century in Statistical Science
- What are the most important statistical ideas of the past 50 years? (Andrew Gelman & Aki Vehtari)
- Berkeley Data Science Planning
- Statistics at a Crossroads: Who Is for the Challenge?
在正文开始之前
从人类科学的发展聊起
科学本身是人类用于理解和解释世界的工具。回顾人类科学的发展历程,我们可以清晰地看到从具体到抽象,再从理论到计算的演进脉络。
数学在古代中国的起源可以用《九章算数》来概括,整本九章都在研究我们如何解决现实世界中的一些具体问题,而不谈及背后的通用理论,这可以被视为第一范式:实验与观测。人们通过记录和描述自然现象,从中总结经验。
物理学中最为广为人知的学者可能是牛顿,他给出的运动定律与万有引力定律将现实世界的运动规律变为了精准的、抽象的理论,人类对世界的认知迈出的一大步。这一阶段,科学研究的核心在于通过理论推演总结出普适的公式和定理,这被称为第二范式:理论推演。
在现代科学的发展中,随着计算机技术的飞速进步,仿真成为了相当热门的一个词汇。面对那些过于复杂、难以通过解析解求解的理论模型,人们使用计算机利用已知的物理规律进行模拟(比如有限元分析)。靠仿真来研究并发展科学,或者我们可以称之为科学计算,这构成了第三范式:计算仿真。
科学研究的第四范式
将数据科学定义为在试验观测、理论推演、计算仿真之后的第四种数据驱动科学研究范式是一个非常有意思且深刻的观点。
现在的我们面临着更多复杂的问题:我们不知道其中的理论机理,受限于物理条件没法进行实验观测,计算量过大或参数未知导致无法依靠计算仿真。在这种“无知”的困境下,数据驱动成为了一个绝佳的主意。
前三种范式可以统称为知识范式,它们建立在人类对问题有一定先验知识(经验、理论、方程)的基础上。在知识充足的情况下,它们当然行之有效且精确可靠。但在缺少知识、机理不明的情况下,第四范式直接从数据出发,发现模式、挖掘关联,往往能起到意想不到的效果。数据科学本质上是一门研究数据的科学,是一种解释世界的全新方式,也是一种科学。
数据科学的定义
作为一个新兴的学科领域,人们很难对数据科学本身进行准确的定义,或者说使用简单的几句话来概括整个学科都是非常困难的事情。
有的学者简单地将数据科学定义为用来处理数据的学科,是一个工具。这或许准确地概括了我们正在用它干的事情(What we do),但是否触及了学科的本质(What it is)还值得思考。
基于上述对科学范式的讨论,我认为第四范式是对数据科学一个极佳的定义视角:
数据科学是实施第四种科学研究范式——数据驱动的科学研究范式——的学科;它是一门致力于把数据变得有用的学科。
这一定义强调了两个核心点:
- 方法论的革新:它是对传统科学研究范式的补充和超越。
- 高度的应用性:数据科学不应仅仅停留在理论层面,它应该是一个高度应用的学科。我们在努力把数据变得有用(Useful)的同时,最终目的是为了让它对现实世界真正有用(Valuable),用于认知与操纵世界。
以此为界,我们可以更深入地探讨数据科学的内涵、它与统计学及计算机科学的渊源,以及它是如何发展到今天这个地步的。
数据科学与统计
统计学的一百年
在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的世界里,所有的判断都是统计学。 —— C.R. Rao
C.R. Rao 教授的这句话,精准地概括了统计学在人类知识体系中的地位。作为近代统计学集大成者,Rao 亲历了统计学从早期描述性分析(Pearson时代)到现代推断性理论(Fisher时代),再到如今与计算科学深度融合的完整百年历程。他的工作——从著名的 Cramer-Rao 不等式到 Rao-Blackwell 定理——不仅奠定了数理统计的基石,更展示了统计学如何通过严谨的数学工具,从不确定的数据中提炼出确定的信息。
统计学的核心在于“推断”。 它不仅仅是对数据的收集和整理,更是一门关于如何从样本推测总体、如何量化不确定性、如何在噪声中寻找信号的科学。在过去的一百年里,统计学通过其强大的理论框架,为自然科学、社会科学乃至工程技术提供了通用的语言和工具,帮助人类在充满随机性的世界中做出理性的判断。
然而,随着大数据时代的到来,统计学正面临着前所未有的挑战与机遇。传统统计学往往依赖于对数据分布的严格假设(如独立同分布、正态性),而现实世界的大数据往往呈现出高维、异质、动态变化的特征。正如 Rao 晚年所思考的那样,统计学必须进化。它需要拥抱计算,接纳更复杂的模型,甚至重新审视“推断”的范式。
在数据科学的宏大图景下,统计学并非因为大数据的出现而过时,相反,它是数据科学的灵魂。只有将统计学的严谨推断思维与现代计算机强大的算力相结合,我们才能真正理解数据背后的真理。
为什么是数据科学
“数据科学家” 是指使用科学方法从原始数据中发掘并创造意义的专业人员。
对统计学家来说,这听起来不就是应用统计学家的工作吗? “统计学” 是指大量收集和分析数据的实践或科学。
对统计学家来说,统计学的这个定义似乎已经包含了数据科学家定义可能包含的任何内容,但是统计学家的定义似乎又是有限的。对统计学家来说,数据科学计划(DSI)似乎令人费解。统计学家们认为,他们在整个职业生涯中每天都在从事的工作,被管理人员吹捧为成了鲜事。
下面我们来讨论于数据科学及其与统计的关系的不同观点。
大数据是核心原因吗?
一种普遍的声音认为,数据科学之所以兴起,是因为“大数据(Big Data)”的出现——数据量大到统计学无法处理,因此需要一门新的学科。这种观点虽然流行,却经不起推敲。
统计学从不畏惧大规模数据,其历史充满了处理复杂、海量数据的理论与实践。如果仅仅是因为数据变大了,我们大可发展“大数据统计学”,而无需另起炉灶。实际上,这种观点更多是来自非统计专业人士的误解,仅仅强调数据量的增加,并不能解释为什么我们需要“数据科学”这一新实体。
现实驱动:技能的缺口与人才的“淘金热”
数据科学真正的推手,其实源自过去十年工业界的巨大成功。Google、Amazon 等科技巨头利用数据创造了惊人的商业价值,引发了一场全球范围内的“淘金热”。
在这场热潮中,企业发现了一个尴尬的现实:传统的学科教育无法提供他们急需的人才。
- 传统的统计学毕业生精通推断与分析,但往往缺乏处理大规模数据库、编写生产级代码以及构建复杂软件系统的能力。
- 计算机科学毕业生精通工程与系统,却往往在从噪声中提取信号、量化不确定性等统计思维上受训不足。
Mike Barlow 在 The Culture of Big Data 中指出,这种技能缺口导致了对“数据科学家”的渴求。这一新头衔实际上暗含了对能力融合的高要求:一个合格的数据科学家,必须既能像统计学家一样严谨思考,又能像软件工程师一样处理脏数据、构建系统。这种混合技能的需求,才是区分“数据科学”与传统统计学在就业市场上的关键分水岭。
迈向真正的科学
然而,如果数据科学仅仅是为了填补商业公司的招聘缺口,它充其量只是一个职业培训方向,而非一门科学。
幸运的是,我们有充分的理由相信,建立“数据科学”这一实体具有超越商业利益的学术价值。正如前文提到的“第四范式”,我们需要一门真正的关于从数据中学习的科学。这门科学将继承统计学严谨的推断传统,同时拥抱现代计算的强大能力,去解决那些理论推演和计算仿真无法触及的复杂问题。
这一愿景,正是过去50年来有远见的统计学家们一直在为之奠基的方向。
而现在以数学,统计学,计算机科学,人工智能(机器学习)理论融合发展成的数据科学将会是有效的工具。统计学将提供基于假设的推断,计算机科学将提供高性能查询与计算工具,机器学习技术将为复杂数据建模提供方法。
数据科学是高度应用的学科,我们用它来认知与操纵世界。
The Future of Data Analysis
1962年:预言的诞生
早在50多年前,John Tukey 在其具有里程碑意义的论文《The Future of Data Analysis》(1962)中,就精准地预言了今天数据科学的时刻。Tukey 直言不讳地指出,他对自己作为一名数理统计学家的身份感到不安,通过对数理统计发展的观察,他意识到自己真正的兴趣在于 数据分析。
Tukey 认为,数据分析是一门科学,而不是数学的一个分支。数学追求的是逻辑的一致性与可证明性,而数据分析则拥有科学的三大要素:
- 才智内容(Intellectual Content)
- 可理解的组织形式
- 依赖经验检验作为有效性的最终标准
在 Tukey 的愿景中,统计学的形式理论(Formal Theory)只是这门新科学的一小部分,而非全部。他列出了驱动这一新科学发展的四大因素:统计理论、计算能力、海量数据(Big Data)挑战以及各学科的量化趋势。这份1962年的清单,即便放在今天的数据科学宣传稿中,也毫不过时。
对Tukey而言,无论是在贝尔实验室优化耐克(NIKE)防空导弹的轨迹,还是分析 U-2 飞机的湍流数据,他总是从实际问题出发,用非常经验主义的方式寻找答案,而非迷信教科书上的假设。对他而言,如果一个方法在实践中甚至没人用,那么检验它是否值得就毫无意义。
从 Tukey 到 Cleveland
尽管 Tukey 振臂高呼,但在随后的几十年里,学术统计界反应冷淡,继续沉迷于纯粹的理论证明。然而,Tukey 的贝尔实验室同事们和少数有远见的学者接过火炬,在荒野中不断前行。
- John Chambers(S语言开发者)在1993年呼吁建立“大统计学(Greater Statistics)”,警告如果统计学不拥抱从数据中学习的包容性概念,将面临边缘化的风险。
- 吴建福(Jeff Wu) 在1997年的就职演讲中直接提出“统计学 = 数据科学”,主张将统计学重命名为数据科学。
- William S. Cleveland 在2001年发表了著名的《Data Science: An Action Plan》,真正为这门学科制定了行动路线图。他提出将学术资源分配到六个领域:跨学科研究、模型方法、数据计算、教学法、工具评估以及理论。除了理论,其他五个领域在当时的传统统计系中几乎是一片空白。
计算环境的胜利
当学界还在争论定义时,工业界和实干家们已经用代码定义了未来。从早期的 SPSS/SAS 到 John Chambers 开发的 S 语言,再到后来的 R 语言,计算环境的进化彻底改变了游戏规则。
脚本(Scripts)成为了新时代的论文。它是对计算步骤精确且抽象的描述。当 R 语言这样的量化编程环境普及后,数据分析不再是纸上谈兵,而是变成了可复现、可分享、可验证的科学。人们可以直接运行他人的代码,在不同数据上验证方法,通过性能度量来科学地改进分析流程。
至此,Tukey 关于数据分析是一门科学的预言,终于通过代码和计算力量变成了不言自明的事实。
以预测为主导的统计建模
两种文化:生成 vs 预测
2001年,Leo Breiman 在《Statistical Science》上发表了引发轰动的文章 Statistical Modeling: The Two Cultures。他敏锐地指出,在从数据到结论的过程中,存在两种截然不同的统计建模文化:
- 数据模型文化(Data Modeling Culture):假设数据是由一个已知的随机过程生成的(如线性回归模型)。统计学家的任务是推断这个模型的参数。Breiman 认为,这占据了学术统计界的98%。
- 算法模型文化(Algorithmic Modeling Culture):将数据生成机制视为未知且复杂的“黑箱”,并不试图解析其内部机理,而是专注于通过算法寻找输入 $x$ 与输出 $y$ 之间的函数关系,以实现最精准的预测。
长期以来,统计界过度依赖数据模型,导致理论与现实脱节。而现有的算法模型虽然缺乏严谨的理论支撑(正如早期的统计学一样),但凭借其解决复杂现实问题的能力,在计算机科学和工业界飞速发展。这正是数据科学兴起的关键——它不仅包含了传统的统计推断,更拥抱了以预测为核心的算法模型。
预测文化的秘诀:共同任务框架 (CTF)
如果说预测文化是数据科学的灵魂,那么共同任务框架(Common Task Framework, CTF)就是它制胜的法宝。
计算语言学家 Mark Liberman 认为,CTF 是推动机器学习和预测建模成功的核心动力,但往往被主流统计学界所忽视。一个典型的 CTF 包含三个要素:
- 公开的训练数据集:包含特征和标签。
- 竞争者:致力于训练出最好的预测规则。
- 裁判系统:使用“黑箱”测试集,客观、自动地评估预测准确性。
从 Netflix 挑战赛到 Kaggle 竞赛,再到现代的深度学习革命(如 ImageNet),CTF 范式无处不在。它将原本模糊的研究(如早期的机器翻译),转化为可量化、可比较、可复现的工程挑战。
最小化预测误差 + CTF 范式 = 经验绩效的极致优化。
这种模式不仅筛选出了最有效的算法,也从根本上改变了人才的需求。在 CTF 框架下,信息技术(IT)技能(处理数据、构建系统、编写脚本)变得比纯粹的数学推导更为关键。这解释了为什么今天的数据科学教育必须包含大量的计算机科学内容——因为在预测主导的新世界里,代码能力与统计思维同等重要。
数据科学的现在
随着学科的发展,关于数据科学与统计学关系的早期争论已逐渐平息。学术界与工业界在实践中达成了一种务实的共识,这种共识首先体现在高等教育的课程设置上。
教育界的共识
观察加州大学伯克利分校(UC Berkeley)等高校的数据科学课程体系,可以发现统计学与计算机科学的核心技能正在发生深度融合。这种融合不再局限于学科归属的讨论,而是关注实际能力的培养:
- 计算能力的基础性地位:与传统统计学教育不同,现代数据科学课程将编程视为核心技能。学生需要掌握 Python 或 R 等语言进行生产级代码编写、版本控制(如 Git)以及大规模数据处理,而不仅仅是进行数学推导。
- 预测与推断的并重:课程设置中,“应用机器学习”占据了重要位置。这标志着教育重心从单一的参数统计推断,转向了处理高维数据与实现精准预测并重的方向。
- 数据工程的整合:数据存储、检索与管理被纳入核心课程体系,补充了传统统计学在数据库原理与分布式系统方面的知识缺口。
正如 Donoho 所指出的,当前的共识在于:数据科学家应当是具备统计学思维的软件工程师,同时也是精通软件工程的统计学家。
2019:十字路口的统计学
这种融合不仅体现在教育上,更体现在学术界对自身定位的深刻反思中。2019年,美国国家科学基金会(NSF)资助了一份具有里程碑意义的报告——《Statistics at a Crossroads: Who Is for the Challenge?》。
这份由 Xuming He, David Madigan, Bin Yu 等顶尖统计学家撰写的报告,仿佛是对 Tukey 半个世纪前预言的遥远回响。报告直言不讳地指出,统计学正处于十字路口:如果不能进行根本性的改革,这一学科将面临被边缘化的风险。
报告的核心呼吁与数据科学的理念不谋而合:
- 实践的中心地位:统计学必须回归“从数据中学习”的本质,理论研究不能为了数学的完美而存在,必须为了“更好的实践(Better Practice)”服务。
- 评价体系的革命:学术界长期以来过分奖励发表纯理论论文的倾向必须改变。报告明确建议,跨学科合作、软件代码的开发、数据的清洗与整理应当被视为与发表论文同等重要的学术贡献。
这标志着主流统计学界终于在官方层面承认:除了推导公式,写代码和处理数据也是科学研究不可或缺的一部分。
广义数据科学(Greater Data Science)
为了更全面地定义这一学科,Donoho 提出了广义数据科学(Greater Data Science, GDS)的框架。该框架将数据科学的范畴划分为六个维度,指出了当前学术研究焦点的局限性与实际应用需求的广泛性。
- GDS1:数据收集、准备与探索:数据科学家在实际工作中往往投入大量时间进行数据清洗与整理。尽管这一过程在传统学术研究中常被忽视,但它是确保数据质量与分析有效性的基础环节。
- GDS2:数据表示与转换:涉及将非结构化信息(如文本、图像、音频)及结构化数据(SQL/NoSQL)转化为适合建模的数学形式。
- GDS3:基于数据的计算:涵盖编程语言掌握、可复现分析工作流的构建以及高性能计算资源的利用。在此框架下,记录完整分析过程的代码脚本具有与学术论文同等重要的科学价值。
- GDS4:可视化与展示:不仅限于生成静态图表,更包括利用现代图形语法(如 ggplot2)和交互式工具发现数据模式,并向受众有效传递信息。
- GDS5:数据建模:即传统的生成式模型与现代的预测式模型。这是当前学术研究最集中的领域,但这仅是广义数据科学的一部分。
- GDS6:关于数据科学的科学(Science about Data Science):这是该框架中最具前瞻性的维度。它主张运用科学方法研究数据分析过程本身,评估不同分析方法的有效性与偏差。
核心挑战:关于数据科学的科学
当前,GDS6 维度的研究正在解决科学界的一大难题——可复现性危机(Replication Crisis)。随着科学文献数量的激增,验证研究结论的可靠性变得至关重要。数据科学通过以下方式发挥作用:
- 元分析(Meta-Analysis):系统性地整合分析现有文献中的数据,评估特定科学问题的整体效应量,识别发表偏差。
- 跨工作流分析:研究不同的分析路径(如数据预处理方法的选择、模型假设的差异)对最终结论的影响,量化“研究者自由度”带来的不确定性,从而寻求更为稳健的科学结论。
这一趋势表明,数据科学正在从经验性的实践演变为一门严谨的科学,致力于评估并提升数据分析得出的科学结论的有效性。
反思:数据驱动的局限性
长期资本管理公司(LTCM)的案例提供了一个关于过度依赖数据与模型的深刻教训。尽管拥有顶尖的量化模型,但由于过度信赖历史数据的统计规律,忽略了低概率极端事件(即“黑天鹅”事件)的影响,最终导致了系统性的崩溃。
这揭示了纯粹数据驱动思想的潜在风险:它往往侧重于相关性而非因果机理。一旦数据生成的底层机制发生未知的结构性变化,基于历史数据训练的模型可能会完全失效。纯粹的数据驱动方法在本质上难以预测从未在历史数据中出现的黑天鹅事件。这表明,数据科学不能完全脱离对领域知识和因果机理的理解。
数据科学的未来
展望未来,数据科学的发展不应仅被视为工业界提升效率的工具。作为一门独立学科,其终极目标是建立从数据中学习的科学(The Science of Learning from Data)。
知识的核心
未来的数据科学将超越统计学与计算机科学的简单叠加,聚焦于其核心认识论问题:如何确保从数据中得出的推断是真实、可靠且可复现的?
该领域的发展将致力于以下三个方向:
- 两种文化的融合:Breiman 提出的“生成式模型”(解释机理)与“预测式模型”(精准预测)将进一步融合。可解释机器学习(Explainable AI)的发展正是这一融合趋势的体现,旨在同时获得高预测精度与模型可解释性。
- 基于证据的方法论:数据科学方法的开发将遵循实证原则。通过共同任务框架(Common Task Framework, CTF)和大规模实证研究,客观评估不同算法与分析流程的性能,而非仅依赖理论假设。
- 科学有效性的保障:在数据驱动的研究范式中,数据科学将承担起确立学术标准的责任。通过发展“关于数据科学的科学”,建立严格的验证体系,剔除噪声与偏差,确保科学发现的坚实基础。
正如 Donoho 所言:
“广义数据科学本质上致力于理解和提高研究得出结论的有效性,并且可以在所有以数据分析建模为主的领域中发挥关键作用。”
未来,数据科学将作为现代科学研究的基础方法论,不仅提供计算工具,更提供严谨的思维框架,指引研究者从相关性走向因果与真理。