序言
- 在终极的分析中,一切知识都是历史
- 在抽象的意义下,一切科学都是数学
- 在理性的基础上,所有的判断都是统计学
《统计与真理——怎样运用偶然性》讨论的问题是:
- 如何设计实验以便提供所要求的信息
- 如何从实验结果中获取一切有效信息
- 如何在实际中应用这些信息
人类一切努力的最终目的是寻求真理,而在严格意义下的真理是不可得到的,替代的是要寻求可接受的知识。严格地讲,知识不是真理,但它应最好地运用真理。
这就不是一本专业书籍,它回顾了整个统计学的历史以及发展中产生的诸多问题。用例子来讲述整个统计的思想,讲述统计学如何成为一门真正的科学,而不是事实的堆砌。
不确定性、随机性与新知识的创立
如同物理学中基本粒子的运动、生物学中遗传因子和染色体的游离不定以及在社会中处于紧张状态下的人们的行为等一样,自然界中的不确定性是固有的。这些与其说是基于决定论的法则,不如说是基于随机论法则的不确定性现象,已经成为自然科学、生物科学和社会科学理论发展的必要基础。
那么,人类在不确定性下,如何做出决定呢?我们如何对某些特定的观察数据加以概括总结来发现新的现象或提出新的理论呢?这个过程涉及到艺术、技术,还是科学呢?
直到20世纪初叶才开始将不确定性数量化来尝试回答这些问题。我们还不能说这个努力已经十分成功了,但就是那些已经取得的成果,已经给人类活动的一切领域带来了一场革命。这场革命已经给予人类新的研究设想,促进了自然科学知识的发展并繁荣了人类生活。同时也改变了我们的思考方法。
随机数列显示了最大限度的不确定性(或称为混沌或者熵),它也是我们研究不确定性的最常用方法。随机数列是不遵循任何特殊模式的数列,可以使用各种方法来产生,包括一些观察自然得到的随机数列以及一些人工的产生方法。
有许多开发利用随机性的方法,使我们能对一些棘手的问题找到突破口,解决一些过于复杂而又难以求得精确解答的问题,产生新的信息并有可能去帮助发展新的思想。比如 Monte Carlo 方法、随机抽样调查以及实验设计方法。随机甚至可以用于解决一些在博弈与决策理论中很复杂的问题。
关于随机有很多好玩的例子,比如:
- 猴子打字机:如果我们有只聪明的猴子并让它不断地打字,在一个有限但相当长的时间内,它应该能打出莎士比亚的所有作品。其概率约为 $10^{-41600}$。
- 赌徒误解:如果过去几天连续出生的女婴相当多的话,就会增加一对夫妇得到男婴的机会。但模拟或蒙特卡罗实验显示,一个稳定均匀的系统可以按一定的频率展示出某些局部的不均匀性(即相关的现象在短时间内连续发生)。
- 生物周期:大多数动物种类的存活总数大致是以3年为一周期的,这种现象的普遍存在使很多人相信或许已发现自然界的一个新法则。不过任给三个随机数的集合中,中间一个数比其余两个数大的概率为三分之一。这就给出了上述问题中两个高峰年的平均时间间隔为3年。
随机还有一个重要的应用是用于敏感问题的问卷调查。如果我们提出这样一个问题:“你吸大麻吗?”恐怕我们得不到正确的答案。对此,我们的另一种做法是列出如下两个问题(其中一个问题是无关紧要的):
- S:你吸大麻吗?
- T:你的电话号码的末尾数是偶数吗?
然后要求被提问者投掷一个硬币,出现正面时要求正确回答 S,出现反面时要求正确回答 T。这时提问者并不知道被问者回答的是哪一个问题,这个信息是保密的。从这些得到的答案可做如下估计推算出吸大麻的人所占的真正比例。
随机性也逐渐的出现在了以决定论主导的自然科学研究中。在过去很长一段时间内,人们相信所有自然界的现象都明显地带有预定的特点,其中最极端的表述可以在拉普拉斯(Laplace,1812)“数学神灵”的思想中发现。“数学神灵”被赋予具有无限的数学演绎的能力,如果在某一时刻他知道刻画当时状态的所有量度时,这个神灵就可预测未来世界将要发生的一切事件(也就是拉普拉斯妖)。
但人们逐渐发现这并不可能。由于存在测量误差,人类很难准确了解系统的初始状态。在这种情形下,便存在着由初始状态下的微小差别而导致对系统未来状态预报的极大差异的可能性。而将随机性引入自然科学领域同时出现了三个重要的发展:
- 凯特勒(A. Quetelet,1869) 利用概率论的概念来描述社会学和生物学现象。
- 孟德尔(G. Mendel,1870) 通过简单的随机性结构,如投掷骰子,公式化了他的遗传法则。
- 玻尔兹曼(Boltzmann,1866) 对理论物理中最重要的基本命题之一的热力学第二定律给出了一个统计学的解释。
而在物理学中引入统计概念是由处理天文学中的测量误差的需要而开始的。现在随机性已经成为一种基本概念,表示定量法则的一种技术。
不确定性的驾驭——统计学的发展
统计学思想远古即存,但作为一门学科却历史很短。统计学的起源可以追溯到人类的原始时期,但是直到近代才逐渐成为一门实际应用中极为重要的学科。所有这些不寻常的发展,引出了一连串的问题,关于统计学就是是什么。
有关统计学最早的记录大约可追溯到远古,甚至在算术出现以前原始人就在树木上刻痕作为计算家畜及其他财产的一种方法。收集数据、记录信息的必要性一定是出现在人类放弃个体游牧生活状态,并始有组织的社会生活之时。古代人类必须集中所拥有的资源以便正确地分配使用,而且要计划将来的需求。
统计学 STATISTICS 这个术语的词根,在拉丁语中是国家 STATUS 的意思,由 18 世纪中叶德国学者艾奇纳沃(G. Achenwall)新创出的这个词意为“由国家来收集、处理和使用数据”。国家利用统计学来描述问题的现状并指导事物未来发展方向。
显而易见的是,如果要使统计学有用并发展成为一种研究工具,国际间的合作是必需的,为了交流经验和制定共同标准,1853——1876年间欧洲各国主持召开了多次(约10次)国际统计学会议。1885年在伦敦统计学会成立50周年的纪念会上提出了设立国际统计学会的建议。经过多次讨论达成了设立一个永久性的国际组织——国际统计学会的决议。就这样,1885年6月24日,国际统计学会(International Statistical Institute,简称 ISI) 诞生了。
ISI 在过去一百年来相当可观地扩大了它的活动。在 ISI 管理之下形成了数理统计、概率论、统计计算、抽样调查、行政统计和统计教育各个分会。
在前面已提到统计学词根的意义是指对数据的收集和整理,并使其用于公共政策的制定。但统计学不仅仅是数据本身,它还包括对含有不确定性的数据进行研究与分析的方法。我们在下面讨论这个问题。
为了研究含有不确定性的真理,处理现实世界中含有不确定性的那些情况。人们认识到,尽管由特殊到一般化的规律所建立起来的知识是不确定的,一旦能度量所含的不确定性,则获得的知识尽管种类不同但是确定的。这种新的结构为如下的逻辑方程:
\[\text{不确定性的知识} + \text{度量不确定性的方法} = \text{可用的知识}\]由这个基本方程可以导出风险管理的一个有效方法,而且把人类从神谕和算命先生中解放了出来,它把未来置于现时可做出明智决策的有助框架之中:
- 如果我们不得不在不确定性的前提下做出抉择,则错误是不可避免的。
- 如果错误是不可避免的,则在一定的规律下做出抉择(形成新的具有不确定性的知识)时,最好我们能知道犯错误的频率(对不确定性量度的知识)。
- 这样的知识能够用于找出制定决策的某种规律,从而使我们减少盲目性,使做出错误决策的频率最小,或者使出错误决策产生的损失最小。
这就是统计学在讨论的事情。现实世界里,要基于不完全或劣质的信息做出决断,只有通过归纳推理。而归纳推理由给出的数据所作的判断是缺乏精确性的。
由归纳推断导出结论的主要概念是不确定性的度量化,而对不确定性的量化问题一直存有争议。甚至还建立了各种统计研究所来致力于研究度量不确定性的不同方法。最终形成了目前贝叶斯学派和频率学派的两大统计学派。
至此,从数据中获取信息并做出推断的新学科产生了,而且统计学这个术语的范围也从数据自身扩展到解释数据的意义上了。偶然性不再是一件值得担心的事情或者是一种无知的表现。相反,它是表达我们拥有知识的最具逻辑性的方法。
统计学不仅仅是一门科学,而是一个复杂的综合体:
- 科学:指它与那些由某些基本原理引导出的具有广泛应用意义的科学技术一样,这些技术不能用于固定的模式,使用者在给出的情况下必须根据所掌握的专门知识选择适用的技术,而且如果需要,还要进行必要的修正。
- 工艺:如同工业生产过程中的质量控制程序一样。统计学的方法论就是在为了保证产品达到所希望的质量和保持其稳定性的管理系统中建立起来的。
- 艺术:这是因为依赖于归纳推理的统计学的方法论不是完全能编成条例或是没有争议的。不同的统计学者对同一组数据的分析处理可能得到不同的结论。比起由统计学工具所获得的信息来说,通常实际给出的数据所含的信息量要多得多。
数据分析的原理和策略——数据的交叉检验
统计分析的形式随时代的推移而变化着,但是“从数据中提取一切信息”或者“归纳和揭示”作为统计分析的目的却一直没有改变。统计分析的方法在多年来一直更迭,让我们来对数据分析的发展历史作一概述。
通常,描述统计学和理论统计学被人们认为是统计学中方法不同的两个领域。前者的目的是在“统计描述”的意义下综合整理给定的数据集,利用各种技术来表现数据直观醒目的特征。在理论统计学中,综合整理或描述统计量要依赖于某个特定的随机模型。这些统计量的分布被用来确定在推断某些未知参数时的不确定性的范围。于是这样的方法被称为推断数据分析。
卡·皮尔森(K. Pearson)是第一位试图沟通两者的统计学家。他利用基于矩和直方图的描述分析所得到的结果来进行有关分布族的推断。也就是著名的卡方统计量和卡方检验。20~30 年代期间,费歇(Fisher) 产生了一系列异常丰富的统计思想。费歇发展了基于正态假定下对各种假设的精确的小样本检验,提出利用标准检验值表来帮助检验,通常这些统计表给出了 5% 和 1% 时的检验临界值。
20 世纪 20~30 年代,由费歇所开创的通过实验设计来收集数据的方法也有了系统的发展,这一系统发展使人们能够通过方差分析这样特定的方法来分析数据,并能对数据做出有实际意义的解释:实验设计指导如何分析数据,而数据分析显示实验设计的结构。
进入 20 世纪 40 年代后可以看到抽样调查方法的发展。这种方法是调查者依据随机选取的个体对一组问题的反应所获取的信息来收集大量的数据。保证数据的准确性和可比性是抽样调查的常见话题。
有了常见的统计推断方法,现在我们需要一种综合处理方法。去正确地理解给定的数据及其缺陷和特征,然后去选择数据分析合适的随机概率模型或是模型族。Tukey 提出了被称为是 探索数据分析 EDA(Exploratory Data Analysis) 的方法,EDA 的哲学原理是了解数据的基本特征,然后运用稳健过程使数据适应可能的更广义的随机概率模型族。
整个数据分析的流程可以概括为数据收集、探索性数据分析、推断性数据分析三个部分,它们相互迭代地执行,其中数据收集包括了历史资料(及数据库)、抽样调查、实验设计三种获得方法。
数据分析的一个重要方面是不可使用任何没有被当前数据或过去经验证明的额外假设,那么此时专家的意见就将会是很值得参考的内容。
要回答由客户提出的问题而进行的数据分析并不是统计学者们仅有的工作。为了了解给定数据的性质,要进行更广泛的数据分析,以便发现所拥有的数据能回答哪些问题,从而提出新问题和计划进一步的调查研究。统计学者常常被要求对某一数据集合的处理提供合适的统计方法(或者是软件程序),而没有机会对这些数据做交叉检验。如果数据具有某些特殊的特征时,必须要在处理过程中考虑,在这样的统计处理中还要不断地监视整个过程,以决定是否需要对原定的处理做出修改。
统计分析的目的是“从观测得到的数据中提取所有的信息”。所记录的数据中有时有某种缺陷,如存在记录误差和异常值,有时甚至可能是伪造的,一个统计学者首先应做的尝试是详细考察或交叉检验数据,以便发现可能有的缺陷并了解数据的特征。 下一步则是利用先验信息和交叉核实技术,对数据提出一个合适的随机概率模型。基于被选择的模型进行数据推断分析,包括未知参数的估计,假设检验,对未来观测值的预报以及做出决策。
加权分布——有偏数据
在此之外,设计一个抽样调查的时候并不总是存在一个合适的抽样结构来保证所发生的事件具有指定的(通常是相等的)机会成为样本。实际上,并不是所有自然界发生的事件都能能产生抽样结构。
例如,某些事件不可能被观察到,因而在记录中缺失。在这种情形下就产生了所谓的截尾样本、截断样本或不完全样本。或者,一个发生的事件仅以一定的概率能被观察到,其概率大小依赖于事件固有的性质,如它的显著性和用于观察的过程,其结果成为不等概率抽样。或者事件的发生随观察的时间或过程随机地变化,因而所记录到的实际上是修正了的事件。在统计分析中,这种变化或损伤必须进行适当的模型化。
某些事件尽管已经发生,但也许有不可观测的部分。因而所观察的分布在样本空间中的某个部分是截断的。例如,如果我们调查一只昆虫产卵个数的分布,则产卵个数为零的事件是不可观测的。此时在进行统计的概率模型分析的时候就需要考虑使用包含截断的分布。
更一般的情况是已经以一定的概率记录下某一事件的发生(或是已经包含在样本中)。也就是加权的概率分布,它也拥有一套自己的概率模型理论。
应用加权分布的一个例子可参见人们利用不等概率抽样法或概率比例 P.P.S. 抽样法(probability proportional to size)进行的抽样调查。在很多超大规模人口学调查的时候会使用这些方法。
统计学与真理
今天,对统计学的理解、研究和实际应用已经扩展到整个自然科学、社会科学、工程技术、管理、经济、艺术和文学领域。
一般人利用统计知识(通过在报纸和消费者报告中获得的各种各样的数据以及分析)在日常生活中做出各种决策,或制定将来的计划,就像读和写的能力一样,将来有一天统计的思维方法会成为效率公民的必备能力。
- 对一个国家的政府来说,统计学是一种为达到特定的经济和社会目的用于制定长期和短期计划的工具。
- 科学研究中,就像我已提到的,通过有效设计的试验来收集数据、假设检验,未知参数的估计以及对结果的解释,对统计学都起着重要的作用。
- 工业生产中,特别简单的统计技术被用来改良和维持产品质量,以达到所期望的水平。研究开发部门进行各种实验以决定最佳配方。
- 不仅于此,商业中,统计被用来预测商品的未来需求量;医学中,试验设计的原理被用于药效的鉴定及临床检验。文学中,统计方法被用于测定一个作家的风格;法庭上,某个事件所发生的概率的统计验证,在裁决中被用来补充传统的口供和其他证据。
可以看到,如果在制定计划时引进统计学的思想,引进可以用来有效地分析数据和评价反馈和控制的结果的统计方法,肯定可以提高人类活动的价值。
无可置疑地说:如果有什么问题要解决的话,应求助于统计学而不是某个专家委员会。比起收集少数专家的智慧来说,统计学和统计分析能给解决问题带来更多的光明。
统计学没有任何固有的对象,是一门独特的学问。统计学由解决其他领域内的问题而存在并兴旺发达。L.J. Savage 曾说:
统计学基本上是寄生的:靠研究其他领域内的工作而生存。这不是对统计学表示轻视,这是因为对很多寄主来说,如果没有寄生虫就会死。