挖个坑
作为一个地理系的学生,诚实的说,我对数学与统计学的认识十分有限而肤浅。唯一的训练是在本科时的基础课程概率论课上,那时正值南京新冠最严重的22年年初,多数的课通过网课的形式完成,或许这里面一多半时间还在睡梦中。在此之后,除了零零碎碎接触的知识,再也没系统性的学习过统计学,以至于现在总是力不从心。因此,打算新开一个坑,从一个小白的角度重新学习面向机器学习与地理的统计学知识,共勉!
统计学(Statistics)一词源自拉丁语 status(意为“国家事务”),最早在17世纪的德意志地区,用于指代关于国家人口、土地、税收的系统性数据收集与描述,被称为“政治算术”(Political Arithmetic)。随着时代发展,它逐渐脱离行政统计的原始功能,成为一门研究不确定性、分析数据规律、从样本推断总体的科学。
统计学的形成并非一蹴而就,而是在长期应对不确定性与社会复杂性的历史进程中逐步建立起来的。最初,17世纪的“政治算术”是统计思想的雏形,约翰·格朗特与威廉·配第通过对伦敦死亡票据的分析,首次尝试利用数据揭示人口规律,这种自国家行政管理中抽离出的数量思维,构成了统计学最早的社会实践背景。18世纪,雅各布·伯努利提出了大数定律,强调了样本频率与真实概率之间的趋同关系,拉开了从经验总结向概率理论过渡的序幕。同一时期,贝叶斯定理的提出标志着另一种思维路径的诞生,即将先验知识与数据更新相结合,探索对不确定现象进行概率建模的可能性
进入19世纪,随着数学分析的发展,统计学逐渐获得更加严密的形式化基础。高斯在误差理论中提出正态分布和最小二乘估计,拉普拉斯则将概率方法应用于天体运动分析,他们的工作将统计方法首次嵌入自然科学建模之中,也开启了参数估计与模型拟合的时代。到20世纪,统计学迎来了系统化的理论建构。罗纳德·费雪被广泛认为是现代统计学的奠基者之一,他不仅提出了极大似然估计、方差分析、设计实验等核心概念,还在哲学上确立了频率派立场,主张在重复试验中定义概率,并强调统计推断的客观性。与之并立的则是以杰弗里斯和萨维奇为代表的贝叶斯学派,强调知识的不确定性来源于认知主体本身,通过主观先验与后验更新,实现具有解释力的模型推理。这一“客观 vs 主观”、“频率 vs 信念”的思想分歧,至今仍构成统计方法论上的根本张力。
到了21世纪,随着计算能力的跃升与数据体量的激增,统计学与人工智能、机器学习逐步融合,形成了以预测精度、模型泛化能力为导向的新范式。在这一背景下,统计学习理论、正则化方法、贝叶斯推理和高维建模成为主流应用技术的理论支柱。统计模型不再仅仅用于科学实验与假设检验,而广泛应用于图像识别、自然语言处理、医疗诊断、政策评估等复杂系统的建模中,进一步模糊了“推断”与“预测”的边界。
统计学的核心使命,是在面对不确定性和变异性的现实世界中,从有限样本中提取信息、推断总体特征,建立描述或解释变量间关系的模型。
频率与概率的区别,是统计学中一个根本而经典的问题,也正是区分统计学两大主要流派——频率派(Frequentist)和贝叶斯派(Bayesian)的核心所在。
在频率派统计学中,概率被严格定义为在大量重复独立试验中某事件发生的相对频率的极限。也就是说,概率是一个长期稳定出现的频率值,它是客观存在且可通过反复实验验证的数值。例如,抛硬币时正面朝上的概率是0.5,是在无限次抛掷中正面次数与总次数的比值趋近的极限。这种定义强调概率的客观性和实验可重复性,概率不存在于单次试验,而是长期统计规律的体现。
而在贝叶斯派中,概率则被解释为个体对某一事件发生不确定性的主观信念程度。概率是描述“知识状态”或“信息”的工具,可以用来表达对单个事件的可信度。贝叶斯概率不需要重复试验的物理基础,而是通过先验知识与新观测的结合,利用贝叶斯定理动态更新。比如,你对某个病人患病概率的估计,既包含医学知识,也包含个人观察结果,这种概率更像是“信念”的度量。
总结而言,频率派认为,参数是自然界固定的未知常数,数据是随机变量。统计推断的目标是利用样本数据来估计这些固定参数。而贝叶斯派则认为,参数本身就是随机变量,参数的不确定性通过一个先验分布来描述。在下一章中,我们将首先对这两个概念进行介绍,作为整个系列的引子。