机器学习是实现人工智能的重要技术之一。在学习机器学习的过程中,必须要掌握一些基础的数学与统计知识。在小白初学数理统计的过程中,好多人都对统计量及其分布搞不清楚,感觉在云里雾里,今天借此机会将关于统计量的知识做一个梳理,希望可以帮助到大家。本文的结构安排如下:首先是前言,介绍统计学与概率论之间的关系;然后介绍统计量的概念,并与参数进行对比;接着介绍常见的统计量及其分布;最后是总结归纳。
前言
概率论与统计学
要明确概率论,掌握核心的一点即可——概率论研究的是不确定性(务必牢记)。通俗来讲,就是利用相关的信息,来计算相关特定事件发生的概率;而统计学(推断统计学)研究的是利用样本来推断总体,也就是通过局部来反应总体。之前的几篇文章涉及的是概率论相关的知识,这篇文章是关于统计学的,大家不要混淆了。
统计量
在介绍统计量之前,我们先明确以下总体、样本、变量的含义。
举个简单的例子,以学校学生为研究对象,学校全体学生的人数就是总体,然后从中抽取100个做研究,那么这就是样本。变量是研究对象的特征,比如学生的年龄、身高。每一个学生的身高年龄是不一样的,所以叫做“变”量。
那么统计量是什么?统计量就是对样本进行计算,而得出的关于样本的描述值。它可不是统计总体数据得到的量。再次强调,统计量是对样本进行计算的,而不是总体。也就是说,统计量是由样本数据计算出的统计指标,它是样本的函数,也没有参数。
与此同时自然而言地,我们会想,对总体进行计算所得出的描述值,我们叫做啥呢?我们叫做参数。一般来说,我们认为总体是无穷大的,所以参数很难求出来是未知的,但可以确定。但是统计量是已知的变化的。
常见的统计量及其分布
常见的统计量有样本均值、样本方差、样本标准差等,对统计量的分布叫做抽样分布。在这里做个说明,统计学中的样本是个随机变量,因为样本是从总体中按照一定规则随机抽取得到的,它具有随机性与独立性。
样本均值
样本均值即样本的平均数。
样本方差
它用来衡量随机变量与期望之间的偏离程度。
样本标准差
样本标准差就是样本方差的算术平方根。
三大抽样分布
统计学中三大重要的抽样分布分别是卡方分布、t分布、F分布。
卡方分布
如果随机变量X1.....Xn相互是独立的, 都服从标准正态分布N(0,1), 则称随机变量χ2=X12 ...... Xn2服从的分布为自由度为 n 的χ2分布,也叫做卡方分布。
卡方分布的结论是它的均值为n,方差为2n;卡方分布能够帮助我们判别常规事件中的不正常现象。
t分布
如果X1服从标准正态分布N(0,1),X2服从自由度为n的χ2分布,且X1、X2相互独立,那么随机变量t=X1/(X2/n)1/2 次方服从的分布为自由度为n的t分布。
t分布既可以适用于大样本,也可以适用于小样本。
F分布
如果X1服从自由度为m的χ2分布,X2服从自由度为n的χ2分布,且X1、X2相互独立,那么随机变量F=(X1/m)/(X2/n)所服从的分布为F分布,其中第一自由度为m,第二自由度为n。
总结
统计量是关于样本的统计指标,统计量的分布叫做抽样分布,常见的三大抽样分布有卡方分布、t分布、F分布。这三个分布可以用来做假设检验,详细的过程我们将会在后面进行分享,欢迎大家持续作者。
欢迎大家在评论区交流!#科技新星创造营# #科技新星创作营##机器学习##人工智能##概率与统计#