正态分布的可加性定理
样本均值分布探究
,是银行在审核个人资质后授予个人的工具。以A银行的客户为例,其收入分布呈现右偏分布的特征,如图像8-6所示。大多数客户的收入集中在7000元左右。收入低于此数值的部分较少,因为银行往往会拒绝收入较低的申请者。随着收入的增加,持有的用户数量逐渐减少,高端收入人群占比相对较小,但并不代表他们不需要服务,月入10万的人群也可能追求高端带来的尊贵体验。
当我们考虑A银行的用户时,假设从全体用户中随机抽取了1000个样本,计算得到的样本均值为7100元,中位数为8800元。这种样本分布与总体分布相似,但每次抽样都会有所差异。如图8-7所示,多次随机抽样得到的样本分布既有相似性又有细微差别。
随着抽样的次数增多,这些样本均值呈现出一个有趣的规律。如图8-8所示,这些样本均值列表中的值在足够多的抽样次数后,会形成一个正态分布。这就是中心极限定理的核心内容:对于任意给定的分布,抽取一定数量的样本并计算其均值,这些均值的分布会呈现正态分布。即使总体的分布不是正态分布,样本均值的分布依然是。但这一理论的适用性很大程度上取决于样本量的大小。
为了更深入理解这一理论,我们设想当样本量n分别为2、3、10、30时的情况,并画出对应的样本均值分布图(如图8-10)。随着n的增大,样本均值分布曲线越来越接近正态分布的形状。实际上,当n足够大(通常认为n≥30)时,样本均值的抽样分布会接近正态分布。这就是中心极限定理的实际应用。
样本均值的抽样分布有其特定的属性和规律。例如,其均值等于总体的均值µ,标准差是总体标准差除以根号下的样本量n。这也是中心极限定理的重要组成部分。