day08统计师考试(初级)用统计量描述数据
用统计量描述数据知识点一、数据集中趋势的测度 ★★★例题(一)平均数1.算术平均数2.几何平均数(二)中位数(三)分位数(四)众数例题知识点二、数据离散程度的测度★★★(一)异众比率(二)极差(三)四分位距(四)平均差(五)方差与标准差【重点】(六)离散系数【重点)(七)标准分数【重点】知识点三、数据分布形状的度量★(一)偏态系数(二)峰度系数知识点一、数据集中趋势的测度 ★★★数据的集中趋势是指一组数据集中于某一中心的水平位置。测度集中趋势也是寻找数据一般水平的中心值或代表值。常用的数据集中趋势测度值有众数、中位数、分位数、平均数。例题【单选题】下列表述正确的是(A)。A.众数可以用于分析顺序数据B.几何平均数可以用于分析顺序数据C.中位数可以用于分析分类数据D.均值可以用于分析分类数据(一)平均数1.算术平均数根据所掌握数据的不同算术平均数有不同的计算公根据未经分组数据计算的平均数称为简单平均数。假设一组样本数据为X1X2…Xn样本量为n则简单样本平均数计算公式为:若原始数据较多且对其进行了分组编制成了频数分布数列这时要计算算术平均数则应采用加权算术平均数将各组变量值乘以相应的频数然后加总求和再除以总频数。如果数据被分为k个组其计算公式为:若分组资料为组距分组资料则相应地取各组的组中值作为该组职工工资的平均水平再代入上式计算平均工资。如果有开口的组那么在上开口组时组中值该组下限(下组上限-下组下限)/2在下开口组时组中值该组上限-(上组上限-上组下限)/2算术平均数的计算过程使用了所有数据因此容易受到极端值的影响并且严格来讲无法根据有开口组的分组数据来精确计算算术平均数。2.几何平均数几何平均数有两种计算方法简单几何平均和加权几何平均法。若数据集合中每个数据只出现一次计算其几何平均数应采用简单几何平均法其计算公式为当数据集合中每个数据出现的次数不止一次时计算平均数应采用加权几何平均法。其计算公式为(二)中位数中位数是将一组数据按照从小到大的顺序排列(或者从大到小的顺序也可以)之后处在数列中间位置对应的数值是典型的位置平均数不易受极端值的影响。中位数主要用于顺序数据也可用数值型数据但不能用于分类数据。如果数列是奇数中位数等于排序之后的第(n1)/2个数;如果数列是偶数中位数等于排序之后的第n/2和n/21个数的平均数。对于一组数据来说中位数是唯一的。如果数据是分组数据中位数的一种计算方法是:①确定中位数所在组计算公式是②利用公式计算中位数的近似值计算时可以采用下限公式也可采用上限公式计算公式为(三)分位数把顺序排列的一组数据分割为若干等分的分割点的数值即为相应的分位数。【两等分】中位数是分位数中最简单的一种它将数据等分成两分。【四等分】由于四分位数则是将数据按照大小顺序排序后把数据分割成四等分的三个分割点上的数值。对原始数据四分位数的位置一般为(n1)/4(2(n1))/4(3(n1))/4。如果四分位数的位置不是整数则四分位数等于前后两个数的加权平均。(四)众数众数是指一组数据中出现次数或出现频率最多的数值它是一种位置平均数不易受极端变量值的影响。众数主要用于测度分类数据的集中趋势也可以用来测度顺序数据和数值型数据的集中趋势。一组数据可以有多个众数也可能不存在众数对于未分组的数值型数据我们一般很少使用众数。【总结】平均数、中位数和众数平均数易被多数人理解和接受实际中用的也较多但它的主要缺点是更容易受少数极端数值的影响对于严重偏态分布的数据平均数的代表性较差。中位数和众数提供的信息不像平均数那样多但它们也有优点如不易受极端值的影响具有统计上的稳健性。当数据为偏态分布特别是偏斜程度较大时可以考虑选择中位数和众数这时它们的代表性要比平均数好。例题【单选题】众数常用来反映数据的集中趋势它(D)。A.不适用分类数据B.不适用严重偏态的数据C.不受极端变量值的影响D.受极端变量值的影响【判断题】顺序数据无法计算中位数。(❌️)【单选题】5名股票经纪人的年收入分别为19万元,28万元、46万元、39.5万元和150万元。以下指标中更适宜反映5名经纪人收入水平的是©。A.简单平均数B.加权平均数C.中位数D.众数知识点二、数据离散程度的测度★★★反映数据离中趋势或离散程度的常用测度指标有:异众比率、极差、四分位距、平均差、标准差、方差和离散系数等。(一)异众比率异众比率是指非众数组的频数占总频数的比率其计算公式为异众比率主要用于衡量众数对一组数据的代表程度。异众比率越大说明非众数组的频数占总频数的比重越大众数的代表性越差异众比率越小说明非众数组的频数占总频数的比重越小众数的代表性越好。【单选题】在一项对4G用户的调查中调查了1000人其中有663人使用移动运营商的网络则异众比率是(A)。A.33.7%B.66.3%C.150.8%D.50.8%(二)极差极差又称全距是最简单的离散指标它是一组数据中的最大值和最小值之差用R表示。其计算公式为(三)四分位距四分距是上下四分位数之差也称为样本的内距或四分位差用Qd表示。其计算公式为:其中QU、QL,分别表示上四分位数第三个四分位数和下四分位数(第一个四分位数)。此外由于中位数处于数据的中间位置因此四分位距的大小在一定程度上也说明了中位数对一组数据的代表程度。四分位距主要用于测度顺序数据的离散程度。对于数值型数据也可以计算四分位距但它不适合分类数据。(四)平均差平均差是一组数据与其均值之差的绝对值的平均数也称为平均绝对差它利用了全部数据计算因此容易受到极端值的影响主要用于数值型数据因其数学性质较差不常使用。其计算公式为(五)方差与标准差【重点】方差(variance)是将各个变量值与其均值离差平方的平均数。它反映了样本中各个观测值到其均值的平均离散程度标准差是方差的平方根。总体方差的分母为N而样本方差的分母却为n-1(自由度)这是因为当我们用n-1为自由度的样本方差s2去估计总体方差σ2时它恰好是σ2的无偏估计量。在一个统计样本中其标准差越大说明它的各个观测值分布的越分散它的集中趋势代表性就越差。反之其标准差越小说明它的各个观测值分布得越集中它的集中趋势代表性就越高。【判断题】标准差是测量每一个数值与平均值的差异程度。❌️【解析】标准差是各个变量值与其均值离差平方的平均数的算术平方根它反映了样本中各个观测值到其均值的平均离散程度。平均差是一组数据与其均值之差的绝对值的平均数平均差反映了每一个数值与平均值的差异程度。(六)离散系数【重点)为什么要计算离散系数?因为标准差的大小会受到数据本身数值大小或者计量单位不同的影响如虽然这两个数列的标准差相同但是两数列的差异程度却不相同。明显地第一个数列的差异程度要大于第二个数列。离散系数也称作变异系数、标准差系数它是将一组数据的标准差除以其均值用来测度数据离散程度的相对数。其计算公式是(七)标准分数【重点】标准分数(Z-score)也称作标准化值或Z分数它是变量值与其平均数的离差除以标准差后的值用以测定某一个数据在该组数据中的相对位置。其计算公式为【单选题】张红是某大学一年级的学生她参加了微积分的两次考试第一次考试中全班的平均成绩75分标准差10分第二次考试中全班的平均成绩是70分标准差是15分张红每次考试成绩都是85分假定考试分数近似从正态分布则张红两次考试的成绩在班里的相对位置©。A.不相同第一次比第二次好B.不相同第二次比第一次好C.相同D.因为不知道班里人数而无法判断【多选题】抽样调查得到6 户家庭的住房面积(平方米)分别是:60、80、80、90、100、130这6户家庭住房面积的(ACE)。A.平均数为 90B.中位数为 80C.众数为 80D.极差为 60E.方差为 560知识点三、数据分布形状的度量★集中趋势和离散程度是数据分布的两个重要特征。但要全面了解数据分布的特点我们还须知道数据分布的形态是否对称偏斜程度以及分布的扁平程度如何。偏态和峰态可以用来测度数据的分布形状。(一)偏态系数数据的不对称性称为偏态测度数据的偏斜程度用偏态系数(SK)偏态系数的计算方法有很多(如皮尔逊偏态系数、鲍莱偏态系数、矩偏态系数等)当数据呈单峰对称分布时均值、中位数、众数三者大小相等;①当呈左偏分布时:众数中位数均值;②当呈右偏分布时:均值中位数众数。(二)峰度系数峰态通常是与标准正态分布相比较而言的。如果数据服从标准正态则峰度系数等于零;若峰度系数的值明显不为零则表明数据的分布比正态分布更平或更尖。