当前位置:首页 >办公软件 >EXCEL自学 > 高效办公:Excel应用大全相关

高效办公:Excel应用大全相关

电力猫3个月前 (05-10)EXCEL自学


Excel应用大全 |相关

变量

变量这个词,常出现在计算机、数学和统计等相关领域,在不同的环境中代表的意义也不同。例如,《全国人口普查条例》第十二条规定了普查内容:人口普查主要调查人口和住户的基本情况,内容包括姓名、性别、年龄、民族、国籍、受教育程度、行业、职业、迁移流动、社会保障、婚姻、生育、死亡、住房情况等。这些内容就是变量。

统计学不是研究个体的学科,而是研究总体的。例如,对于一个班级里的某一个学生,民族是确定的,但是对于全班总体而言,其中每一个学生的民族都可能不尽相同,民族这个变量会因为总体里面的个体不同而变化,这就是变量的特点。一个班里有50个学生,男生30人,女生20人,如果对30个男生的身高做研究,那么身高这个变量就包含30个变量值,如果对20个女生的体重做研究,那么体重这个变量就包含20个变量值。



相关关系

ENJOY THE SUMMER

直方图是一组数据中所有数据的频次分布图,这组数据可以是一个班的学生体重,也可以是工厂出产的一批足球的直径,也可以是一个城市居民的收入,这个数据组也可以称为一个变量。集中趋势、离散趋势和正态分布等都可以用来描述变量,但都是针对一个变量进行描述。如果想研究两个变量之间关系,即一个变量发生变化时另一个变量会如何变化,就需要用到变量之间的相关关系。

例如,保险公司的精算师们经年累月地在研究什么因素会影响到寿命,什么因素会导致意外的发生,体重超过多少会引发疾病,车速多少会引起交通事故,等等。现在的人们上车第一件事就是系安全带,会在意外来临时保障安全,其实很多年以前人们没有这个意识,是保险公司通过大量的案例分析出来,系安全带后出交通事故比不系安全带的事故致死率要低很多。所以保险公司为了能少做理赔,最终推动了上车一定要系安全带这条法规的立法。

中国有句古话:有其父必有其子。虽然孩子的性格、外貌等特征并不全是由父亲决定的,也有母亲的因素,还有成长环境的影响,但是孩子和父亲的确有很大的关联。

散点图与相关性

最常用来展示两个变量之间关系的是散点图。散点图可以展示一组数据的两个变量之间的关系。散点图的做法很简单,某个同学的身高是160cm,体重是50kg,画在散点图上就是X轴160所在直线和Y轴50所在直线的交点。如果有多名同学,那么数据点也相应增多,如图7-60所示。

图7-60学生身高体重散点图

从散点图中可以直观看出变量之间的关系,如图7-61所示。如果所有点之间的关系可以近似地表现为一条直线,那么就称为数据线性相关。

图7-61线性相关

再观察图7-62,也可以用直线近似表现所有点,但是这些点到直线的距离比较远,与图7-61相比是较弱的线性相关。

图7-62较弱的线性相关

如果散点图很松散,毫无规律,如图7-63所示,那么两个变量之间是完全不相关的。

图7-63不相关

观察图7-61和图7-62,无论相关的强弱关系如何,两条近似的直线都是从左下向右上方倾斜的,称为正相关,具体表现为一个变量数值增加,另一个变量的数值也增加。相反,如果直线是从左上向右下方倾斜,那么就是负相关,具体表现为一个变量的数值增加,另一个变量的数值减少,如图7-64所示。

图7-64负相关





相关系数的计算





从散点图可以很容易地看出两个变量之间相关关系的正负方向和关系强度,当数据点分布很接近模拟线时,就是强相关;当数据点在线附近松散分布时,就是弱相关。仅凭肉眼只能观察到定性的内容,如果要知道强相关究竟有多强,弱相关究竟有多弱,就需要定量地分析,相关系数就是相关性的度量单位。

相关系数是对两个变量之间的相关关系的方向和强度的度量,通常用字符r表示,相关系数在任何统计软件中都会很容易得到。

从散点图的数据点分布是集中还是分散能看到两个变量的关系强弱,其实,这也是离散趋势的表现形式。离散趋势表现为一个横轴方向的离散,而散点图表现为横轴和纵轴两个方向同时离散,如图7-65所示。

图7-65离散趋势从一维发展为二维

因此,可以用测量数据变动幅度的方法来研究相关关系,即从均值入手。

图7-66是9名学生身高体重的数据,变量为身高X和体重Y。计算出身高的均值为165,体重的均值为58。

图7-66 9个学生的身高(单位:cm)体重(体重:kg)数据

画出这组数据的散点图,用空心点表示,将均值点(165, 58)用实心点标出,如图7-67所示。

图7-67 9个学生的身高体重散点图

注意:图7-67中的均值点并不是一个学生数据所在的点,而是根据身高均值和体重均值虚拟出来的,是相关系数计算中的重要参照点,可以将其想象为辅助线。每个点都与均值点有一定的距离,将这些距离加总就是整体偏离幅度。注意如何计算每个点与均值的距离呢?以第5行的牛静涵同学为例,牛同学身高为170,体重为80,相当于均值点在横轴方向往右移动了5(170-165)的距离,记为a;同时在纵轴方向往上移动了22(80-58)的距离,记为b,如图7-68所示。

图7-68计算点与均值距离

a与b相乘就是牛同学所在点相对于均值点的变动幅度。

可是,体重与身高是不同单位不同数量级的数值,乘法运算对后续的分析比较起到了一定的副作用,如果要消除单位、数量级等因素的影响,可以使用标准值,即用z值衡量数值相对于均值移动了多少个标准差,用z值相乘即可(z值的计算方法参见7.4.4节)。

如图7-69所示,牛同学的身高z值是0.5,体重z值是1.6,两个z值相乘1.6×0.5=0.8,0.8就是牛同学所在数据点相对于均值点的偏离程度。

图7-69每个学生的身高z值和体重z值

与此类似,先求出每个同学的偏离程度,然后由所有的偏离程度计算出均值就是相关系数。在本例中,相关系数是0.74,求解过程如图7-70所示。注意,由于总体和样本的关系,在计算相关系数的均值时,不是除以n,而是除以n-1,计算标准差时也是用的n-1,这是统计学中特殊的一点。

图7-70相关系数求解过程

把相关系数r用公式表示出来:

∑是代表后面的所有项求和,zx是变量X的z值,zy是变量Y的z值,这个公式表达的就是分别对两个变量的每一个数值计算z值,再将同一个数值的两个变量的z值相乘,最后将所有的z值乘积求得均值就是相关系数。





相关系数的意义





计算出相关系数以后,就要知道怎么应用它,如何度量相关关系呢?

第一,方向测量:r如果是正数,说明两变量是正相关,r如果是负数,说明两变量是负相关。

第二,强度测量:相关系数r是一个介于 -1和1之间的数值。

也可以表示成

相关系数的绝对值越大,相关关系就越强;反之相关系数的绝对值越小,相关关系就越弱。通常统计学上对相关系数强度的细分如表7-1所示。

表7-1相关关系测量相关关系强弱

相关系数绝对值

相关关系强弱

0.8≤|r|

高度相关

0.5≤|r|<0.8

中度相关

0.3≤|r|<0.5

低度相关

|r|<0.3

不相关

第三,相关系数具有对称性,它不会因为两个变量互换而变化。假设在图7-70的案例中,如果体重作为X变量,身高作为Y变量,最终得到的相关系数是不变的,依然是0.74。第四,相关系数只对两个变量都是数值型才有意义。可以研究一个班级学生的出生地和民族的相关关系,但是无法用相关系数量化。






在Execl中计算相关系数






EXCEL中计算相关系数的方法有很多,这里介绍的是公式法。在E2单元格输入以下公式,即可得到9名学生身高和体重的相关系数是0.74,如图7-71所示。

=CORREL(B2:B10,C2:C10)

7-71计算身高体重相关系数


版权声明:本文由老教材发布的,转载请注明出处;本站转载文章,如有侵权,请联系删除。

本文链接:https://laojiaocai.cn/post/167.html

分享给朋友: