第一部分 Excel和SPSS简介
一、Excel简介
Excel是一款集表格处理、数据管理、统计制图功能于一体的办公软件,此外还具有丰富的统计分析功能。借助于Excel,几乎可以完成“统计学”课程的所有实验内容。
(一)Excel中的基本概念
进入具体的操作性学习之前,这里先说明几个基本的概念。理解这几个概念是进一步学习的基础。
1.文件
用术语说,文件就是存储在磁盘上的信息实体。不同类型的文件,需要不同的应用程序才能打开它,比如有人从别的电脑上复制了一个用Excel创建的工作簿文件到自己的电脑上,可是无论如何也打不开它,后来才明白是因为自己的电脑上没有安装Excel应用程序。
所以,要顺利地进行后面的学习,请在你的电脑上安装Excel。
2.工作簿、工作表、单元格
工作簿是一种由Excel创建的文件,是Excel存储和管理数据的基本工作形式,它由多个工作表组成。工作表则是工作簿的组成部分,是Excel存储和管理数据的基本单元,它由多个单元格组成,操作和使用Excel,绝大部分工作是在工作表中进行的。可以这样形象地理解:工作簿是一个笔记本,而工作表是这个笔记本里的每页纸。单元格是Excel存储和管理数据的最小单元,一张工作表最多可由65536 × 256个单元格组成。
3.数据清单
数据清单是Excel中管理统计台账的一种快捷、便利的方式。数据清单将数据逐条地以纵向而非横向的方式组织在工作表中,并同时提供对数据的录入、浏览、查询等基本功能。
4. Excel的保护功能
Excel的保护功能有两个不同的层次:一是防止没有授权的用户查看Excel中的统计数据;二是防止用户随意修改Excel中的统计数据。其中,第二层次包括工作簿保护、工作表保护和单元格保护。Excel的保护功能是通过设置密码来实现的。
5.公式
Excel实现派生新数据的有效工具是公式,公式是Excel中功能强大且极具特色的工具之一。Excel的公式是由算术运算符、单元格地址引用、数值和函数等组成的式子。其中,算术运算符包括:+(加)、-(减)、*(乘)、/(除)、%(百分数)、^(乘方)。
6.公式中的函数
函数是公式的重要组成部分,通过使用函数能够完成许多复杂的计算工作。函数是具有特定计算功能的程序段。应用时通过“函数名(参数)”的方式进行函数调用,以完成特定的计算任务。
7.数组计算方式
数组计算方式将工作表中的一批单元格区域看成一个整体,且这个整体有统一的计算公式。
(二)Excel的主要操作方法和步骤
1.主要操作方法
要完成任何一项Excel操作一般都可以找到三种操作方法:鼠标操作、菜单操作和键盘命令操作。例如,想要将A1单元格的数据复制到A2单元格去,有如下几种操作方法:
(1)鼠标操作法:先用鼠标选中A1单元格,然后缓慢移动鼠标到A1单元格的右下角,当鼠标的形状变为黑色实心“十”字形之后(以后称之为“填充柄”),拖动鼠标到A2单元格,然后放开鼠标,则A1的数据就复制到A2单元格了。
(2)菜单操作法:先用鼠标选中A1单元格,选择“编辑”菜单中的“复制”命令,然后用鼠标选中A2单元格,再选择“编辑”菜单中的“粘贴”命令,数据就复制到A2单元格了。
(3)键盘命令操作法:直接用鼠标选中A2单元格,从键盘输入“= A1”命令,则复制即告完成。
以上是Excel中很典型的三种操作方法。在实际使用过程中,应根据实际情况,尽量选择三种方法中最简洁的操作方法,以提高操作速度。
2.主要操作步骤
(1)数据的输入输出操作。可以通过手动、公式生成、复制三种方法输入数据。
①手动输入数据。建立一个新的Excel文件之后,便可进行数据的输入操作。在Excel中以单元格为单位进行数据的输入操作。一般用上下左右光标键,Tab键或用鼠标选中某一单元格,然后输入数据。
Excel中的数据按类型不同通常可分为四类:数值型、字符型、日期型和逻辑型。Excel根据输入数据的格式自动判断数据属于什么类型。如日期型的数据输入格式为“月 /日 /年”“月-日-年”或“时:分:秒”。要输入逻辑型的数据,输入“true”(真)或“false”(假)即可。若数据由数字与小数点构成,Excel自动将其识别为数字型,Excel允许在数值型数据前加入货币符号,Excel将其视为货币数值型,Excel也允许数值型数据用科学计数法表示,如2 × 10 9在Excel中可表示为2E+9。除了以上三种格式以外的输入数据,Excel将其视为字符型处理。
②公式生成数据。Excel中的数据也可由公式直接生成。例如:在当前工作表中A1和B1单元格中已输入了数值数据,欲将A1与B1单元格的数据相加的结果放入C1单元格中,可按如下步骤操作:用鼠标选定C1单元格,然后输入公式“= A1 + B1”或输入“=SUM(A1:B1)”,回车之后即可完成操作。C1单元格此时实际上存放的是一个数学公式“A1 +B1”,因此C1单元格的数值将随着A1、B1单元格的数值的改变而变化。Excel提供了完整的算术运算符,如 +(加)、-(减)、*(乘)、/(除)、%(百分比)、^(指数)和丰富的函数,如SUM(求和)、CORREL(求相关系数)、STDEV(求标准差)等,供用户对数据执行各种形式的计算操作。在Excel帮助文件中可以查到各类算术运算符和函数的完整使用说明。
③复制生成数据。Excel中的数据也可由复制生成。实际上,在生成的数据具有相同的规律性的时候,大部分的数据可以由复制生成。可以在不同单元格之间复制数据,也可以在不同工作表或不同工作簿之间复制数据,可以一次复制一个数据,也可同时复制一批数据,为数据输入带来了极大的方便。普通单元格的复制结果与公式单元格的复制结果相差较大,下面分别予以说明:
普通单元格指的是非公式的单元格。普通单元格的复制,一般可以按如下步骤进行:
第一步,拖动鼠标选定待复制的区域,选定之后该区域变为黑色。Excel可以进行整行、整列或整个表格的选定操作。例如,如果要选定表格的第一列,可直接用鼠标单击列标“A”,如果要选定表格的第一行,可直接用鼠标单击行标“1”,如果要选定整个表格,可直接点击全选按钮,如图1-1-1所示。

图1-1-1 Excel的全选图示
第二步,选定完区域之后,用鼠标右击该区域,选择“复制”,将区域内容复制到粘贴版之中,可以发现该区域已被虚线包围。
第三步,用鼠标右击目标区域,选择“粘贴”,则单元格区域的复制即告完成。
公式单元格的复制,一般可分为两种:一种是值复制,一种是公式复制。值复制指的是只复制公式的计算结果到目标区域,公式复制指的是仅复制公式本身到目标区域。下面对它们的操作步骤分别予以说明:
值复制的具体操作是:
第一步,拖动鼠标选定待复制区域。
第二步,用鼠标右击选定区域,选择“复制”选项。
第三步,用鼠标右击目标区域,再单击“选择性粘贴”子菜单。出现复制选项,选定“数值”选项,然后用鼠标单击“确定”按钮,则公式的值复制即告完成。
公式复制的具体操作是:
公式复制是Excel数据成批计算的重要操作方法,要熟练掌握公式复制的操作,首先要区分好两个概念:单元格的相对引用与绝对引用。
Excel的公式一般都会引用到别的单元格的数值,如果你希望当公式复制到别的区域时,公式引用单元格不会随之相对变动,那么你必须在公式中使用单元格的绝对引用;如果你希望当公式复制到别的区域时,公式引用单元格也会随之相对变动,那么必须在公式中使用单元格的相对引用。在公式中如果直接输入单元格的地址,那么默认的是相对引用单元格,如果在单元格的地址之前加入“$”符号那么意味着绝对引用单元格。例如,在当前工作表中A1和B1单元格中已输入了数值数据,用鼠标选定C1单元格,然后输入公式“=A1+B1”,此公式引用的便是两个相对的单元格A1、B1,也就是说,如果将该公式复制到C2的单元格,公式所引用的单元格的地址将随着发生变化,公式将变为“= A2+B2”,如果将该公式复制到F100的单元格,那么公式将变为“=D100+E100”。这就是相对引用的结果,公式的内容随着公式的位置变化而相对变化。如果在C1单元格输入的是“= $A$1 +$B$1”那么此公式引用的便是绝对的单元格,不论将公式复制到何处,公式的内容都不会发生变化。当然,绝对引用和相对引用亦可在同一公式之中混合交叉使用,例如,如果在C1单元中输入的是公式“= A$1+B$1”,就意味着,公式的内容不会随着公式的垂直移动而变动,而是随着公式的水平移动而变动,如果将该公式复制到F100单元格,那么公式将变为“= D$1 +E$1”。可以作这样的归纳:公式中“$”符号后面的单元格坐标不会随着公式的移动而变动,而不带“$”符号后面的单元格坐标会随着公式的移动而变动。在实际使用中,如果能把单元格的相对引用与绝对引用灵活应用到Excel的公式之中,将为数据批量运算带来极大的方便。
(2)数据的移动操作。数据的移动操作可按如下步骤进行:拖动鼠标选定待移动区域;用鼠标右击选定区域,选择“剪切”选项;用鼠标右击目标区域,选择“粘贴”,则单元格区域的移动即告完成。
与数据的复制操作不同,公式单元格的移动操作不存在值移动或公式移动的区别,也不存在绝对引用和相对引用的区别,移动操作将把公式单元格的公式内容原原本本地移动到目标区域,不作任何改动。
(3)数据的删除操作。数据的删除操作可按如下步骤进行:拖动鼠标选定待删除区域;用鼠标右击选定区域,选择“删除”,即可删除单元格区域的内容。
如果不小心删除了不该删除的区域,可以通过“编辑”菜单的“撤消”命令来恢复被删除的内容。“撤消”操作是Excel中较常用到的操作,如果不小心实施了错误的操作,那么可以通过“撤消”操作使工作表恢复原样。
(4)与其他软件交换数据的方法。在Excel中可以打开其他类型的数据文件,如FOXPRO系列的DBF数据库文件、文本文件、lotus1-2-3的数据文件等。
具体操作方法为:在“文件”菜单中选择“打开”子菜单;在“打开文件”对话框中选择所要打开的文件的类型及其所在的目录;用鼠标双击该文件名,并按Excel提示步骤操作即可打开该文件。
Excel文件同样也可存为其他类型的数据文件,具体操作方法为:编辑好文件后,在“文件”菜单中选择“另存为”子菜单;在“另存为”对话框中选择所要打开文件的类型及其所在的目录;输入文件名之后,用鼠标单击“保存”按钮即可。
(三)加载“数据分析”工具
绝大部分的统计分析功能都需要Excel的“分析工具库”宏来加以实现,在Office的典型安装模式下,该工具并未自动安装。
在初次使用“数据分析”功能时,需要先加载。
1.在Excel 2003中加载“数据分析”的方法为:
第一步,从“工具”菜单中选择“加载宏”(见图1-1-2)。

图1-1-2 选择“加载宏”
第二步,选择“分析工具库”选项,然后点击“确定”,即可启动(见图1-1-3)。

图1-1-3 加载“分析工具库”
如果以前未安装该工具库,系统会自动提示插入安装盘,运行“安装”程序来加载“分析工具库”。
此后,可以从“工具”菜单下选择“数据分析”菜单,调用相应的统计分析功能来完成所需的操作。
2.在Excel 2007中加载“数据分析”的方法为:
第一步,单击“Office”按钮(见图1-1-4)。

图1-1-4 单击“Office”按钮
第二步,单击“Excel选项”(见图1-1-5)。

图1-1-5 选择“Excel选项”
第三步,选择“加载项”中的“Excel加载项”,点击“转到”(见图1-1-6)。

图1-1-6 选择“加载项”中的“Excel加载项”
第四步,选择“分析工具库”选项,然后点击“确定”,即可启动(见图1-1-7)。

图1-1-7 加载“分析工具库”
如果以前未安装该工具库,系统会自动提示插入安装盘,运行“安装”程序来加载“分析工具库”。
此后,可以从“数据”菜单下选择“数据分析”菜单,调用相应的统计分析功能来完成所需的操作。
3.在Excel 2010、Excel 2013中加载“数据分析”的方法为:
第一步,从“文件”菜单中选择“选项”(见图1-1-8)。

图1-1-8 选择“选项”
第二步,选择“加载项”中的“Excel加载项”,点击“转到”(见图1-1-9)。

图1-1-9 选择“加载项”中的“Excel加载项”
第三步,选择“分析工具库”选项,然后点击“确定”,即可启动(见图1-1-10)。

图1-1-10 加载“分析工具库”
如果以前未安装该工具库,系统会自动提示插入安装盘,运行“安装”程序来加载“分析工具库”。
此后,可以从“数据”菜单下选择“数据分析”菜单,调用相应的统计分析功能来完成所需的操作。
(四)Excel主要统计函数简介
Excel中主要有11种函数,它们是数据库函数(13条)、日期与时间函数(20条)、外部函数(2条)、工程函数(39条)、财务函数(52条)、信息函数(9条)、逻辑运算符(6条)、查找和引用函数(17条)、数学和三角函数(60条)、统计函数(80条)、文本和数据函数(28条)。
Excel中有80条统计函数,具体包括:
AVEDEV · AVERAGE · AVERAGEA · BETADIST · BETAINV · BINOMDIST · CHIDIST · CHIINV · CHITEST · CONFIDENCE · CORREL · COUNT · COUNTA · COUNTBLANK·COUNTIF·COVAR·CRITBINOM ·DEVSQ·EXPONDIST·FDIST· FINV·FISHER·FISHERINV·FORECAST·FREQUENCY·FTEST·GAMMADIST· GAMMAINV· GAMMALN · GEOMEAN · GROWTH · HARMEAN · HYPGEOMDIST · INTERCEPT·KURT·LARGE·LINEST·LOGEST·LOGINV·LOGNORMDIST·MAX· MAXA·MEDIAN·MIN·MINA·MODE·NEGBINOMDIST·NORMDIST·NORMSINV· NORMSDIST·NORMSINV·PEARSON·PERCENTILE·PERCENTRANK·PERMUT· POISSON · PROB · QUARTILE · RANK · RSQ · SKEW · SLOPE · SMALL · STANDARDIZE·STDEV·STDEVA·STDEVP·STDEVPA·STEYX·TDIST·TINV· TREND·TRIMMEAN·TTEST·VAR·VARA·VARP·VARPA·WEIBULL·ZTEST
其中,在“统计学实验”课程中常用的统计函数及其用途归纳如下:
1.进行统计整理的统计函数
(1)COUNT函数
用途:返回数字参数的个数。它可以统计数组或单元格区域中含有数字的单元格个数。
语法:COUNT(value1, value2, . . . )
(2)COUNTA函数
用途:返回参数组中非空值的数目。利用函数COUNTA可以计算数组或单元格区域中数据项的个数。
语法:COUNTA(value1, value2, . . . )
(3)COUNTBLANK函数
用途:计算某个单元格区域中空白单元格的数目。
语法:COUNTBLANK(range)
(4)COUNTIF函数
用途:计算区域中满足给定条件的单元格的个数。
语法:COUNTIF(range, criteria)
(5)FREQUENCY函数
用途:以一列垂直数组返回某个区域中数据的频率分布。它可以计算出在给定的值域和接收区间内,每个区间包含的数据个数。
语法:FREQUENCY(data_array, bins_array)
(6)LARGE函数
用途:返回某一数据集中的某个最大值。可以使用LARGE函数查询考试分数集中第一、第二、第三等的得分。
语法:LARGE(array, k)
(7)PERCENTILE函数
用途:返回数值区域的K百分比数值点。例如确定考试排名在80个百分点以上的分数。
语法:PERCENTILE(array, k)
(8)PERCENTRANK函数
用途:返回某个数值在一个数据集合中的百分比排位,可用于查看数据在数据集中所处的位置。例如计算某个分数在所有考试成绩中所处的位置。
语法:PERCENTRANK(array, x, significance)
(9)RANK函数
用途:返回一个数值在一组数值中的排位(如果数据清单已经排过序了,则数值的排位就是它当前的位置)。
语法:RANK(number, ref, order)
(10)SMALL函数
用途:返回数据集中第k个最小值,从而得到数据集中特定位置上的数值。
语法:SMALL(array, k)
(11)STANDARDIZE函数
用途:返回以mean为平均值,以standard-dev为标准偏差的分布的正态化数值。
语法:STANDARDIZE(x, mean, standard_dev)
2.计算平均指标的统计函数
(1)AVERAGE函数
用途:计算所有参数的算术平均值。
语法:AVERAGE(number1, number2, . . . )
(2)AVERAGEA函数
用途:计算参数清单中数值的平均值。它与AVERAGE函数的区别在于不仅数字,而且文本和逻辑值(如TRUE和FALSE)也参与计算。
语法:AVERAGEA(value1, value2, . . . )
(3)GEOMEAN函数
用途:返回正数数组或数据区域的几何平均值。可用于计算可变复利的平均增长率。
语法:GEOMEAN(number1, number2, . . . )
(4)POWER函数
用途:返回给定数字的乘幂,可用于某数开n次方或计算某数的n次方。
语法:POWER(number, power)
(5)HARMEAN函数
用途:返回数据集合的调和平均值。调和平均值与倒数的算术平均值互为倒数。调和平均值总小于几何平均值,而几何平均值总小于算术平均值。
语法:HARMEAN(number1, number2, . . . )
(6)MEDIAN函数
用途:返回给定数值集合的中位数(它是在一组数据中居于中间的数。换句话说,在这组数据中,有一半的数据比它大,有一半的数据比它小)。
语法:MEDIAN(number1, number2, . . . )
(7)MODE函数
用途:返回在某一数组或数据区域中的众数。
语法:MODE(number1, number2, . . . )
(8)TRIMMEAN函数
用途:返回数据集的内部平均值。TRIMMEAN函数先从数据集的头部和尾部除去一定百分比的数据点,然后再求平均值。当希望在分析中剔除一部分数据的计算时,可以使用此函数。
语法:TRIMMEAN(array, percent)
3.计算变异指标的统计函数
(1)AVEDEV函数
用途:返回一组数据与其平均值的绝对偏差的平均值,该函数可以评测数据(例如学生的某科考试成绩)的离散度。
语法:AVEDEV(number1, number2, . . . )
(2)KURT函数
用途:返回数据集的峰值。它反映与正态分布相比时某一分布的尖锐程度或平坦程度,正峰值表示相对尖锐的分布,负峰值表示相对平坦的分布。
语法:KURT(number1, number2, . . . )
(3)MAX函数
用途:返回数据集中的最大数值。
语法:MAX(number1, number2, . . . )
(4)MAXA函数
用途:返回数据集中的最大数值。它与MAX的区别在于文本值和逻辑值(如TRUE和FALSE)作为数字参与计算。
语法:MAXA(value1, value2, . . . )
(5)MIN函数
用途:返回给定参数表中的最小值。
语法:MIN(number1, number2, . . . )
(6)MINA函数
用途:返回参数清单中的最小数值。它与MIN函数的区别在于文本值和逻辑值(如TRUE和FALSE)也作为数字参与计算。
语法:MINA(value1, value2, . . )
(7)QUARTILE函数
用途:返回一组数据的四分位点。四分位数通常用于在考试成绩之类的数据集中对总体进行分组,如求出一组分数中前25% 的分数。
语法:QUARTILE(array, quart)
(8)STDEV函数
用途:估算样本的标准偏差。它反映了数据相对于平均值(mean)的离散程度。
语法:STDEV(number1, number2, . . . )
(9)STDEVA函数
用途:计算基于给定样本的标准偏差。它与STDEV函数的区别是文本值和逻辑值(TRUE或FALSE)也将参与计算。
语法:STDEVA(value1, value2, . . . )
(10)STDEVP函数
用途:返回整个样本总体的标准偏差。它反映了样本总体相对于平均值(mean)的离散程度。
语法:STDEVP(number1, number2, . . . )
(11)STDEVPA函数
用途:计算样本总体的标准偏差。它与STDEVP函数的区别是文本值和逻辑值(TRUE或FALSE)参与计算。
语法:STDEVPA(value1, value2, . . . )
(12)VAR函数
用途:估算样本方差。
语法:VAR(number1, number2, . . . )
(13)VARA函数
用途:用来估算给定样本的方差。它与VAR函数的区别在于文本和逻辑值(TRUE和FALSE)也将参与计算。
语法:VARA(value1, value2, . . . )
(14)VARP函数
用途:计算样本总体的方差。
语法:VARP(number1, number2, . . . )
(15)VARPA函数
用途:计算样本总体的方差。它与VARP函数的区别在于文本和逻辑值(TRUE和FALSE)也将参与计算。
语法:VARPA(value1, value2, . . . )
4.进行相关分析的统计函数
(1)CORREL函数
用途:返回单元格区域array1和array2之间的相关系数。它可以确定两个不同事物之间的关系,例如检测学生的物理与数学学习成绩之间是否关联。
语法:CORREL(array1, array2)
(2)COVAR函数
用途:返回协方差,即每对数据点的偏差乘积的平均数。利用协方差可以研究两个数据集合之间的关系。
语法:COVAR(array1, array2)
(3)PEARSON函数
用途:返回Pearson(皮尔生)乘积矩相关系数r,它是一个范围在-1.0到1.0之间(包括-1.0和1.0在内)的无量纲指数,反映了两个数据集合之间的线性相关程度。
语法:PEARSON(array1, array2)
(4)RSQ函数
用途:返回给定数据点的Pearson乘积矩相关系数的平方。
语法:RSQ(known_y's, known_x's)
5.进行回归分析的统计函数
(1)FORECAST函数
用途:根据一条线性回归拟合线返回一个预测值。使用此函数可以对未来销售额、库存需求或消费趋势进行预测。
语法:FORECAST(x, known_y's, known_x's)
(2)INTERCEPT函数
用途:利用已知的x值与y值计算直线与y轴的截距。当已知自变量为零时,利用截距可以求得因变量的值。
语法:INTERCEPT(known_y's, known_x's)
(3)LINEST函数
用途:使用最小二乘法对已知数据进行最佳直线拟合,并返回描述此直线的数组。
语法:LINEST(known_y's, known_x's, const, stats)
(4)LOGEST函数
用途:在回归分析中,计算最符合观测数据组的指数回归拟合曲线,并返回描述该曲线的数组。
语法:LOGEST(known_y's, known_x's, const, stats)
(5)SLOPE函数
用途:返回经过给定数据点的线性回归拟合线方程的斜率(它是直线上任意两点的垂直距离与水平距离的比值,也就是回归直线的变化率)。
语法:SLOPE(known_y's, known_x's)
(6)STEYX函数
用途:返回通过线性回归法计算y预测值时所产生的标准误差。标准误差用来度量根据单个x变量计算出的y预测值的误差量。
语法:STEYX(known_y's, known_x's)
(7)TREND函数
用途:返回一条线性回归拟合线的一组纵坐标值(y值)。即找到适合给定的数组known_y's和known_x's的直线(用最小二乘法),并返回指定数组new_x's值在直线上对应的y值。
语法:TREND(known_y's, known_x's, new_x's, const)
6.进行抽样推断的统计函数
(1)CONFIDENCE函数
用途:返回总体平均值的置信区间,它是样本平均值任意一侧的区域。例如,某班学生参加考试,依照给定的置信度,可以确定该次考试的最低分数和最高分数。
语法:CONFIDENCE(alpha, standard_dev, size)
(2)FTEST函数
用途:返回F检验的结果。它返回的是当数组1和数组2的方差无明显差异时的单尾概率,可以判断两个样本的方差是否不同。例如,给出两个班级同一学科考试成绩,从而检验是否存在差别。
语法:FTEST(array1, array2)