秋社会统计学期末复习辅导材料(重难点)由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“社会统计学期末复习”。
2014年秋社会统计学期末复习辅导材料(重难点)
第一章 统计学在社会研究中的应用
(一)社会学研究的过程
提出问题:首先明确要做什么?进行研究的目的?
形成假设:假设是对两个变量之间关系的陈述,是一种尝试性的回答;
收集数据:确定收集的变量、方法和总量等等;
分析数据:对原始数据进行审核、整理、归类、统计和分析;
检验假设:支持或不支持该假设。
(二)变量类型
定类变量、定序变量、定距变量、定比变量
离散变量、连续变量
因变量、自变量
(三)抽样方式
普查、抽样调查、非概率抽样、概率抽样
总体、样本、抽样框、抽样单位
简单随机抽样、整群抽样、分层抽样、系统抽样、定额配比抽样
判断抽样、偶遇抽样、滚雪球抽样、定额抽样
(四)归纳法与演绎法
归纳法是从特殊到一般,也就是从一组具体的观察结果推导出一般性的规律或法则;
演绎法则与归纳法正好相反,是从一般到特殊,也就是研究者从想要检验的一般性理论开始,然后去观察、收集资料,通过这些资料来检验这个理论。
考试题型分析
1.先将总体按某标志分为不同的类别或层次,然后在各个类别中采用简单随机抽样或系统抽样的方式抽取子样本,最后将所有子样本合起来作为总样本,这样的抽样方式称为(D)
A.简单随机抽样
B.系统抽样
C.整群抽样
D.分层抽样
备注:此题考察的概率抽样的具体方法,其中四个选项都作为重点的方法的理解和运用,重点是整群抽样和分层抽样,区分好两种即整群和分层抽样的具体含义和做法,具体知识点参照教材P13
2.某地区政府想了解全市332.1万户家庭年均收入水平,从中抽取3000户家庭进行调查,以推断所有家庭的年均收入水平。这项研究的总体是(A)
A.332.1万户家庭
B.3000户家庭
C.332.1户家庭的年均收入
D.3000户家庭的年均收入
备注:此类题型出现概率较高,主要考察学生对样本和总体的区别,区分两个概念是关键,具体内容参照教材P11
3.简答题:判断以下随机变量是定性变量还是定量变量,如果是定量变量,确定是离散变量还是连续变量。
(1)考研辅导班参加者的姓名(定性变量)
(2)家庭月消费(定量变量连续变量)
(3)温度(定量变量连续变量)
(4)上个月外出吃饭的次数(定量变量离散变量)
(5)产品等级(定性变量)
备注:考察具体的变量的各种分类,主要是按照测量水平分类和离散连续变量,具体参照教材P7-P10
第三章 数据的组织与展示
(一)组距分组
将全部变量值按照次序划分为多个区间,每一区间里的值作为一组。
频数、频率、百分比、比率;
条形图、饼图、环形图、直方图、折线图、线图
考试题型分析
1.某班级学生平均每天上网时间可以分为以下六组:1)1小时及以下;2)1-2小时;3)2-3小时;4)3-4小时;5)4-5小时;6)5小时及以上,则5小时及以上这一组的组中值近似为(C)
A.5小时
B.6小时
C.5.5小时
D.6.5小时
备注:此题考查的内容是分组数据的组中值问题,尤其是针对没有上限值和没有下限值的组的组中值,具体计算参照P44
2.当我们用图形描述甲乙两地区的人口年龄结构时,适合选用哪种图形(A)
A.环形图
B.饼图
C.直方图
D.条形图
备注:此题考查的是统计图的运用,尤其是作为集中代表性的统计图,要严格区分每种统计图使用的范围和数据类型,具体内容参照P58-P64
3.简答题:简述直方图与条形图相同点与区别
(1)条形图适用于所有类型数据,而直方图只适用于数值型数据;
(2)条形图中条形的宽度是固定的,是用条形的长度(或高度)表示各类别频数的多少;而直方图则是用矩形的面积表示各类别频数的多少,矩形的宽度和高度均有意义;
(3)条形图中各条形是分开排列的,而直方图中由于分组数据是连续的,因而直方图的矩形通常是紧密排列的。
备注:此题考查的是统计图的运用,尤其是作为集中代表性的统计图,要严格区分每种统计图使用的范围和数据类型,具体内容参照P58-P64 第四章 中心趋势测量
(一)中心趋势
反映一组数据中各个数值向中心值集中的程度,是指一组数据向某一中心值靠拢的趋势。
众数、中位数、均值(分组数据与未分组数据)
计算与比较
对称分布: Mo = Me = X
左偏态分布:X
右偏态分布:Mo
考试题型分析
1.某专业共8名同学,他们的统计课成绩分别为86、77、97、94、82、90、83、92,那么该班考试成绩的中位数是(D)
A.86
B.77
C.90
D.88
备注:此题考察内容为中位数的计算,中位数计算要先排序后找中位数,尤其是要注意偶数序列的中位数,是处于中间位置的两个数的和平均作为中位数,具体参照教材P74
2.对于左偏分布,平均数、中位数和众数之间的关系是(C)
A.平均数>中位数>众数
B.中位数>平均数>众数
C.众数>中位数>平均数
D.众数>平均数>中位数
备注:考察集中趋势测量指标间的关系,要注意左偏态和右偏态的区别,极大值和极小值都会影响到平均数,具体参照教材P82
3.计算题
(1)对2011年销售额按由低到高进行排序,求出众数、中位数和平均数。
(2)如果按照规定,销售额在125万元以上的为先进企业,115万-125万之间的为良好企业,105万-115万之间的为一般企业,105万以下的为落后企业,请按先进企业、良好企业、一般企业、落后企业进行分组,编制频数分布表,并计算累积频数和累积频率。计算题
企业编号2 3 4 5 6 7 销售额 企业编号 销售额 152 105 117 97 124 119 10812 13 14 15 16 17
116 115 110 115 100
企业编号22 23 24 25 26 27
销售额 企业编号 103 103 137 138 91 118 120
37
销售额 136 146 127 135 117 113 104 8 9 10
11519 20
11929 30
95 142
40
108 126(1)销售额由低到高排序:87、88、91、95、97、100、103、103、104、105、105、107、108、108、110、112、113、115、115、115、116、117、117、118、119、119、120、123、124、125、126、127、129、135、136、137、138、142、146、152
众数:115;中位数:115.5
平均数: =(152+146+……+88+87)÷ 40 = 4647 ÷ 40 = 116.175 按销售额分组(万元)
先进企业 良好企业 一般企业 落后企业 合计
第五章 离散趋势测量
(一)方差
各数值与均值离差平方的平均数,数值型数据离散趋势最主要的测量值。
方差与标准差的计算
(二)离散系数
一组数据的标准差与该组数据均值之比,也称为变异系数。
计算:标准差与均值的比率;V企业个数12 8 9 40
累计频数23 31 40-----
频率(%)27.5 % 30 % 20 % 22.5 % 100 %
累积频率(%)
27.5 % 57.5% 77.5% 100%-----
x
离散系数越大,数据的离散程度就越大,越不稳定;
离散系数越小,数据的离散程度就越小,越稳定。
考试题型分析
1.一班学生的平均体重均为55千克,二班学生的平均体重为52千克,两个班级学生体重的标准差均为5千克,那么(B)
A.一班学生体重的离散程度大
B.二班学生体重的离散程度大
C.两个班学生体重的离散程度相同
D.无法判断
备注:此题考查的是离散系数的计算及其含义的理解,公式要记清楚,V=标准差/均值,具体参照教材P100
2.离散系数的主要目的是(D)
A.反映一组数据的平均水平
B.比较多组数据的平均水平
C.反映一组数据的离散程度
D.比较多组数据的离散程度
备注:此题考查的是离散系数的计算及其含义的理解,公式要记清楚,V=标准差/均值,具体参照教材P100
第六章 正态分布
(一)正态分布
正态分布的函数;
正态分布是对称分布;
正态分布的中央点最高;
曲线的陡缓程度由σ决定,当均值μ相等时,标准差σ越大,峰值越低,覆盖范围越广即峰越宽;
正态曲线下面的面积为1,中心轴平均划分0.5
(二)Z值的计算
以平均数为参照点,以标准差为单位的描述原始数据在总体中相对位置的量数。
Z值说明了一组数据中各数值的相对位置;
例如,某个数值的Z值为-1.5,则说明这个数值低于均值1.5倍的标准差。
(三)68-95-99.7规则
X的取值几乎全部落在(μ-3σ,μ+3σ)之间;
X取值几乎不可能在区间(μ-3σ,μ+3σ)之外取值。
(四)标准正态分布表
对于负的变量值,可由下面公式转化:ф(-x)=1-ф(x)
一般情况下,设X~(0,1),则有:
P(X
P(a
P(X>a)= 1-ф(a)考试题型分析
1.已知某单位职工平均每月工资为3000元,标准差为500元。如果职工的月收入是正态分布,可以判断月收入在2500元—3500元之间的职工人数大约占总体的(B)
A.95%
B.68%
C.89%
D.90%
备注:此题考查的Z值计算,68-95-99.7规则,具体参照教材P106与P112例题
第七章 统计推断
(一)统计推断
根据统计量的分布和概率理论,由样本统计量来推断总体参数的过程,包括参数估计和假设检验两部分内容。
参数:研究者想要了解的总体的某种特征值(平均数、标准差、比例等);
统计量:根据样本数据计算出来的一个量(样本平均数、样本标准差、样本比例等)。
(二)抽样分布
样本统计量的概率分布,它是在重复选取容量为n的样本时,由每个样本计算出来的统计量数值的相对频数分布。
(三)中心极限定理
不论总体分布是否服从正态分布,从均值为 μ、方差为 σ² 的总体中,抽取容量为n的随机样本,当n充分大时(通常要求n≥30),样本均值的抽样分布近似服从均值为 μ、方差为 σ²/n的正态分布。
(四)参数估计
点估计:直接用估计量 ˆ 作为总体参数 Θ 的估计值。
区间估计:估计总体参数时给出的不是一个数值,而是一个区间,是根据统计量的抽样分布的特点进行估计,同时给出总体参数落入这一区间的可能性大小;
置信区间:在区间估计中,由样本统计量所构造的总体参数的估计区间,它有估计量加减抽样误差构成;
置信水平:将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例。
(五)参数估计的计算
总体均值的区间估计P137 总体比例的区间估计P138
(六)假设检验
首先对总体参数建立一个假设,然后根据样本信息去检验这一假设是否正确。
虚无假设:需要我们通过样本信息来推断其正确与否的命题称为虚无假;也成为原假设或者零假设H0;
替换假设:如果虚无假设不成立,我们就拒绝虚无假设,需要在另个一假设中进行选择,即替换假设H1。
考试题型分析
1.在假设检验中,虚无假设和备择假设(C)
A.都有可能成立
B.都不可能成立
C.有且只有一个成立
D.备择假设一定成立,虚无假设不一定成立
备注:此题考查的是假设检验中备择假设和虚无假设的关系问题,两者是对立的,只能有一个存在,不能同时存在。虚无假设和替换假设是相互对立的关系,假设检验的结果是要么虚无假设成立,要么替换假设成立,二者选一。不可能同时成立,也不可能都不成立。
2.根据一个具体的样本求出的总体均值95%的置信区间(A)
A.以95%的概率包含总体均值
B.5%的可能性包含总体均值
C.绝对包含总体均值
D.绝对不包含总体均值
备注:此题考查的是总体均值区间估计的解释和说明,关键是置信区间的概念,具体参照教材P135
3.计算题
为估计某地区每个家庭日均生活用水量为多少,抽取了450个家庭的简单随机样本,得到样本均值为200升,样本标准差为50升。
(1)试用95%的置信水平,计算该地区家庭日均用水量的置信区间。
(2)在所调查的450个家庭中,女性为户主的为180个。以95%的置信水平,计算女性为户主的家庭比例的置信区间。
注:Z0.025=1.96
答:已知:n=450,标准差=50,Z0.025=1.96
(1)用户每天平均用水量的95%的置信区间为:
置信区间公式P137,带入相应的数值计算即可,即(195.38,204.62)
(2)样本比例:P=180/450
户主为女性的家庭比例的95%的置信区间为:
置信区间公式P139,带入相应的数值计算即可,即(35.5%,44.5%)
备注:此题考查总体均值和总体比例的区间估计,只要把公式套用进去计算就可以了,具体的例题教材讲解清楚,参照教材P137(总体均值)、P139(总体比例)
第八章 二维列联表:双变量关系考察
(一)二维表
一种行列交叉的表格,将两个变量一个分行排放,一个分列排放,行列交叉处就是同属于两个变量的不同类的数据,也称为列联表。
在预测变量Y的值时,知道变量X的值时所减少的误差(E1-E2)与总误差E1的比值称为误差减少比例,称PRE;
PRE的取值范围为0~1,PRE值越大,说明用变量X去预测变量Y是能够减少的误差所占的比例越大,即变量X与变量Y之间的相关性越大;
反之,PRE越小,说明变量X与变量Y之间的关系越小。
第九章 相关系数和简单回归
(一)相关关系
各变量之间存在一定的依赖或影响,但是一个变量的值不能由另一个或另几个变量唯一确定,即当一个或多个变量取某个值时,另一个变量的值并不是唯一确定的。
正线性相关:两个变量的变动方向一致,即一个变量增加,另一个变量也随之增加,反之亦然;
负线性相关:一个增加,一个减少;反之亦然。
(二)相关关系的解释
相关系数:对变量之间相关关系程度和方向的度量;
相关系数的取值在-1~1之间,“+” 表示正相关 “-” 表示负相关,相关系数的绝对值表示相关关系的程度,绝对值越大,相关程度越大,即r越接近1;反之,绝对值越小,及r越接近0,相关程度越弱。
当r = 1时,说明两变量之间存在完全正相关,r =-1时,两变量之间完全负相关。
当0
当r = 0时,只能说变量之间不存在线性相关,而不能说它们之间不相关。
(三)散点图
散点图是在坐标系中,用X轴表示自变量x,用Y轴表示因变量y,而变量组(x,y)则用坐标系中的点表示,不同的变量组在坐标系中形成不同的散点,用坐标系及其坐标系中的散点形成的二维图就是散点图。
(四)回归分析
通过一定的数学表达式将变量间的关系进行描述,确定一个变量或几个变量的变化对另一个特定变量的影响,是进行估计或预测的一种方法,侧重于考察变量之间的数量伴随关系。
作用:1由已知变量确定变量关系式;
2对关系式进行检验,找出影响显著的变量;
3利用所求出的关系式,根据一个变量或多个变量的取值估计或预测另一个特定变量的取值。
(五)最小二乘法
使因变量的观察值与估计值之间的离差平方和达到最小来求参数 β0和 β1 的方法。
一元线性回归:y的期望值是x的线性函数E(y)= β0+ β1x β0是回归直线在y轴的截距,是x=0时y的期望值;β1是直线的斜率,表示当x变动一个单位时,y的平均变量值。
(六)判定系数
回归直线与各观测点的接近程度称为拟合优度,用判定系数度量估计的回归方程的拟合优度。
判定系数: R² = SSR/SST 判定系数测量了回归直线对观测数据的拟合程度,它的取值范围为0~1。
考试题型分析
1.某项研究中欲分析受教育年限每增长一年,收入如何变化,下列哪种方法最合(A)
A.回归分析
B.方差分析
C.卡方检验
D.列联表分析
备注:此题考查的是回归分析的作用,是用来测量定类变量与数值型变量之间的关系的一种计算方法,参照教材P177
2.某汽车生产商欲了解广告费用(万元)对销售量(辆)的影响。收集了过去12年的有关数据,通过分析得到:方程的截距为363,回归系数为1.42,回归平方和SSR=1600,残差平方和SSE=450。要求:
(1)写出销售量y与广告费用x之间的线性回归方程。
(2)假如明年计划投入广告费用为25万元,根据回归方程估计明年汽车销售量。
(3)计算判定系数R²,并解释它的意义。
答:
(1)回归方程为:y = 363+1.42x
(2)当x = 25时,y = 363+1.42×25 = 398.5万(辆)
(3)判定系数: R² = SSR/SST = 1600÷(1600+450)= 0.7805
表明在汽车销售量的总变差中,有78.05%可以由回归方程解释,说明回归方程的拟合程度很高。
第十章 卡方检验
(一)拟合优度检验
卡方检验用于分类变量之间关系的检验。当用于检验不同类别的目标量之间是否存在显著差异时,称为拟合优度检验。例如,不同职业的人群中对某项改革措施的支持率是否一致。
(二)独立性检验
卡方检验还可用于判断两个分类变量之间是否存在联系。如果两个分类变量之间没有关系,则称为独立,我们用判断它们之间是否关联,这时称为独立性检验。例如,对性行为的态度是否与受教育程度有关。
(三)独立样本与配对样本
独立样本是指我们得到的样本是相互独立的。配对样本就是一个样本中的数据与另一个样本中的数据相对应的两个样本。配对样本可以消除由于样本指定的不公平造成的差异。
第十一章T检验
(一)单样本T检验基本步骤
1.给出均值检验的零假设;
2.选择检验统计量;
3.计算检验统计量的观测值及其发生的概率;
4.给定显著性水平,做出统计推断结果。
考试题型分析
1.简答题:简要举例说明在分析双变量的关系时,T检验和卡方检验的主要区别
分析双变量关系时,t检验和卡方检验都是主要用于检验这两个变量之间是否存在显著关系。
t检验主要用于对一个为数值型变量、另一个为分类变量且只有两个类别的变量的双变量关系的统计显著性检验。
方检验主要用于对两个分类变量之间的相关性进行统计检验,判断变量之间是否存在显著关系。
例如,我们想考察收入与性别是否存在关系,或者两性的收入是否存在显著差异,可以用两独立样本t检验。
如果我们想考察职业与性别是否存在关系,而职业和性别都是分类变量,那么可以用卡方检验考察不同性别之间职业是否存在显著差异。
2.简答题:如何对配对样本进行t检验
配对样本检验主要是判断不同的处理或试验结果是否有差异。配对样本的t检验用于检验两个相关的样本是否来自具有相同均值的总体。
在对配对样本进行t检验时,首先计算两个样本中每个对应变量之间的差值;然后再检验其差值的均值是否为零,如果差值的均值接近零(在给定的置信区间内),说明两个总体均值在给定的置信水平上没有差异,如果差值的均值在置信区间外,则说明两个总体均值在给定的置信水平上有差异。
第十二章 方差分析
(一)方差分析
检验多个总体均值是否相等的一种统计方法;通过检验各总体均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
总误差平方和SST、组内误差SSE、组间误差SSA;
SST=SSE+SSA
(二)组间均方 组间误差的自由度为因素水平个数减1,即k-1,其中k为因素水平的个数。SSA的均方记作MSA,称为组间均方。
(三)组内均方
组内误差的自由度为全部观察值个数减去因素水平个数,即n-k,其中n为全部观察值个数,k为因素水平的个数。SSE的均方记作MSE,称为组内均方。
考试题型分析
1.方差分析的目的是(D)
A.比较不同总体的方差是否相等
B.判断总体是否存在方差
C.分析各样本数据之间是否存在显著差异
D.研究各分类自变量对数值型因变量的影响是否显著 备注:此题考察队方差分析的理解,具体内容参照教材P213
2.下列哪种情况不适合用方差分析(C)
A.性别对收入的影响
B.专业对收入的影响
C.年龄对收入的影响
D.行业对收入的影响
备注:此题考查的是对方差分析概念的理解,具体内容参照教材P213
3.计算题:某单位为研究其商品的广告费用(x)对其销售量(y)的影响,收集了过去12年的有关数据。通过分析得到以下结果:
变差来源 组间 组内 总计
(1)计算上面方差分析表中A、B、C、D、E、F处的值。
(2)商品销售量的变差中有多少是由广告费用的差异引起的?
(3)销售量与广告费用之间的相关系数是多少?(1)
变差来源 组间SSA 组内SSE 总计SST
(2)R² = SSA/SST
(3)相关系数
SS 1602708.6 40158.08 1642866.68
df 1 10 11
MS 1602708.6 4015.808 —
F 399.1 — —
Sig.0.000 — —
SS 1602708.6 40158.08
A
df B C 11
MS D E —
F F — —
Sig.0.000 — —
R2