sp学习第四天由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“spss学习”。
Sp Sp学习第四天
我主要以课上的顺序来一步步操作
一元回归
两个或两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。
多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型类似,只是在计算上更为复杂,一般需借助计算机来完成。
(2)回归方程的显著性检验(F检验)
多元线性回归方程的显著性检验一般采用F检验,利用方差分析的方法进行。
(3)回归系数的显著性检验(t检验)
回归系数的显著性检验是检验各自变量x1,x2,…,对因变量y的影响是否显著,从而找出哪些自变量对y的影响是重要的,哪些是不重要的。
与一元线性回归一样,要检验解释变量对因变量y的线性作用是否显著,要使用t检验。
课上实例:
Next 在这里可以针对不同的自变量设置不同的筛选引入方法。Options 下一步:设置变量引入剔除的标准规则 Methot
自变量筛选的方法: Enter:所选变量全部引入模型 Stepwise:逐步引入法 Remove:剔除变量 Backward:向后消去法 Forward:向前消去法
结果:
第一个表格是
描述统计量 第二个表格是 相关系数矩阵
第三个表格是 列出模型引入以及剔除的变量,这里是强制引入法,所有变量引入模型 第四个表格是 模型拟合优度统计量 第五个表格是 模型显著性F检验
第六个表格是 每个回归系数显著性的t检验
第七个表格是 共线性诊断特征根有些接近0,有个别值特别大有严重共线性。条件指数如有个别维度值大于30,也说明有严重共线性!第八个表格是 关于残差的描述统计量 第九个表格是 残差的正态性诊断
多元回归
虚拟变量
前面几节所讨论的回归模型中,因变量和自变量都是可以直接用数字计量的,即可以获得其实际观测值(如收入、支出、产量、国内生产总值等),这类变量称作数值型变量。然而,在实际问题的研究中,经常会碰到一些非数值型的变量,如性别、民族、职业、文化程度、地区、正常年份与干旱年份、改革前与改革后等定性变量。
在回归分析中,对一些自变量是定性变量的先作数量化处理,处理的方法是引进只取“0”和“1”两个值的0−1型虚拟(dummy)自变量。当某一属性出现时,虚拟变量取值为“1”,否则取值为“0”。例如,令“1”表示改革开放以后的时期,“0”则表示改革开放以前的时期。再如,用“l”表示某人是男性,“0”则表示某人是女性。虚拟变量也称为哑变量。需要指出的是,虽然虚拟变量取某一数值,但这一数值没有任何数量大小的意义,它仅仅用来说明观察单位的性质和属性。
课上实列:
建立虚拟变量DU。设置逻辑运算,如果AREA==1时,DU=1,否则DU=0.结果:
逻辑回归
称为logistic模型(逻辑回归模型)。
我们的逻辑回归模型得到的只是关于P{Y=1|x}的预测。
但是,我们可以根据模型给出的Y=1的概率(可能性)的大小来判断预测Y的取值。一般,以0.5为界限,预测p大于0.5时,我们判断此时Y更可能为1,否则认为Y=0。如果该p值小于给定的显著性水平(如=0.05),则拒绝因变量的观测值与模型预测值不存在差异的零假设,表明模型的预测值与观测值存在显著差异。如果值大于,我们没有充分的理由拒绝零假设,表明在可接受的水平上模型的估计拟合了数据
课上实例:
将因变量放入dependent栏,自变量放入covariates栏中 可以把几个变量的乘积作为自变量引入模型作为交互影响项
线性回归一样,我们可以通过next按钮把自变量分成不同的组块,使不同的组块按顺序以不同的方式分步进入模型
Claification plots:制作分类图,通过比较因变量的观测值与预测值的关系,反映回归模型的拟合效果。
Hosmer-Lemeshow goodne-of-fit: H-L检验。
Casewise listing of residuals:显示个案的残差值(显示标准化残差超过两倍标准方差的个案或显示所有个案)
Correlations of estimates:输出模型中各参数估计的相关矩阵。
Iteration history:输出最大似然估计迭代过程中的系数以及log似然值。CI for exp(B):输出exp(beta)的置信区间,默认置信度为95% 在save选项中,我们可以选择需要保存的数据文件中的统计量。包括残差值、个案影响度统计量、预测概率值等等
结果:
第一部分有两个表格,第一个表格说明所有个案(28个)都被选入作为回归分析的个案。
第二个表格说明初始的因变量值(0,1)已经转换为逻辑回归分析中常用的0、1数值。
(2)第二部分(Block 0)输出结果有4个表格。(组块0里只有常数项,没有自变量)
(3)Omnibus Tests of Model Coefficients表格列出了模型系数的Omnibus Tests结果。
(4)Model Summary表给出了-2 对数似然值、Cox和Snell的R2以及Nagelkerke的R2检验统计结果。
(5)Hosmer and Lemeshow Test P值大于0.05,说明模型有一定的解释能力(6)Claification Table分类表说明第一次迭代结果的拟合效果,从该表格可以看出对于y=0,有86.7%的准确性;对于y=1,有76.9%准确性,因此对于所有个案总共有82.1%的准确性。
(7)Variables in the Equation表格列出了Step 1中各个变量对应的系数,以及该变量对应的Wald 统计量值和它对应的相伴概率。从该表格中可以看出x3相伴概率最小,Wald统计量最大,可见该变量在模型中很重要。B是回归系数的估计值 Wald系数的wald检验
Exp(beta)的估计值以及区间估计
(8)Correlation Matrix表格列出了常数Constant、系数之间的相关矩阵。常数与x2之间的相关性最大,x1和x3之间的相关性最小。
(9)图7-26所示是观测值和预测概率分布图。该图以0和1为符号,每四个符号代表一个个案。横坐标是个案属于1的录属度,这里称为预测概率(Predicted Probability)。纵坐标是个案分布频数,反映个案的分布。
(10)逻辑回归的最后一个输出表格是Casewise List,列出了残差大于2的个案。