统计简答题总结(材料)由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“统计学简答题总结”。
计数资料—计量资料—等级资料:1计数资料是先将观察单位按某种属性或类别分成若干组,再清点各组观察单位个数所得到的资料。如临床某些检验结果用阳性或阴性反应表示,如要调查某人群的血型分布,先按A、B、AB、O四型分组,再清点各血型组人数。计数资料每个观察单位之间没有量的差别,但各组之间具有质的不同,不同性质的观察单位不能归入一组。对这类资料通常是先计算百分比或率等相对数,需要时做百分比或率之间的比较,也可做两事物之间相关的相关分析。2计量资料是用仪器、工具或其它定量方法对每个观察单位的某项标志进行测量,并把测量结果用数值大小表示出来的资料,一般带有度量衡或其它单位。如身高(cm)、血压(mmHg)、脉搏(次/分)等,都属于计量资料。每个观察单位的观测值之间有量的区别,但同一批观察单位必须是同质的。对这类资料通常先计算平均数与标准差等指标,需要时做各均数之间的比较或各变量之间的分析。3还有一些资料,也是将观察单位按某种属性或某个标志分组,然后清点各组观察单位个数得来的,但所分各组之间具有等级顺序。这些资料既具有计数资料的特点,又兼有半定量的性质,称为等级资料或半定量资料。例如对一批急性病毒性肝炎患者作麝香草酚絮状试验,将试验结果按-、+、++、+++、++++分组,如某病住院病人的治疗结果,按治愈、好转、无效、死亡分组,同样各组之间具有顺序与程度之别。分析等级资料常用的统计指标有比和率,常用的统计方法有秩和检验、参照单位分析等。
根据分析研究的目的,计数资料与计量资料可以互相转化。定量—有序—分类—二值由高级向低级转化;但不能作相反方向转化。
二项分布,poion分布,正态分布的区别与联系:二项分布、poion分布式离散型概率分布,用概率函数描述其分布情况,而正态分布是连续性概率分布,用密度函数和分布函数描述其分布状况。Poion分布可以视为n很大而π很小的二项分布。当nπ和n(1-π)≥5的时候二项分布渐近正态分布,当λ≥20时poion分布渐近正态分布。
假设检验中两类错误的区别与联系:假设检验时,拒绝实际上成立的H0,犯第I类错误,俗称“舍真”错误;不拒绝实际上并不成立的H0,犯第II类错误,俗称“存伪”错误。犯第I类错误的概率用α表示,假设检验时,根据研究者的要求来确定;犯第II类错误的概率用β表示,它只有与特定的H1结合起来才有意义。对于某一个具体的检验来说,当样本量n一定时,α越小β越大;α越大β越小。
标准误的意义,标准误与标准差的区别与联系:样本均数的标准误可以反映样本均数之间的离散程度及抽样误差的大小。样本均数的标准误与原变量的标准差的区别:前者是表示均数变异的指标,后者是表示观察值变异的指标。两者联系:当样本量n一定时,标准误随标准差的大小而变化。
实验研究和调查研究的区别与联系:两者区别在于研究者是否人为地设置处理因素,即是否对研究对象施加了干预措施。实验研究中研究者可以主动施加干预措施,控制非实验因素的干扰,而调查研究则只是客观地反映事物的实际情况,为给予任何的干预措施。两者联系为其方法步骤基本相同,二者可以结合使用,可以起到取长补短的作用。
方差分析的基本思想:根据实验设计类型把全部观察值间的变异,即总变异按设计和需要分解成两个或多个组成部分,总自由度也分解成相应的几个部分,再做分析。分解的每一部分代表不同的含义,其中至少有一部分代表各均数间的变异情况,另一部分代表误差。析因设计:SS总= SSA+SSB+SSAB+SS
误差,VA=a-1 VB=b-1 VAB=(a-1)(b-1)(a为A因素的水平数,b为B因素的水
平数)重复测量:SS总=SS受试对象间+SS受试对象内=(SS处理+SS个体间误差)+(SS时间+SS处理与时间交互+SS个体内误差)
拉丁方设计:SS总= SS药液+SS部位+SS兔子+SS
误差二阶段交叉设计:SS
总=SS处理+SS阶段+SS受试对象+SS误差
T检验、方差分析应用的前提:1.独立性和随机性:各个样本是相互独立的随机样本2.正态性:对于因素的每一个水平,其观察值是来自服从正态分布总体的随机样本3.方差齐性:对于各组观察数据,是从方差相等的总体中抽取的线性回归模型适用的条件:1.线性:自变量和因变量之间的关系呈线性趋势 2.独立:每个个体观察值之间相互独立3.正态:在一定范围内,任意给定x所对应的y都服从正态4.等方差:在一定范围内,不同的x值所对应的y的方差相等
秩和检验为非参数检验,其主要的优点:(1)适用范围广:a等级资料b偏态分布资料c各组离散程度相差悬殊,即方差明显不齐d个体数据偏离过大或开口资料e分布不明的资料f初步分析,有些医学资料由于统计工作量大,先做非参数检验进行初步分析,再挑选其中有意义者再进一步分析g对于一些特殊情况,如从几个总体所获得的数据,往往难以对其原有的总体分布作出估计,这情况可以非参数检验。(2)方便简便、易于理解和掌握。主要缺点:损失信息量,适用于参数检验条件的资料用非参数检验,检验效能降低。回归系数的假设检验与OR的置信区间的联系:总体回归系数β的100(1-α)%置信区间为b±Za /2Sb,而OR的100(1-α)%置信区间为eb
±Za/2Sb
。故
OR=eβ,当变量X的回归β>0时,事件的优势比OR>1表明与X相应的因素为危险因素;当β
线性相关与回归的区别与联系:区别:(1)资料要求:线性相关要求XY服从双变量正态分布,对这种资料进行回归分析成为II型回归,即可以把X当做自变量,也可以当因变量,反之亦然。线性回归要求Y在给定X值时服从正态分布,X可以是精确测量和严格控制的变量,这时的回归成为I型回归,即不可以X当因变量,Y当自变量进行回归分析。(2)应用:线性相关用来表达两个变量间的互依关系,两个变量的研究地位是相等的,谁做X谁做Y都可以;线性回归用来表达两个变量间的依存关系,即一个变量如何依存另一个变量而变化,两个变量的研究地位是不相等的。(3)意义:相关系数r说明具有线性关系的两个变量之间的密切程度和相关方向;回归系数b表示X没变化一个单位所导致Y的变化量。(4)取值范围:-1≤r≤1,-oo<b<+oo。联系:(1)符号:对于既可作相关又可作回归的同一组资料,计算出的r与b正负号相同(2)假设检验:对于同一组资料,相关系数和回归系数的假设检验等价,即tr=tb(3)相互换算:对于同一组资料,b=r*SY/SX(4)用回归解
释相关:由决定系数R2=SS回/SS总可知,当总平方和固定时,回归平方和的大小决定了相关的密切程度,回归平方和越接近总平方和,则R2越接近1,相关的效果越好。
可信区间与参考值范围的区别 正态分布、t分布、卡方分布的特征和联系
(1)正态分布的特征①正态分布的形式是对称的,对称轴是经过平均数点的垂线。②中央点最高,然后逐渐向两侧下降,曲线的形式是先向内弯,再向外弯。③正态曲线下的面积为1。④正态分布有两个参数,即均数 和标准差。是位置参数,当 固定不变时,越大,曲线沿横轴越向右移动;反之,越小,则曲线沿横轴越向左移动。是形状参数,当 固定不变时,越大,曲线越平阔; 越小,曲线越尖峭。
(2)t分布的图形特征• 分布特征① t分布曲线是单峰的②关于t = 0对称③t分布与正态分布的关系: 自由度v较小时,t分布与标准正态分布相差较大,并且t分布曲线的尾部面积大于标准正态分布曲线的尾部面积; 当自由度ν →∞ 时,t分布逼近于标准正态分布。
(3)卡方分布特征①卡方曲线所围的面积和为1②卡方分布为在大于等于0(正数)范围的正偏分布③不同的自由度决定不同的卡方分布④卡方分布只有一个参数即自由度,为ν。卡方分布的平均数ν与方差2ν⑤卡方分布随着自由度增加而逐渐趋于对称,当自由度趋近于无穷大时,卡方分布趋近于正态分布 ⑥卡方分布的加法定理:两个独立的卡方随机变量相加所得的随机变量仍满足卡方分布,其自由度为其自由度之和。
可信区间与假设检验的比较
多重线性回归、Logistic回归、Cox回归的区别 同:常用作多因素分析
应用相对数时应注意哪些问题?⑴ 计算相对数的分母一般不宜过小。⑵ 分析时不能以构成比代替率。⑶ 不能用构成比的动态分析代替率的动态分析。⑷ 对观察单位数不等的几个率,不能直接相加求其总率。⑸ 在比较相对数时应注意可比性。⑹ 对样本率(或构成比)的比较应随机抽样,并做假设检验。
应用直线回归和相关分析时应注意哪些问题?⑴作回归分析和相关分析时要有实际意义,不能把毫无关联的两种现象作回归、相关分析,必须对两种现象间的内在联系有所认识。⑵在进行回归分析和相关分析之前,应绘制散点图。但观察点的分布有直线趋势时,才适宜作回归、相关分析。如果散点图呈明显曲线趋势,应使之直线化再行分析。散点图还能提示资料有无可疑异常点。⑶直线回归方程的应用范围一般以自变量的取值范围为限。若无充分
常用的概率抽样调查方法的比较
理由证明超过自变量取值范围外还是直线,应避免外延。⑷双变量的小样本经t检验只能推断两变量间有无直线关系,而不能推断相关的紧密程度,要推断相关的紧密程度,样本含量必须很大。⑸相关或回归关系不一定是因果关系,也可能是伴随关系,有相关或回归关系不能证明事物间确有内在联系。
各抽样方法的抽样误差一般是:整群抽样单纯随机抽样系统抽样分层抽样 频率与概率的区别与联系:频率是一个具体的,实际的,就是说一件事产生多次,其中某情况发生了几次。频率是个试验值,或使用时的统计值,具有随机性,可能取多个数值。因此,只能近似地反映事件出现可能性的大小。概率是一个抽象的,理论的,就是说一件事产生多次,某情况应该发生几次。概率是个理论值,是由事件的本质所决定的,只能取唯一值,它能精确地反映事件出现可能性的大小。概率能精确反映事件出现可能性的大小,但它通过大量试验才能得到,这在实际工作中往往是难以做到的。从应用角度来看,频率可以从所积累的比较多的统计资料中得到。统计上常用频率代替概率,以概率的计算方法来计算频率。