环境统计学总结doc由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“统计学内容总结全”。
总体:一个统计问题研究对象的全体,具有某种共同特性的元素集合个体:组成总体的每个基本单元的个体
样本:从总体中按一定方法抽取部分具有代表性的个体所组成的群体
抽样:按相等的时间间隔抽取样值的过程
误差:测量结果与被测量真值之差。
残差:指实际观察值与模型值的差异。
过失误差:观测中某种不应有错误而造成的所得数据与事实显著不符的误差。例如记录误差、读数误差、试剂误差、样品错误以及仪器出了毛病而未被发觉所带来的错误。不管是何种原因造成过失误差,只要明确所得测量值是上类性质,就应将该值作为异常值予以舍弃
偶然误差:(也称随机误差或或然误差)观测中因环境中不易察觉的随机因素而导致的误差。÷。在同样条件下,虽经多次重复观测。但观测总是存在差异,这种差异就是偶然误差,它们出现一般有确定的概率。随着观测次数的增多,偶然误差的平均值逐步趋近于零
系统误差:在一定条件下因某种原因引起有确定性规律的误差。例如:试验中因方法不够完善而导致的误差,或因环境有显著改变而引起的误差等。系统误差分为固定系统误差和有周期性变化的系统误差。系统误差数值常常是可估计的精密度:观测某一定值时所得观测值的离散程度。它常用标准差或变异系数来量度
准确度:在一定条件下度量观测平均值与真值间一致性接近程度,它常用系统误差来表示 连续变量:取值精度至少在理论是无限的。即在连续量的任意两个取值之间可以插入无穷多个中间值。换言之,只要测定手段允许,一个连续量得任意两个取值不可能相等。自然科学中遇到的大多数变量,如温度,压力,体积,重量,浓度,ph值,噪声强度都是连续变量 离散变量:其特点在于其可能的取值仅限于如0、1、2、3、。。。这样的正整数,即计数值。人口、植株和菌落等都是典型的离散变量
顺序变量:在没有高水平测量手段的情况下,只能借助肉眼观察或类似方法对样本进行考察,得到的结果是按大小顺序排列的顺序值(即秩),秩只有相对顺序意义而绝无大小意义,二元变量:所观察的实体对象仅仅具有两个对立的属性。通常用0和1来表示这种存在与否或两种对立的状态,故也称0-1变量。例如人类性别,只有男女两种对立状态,则分别记为0与1
无序多元变量:指具有两个以上状态且每个状态互为独立而又无一定顺序的属性。如颜色、季节、岩石类型等,其若干取值只有相同和不同的区别而无任何与大小相关的顺序变量 双侧概率(两尾概率):把随机变量x落在平均数μ加减不同倍数标准差σ区间之外的概率,记作α
单侧概率(一尾概率):对应于双侧概率可以求得随机变量x小于μ-kσ或大于μ+ kσ的概率,记作α/2
大小特征参数(位置特征参数:它是表示环境观测集中趋势的一类参数,常见的大小特征参数包括平均值、中位数和众数
离散特征参数:所谓离散特征,是指个体的聚集或分散程度,或者说它们距离分布中心的远近程度。可以表示离散特征的参数很多,常用的有平方和、方差、标准差、变异系数、几何标准差、范围等
分布特征参数:用于描述总体或样本的分布特征,即偏锋系数或分位数
类型变换:对环境研究的变量类型进行转换,一般是高测量水平的变量向低测量水平进行变换,尽管这种变换会造出数据信息的损失,但在某些情况下,这种变换又是必需的 线性变换:指对观测数据进行加减乘除的运算
分布变换:是指对观测样本的分布形态进行变换。最常见的是正态变换,它将非正态分布数据转化成正态分布数据
相似系数:用于定量比较两个变量或两个样本之间相似程度的指标。当两个变量或两个样本完全不同时,其相似性为零,表征相似性的系数主要是内积系数,它包括离差系数、协方差系数与相关系数
相异系数:是相似系数的补数,其数值大小反映的是变量间或样本间的差异程度。当两个变量或两个样本完全一致时,其相异性为零。常用的相异系数是距离系数
区间估计:是从样本统计量去估计、研究总体参数的可能取值范围
点估计:是估计、研究总体参数的可能取值情况
置信水平:置信度的互补概率,1-α
显著性水平:落在拒绝域的小概率,用α表示
原假设(零假设):是指对检验的直接对象作出的假设,记为H0.对立假设(备择假设):如果检验结果拒绝原假设时必须接受的另一种可能假设称为对立 H1:备择假设,一旦否定原假设就接受它
双侧检验:假设检验的否定域分别位于检验统计量抽样分布的两个尾部
单侧检验:否定域在检验统计量分布的一侧
第一类错误:当原假设实际上是正确的,而依据某一样本作出拒绝原假设的判断,将正确的假设误认为是错误的,(以真为假)
第二类错误:当原假设实际上是错误的,而依据某一样本作出接受原假设的判断,将错误的假设误认为是正确的,(以假为真)
单因素方差分析:试验中只有一个因素,比较因素各水平上指标值之间的差别
双因素方差分析:试验中有两个因素变量,考虑两个因素的变化对指标值的影响
小概率原理:把小概率事件在一次试验中看成是实际不可能发生事件称为小概率事件实际不可能性原理
方差:度量总体或样本各变量间变异程度的参数或统计量
方差分析:以线性函数平方和为统计量的统计分析
统计量:描述样本特性的量
相关系数:度量两个随机变量间关联程度的量。相关系数的取值范围为(-1,+1)。当相关系数小于0时,称为负相关;大于0时,称为正相关;等于0时,称为零相关
线性回归:在变量的函数关系中,X、Y之间存在线性函数关系
三大统计分布:卡方、T、F分布
根据变量的观测水平可以将它们划分为:定量变量(连续变量、离散变量、和顺序变量)与定性变量即类型变量(二元变量和多元变量)
根据变量的取值能否由研究者加以控制可将其分为:随机变量和固定变量
误差按其产生来源分为:过失误差,偶然误差和系统误差
系统误差与偶然误差之和,称为:综合误差
模型一般分为:物理模型、语言模型和数学模型
响应指标的类型:正向指标、负向指标、区间指标
三种重要的概率分布:正态分布、二项分布、泊松分布
统计特征参数:总体特征参数与样本特征参数
统计特征参数可按照说描述的总体或样本特征类型分为:大小特征参数、离散特征参数和分布特征参数
总体分布形态的两个重要特征是:偏斜度(左偏态,右偏态)与峰态(低峰态,尖峰态)剔除异常值的方法:概率剔除与非概率剔除
数据变换类型:类型变换、线性变换、分布变换
统计推断包括:参数估计(点估计与区间估计)和假设检验
假设检验方法按是否依赖某些总体参数而分为:参数检验方法与非参数检验
总体大小特征的假设检验方法:正态U检验与t检验
检验临界值的确定的条件:(1)概率水平:由显著性水平α和单侧、双侧来确定。(2)自由度:由样本量确定。(3)概率分布表:由假设检验方法确定
多重比较常用的方法:最小显著差数法和最小显著极差法(q法和邓肯新复极差法)相关关系按其形成原因分为:直接相关和间接相关
正态分布的特征:
(1)正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为x=µ;
(2)f(x)在x=µ处达到极大,极大值f(µ)=;
(3)f(x)是非负函数,以x轴为渐近线,分布从-∞到+∞;
(4)曲线在x=µ±σ处各有一个拐点,即曲线在(-∞,µ-σ)和(µ+σ,+∞)区间上是
下凸的,在(µ-σ,µ+σ)区间内是上凸的;
(5)正态分布有两个参数,即平均数µ和标准差σ。µ是位置参数,当σ恒定时,µ愈大,则曲线沿x轴愈向右移动;反之,µ愈小,曲线沿x轴愈向左移动。σ是变异度参数,当µ恒定时,σ愈大,表示x的取值越分散,曲线越“胖”; σ愈小,x的取值越集中在附近,曲线越“瘦”。
(6)分布密度曲线与横轴所夹的面积为1。
三个重要的概率分布的关系
三个重要概率分布中,正态分布属连续随机变量的概率分布,二项分布、泊松分布属离散型随机变量的概率分布。
对于二项分布,在n→∞,p→0,且np=λ(较小常数)情况下,二项分布趋近于泊松分布。在这种场合,泊松分布中的参数λ用二项分布np代之。
2在n→∞,p→0.5 时,二项分布趋向于正态分布。在这种场合,正态分布中的μ、σ 用二
项分布的np、npq代之。在实际计算中,当p0.1且n很大时,二项分布可由正态分布近似。
对于泊松分布,当λ→∞时,泊松分布以正态分布为极限。在实际计算中,当λ>=20(也有
2人认为λ>=6)时,用泊松分布中的λ代替正态分布中的μ及σ,即可由后者对前者进行
近似计算。
异常值的的剔除原理
异常值是一个样本中出现概率很小的观测值,又称离群值,即在相同条件下,因某种原因造成的显著偏离样本中值的个别数据。异常值的剔除原理是假设检验,它是建立在观测值误差服从随机抽样与正态分布(高斯误差定律)的基础下。即在选定的可靠性概率条件下,根据某些检验方法作出某个或某些观测值是否属于异常的判断。可以主观地确定这一最大允许错误的概率记为α,用以表示某观测值并非异常,而检验结果将它判断为异常的可能性,通常取α=0.05,这意味着如果检验结果认为某值时异常,该结论不正确的几率不会大于5%。由此可见,研究者可以通过改变α。值来调整检验方法的严格程度。假如宁可错误地剔除非异常数据,也 不愿放过可能的异常值,那么应当选择大一些的α值;反之,如果要求尽量不作错误剔除,那么可用较小的α值进行检验。
异常值的剔除程序:
首先将观测值从小到大依次排列,将两端的最小值x1及最大值xn作为第一轮的检验对象;第二步是根据样本容量大小及其分布特征选择相应的检验方法,并计算x1及xn的检验统计量;第三步是根据事先确定的检验水平α与样本量n查验相应的临界值;第四步是将检验统计量值与临界值进行比较,由此统计推断出检验结果。如果x1被剔除,依次检验x2、x3,…,直到某值不为异常值时停止;如果xn被剔除,则依次检验xn-
1、xn-2,…,直到某值不为异常值时停止。
距离系数满足的条件
(1)同一点的不可区分性。若A=B,则d(A,B)=0
(2)相异点的可区分性。若A≠B,则d(A,B)≠0
(3)对称性。d(A,B)= d(B,A)
(4)三角不等式公理。d(A,B)≤d(A,C)+d(B,C)
假设检验的对象
假设检验师指对不完全了解的总体特征提出某种假设,然后根据样本资料对所作假设进行检验与判断。根据总体不同的 特征。假设检验可以分为以下四类:
(1)关于总体离散大小的假设检验;例如比较一个总体的均值是否等于或大于某一特定
值,比较两个总体的大小是否有明显差异,以及比较多个总体的大小是否一致。
(2)关于总体离散特征的假设检验;例如检验一个总体的方差是否在某特定值之下,或
者判断两个总体的方差是否一致。
(3)关于总体分布形式的假设检验;例如检验一个总体是否服从正态分布、对数正态分
布或某种特定的理论分布以及比较两个总体的分布形式有没有明显区别。
(4)关于总体综合特征的假设检验;这类检验是指不加区分地对总体各方面的特征进行
综合比较,即比较两个或多个总体是否在大小、分散程度及分布形式有没有明显区别。
(5)关于异常值的假设检验;事实上,异常值的剔除也是一种假设检验。即当怀疑某个
观测值为异常值时,可首先假定该值不是异常值,然后用特定的方法按特定的准则,对接受还是拒绝这一假设作出判断。
假设检验基本步骤
(1)用统计语言表达有关假定,即提出统计假设。
(2)确定显著性水平,即允许犯第I类错误的概率为α。
(3)选择适当的统计检验方法。
(4)根据样本数据计算有关检验统计量
(5)根据检验量的抽样分布、显著性水平α以及自由度等从有关统计用表中查出检验临
界值。
(6)比较检验统计量的计算结果与临界值,决定是否拒绝检验的原假设。
假设检验方法选择
参数检验是指在模型的建立及检验中借助了总体的某些参数,并针对这些参数规定了一些条件,又称经典检验方法。参数方法对数据有较严格的要求,只能适用于定量变量中的连续变量与离散变量。其优点在于:(1)能够充分利用连续数据与离散数据中的高信息含量,其检验功效(1-β)高于相应的非参数检验方法。(2)少数问题到目前为止尚无合适的非参数检验方法能够解决,如因子的交互作用显著性只能使用参数检验。
非参数检验在模型的建立和检验过程中,不涉及任何总体参数,故又称无分布检验。与参数检验相比,非参数检验虽然对高测量水平数据信息利用不够充分,但由于其模型条件简单,具有以下优点:(1)不要求样本服从各种假定。这在样本量较小时以及当观测值来自几个有明显差异的总体时尤为重要。此时参数检验所需要的各种假定往往难以满足。(2)不受少数异常值的干扰,而异常值的剔除在样本量较小时比较困难。(3)可以适合于各种类型的变量。(4)计算简便。
正态检验与t检验的比较
正态检验的使用条件必须是样本服从正态分布,而且还必须是大样本量情形(n)100)。样本量较小时,从正态分布总体中得到的样本 从属于学生t分布,这时应改用t检验而不是正态检验对总体均值进行比较。另一方面,可以将正态分布视为自由度为无穷大时的学生t分布特例,对大样本量的数据,t检验方法仍然有效。
方差分析的基本假定
(1)可加性;即试验处理效应、环境效应以及试验误差应该是“可加”的。方差分析所
依据的数学模型是线性可加模型,可加和性是方差分析的主要特性。当以样本估计时,“可加性”可表示为:SST=SSr+SSe
2(2)正态性;即试验误差应是独立的随机变量,并服从正态分布(0,α),这是因为
多个样本的F检验,是假定k个样本是从k个正态总体中随机抽取的,因而试验误差一定是随机的,且服从正态分布。
(3)同质性;也称“方差齐性”,是指试验所有处理的误差方差是同质的,即具有共同的误差方差。这是因为方差分析师将各处理的误差合并为一个共同的误差方差,以作为显著性检验共用的误差项方差。
最小显著差数法(LSD法):检测程序:是在处理间的F检测为显著的前提下,计算出显著水平为a的最小显著差数LSDa;任何两个处理平均数间的差数(xi-xj)若绝对值≥LSDa,则为在a水平上差异显著;反之,则为在水平上差异不显著。这种方法又称为保护性最小显著差数法。LSD法实质是t检验。
最小显著极差法简称LSR法。其特点是把平均数差数看成是平均数的极差,根据极差范围内所包含的处理数(称为秩次距)K的不同而采用不同的检验尺度,以克服LSD法的不足。这些在显著水平a上依秩次距K的不同而采用的不同的检验尺度叫最小显著极差LSR。判断估计量的优劣标准
最小二乘法与线性回归系数: 线性回归都可以通过最小二乘法求出其方程,可以计算出对于y=bx+a的直线。在研究两个变量(x, y)之间的相互关系时,通常可以得到一系列成对的数据(x1, y1、x2, y2...xm , ym);将这些数据描绘在x-y直角坐标系中,若发现这些点在一条直线附近,可以令这条直线方程y=bx+a