读书报告2讲稿(推荐)由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“读书报告演讲稿”。
完全忽略高斯-马尔科夫定理(虽然这是回归分析中最重要的定理)和假设检验,置信区间估计等等
一、背景
1、问对的问题
对于线性回归,我们的问题是最小化残差平方和RSS
一般而言,我们紧接着就要使用最小二乘方法来求解该最优化问题了。然而,我们应该思考另一个更为重要的,也是一个往往容易被我们忽视的问题—— “我们提的问题到底对不对???”
这个问题很重要,最先提出线性回归方法,提出残差平方和概念的人一定是思考过这个问题的。我们的目的是什么?Brieman在21世纪之初时已经提出过统计学要与时俱进,不应该局限在基于设计的试验所得到的数据的建模和分析,不要局限于数据模型(我想他所指的,应该是产生数据的分布),而应该着手来处理更多复杂的数据,比如在处理基因问题,图像处理,互联网等问题时所产生的数据。这些数据维度更高,更复杂。如果按照传统统计学建模的模式,去发掘这些数据的数据模型,显然是问错了问题。预测,分类,模式识别这样问题的提出,才发展了各种学习算法。
为什么要使用RSS。我们的目的,是通过观测的数据建立模型来进行预测。而预测是针对未观测的样本的,因此,我们用以衡量模型的真正标准应该是在检验集上预测的成功率。或者从另一个角度来讲,是我们预测失误的风险。而风险函数是假设我们已知数据分布函数情况下的泛函积分。而事实上,我们并不知道数据的分布函数(如果我们已经知道了分布函数,我们也没必要建模了),因此,我们需要利用观测样本建立风险泛函的估计值。高等数理统计中学到的MSE.2、MSE
均方误差可以分解为方差和偏差两部分。
RSS最小准则保证了偏差最小,而高斯-马尔科夫定理证明了,在无偏估计中,最小二乘估计的方差最小。
那么,无偏性是必须要作为首要保证条件的吗?在什么情况下我们可以牺牲无偏性?
3、统计背景
MSE准则告诉我们,在小幅度牺牲无偏性可以大幅度降低方差时,应该选择有偏估计而不是无偏估计。
情形1:牺牲无偏性可以提高全局预测精度;
高斯马尔科夫定理:
在误差零均值,同方差,且互不相关的线性回归模型中,回归系数的最佳无偏线性估计(BLUE)就是最小方差估计。一般而言,任何回归系数的线性组合的最佳无偏线性估计就是它的最小方差估计。在这个线性回归模型中,误差既不需要假定正态分布,也不需要假定独立(但是需要不相关这个更弱的条件),还不需要假定同分布。(大样本情形下)
在不满足这些假设条件的时候,RSS准则还是最好的吗?
情形2:输入具有重共线性; 过拟合。
情形3:自变量个数p过多,引入过多的干扰,丧失了对主要特征的体现;
4、几何背景
最小二乘法得到的Y的估计量为:
很熟悉的,我们称H=
为帽子矩阵。但同时,也是对Y进行了一次线性变化,在几何上又被看成投影。也就是说,我们将Y在另一个平面上的投影作为了它的估计值。这个平面就是p个自变量(输入变量)所张成的空间,最小二乘系数就是这个投影Y的坐标。RSS就是Y到该平面的距离的平方。
那么,显然,当自变量高相关时,即具有复共线性,这个输入空间现有的基向量很可能并不能张成一个p维的空间,而是只能张成它的一个子空间,于是得到的坐标个数就小于p;或者勉强能张成一个p维空间,但是会导致在某些基的方向上的坐标很大,而另一些很小。
是不是有更好的模型?
5、代数背景
样本容量N和输入变量个数p,在代数背景下分别是方程组中方程的个数和未知量的个数。当N=p时,直接解方程; 当N>p时,矛盾方程,无解; 当N
最小二乘法的应用是在N>p的情况下,可以求出“误差”最小(此处就是RSS)的解。此处也暗合了统计学从数据中获取信息的性质,希望样本尽可能的多。
但是当p接近N或者p>N时,显然最小二乘法就不是那么好了。
为什么呢?
接下来的内容尝试从矩阵运算的角度,来理清复共线性的影响。
首先,我们将问题写成矩阵形式
首先考虑X列满秩的情况,XTX是正定的,我们令
这就是一个解方程组的问题。这种情况下,我们得到的便是耳熟能详的最小二乘估计
当X列不满秩,也就是X列之间具有线性关系,也就是X列不独立的时候,我们解方程组的问题得到的解便不唯一。这是对复共线性最简单的解释。
回顾回归方程的典则形式:要求输入都正交,没有截距。为什么提出? 下面从算法的角度来看看最小二乘法是怎么算出来的。对于一元线性回归(不含常数项)的情况:
我们有,定义内积为:= 则有:
对于多变量线性回归,如果输入变量之间是正交的,即=0,那么我们可以验证:βj=/。也就是说,对于正交的输入变量,其回归系数就是相应的一元回归的变量系数,而不受其他输入变量的影响。
然而,除非是经过正交设计的实验得到的数据,一般而言,观测样本很难是正交的。因此,便提出了先使用Gram-Schmidt正交化方法处理输入变量,生成输入空间的正交基,然后在正交基上进行回归。可以验证,得到的回归系数就是原来变量的回归系数。
算法
具有可加性!
对以上过程,从矩阵分解角度看,就是QR分解: QR分解提供了输入变量空间的一组正交基
其中Z的列为zj,Γ为上三角阵,元素为γkjˆ。令D为对角阵,对角元素为∥zj∥,则 X=ZDD−1Γ=QR 我们有
βˆ=R−1QTy yˆ=QQTy 这个相比最原始的最小二乘估计的式子要明显好解的多。看另一种分解:奇异值分解
其中,UV是正交矩阵,D是对角矩阵,对角线元素为X的特征值。若有是奇异的。
最小二乘估计有:
则X是非满秩的,这也就是说U也是一组输入变量空间的正交基。(和QR分解得到的正交基不同的另一组正交基)。
看样本方差:S=X’X/N,有,u1是标准化的z1,则有:,令
对应的特征向量为vj,可以看出,对X的奇异值分解给出了一个较好的正交基。
二、主要方法
三、意义
LASSO和LAR Efron对于逐步回归的一种看法,就是在某个标准之下(比如LARS的标准就是要保证当前残差和已入选变量之间的相关系数相等,也就是当前残差在已入选变量的构成空间中的投影,是那些变量的角平分线)选择一条solution path,在这个solution path上proceed,不断吸收新的变量进入,然后调整solution path 继续proceed。Lao和Boosting Efron结论是Lao和Boosting的确有很紧密的数学联系,它们都可以通过修改LAR得到。更令人惊叹的是LAR具有非常明确的几何意义。