本文是一篇文献综述,文献综述根据研究的目的不同,可分为基本文献综述和高级文献综述两种。基本文献综述是对有关研究课题的现有知识进行总结和评价,以陈述现有知识的状况;高级文献综述则是在选择研究兴趣和主题之后,对相关文献进行回顾,确立研究论题,再提出进一步的研究,从而建立一个研究项目。(以上内容来自百度百科)今天网为大家推荐一篇文献综述,供大家参考。
第一章 引 言
1.1 文献综述
在统计学中, 如何从众多备选模型中选出一个最佳的模型是一个重要的研究课题.通常情况下会考虑使用某一族统计模型来描述已有的数据, 并且使用建立起来的模型来预测未来的数据. 在选定某一族的统计模型之后, 具体相关变量的选择是很多领域都会遇到的难题. 然而究竟是哪几个协变量对响应变量产生影响呢?该使用哪几个协变量建立模型呢?也就是说在由协变量组成的多个模型中选出最好的一个模型, 是一个值得研究的问题. 很多领域的研究中都涉及到变量的选择 [1–6]. 实际数据分析中往往假设收集到的数据是来自于一个真实的模型的, 即假设数据从该真实的模型产生. 然而, 这个真实的模型, 往往又是及其复杂的, 甚至是无限维的, 这是因为实际中的数据值受到很多变量的影响, 甚至有的时候, 很多起影响作用的变量值是很难获得的. 所以需要从已有的备选变量所组成的众多备选模型中, 选取一个模型, 来最好的代替真实的模型. 而建立模型对于未来数据的预测, 也是十分重要的. 那么究竟什么是“最好”的模型呢?不同的领域, 不同的人, 都对于“最好”的定义有不同的理解. 有的时候, “最好”指的是在数据拟合方面, 一般情况下, 如果真实模型与备选模型的“距离”越短, 就说这个模型越好; 有的时候, 最好指的是在未来数据预测方面, 预测的越准就说备选模型越好.很多统计学的方法都可以在某种意义下, 选出适合的相关变量, 比如说用于计算误差的 MAE, MAPE, RMSE 等, 用于衡量拟合优度的 R2, Cox, Snell r2, Nagelkerker2以及 MDL [7] 等 [8], 几种常见的计算拟合优度的方法可以参见 [9]. 通常情况下模型越复杂, 该模型所对应 R2的值也就越大, 因此 R2会选中最为复杂的模型, 这会导致严重的过度拟合问题. 相较于 R2, Adjusted R2应用更为广泛, 该方法在考虑模型拟合优度的情况下, 也进一步惩罚复杂的模型.
........
1.2 预备知识
在接下来的部分主要讨论应用广泛的信息准则 AICc. 实际数据分析中, 通常假设获得的数据是来自于某一个模型的, 这个模型称为真实模型, 可是真实模型是未知的, 所以需要选择一个备选模型来进行数据的分析与预测, 此时希望备选模型与真实模型的“距离”越小越好. 不同的模型对应着不同的密度函数, 真实模型与备选模型的“距离”, 也可以说是两个相应密度函数之间的距离. 因此, 可以通过两个模型所对应的两个密度函数的 K–L 距离 [14], 来表示备选模型与真实模型之间的“距离”, K–L 距离越小, 表明两个密度函数之间的“ 距离”也就越小. 模型这一概念与统计学紧密相关, 也在各个学科的数据分析中有很多的应用. 模型结构从简单到复杂, 种类丰富, 使用范围也十分的广泛. 本文对于信息准则的讨论,主要集中在几种常见模型家族的基础上.本节讨论的线性模型, 是最基本的也是最简单的模型, 然而又是应用最为广泛的一个模型, 构建线性回归模型的变量选择是统计学中一个重要的研究课题 [53]. 本节的理论阐述主要基于 [27]. 在线性模型的框架下, 本节详细的给出信息准则 AICc 公式的推导过程.
........
第二章 一种新的信息准则—bAICcAICc
在样本容量较小情况下的表现优于 AIC, 随着样本容量的增大, 两者的表现情况就趋近于相同了 [15]. Hurvich 和 Tsai [27,28] 使用了数值模拟以及真实数据集的分析展示了 AICc 在线性模型以及广义线性模型框架下的优势. Hurvich 和Tsai [27, 28] 的结果显示当样本容量 n 很小时, AICc 的效果要优于 AIC. 这是因为AIC 存在过度拟合的问题, 因此与其他变量选择的信息准则相比, AIC 趋向于选择一个参数较多的模型, 这可能就会导致过度拟合的问题 [59]. 另一方面 AICc 的惩罚项要强于 AIC, 这使得含有过多变量的模型的相应的 AICc 值也趋向于偏大, 而 AICc 值最小的模型是最好的模型, 也因此克服了 AIC 过度拟合的问题. 然而从 AIC 和 AICc 的公式可以看出, AICc=AIC+2(p + 1)(p + 2)/(n p 2), 所以当样本容量 n 增大的时候, AICc 第二项 2(p + 1)(p + 2)/(n p 2) 的值趋近于零. 因此在样本容量较大的时候 AIC 和 AICc 的效果就趋近于相同了. 与 AIC 相比, AICc 随着样本容量增大失去了它的优势. Burnham 和 Anderson [60] 表示 AICc 在小样本情况下优于 AIC, 随着样本容量 n 的增加, AICc 会收敛于 AIC. 因此相较于 AIC, AICc 应该得到更多的应用. 本章针对 AICc 在小样本下的优势, 详细介绍一种新的信息准则, 即分块 AICc(bAICc) [61], 本节详细的探究了 bAICc 的性质, 并且在线性模型框架下给出 AICc 与bAICc 相合性的三个定理. 在接下来的章节中进行了大量数值模拟实验的对比.
2.1 AICc 的缺点与优点
本节在上一章的线性模型以及广义线性模型的框架下, 将 AIC 与 AICc 进行对比,并且基于对比的结果, 探讨 AICc 的不足, 从而引出新的信息准则的想法.Hurvich 和 Tsai [27, 28] 在样本容量较小的情况下使用了 AICc, 并且与 AIC 进行了对比, 描述了 AIC 与 AICc 在选择正确模型方面的表现情况, 以体现 AICc 的优势. 本小节仿照他们的模拟实验, 区别在于, 在 [27,28] 中协变量组合成备选模型的时候, 协变量是按照嵌套的模式组合成备选模型的. 也就是说如果一共考虑 p 个变量并且这 p 个变量已经按照一定的顺序排好, 则维数为 p 的备选模型是由 p 个协变量中的前 p 个协变量按照原来的顺序组合而成的, 其中 p ≤ p. 因此如果考虑 p 个备选的协变量, 一共只有 p 个备选的模型. 而在接下来的模拟中, 备选模型是备选的协变量按照任意模式组合而成的, 因此对于 p 个备选的协变量, 共有 2p 1 个备选的模型; 另外,在 [27,28] AIC 与 AICc 的对比中, 固定了产生数据的各个协变量的回归系数, 而嵌套模式下, 回归系数的大小排列方式有可能会影响到各个信息准则的表现情况. 为了更好的比较, 本节的每一次模拟中真实模型的协变量回归系数是随机产生的. 重复进行了 1000 次模拟实验, 在每次的模拟实验中, 首先产生一个真实模型的回归系数向量,在保持真实系数不变的情况下, 考虑样本容量从小到大, 因此在系数不变的情况下, 可以比较 AIC 与 AICc 的表现情况是否与样本容量有关, 比如两个信息准则, 是否都随着样本容量的增加, 而表现情况越来越好; 同样, 在同一种样本容量下进行的 1000 次随机模拟, 真实模型不同回归系数下的模拟, 也可以检验两个信息准则在真实模型不同回归系数前提下的表现情况. 在 Hurvich 和 Tsai [27,28] 的模拟中, 使用了备选模型的维数是 p = 7 并且进行了 100 次模拟, 由于变量是按照嵌套的模式来组合成备选模型的, 所以一共只有 7 个备选模型. 而我们考虑变量按照任意方式组合成备选模型,如果也考虑 p = 7, 则一共有 127 个备选的模型, 并且他们的模拟是在样本容量不变的情况下. 而本小节对于每一个回归系数向量, 都考虑样本容量 n = 10,20,...,1000, 一共考虑 100 种样本容量, 因此模拟量会变得非常巨大. 不失一般性, 考虑选取一个相对较小的 p, 假设 p = 4 (即便如此, 因为考虑四类回归模型, 且每一类的回归模型下模拟次数是 1000 次, 并且样本容量有 100 种不同的大小, 备选的模型也有 15 个, 因此模拟量仍然是十分巨大的), 而真实的模型是由前 2 个变量构成的, 即 p0= 2.
............
2.2 一种新的信息准则—bAICc
从上节可以看到, 在样本容量较小的情况下, AICc 选中真正模型以及在克服过度拟合方面, 都明显要优于 AIC, 然而随着样本容量的增加, 虽说两个信息准则的表现也得到了提升, 但是 AICc 失去了相对于 AIC 的优势. 如何能够充分利用相对小样本情况下 AICc 的这种优势呢?一个自然而然的想法就是, 当对于一个样本容量相对较大的样本进行变量选择的时候, 是否可以考虑从原始样本中抽取若干个样本容量较小的样本, 然后对于这些小样本使用 AICc, 来代替直接在原始样本容量较大的样本上使用AICc, 这样可以更大限度的发挥 AICc 的优势. 基于这样的想法, 我们提出一个新的信息准则, 在下面称该信息准则为分块 AICc, 记为 bAICc [61].
..........
第三章 数值模拟 333.1 固定回归系数情况下 p 个备选模型选择的模拟研究.......34
3.1.1 线性回归模型的变量选择.......34
3.1.2 二项回归模型的变量选择.......37
3.1.3 泊松回归模型的变量选择.......39
3.1.4 伽玛回归模型的变量选择.......39
3.2 随机回归系数情况下备选模型选择的模拟研究.......42
3.2.1 线性回归模型的变量选择.......43
3.2.2 二项回归模型的变量选择.......44
3.2.3 泊松回归模型的变量选择.......45
3.2.4 伽玛回归模型的变量选择.......46
3.3 分块思想结合 BIC 方法与 bAICc 的对比研究.......48
第四章 实证分析.......53
4.1 婴儿出生率数据分析.......53
4.2 蜗牛死亡率数据分析.......56
4.3 鱼类寄生虫感染数据分析.......58
第五章 结论.......63
第四章 实证分析
从上一章的数值模拟可以看到, 与其余几个常见的信息准则相比, BIC 及 bAICc在进行协变量选择上都是表现最好的两个信息准则. 但是在实际数据分析中, 由于数据常常是存在扩散系数的, 所以在建立模型的时候需要给数据拟合一个带有扩散系数的拟似然模型. 而在拟似然的情况下, 极大似然估计是无法计算的, 也因而无法计算BIC 的值, 而 AIC 与 AICc 的值仍然可以根据 (1.2.26) 计算得到. 本章的实证分析中,所分析的三个数据集的数据都存在扩散的情况, 因此在进行相关变量选择的时候, 仅仅计算 AIC, AICc, Cp, Cp* 以及 bAICc.二项回归模型和泊松回归模型是在实际数据分析中经常使用的两类模型. 二项回归模型经常被用来研究生存数据, 而泊松模型经常被用来研究种群数量, 种群密度等.本章通过对实际数据集建立模型时选择协变量的分析, 来比较 bAICc 与其他信息准则的优劣. 章节 4.1 是婴儿出生率的数据集, 章节 4.2 是一个蜗牛死亡率的实际数据集,章节 4.3 是一个鱼类寄生虫数量的数据集.
4.1 婴儿出生率数据分析
为了进一步探讨 bAICc 在变量选择方面的表现情况以及进一步比较各个信息准则, 现在考虑另外一种情况. 一般当协变量比较少, 样本容量也比较小的时候, 往往包含所有协变量的模型就是最好的模型, 这或许是由于当协变量比较少时, 较小的样本容量建模并不能排除个别虚假的协变量. 接下来人为的添加一个与响应变量无关的协变量 X4, 然后检验各个信息准则在选择正确协变量上的表现情况, 其中 X4是服从独立同分布的标准正态分布的随机变量, 数据量是 70. 如果一个信息准则是有效的, 那么这个信息准则应该可以在相关协变量选择的时候, 排除人为加入的这个与响应变量无关的变量 X4, 并且概率较高的选出真正相关的变量. 因此重复进行 100 次模拟实验, 每一次模拟都随机的生成随机变量 X4的一组观测值, 在计算 bAICc 的时候, 仍然选取 B = 1000 做为分块的数目.由于人为添加了一个虚假的协变量 X4, 所以在进行模型选择的时候一共有四个备选的协变量, 则共有 24= 16 个备选的模型, 其中所有的备选模型都包含有一个常数项. 表格 4.3 中的模型 I 是包含了常数项, 变量 X1, X2和 X3的备选模型, 也就是正确的模型, 模型 V 是包含常数项, 变量 X1, X2, X3和人为添加的虚假变量 X4, 所有的信息准则在 100 次随机模拟中都选中了这两个模型, 而没有选中其余的 14 个模型, 这也从另一个角度说明了变量 X1, X2, X3在建立模型时是必不可少的, 即模型 I 是正确的模型. 表格 4.3 中显示了在 100 次模拟中, 这两个模型被各个信息准则所选中的次数.
.........
结论
AIC 在变量选择上是一个常用的信息准则. 然而, 过度拟合是使用 AIC 选择最佳模型时经常遇到的一个问题. AICc 是 AIC 的一个修正, 并且在小样本的时候有着非常好的表现, 实际上 AICc 之所以在小样本下表现的好就是因为克服了过度拟合的问题.但是随着样本容量的增加, 与其他的信息准则相比, AICc 失去了它的优势. 根据 AICc在小样本下的良好表现, 我们提出一个新的信息准则, bAICc, 并且使用蒙塔卡罗模拟的方法探究了 bAICc 的性质, 也同时表明 bAICc 在协变量选择方面的确对于 AICc有所提高. 并且给出了在线性模型框架下, AICc 在拟合不足的模型集中是具有相合性的信息准则, 而且证明了真实模型的 AICc 值小于任意一过度拟合模型的 AICc 值的概率大于二分之一, 基于此证明了新提出的信息准则 bAICc 是具有相合性的. 进一步的在变量按照两种模式组成备选模型的前提下, 将 bAICc 与其他一些广泛应用的变量选择的信息准则进行了对比, 在线性模型框架以及广义线性模型框架下的模拟实验中bAICc 都有良好的表现. 在实际数据分析中讨论了三个数据集, 在这三个数据集中将bAICc 与其他几个信息准则进行了对比. 对于第一个第二个数据集来说, bAICc 与其余四个信息准则都选中了同样的模型. 并且从该模型的具体信息也可以看出该模型是正确的模型, 此时通过人为添加虚假变量的形式, bAICc 显示出了排除虚假变量的能力是明显优于其他四个信息准则的; 对于第三个数据集的分析, bAICc 选出与其余四个信息准则不同的备选模型, 模型系数的显著性水平, 实际数据的背景意义, 以及运用十折交叉验证法, 从三个角度说明 bAICc 所选出的备选模型对于该数据集是更适合的模型, 而其余信息准则选出的模型实际上是过度拟合的模型, 这也表现出了 bAICc 在变量选择方面的优势. 综上所述, 从大量的数值模拟实验以及真实数据集的分析结果来看, 我们认为 bAICc 是建立模型进行协变量选择时的一个良好的信息准则. 我们的理论、数值模拟以及实际数据分析都是基于应用广泛的线性模型以及广义线性模型框架的, 还有一些其他框架下 bAICc 的表现情况, 以及和其他信息准则的对比等待着我们进行更多的探索.
..........
参考文献(略)