回归分析


  回归分析是一种统计学上分析数据的方法,目的在于了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型以便观察特定变量来预测研究者感兴趣的变量。
步骤:

1.确定变量
  明确预测的具体目标,也就确定了因变量。如预测具体目标是下一年度的销售量,那么销售量Y就是因变量。通过市场调查和查阅资料,寻找与预测目标的相关影响因素,即自变量,并从中选出主要的影响因素。
假设我们已经找出了所有可能与因变量相关的因素(这里的因素只是我们觉得可能的因素,并非最终的自变量),那么下一步要考虑的就是这些因素中哪一些对回归分析是最佳的。
  我们一般利用逐步回归法和全子集回归法进行自变量的选择。逐步回归中,模型会一次添加或者删除一个变量,直到达到某个判停准则为止。MASS包中的stepAIC()函数可以实现逐步回归模型(向前、向后和向前向后),依据的是精确AIC准则。开始时模型包含全部预测变量,然后每一步中,AIC列提供了删除一个行中变量后模型的AIC值,中的AIC值表示没有变量被删除时模型的AIC。在删除一个变量后若AIC值变小则继续删除下一个变量,否则停止,以此类推。最终保留的变量即为我们要选择的自变量。
  全子集回归,顾名思义,即所有可能的模型都会被检验。在R语言中,全子集回归可用leaps包中的regsubsets()函数实现。你能通过R平方、调整R平方或
Mallows Cp统计量等准则来选择“最佳”模型。函数会给出所有变量组合所得到的R平方,R平方最大的那个变量组合即为我们要选择的自变量。
2.建立预测模型
(略)
3.进行相关分析
(略)
4.计算预测误差
(略)
5.确定预测值
(略)

  以上略的不是不重要,而是我还没搞明白,不能误人子弟啊。