多元统计

多元线性回归

多元:因变量由多个自变量决定

模型假设

  1. 一解释变量是确定性变量,不是随机变量
  2. 解释变量之间互不相关,即无多重共线性
  3. 随机误差项不存在序列相关关系
  4. 随机误差项与解释变量之间不相关
  5. 随机误差项服从0均值、同方差的正态分布

参数估计和检验

最小二乘法,和一元线性回归参数估计方法相同

显著性检验:

  1. 拟合优度检验
  2. 回归方程检验(F检验):检验Y与解释变量X1,X2.Xk之间的(整体来讲)线性关系是否显著。
  3. 回归系数检验(t检验):回归方程显著,并不意味着每个解释变量对因变量Y的影响都重要。

聚类分析

相似性统计量

聚类的根据是相似性统计量(表达样品之间的相似程度)

相似系数

常用相似系数有:夹角余弦、相关系数、指数相似系数、非参数方法;

距离

将样品看作P维空间的一点,通过计算不同样品的距离,距离越接近的点归为一类距离远的点归为不同类。

常用距离有:明科夫斯基距离;欧氏距离:绝对值距离;切比雪夫距离;兰氏距离;马氏距离。

选择聚类方法

看实际情况和需要选择聚类方法

多使用几种聚类方法看结果是否一致,一致则说明比较准确

将少部分分类苦难样本判别分析,将其放到已经分好的类别当中

主成分分析

实质

不同变量信息有重合和重要性不同

通过降维的方法,降低变量相关性,减小变量个数

步骤

  1. 对原始数据矩阵进行标准化处理(相当于对原始变量进行坐标平移与尺度伸缩)
  2. 求协方差矩阵Z;
  3. 特征分解得Z(相当于将原来的坐标轴进行旋转得到新的坐标轴U),
    得Z的p个非负特征值,这p个特征值就是主成分的方差
  4. 确定主成分个数(根据累积贡献率)
  5. 写出主成分表达式
  6. 构造评价函数。

累计贡献率

取累计贡献率达到80%或85%以上的为主成分

因子分析

通过降维的方法,以最小信息损失把众多变量归结为少数几个综合因子

利用相关性分组,每组因子用公共因子和特殊因子

表示

潜在因子:不好测量的变量,做公共因子