多元统计
多元统计
多元线性回归
多元:因变量由多个自变量决定
模型假设
- 一解释变量是确定性变量,不是随机变量
- 解释变量之间互不相关,即无多重共线性
- 随机误差项不存在序列相关关系
- 随机误差项与解释变量之间不相关
- 随机误差项服从0均值、同方差的正态分布
参数估计和检验
最小二乘法,和一元线性回归参数估计方法相同
显著性检验:
- 拟合优度检验
- 回归方程检验(F检验):检验Y与解释变量X1,X2.Xk之间的(整体来讲)线性关系是否显著。
- 回归系数检验(t检验):回归方程显著,并不意味着每个解释变量对因变量Y的影响都重要。
聚类分析
相似性统计量
聚类的根据是相似性统计量(表达样品之间的相似程度)
相似系数
常用相似系数有:夹角余弦、相关系数、指数相似系数、非参数方法;
距离
将样品看作P维空间的一点,通过计算不同样品的距离,距离越接近的点归为一类距离远的点归为不同类。
常用距离有:明科夫斯基距离;欧氏距离:绝对值距离;切比雪夫距离;兰氏距离;马氏距离。
选择聚类方法
看实际情况和需要选择聚类方法
多使用几种聚类方法看结果是否一致,一致则说明比较准确
将少部分分类苦难样本判别分析,将其放到已经分好的类别当中
主成分分析
实质
不同变量信息有重合和重要性不同
通过降维的方法,降低变量相关性,减小变量个数
步骤
- 对原始数据矩阵进行标准化处理(相当于对原始变量进行坐标平移与尺度伸缩)
- 求协方差矩阵Z;
- 特征分解得Z(相当于将原来的坐标轴进行旋转得到新的坐标轴U),
得Z的p个非负特征值,这p个特征值就是主成分的方差 - 确定主成分个数(根据累积贡献率)
- 写出主成分表达式
- 构造评价函数。
累计贡献率
取累计贡献率达到80%或85%以上的为主成分
因子分析
通过降维的方法,以最小信息损失把众多变量归结为少数几个综合因子
利用相关性分组,每组因子用公共因子和特殊因子
表示
潜在因子:不好测量的变量,做公共因子
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 thewindsing!
评论