统计学习 - Statistical Learning
统计学习方法笔记总结。haven’t finished yet
1. k近邻法(k-Nearest Neighbors)
直观理解:
- 分类:在数据中找到与某个点(目标)最近的k个点,把该点(目标)的类分为k个点中多数的类。
回归:在数据中找到与某个点(目标)最近的k个点,k个点的均值为目标点的预测值。
优点:
- $k$ 近邻法是个非参数学习算法,它没有任何参数( $k$ 是超参数,而不是需要学习的参数)。
- 近邻模型具有非常高的容量,这使得它在训练样本数量较大时能获得较高的精度。
缺点:
- 计算成本很高。因为需要构建一个 $N \times N$ 的距离矩阵,其计算量为 $O(N^2)$,其中 $N$ 为训练样本的数量。
- 当数据集是几十亿个样本时,计算量是不可接受的。
- 在训练集较小时,泛化能力很差,非常容易陷入过拟合。
- 无法判断特征的重要性。
1.1 k近邻模型
- 模型由三个基本要素——距离度量、k值的选择和分类决策规则决定。