您认为模型哪些特性是重要的?
文章目录
- 1、简介
- 2、工作原理
- 3、代码示例
- 4、解释排列重要性
1、简介
对于模型来说,我们可能会问的最基本的一个问题是:哪些特征对预测影响最大?
这个概念被称为特征重要性。
有多种方法可以衡量特征重要性。一些方法回答了上面提到的问题的微妙不同版本。其他方法已经记录了一些缺点。
在本课程中,我们将专注于排列重要性。与大多数其他方法相比,排列重要性具有以下特点:
- 计算速度快,
- 被广泛使用和理解,
- 与我们希望特征重要性度量具有的属性一致。
2、工作原理
排列重要性使用的模型与您迄今为止看到的任何东西都不同,很多人一开始会觉得很混乱。因此,我们将从一个示例开始,以使其更具体。
考虑具有以下格式的数据:
我们希望使用在10岁时可用的数据来预测一个人在20岁时的身高。
我们的数据包括有用的特征(10岁时的身高),预测能力较小的特征(拥有的袜子数),以及在此解释中我们不关注的一些其他特征。
排列重要性是在拟合模型后计算的。 因此,我们不会更改模型或更改对于给定身高、袜子数量等值会得到什么预测。
相反,我们将提出以下问题:如果我随机洗牌验证数据的单个列,使目标和所有其他列保持不变,那么这将如何影响现在已经洗牌的数据的预测准确性?
随机重新排序单个列应该导致较不准确的预测,因为得到的数据不再对应于现实世界中观察到的任何情况。特别是如果我们洗牌模型在预测中 heavily 依赖的列,模型的准确性会受到影响。在这种情况下,洗牌 10岁时的身高
将导致糟糕的预测。如果我们洗牌的是 拥有的袜子数
,那么得到的预测不会受到太大影响。
有了这个理解,整个过程如下:
- 得到一个已训练好的模型。
- 洗牌验证数据中的单个列