对于由浮点数组成的二维数据,其中每一列是描述数据点的连续特征。
对于很多应用来说,数据的收集方式并不是这样,一种特别常见的特征类型就是分类特征,也叫离散特征,这种特征通常不是说数值。
分类特征和连续特征之间的区别类似于分类和回归之间的区别,只是前者是在数据的输入端而不是输出端。
连续特征的例子:像素明暗程度、花的尺寸测量。
分类特征的例子:产品的品牌、产品的颜色、员工的部门。这些都是描述一件产品的属性,但它们不以连续的方式变化。
无论数据包含哪种类型的特征,数据表示方式都会对机器学习模型的性能产生巨大影响。其中,数据缩放非常重要,用额外的特征扩充数据也很有帮助,比如添加特征的交互项或更一般的多项式。
对于某个特定应用来说,如何找到最佳数据表示,这个问题被称为特征工程,它是数据科学家和机器学习从业者在尝试解决现实世界问题时的主要任务之一。用正确的方式表示数据,对监督模型性能的影响比选择的精确参数还要大。