一、首先我们看三个例子
例一:在辨别水果的任务中,人类一般会通过外观、味道、颜色等方面信息来进行区分。而机器学习则通过水果的颜色、重量、气味成分的量等被称之为“特征量”的数值来区分。
例二:在手写数字识别任务中,人类可以很简单的识别出数字5,但却很难说明基于何种规律或是特征识别出了5,这是因为每一个人都有不同的书写习惯要发现其规律非常困难。
例三:在猫狗分类的任务中,如果用有尾巴,有眼睛鼻子嘴巴等特征来区分猫狗,显然是无法进行区分的,因为这些特征猫狗都有。
二、特征量的定义
在机器学习中,特征量(Feature)是指用于描述或刻画数据实例的属性、变量或指标。每一个特征代表了原始数据的一个特定维度上的信息,它们是模型进行学习和预测的基础。上面三个例子中,水果的外观、味道、颜色就是特征量,猫狗的鼻子眼睛嘴巴就是特征量。
三、特征量的瓶颈
上述的例子中有比较容易考虑特征量的问题,也有难以考虑特征量的问题。如果只是为了学习,输入一个不太靠谱的特征量也可以进行学习,不过为了提高算法性能,选择怎么样的特征量这件事情就十分重要。
机器学习的方法中,特征量仍然是由人工设计的,而在神经网络中,数据所包含的重要特征都是由机器来学习到的。(下图中没有人工介入的地方用灰色表示)