注意 题目给出的数据不能直接使用,要对数据进行异常处理 缺失值 1.缺失值太多就要把该项指标删除(40%相当大) 2.处理:对精度不高 定量数据,使用均值 定性数据,使用众数 3.对数据精度有要求 但对导数没有要求,使用牛顿插值法 对导数有要求,使用样条插值法(飞机机翼,医学图像) 异常值 1.先找到异常值,再将其删去,用上面缺失值的方式补上 2.找异常值:正态分布(不适合排队论) 在正态分布中σ代表标准差,μ代表均值,x=μ即为图像的对称轴。 标准差 3.画箱型图(普遍适用) 1)从上到下,即数据从大到小 2)IQR越大,箱子越大,数据分散 3)在区间范围之外为异常值