清理特征
移除未使用的属性值和无用的属性,并对剩余的值进行排序。
输入
数据: 输入数据集
输出
数据: 过滤后的数据集
命名属性定义有时包含在数据中不出现的值。即使原始数据中没有这种情况,数据过滤、选择示例子集等操作也可能移除所有属性具有特定值的实例。这些值会干扰数据展示,尤其是在各种可视化中,应该移除它们。
清除一个属性后,它可能变成单一值,在极端情况下,可能完全没有任何值(如果该属性的值对于所有实例都是未定义的)。在这种情况下,可以移除该属性。
属性值的顺序是另一个问题:如果数据从文件中读取,文件格式中的值事先没有声明,它们会按照出现顺序进行排序。有时,我们更希望它们按字母顺序排序。
1.清除属性。
2.清除类别。
3.清除元属性。
4.过滤过程信息。
5.生成报告。
6.如果勾选了“自动应用”,当小部件设置发生变化时,小部件将输出数据。
这样的净化是由小部件Purge Domain完成的。普通属性和类别属性是分别处理的。对于每个属性,我们可以决定是否要进行排序。然后,我们可以允许小部件移除值少于两个的属性,或如果类别属性类别少于两个,移除类别属性。最后,我们可以指示小部件检查哪些属性值实际上出现在数据中,并移除未使用的值。如果未允许移除属性,小部件不能移除值,因为没有任何意义的属性没有值。
新的、减少的属性有一个“R”前缀,这与原始属性区分开来。新属性的值可以从旧值计算得出,但不能反向进行。这意味着如果你用新属性构建一个分类器,你可以用它来分类由原始属性描述的实例。但反之则不行:用旧属性构建一个分类器,并将其用于由减少后的属性描述的实例,这是行不通的。幸运的是,后者很少是这种情况。在典型设置中,你会探索数据、可视化它、过滤它、净化它……然后用原始数据测试最终模型。
视频教程:关注我不迷路, 抖音:Orange3dev
https://www.douyin.com/user/MS4wLjABAAAAicBGZTE2kX2EVHJPe8Ugk3_nlJk9Nha8OZh4Bo_nTu8
1-Orange3安装
2-Orange3汉化DIY
3-Orange3创建快方式
4-数据导入(文件&数据表格组件)
5-数据导入(Python组件)
6-Python库安装(SQL表组件)
7-数据导入(Mysql)
8-数据导入(数据绘画和公式组件)
9-数据修改(域编辑和保存组件)
10-数据可视化(调色板&数据信息组件)
11-数据可视化(特征统计组件)
12-数据预处理(行选择组件)
13-特征选择(Rank组件)
14-数据转换(数据采样组件)
15-数据预处理(列选择组件)
16-数据预处理(转置组件)
17-数据预处理(合并数据组件)
18-数据预处理(连接组件)无主表且列数不同
19-数据预处理(连接组件)主附表
20-数据预处理(索引选择器组件)
21-数据预处理(唯一组件)
22-数据预处理(列聚合组件)
23-数据预处理(分组组件)
24-数据预处理(透视图表组件)
25-数据预处理(转换器组件)-表格互为模板
26-数据预处理(转换器组件)-转换示例
27-数据预处理(预处理器组件)-基本信息
28-数据预处理(预处理器组件)-特征选择
29-数据预处理(预处理器组件)-填充缺失值并标准化特征
30-数据预处理(预处理器组件)-离散化连续变量
31-数据预处理(预处理器组件)-连续化离散变量
32-数据预处理(预处理器组件)-主成分分析PCA与CUR分解
33-数据预处理(缺失值处理组件)
34-数据预处理(连续化组件)
35-数据预处理(离散化组件)
36-数据预处理(随机化组件)
37-数据预处理(清理特征组件)-清理未使用特征值及常量特征
38-数据预处理(宽转窄组件)
39-数据预处理(公式组件)
40-数据预处理(分类器组件)
41-数据预处理(创建实例)
42-数据预处理(Python代码组件)