【COMP337 LEC1】

Data Preprocessing Phase 数据预处理

1. Feature extraction 特征提取

1. An object is described by a collection of attributes
一个对象可以由一组特征来描述
2. A feature is a property or a characteristic of an objects
物体的属性

2. Data cleaning 数据清洗

Extracted data may have erroneous or missing fields 
提取的数据可能有错误或者缺失字段

方法包括:

(估计一个缺失值 、消除不一致的值)

3. Feature selection & transformation

Many data mining algorithms do not work efficiently on high dimensional data
高纬度的数据不利于数据挖掘算法

1. 方法包括:

identify and remove irrelevant features
识别并且去除不相关的特征
transform the current set of features to a new data space
改变特征的形式,例如降维..

2. Data transformation

Transform attributes to new attributes 改变属性的形式
(e.g., numerical age -> { young , middleaged , elderly })
例子:数字年龄 -> 年轻, 中等年龄, 老年 

Types of Data 数据形式

1. Nondependency-oriented data:

objects do not have dependencies

Types of data:

1. Numerical or quantitative (values have natural ordering)  数值或数量
        integer values (number of petals in a flower)
         real values (length of a petal)
2.  Categorical or unordered discrete-valued                            离散的无序值/类别
         discrete unordered values/categories (colour of a flower petal)
3.  Binary data (two values: 0 and 1)                                             二进制数据
        Can be seen as a categorical data (two categories) or a numerical data (0<1)
        Can be used to represent Set Data via characteristic vectors
4.  Text data                                                                                    文本数据 
        Document as a string (dependency-oriented data type)
        Document as a set of words or terms (vector-space representation: frequencies of the words in the document)

2. Dependency-oriented data:

implicit or explicit dependencies between objects may exist 数据之间存在显示或隐式的依赖关系

网络:节点(对象)通过边缘(关系)连接
从传感器收集的连续测量值

1. Implicit dependencies 

没有显示的指定关系,但是是知道这个关系存在的

比如:温度值是一个传感器测量出来的,那么这个值和这个传感器就有隐性的依赖关系

Types of data with implicit dependencies

一些例子:

1. 时间和数据 2. 空间和数据

2. Explicit dependencies

会有edges来指定明确的关系

Graphs or network data (edges specify explicit relationships)
Types of data with explicit dependencies

Data Representation 数据表示

Data representation is one of the first things we must do in data  mining
What we can mine is largely determined by our data representation
There is no one best data representation method for all data mining tasks 没有一个最好的数据表示可以用于所有数据挖掘

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/681125.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【EAI 019】Eureka: Human-Level Reward Design via Coding LLM

论文标题&#xff1a;Eureka: Human-Level Reward Design via Coding Large Language Models 论文作者&#xff1a;Yecheng Jason Ma, William Liang, Guanzhi Wang, De-An Huang, Osbert Bastani, Dinesh Jayaraman, Yuke Zhu, Linxi Fan, Anima Anandkumar 作者单位&#xff…

【ES6】Promise

Promise 回调地狱 const fs require(fs);fs.readFile(./a.txt, utf-8, (err, data) > {if(err) throw err;console.log(data);fs.readFile(./b.txt, utf-8, (err, data) > {if(err) throw err;console.log(data);fs.readFile(./c.txt, utf-8, (err, data) > {if(er…

python:PyPDF2 从PDF中提取目录

我发现 pypdf 和 pypdf2 的作者是同一人&#xff1a;Mathieu Fenniak pip install pypdf2 ; pypdf2-3.0.1-py3-none-any.whl (232 kB) 编写 pdf_read_dir.py 如下 # -*- coding: utf-8 -*- """ pypdf23.0.1 从PDF中提取目录 """ import os…

pm2启动的node项目访问不了,npm start却可以访问

netstat -ntlp输入该命令&#xff0c;查看启动的服务端口是否有被监听到&#xff0c;如3001&#xff0c;4000之类的&#xff0c;是node项目启动时候自己配的那个&#xff0c; 若没有&#xff0c;则执行 pm2 delete [app-id/app-name] 先删除启动的这个项目 例如pm2 delete my…

第三百二十二回

文章目录 1. 概念介绍2. 使用方法2.1 基本用法2.2 缓冲原理 3. 示例代码4. 内容总结 我们在上一章回中介绍了"FadeInImage组件"相关的内容&#xff0c;本章回中将介绍CachedNetworkImage组件.闲话休提&#xff0c;让我们一起Talk Flutter吧。 1. 概念介绍 我们在本章…

C#win form解决导入CSV文件数据缺失问题

winform CSV文件入库数据缺失 public string TransferCSVData(string csvFile, string tablename, string connectionString){try{DataTable dataTable new DataTable();string[] columnNames File.ReadLines(csvFile, Encoding.GetEncoding("GBK")).First().Spli…

C++函数对象-运算符函数对象 - 位运算 - 实现 x y 的函数对象 (std::bit_and)

任何定义了函数调用操作符的对象都是函数对象。C 支持创建、操作新的函数对象&#xff0c;同时也提供了许多内置的函数对象。 运算符函数对象 C 针对常用的算术和逻辑运算定义了很多函数对象&#xff1a; 位运算 实现 x & y 的函数对象 std::bit_and template< class…

《Java 简易速速上手小册》第7章:Java 网络编程(2024 最新版)

文章目录 7.1 网络基础和 Java 中的网络 - 揭开神秘的面纱7.1.1 基础知识7.1.2 重点案例&#xff1a;实现一个简单的聊天程序7.1.3 拓展案例 1&#xff1a;使用 UDP 进行消息广播7.1.4 拓展案例 2&#xff1a;建立一个简单的 Web 服务器 7.2 创建客户端和服务器 - 构建沟通的桥…

Netty源码系列 之 FastThreadLocal源码

目录 Netty优化方案之 FastThreadLocal 前言 ThreadLocal ThreadLocal是干什么的&#xff1f; 为什么要使用ThreadLocal工具类去操控存取目标数据到Thread线程 &#xff1f; ThreadLocal的使用场景 目标数据存储到Thread线程对象的哪里&#xff1f; 怎么样把一个目标数据…

学习Android的第六天

目录 Android TextView 文本框 TextView 基础属性 范例 带阴影的TextView 范例 带边框的TextView 范例 带图片(drawableXxx)的TextView 范例1 范例2 使用autoLink属性识别链接类型 范例 TextView 显示简单的 HTML 范例1 范例2 SpannableString & Spannable…

政安晨:演绎在KerasCV中使用Stable Diffusion进行高性能图像生成

小伙伴们好&#xff0c;咱们今天演绎一个使用KerasCV的StableDiffusion模型生成新的图像的示例。 考虑计算机性能的因素&#xff0c;这次咱们在Colab上进行&#xff0c;Colab您可以理解为在线版的Jupyter Notebook&#xff0c;还不熟悉Jupyter的的小伙伴可以去看一下我以前的文…

python+ flask+MySQL旅游数据可视化81319-计算机毕业设计项目选题推荐(免费领源码)

摘要 信息化社会内需要与之针对性的信息获取途径&#xff0c;但是途径的扩展基本上为人们所努力的方向&#xff0c;由于站在的角度存在偏差&#xff0c;人们经常能够获得不同类型信息&#xff0c;这也是技术最为难以攻克的课题。针对旅游数据可视化等问题&#xff0c;对旅游数据…

[英语学习][28][Word Power Made Easy]的精读与翻译优化

[序言] 译者的这次翻译, 如果按照一一对应的单词翻译&#xff0c;正确率是100%, 但可惜的是, 从整体的翻译上, 正确率下降到30%. 也就是说没有正确表达出作者的逻辑. [英文学习的目标] 提升自身的英语水平, 对日后编程技能的提升有很大帮助. 希望大家这次能学到东西, 同时加入…

端口映射原理及实验概要

端口映射是一种网络技术&#xff0c;用于将外部网络请求定向到内部网络中的特定服务或设备。其原理可以分为两个部分&#xff1a;NAT&#xff08;Network Address Translation&#xff09;和端口转发。 NAT是一种将网络数据包的目标IP地址和端口从一个网络地址转换为另一个网络…

Git仓库

1、安装 sudo yum install -y git 2、什么叫版本控制Git&&Gitee&&Github 对源代码的历史修改进行维护&#xff0c;保留历史的所有的修改痕迹。 在Linux中&#xff0c;版本控制是指对软件、文档等项目的不同版本进行管理和追踪的过程。通常使用版本控制系统&…

图表自动化开篇

目录 前言&#xff1a; 使用 Canvas 或者 SVG 渲染 选择哪种渲染器 代码触发 ECharts 中组件的行为 前言&#xff1a; 图表自动化一直以来是自动化测试中的痛点&#xff0c;也是难点&#xff0c;痛点在于目前越来越多公司开始构建自己的BI报表平台但是没有合适的自动化测试…

BLE蓝牙安全机制

1. 蓝牙配对 蓝牙配对是建立安全连接的关键过程。对于传统蓝牙应采用SSP配对方式&#xff0c;而低功耗蓝牙4.0和4.1的版本应使用legacy pairing配对方式&#xff0c;4.2以后的版本应采用Secure connection的配对方式。 传统的蓝牙采用的配对方式如下&#xff1a; 蓝牙2.1版本…

1012: 【C1】【循环】【入门】均值

题目描述 给出一组样本数据&#xff0c;计算其均值。 输入 输入有两行&#xff0c;第一行包含一个整数n&#xff08;1&#xff1c;n&#xff1c;100&#xff09;&#xff0c;代表样本容量&#xff1b;第二行包含n个绝对值不超过1000的浮点数&#xff0c;代表各个样本数据。 …

《Linux 简易速速上手小册》第4章: 包管理与软件安装(2024 最新版)

文章目录 4.1 包管理基础4.1.1 重点基础知识4.1.2 重点案例&#xff1a;在 Ubuntu 上安装和管理软件4.1.3 拓展案例 1&#xff1a;添加软件仓库4.1.4 拓展案例 2&#xff1a;回滚软件到旧版本 4.2 使用 APT 与 YUM4.2.1 重点基础知识4.2.2 重点案例&#xff1a;在 Ubuntu 上配置…

排序刷题11

题目来源&#xff1a;[NOIP1998 提高组] 拼数 - 洛谷 解题思路&#xff1a;这道题重点在于怎么把数字拼接&#xff0c;得到最大的值。这里可以用to_string&#xff08;&#xff09;函数&#xff0c;将数字先转换为字符再拼接&#xff0c;最后得到拼接的最大值。ps&#xff1a;…