数据挖掘--认识数据

数据挖掘--引论

数据挖掘--认识数据

数据挖掘--数据预处理

数据挖掘--数据仓库与联机分析处理

数据挖掘--挖掘频繁模式、关联和相关性:基本概念和方法

数据挖掘--分类

数据挖掘--聚类分析:基本概念和方法


数据对象与属性类型

  • 属性:是一个数据字段,表示数据对象的一个特征
  • 标称属性:值是一些符号或事物的名称
  • 二元属性:布尔属性(1或0)
  • 序数属性:用有序字母或者数字来表示不同等级1-大,2-中,3-小
  • 数值属性:区间标度属性(温度)、比率标度
  • 离散属性与连续属性:具有有限或无线可能个数

数据的基本统计描述

中列数:(max+min)/2

盒图

四分位数极差:IQR=Q3-Q1

离群点:大于Q3有1.5倍IQR,小于Q1有1.5倍IQR

最大,最小(不超过1.5倍IQR)(没有的话以最大观察值为准)

中位数

分位数图

分位数-分位数图

区别

因可以说分位数和分位数图是相关的概念,但并不完全相同。分位数是描述数据集中某个位置的值,而分位数图则是以图形方式展示了数据集的整体分布情况。

度量数据的相似性和相异性

数据矩阵与相异性矩阵

数据矩阵:两张相同长宽的表来实现对象-属性

相异性矩阵:存放n个对象两两之间的邻近度(任意两个之间的距离)

标称属性的邻近性度量

d(i,j)=(p-m)/p

p:总属性个数

m:i,j相同的属性个数

二元属性的邻近性度量

列出列联表

算出q,r,s,t

对称二元相异性:

非对称二元相异性(正匹配比度匹配有意义的多,因此负匹配数t忽略不计):

数值属性的相异性:闵可夫斯基距离

欧式距离、曼哈顿距离(差值相加)、上确界距离(max|xi1-xi2|)(差值最大)

闵可夫斯基距离:是对欧几里得距离的推广,可以理解为不同维度考察下的距离

序数属性的邻近度量

混合类型属性的相异性

混合类型相异度计算的思想:按不同类型的属性(如数值型,二元变量,名义变量等),根据各自类型的计算方法计算之后再加权求和。

关于指示符(即 权重):指示符为0有两种情况

余弦相似性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/25419.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[312. 戳气球] 动态规划寻找转移函数

Problem: 312. 戳气球 文章目录 思路Code 思路 这个哥们写的思路真的很牛逼&#xff0c;转载一下他。 戳气球题解 Code class Solution { public:int maxCoins(vector<int>& nums) {nums.insert(nums.begin(), 1);nums.push_back(1);int n nums.size();vector<v…

MySQL免安装版本安装与配置指南

MySQL&#xff0c;作为一款广受欢迎的关系型数据库管理系统&#xff0c;凭借其高效稳定的特点&#xff0c;成为了众多开发者的首选数据存储和查询工具。除了传统的安装版本外&#xff0c;MySQL还提供了免安装版本&#xff0c;为用户提供了快速部署和使用的便利。本文将详细指导…

# log.info(“消息发送成功“); 红色报错 解决方案

log.info(“消息发送成功”); 红色报错 解决方案 一、错误描述&#xff1a; 在使用 idea 创建 maven 项目导入 lombok 依赖时&#xff0c;出现 log.info 报红错误&#xff0c;检查导入依赖正确&#xff0c;网络正常&#xff0c;错误依旧。 二、解决方案&#xff1a; 1、在 i…

【Java毕业设计】基于JavaWeb的洗衣店管理系统

文章目录 摘要ABSTRACT目 录1 概述1.1 研究背景及意义1.2 国内外研究现状1.3 拟研究内容1.4 系统开发技术1.4.1 SpringBoot框架1.4.2 MySQL数据库1.4.3 MVC模式 2 系统需求分析2.1 可行性分析2.2 功能需求分析 3 系统设计3.1 功能模块设计3.2 系统流程设计3.3 数据库设计3.3.1 …

嵌入式中C语言经典的面试题分享

#error的作用是什么? #error 指令让预处理器发出一条错误信息,并且会中断编译过程。下面我们从Linux代码中抽取出来一小段代码并做修改得到示例代码: 这段示例代码很简单,当RX_BUF_IDX宏的值不为0~3时,在预处理阶段就会通过 #error 指令输出一条错误提示信息: "…

GPT-4与GPT-4O的区别详解:面向小白用户

1. 模型介绍 在人工智能的语言模型领域&#xff0c;OpenAI的GPT-4和GPT-4O是最新的成员。这两个模型虽然来源于相同的基础技术&#xff0c;但在功能和应用上有着明显的区别。 GPT-4&#xff1a;这是一个通用型语言模型&#xff0c;可以理解和生成自然语言。无论是写作、对话还…

【Python】探索 One-Class SVM:异常检测的利器

我已经从你的 全世界路过 像一颗流星 划过命运 的天空 很多话忍住了 不能说出口 珍藏在 我的心中 只留下一些回忆 &#x1f3b5; 牛奶咖啡《从你的全世界路过》 在数据科学和机器学习领域&#xff0c;异常检测&#xff08;Anomaly Detection&#xff09;是…

SQL Server(四)

SQL Server的优势&#xff1a; 强大的数据管理能力&#xff1a; SQL Server可以处理大量的数据&#xff0c;具有高性能和可靠性&#xff0c;支持多种数据类型和函数&#xff0c;满足复杂数据处理需求。丰富的企业级特性&#xff1a; 提供了高可用性、集成服务、分析服务等丰富…

支持向量机(SVM): 从理论到实践的指南(1)

支持向量机&#xff08;SVM&#xff09;被誉为数据科学领域的重量级算法&#xff0c;是机器学习中不可或缺的工具之一。SVM以其优秀的泛化能力和对高维数据的管理而备受推崇。本文旨在梳理SVM的核心概念以及其在实际场景中的应用。 SVM的核心理念 SVM专注于为二分类问题找到最…

Mysql学习(七)——约束

文章目录 四、约束4.1 概述4.2 约束演示4.3 外键约束 总结 四、约束 4.1 概述 概念&#xff1a;约束是作用于表中字段上的规则&#xff0c;用于限制存储在表中的数据。目的&#xff1a;保证数据库中数据的正确、有效性和完整性。分类&#xff1a; 4.2 约束演示 根据需求&…

SOA的设计模式_1.服务注册表模式

1.注册表 访问注册表&#xff08;Service Registry&#xff09;主要在SOA设计时段使用&#xff0c;虽然它们常常也具有运行时段的功能。注册表支持驱动SOA治理的服务合同、策略和元数据的开发、发布和管理。因此&#xff0c;它们提供一个主控制点&#xff0c;或者称为策略执行…

著名AI人工智能社会学家唐兴通谈数字社会学网络社会学主要矛盾与数字空间社会网络社会的基本议题与全球海外最新热点与关注社会结构社会分工数字财富数字游民数字经济

如果人工智能解决了一切&#xff0c;人类会做什么&#xff1f; 这个问题的背后是人工智能时代的社会主要矛盾会是什么&#xff1f;那么整个社会的大的分工体系就会围绕主要矛盾开展。 《人工智能社会主要矛盾》 在农业社会&#xff0c;主要矛盾是人口增长和土地资源之间的关…

【日常记录】【JS】中文转拼音的库 pinyin-pro

文章目录 1、介绍2、pinyin-pro 基本使用3、参考链接 1、介绍 pinyin-pro 是一个专业的 JavaScript 中文转拼音的库&#xff0c;具备多音字识别准确、体积轻量、性能优异、功能丰富等特点。 常用的案例 搜索功能增强&#xff1a;在输入框输入汉字时&#xff0c;可以转化为拼音输…

[CR]厚云填补_综述整理

SAR-to-Optical Image Translation and Cloud Removal Based on Conditional Generative Adversarial Networks: Literature Survey, Taxonomy, Evaluation Indicators, Limits and Future Directions Abstract 由于光学图像的局限性&#xff0c;其波段无法穿透云层&#xff0…

算法竞赛一句话解题经典问题分析 ©ntsc 2024

原名&#xff1a;算法竞赛一句话解题&经典问题分析 ©ntsc 2024 处理进度 绿&#xff1a;P1381【~P&#xff08;今日进度&#xff09;】蓝&#xff1a;P1099 致CSDN网友&#xff1a; 本文章不定期更新&#xff01;文章链接&#xff1a; 经典问题分析 基础知识与编程…

工业互联网数字中台建设方案(ppt原件)

工业互联网数字中台解决方案旨在为企业提供全面、高效的数据驱动能力。该方案主要包括以下几个核心部分&#xff1a; 数据中台&#xff1a;作为核心&#xff0c;数据中台负责汇聚、整合、提纯和加工各类工业数据&#xff0c;实现数据资产的标准化、模型化和模块化。通过提供API…

React@16.x(23)useEffect

目录 1&#xff0c;介绍作用介绍 2&#xff0c;注意点2.1&#xff0c;参数1&#xff0c;副作用函数2.1.1&#xff0c;运行时间点2.1.2&#xff0c;返回值2.1.3&#xff0c;闭包的影响2.1.4&#xff0c;严禁出现在代码块中&#xff08;判断&#xff0c;循环&#xff09;2.1.5&am…

电阻十大品牌供应商

选型时选择热门的电阻品牌&#xff0c;主要是产品丰富&#xff0c;需求基本都能满足。 所所有的电路中&#xff0c;基本没有不用电阻的&#xff0c;电阻的选型需要参考阻值、精度、封装、温度范围&#xff0c;贴片/插件等参数&#xff0c;优秀的供应商如下&#xff1a; 十大电…

[240609] qwen2 发布,在 Ollama 已可用 | 采用语言模型构建通用 AGI(2020年8月)

目录 qwen2 发布&#xff0c;在 Ollama 已可用Qwen2 模型概览 (基于 Ollama 网站信息)一、模型介绍二、模型参数三、支持语言 (除英语和中文外)四、模型性能五、许可证六、数据支撑: 采用语言模型构建通用 AGI qwen2 发布&#xff0c;在 Ollama 已可用 Qwen2 模型概览 (基于 O…

Android基础-AIDL的实现

一、引言 在Android开发中&#xff0c;跨进程通信&#xff08;IPC&#xff0c;Inter-Process Communication&#xff09;是一个常见的需求。为了支持这种需求&#xff0c;Android提供了多种IPC机制&#xff0c;其中AIDL&#xff08;Android Interface Definition Language&…