数据科学与大数据导论期末复习笔记(大数据)

 来自于深圳技术大学,此笔记涵盖了期末老师画的重点知识,分享给大家。

  • 等深分箱和等宽分箱的区别:
  • 等宽分箱基于数据的范围来划分箱子,每个箱子的宽度相等。
  • 等深分箱基于数据的观测值数量来划分箱子,每个箱子包含相同数量的数据点。

 

 文本编辑相似度度量方法

 

类比直角坐标系中两点距离,理解一下公式。

r 是一个正整数,称为参数或次数。当 r=1 时,明氏距离变为曼哈顿距离;当 r=2 时,它变为欧几里得距离。

曼哈顿距离是 单单每个类型的距离差之和。

X = (-3, -2, -1, 0, 1, 2,3) Y = (9, 4, 1, 0, 1, 4, 9)这个例子pearson的r是0 。

pearson=COV(x,y)/x的标准差*y的标准差。

独热编码将每个标称属性进行扩充,
p将一个颜色标称属性扩充为4个二元属性,分别对应黑、白、蓝、
黄四种取值。对于每一个产品,它在这四个属性上只能有一个取1,
其余三个都为0,所以称为独热编码

最大最小值未知,或者离群点影响较大时 

**

确定程度较高,对应的信息熵也较小。
n 数据点被完全打乱的时候,难以理解其意思,造成不确定性也
就多了,对应的信息熵也变大了。

选择信息增益最大的分隔点

*

既可以降低数据“维数” 又保留了原数据的大部分信息

示例:

如果当某属性两个样例都为0对聚类的影响不大,例如医院体检两个人某种不重要的病毒抗原都是阴性,则不影响分到不同聚类。

这个时候abcd中的d就没啥用了。

通俗理解:jaccard=不一样的个数/(不一样的个数+都为1的个数)

jaccard数值小的越相似。

 误差平方和不再减小

SSE(Sum of Squared Errors,误差平方和)是一种用于衡量聚类质量的指标。SSE计算的是每个数据点到其所属簇的中心的距离的平方之和。

kmeans算法还会受到,离群点,规模,形状,密度影响。

***

邻域:以样本为中心,eps为半径所包括的点

核心点:这个点的圈圈囊括的点的数量达到最小阈值 minpts

边界点:这个点的圈圈所囊括的点的数量未达到最小阈值 minpts,但是被核心点圈住了。

噪声点:既没有被核心点圈住,自己的圈圈里也没有达到最小阈值数量

直接密度可达:单个核心点它圈圈里的点,它可以直接可达的点。

密度可达:例如 A密度可达B (A必须是核心点) 意味着A可通过链接其他核心点最终到达B(B可以是核心点也可以是边界点)。密度可达是非对称的。

密度相连:跟密度可达唯一不同的是 A可以是边界点,即:A可通过链接其他核心点最终到达B

1.遍历数据集中的点,判断是否是核心,如果是创建簇,进行2,如果不是列为噪声点或边界点。

2.把核心点直接密度可达的点加入到簇中

3.循环,直到没有新的点添加到簇中

决策树

B站视频:http://【【数据挖掘】决策树零基础入门教程,手把手教你学决策树!】https://www.bilibili.com/video/BV1T7411b7DG?vd_source=1a684a3a1b9d05485b3d6277aeeb705d

IG(X|Y)表示X在以Y为条件分为两类后,各类的加权熵比原来的熵减少了多少。

   除了用熵来确定最优决策类别,还能用基尼系数来确定t。基尼系数是 1-所分的类别的平方和,一次分类好后要求加权基尼。

然后选择基尼系数最小的划分作为当前的最佳划分。

判断构建的决策树的优劣

判断构建的决策树的优劣

***

当d=1时就为一元线性回归。

=1289 8115

几何中心度

跟它相交的结点/除了自己以外的所有结点

接近中心度

下面的也不全对! 

这里e11要*2

d1

分子in相当于自己社区内的边的和*2   ; tot是自己社区内的边的和*2+外部连接的边

在我的主页里搜索数据科学导论课件,可以获得期末总复习ppt,需要各章节ppt的私我。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/630505.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智慧校园大数据平台架构

平台架构 基础硬件层 基础硬件层是由一组低廉的PC或服务器组合构建而成。基础硬件层主要承载着数据的存储、运算、容错、调度和通信等任务,对基础应用层下达的指令进行执行和反馈。 数据集成 大数据特征表现在实时、交互、海量等方面,并且以半结构化、非结构化数据为主,价…

HarmonyOS应用开发者高级认证试题库(鸿蒙)

目录 考试链接: 流程: 选择: 判断 单选 多选 考试链接: 华为开发者学堂华为开发者学堂https://developer.huawei.com/consumer/cn/training/dev-certification/a617e0d3bc144624864a04edb951f6c4 流程: 先进行…

K8s(二)Pod资源——node调度策略、node亲和性、污点与容忍度

目录 node调度策略nodeName和nodeSelector 指定nodeName 指定nodeSelector node亲和性 node节点亲和性 硬亲和性 软亲和性 污点与容忍度 本文主要介绍了在pod中,与node相关的调度策略,亲和性,污点与容忍度等的内容 node调度策略node…

2024.1.17 网络编程 作业

思维导图 练习题 广播服务器端 #include <myhead.h>int main(int argc, char const *argv[]) {//创建套接字int sfd socket(AF_INET, SOCK_DGRAM, 0);//填充网络信息结构体struct sockaddr_in cin;cin.sin_family AF_INET;cin.sin_port htons(6789);cin.sin_addr.s_…

Rxjava链式调用解析

本文以下面代码为例逐步解析 Observable.just("数据源").map(new Function<String, Integer>() {Overridepublic Integer apply(String s) throws Exception {return 1;}}).filter(integer -> {return integer 1;}).subscribeOn(Schedulers.io()).observe…

element-ui表单验证同时用change与blur一起验证

项目场景&#xff1a; 提示&#xff1a;这里简述项目相关背景&#xff1a; 当审批时不通过审批意见要必须输入&#xff0c; 1&#xff1a;如果用change验证的话删除所有内容时报错是massage的提示&#xff0c;但是在失去焦点的时候报错就成了英文&#xff0c;如下图&#xf…

SQL语句详解四-DQL(数据查询语言-多表查询一)

文章目录 表和表的关系一对一关系一对多、多对一关系多对多关系 表和表的关系 概述&#xff1a;数据库中表的关系有三种&#xff0c;一对一关系、一对多的关系、多对多的关系。 一对一关系 例如&#xff1a;一个人只能有一个身份证号&#xff0c;一个身份证号只属于一个人 示…

STM32F103标准外设库——RCC时钟(六)

个人名片&#xff1a; &#x1f981;作者简介&#xff1a;一名喜欢分享和记录学习的在校大学生 &#x1f42f;个人主页&#xff1a;妄北y &#x1f427;个人QQ&#xff1a;2061314755 &#x1f43b;个人邮箱&#xff1a;2061314755qq.com &#x1f989;个人WeChat&#xff1a;V…

PyQt5零基础入门(四)——信号与槽

信号与槽 前言信号与槽单对单直接连接使用lambda表达式 信号与槽多对多一个信号连接多个槽多个信号连接一个槽信号与信号连接 自定义信号 前言 PyQt5的信号与槽是一种对象之间的通信机制&#xff0c;允许一个QObject对象发出信号&#xff0c;与之相连接的槽函数将会自动执行。…

漏洞复现-科荣AIO UtilServlet任意命令执行漏洞(附漏洞检测脚本)

免责声明 文章中涉及的漏洞均已修复&#xff0c;敏感信息均已做打码处理&#xff0c;文章仅做经验分享用途&#xff0c;切勿当真&#xff0c;未授权的攻击属于非法行为&#xff01;文章中敏感信息均已做多层打马处理。传播、利用本文章所提供的信息而造成的任何直接或者间接的…

【MySQL】管理用户

DCL-管理用户 查询用户 use mysql; select * from user;创建用户 create user 用户名主机名 identified by 密码;修改用户密码 alter user 用户名主机名 identidied with mysql_native_password by 新密码;删除用户 drop user 用户名主机名;创建用户test&#xff0c;只能够…

地震预测系统项目实现

整个项目思路即在一组观测数据中&#xff0c;地震专家&#xff08;即用户&#xff09;输入观测窗口的最小数量和最大数量&#xff0c;进行预测峰值点 数据文件如图所示&#xff1a; #define _CRT_SECURE_NO_WARNINGS #include<fstream> #include<string> #include&…

CSS 设置背景图片

文章目录 设置背景颜色设置背景图片背景图片偏移量计算原点背景图片尺寸设置背景图片位置设置背景图片重复方式设置背景范围设置背景图片是否跟随元素移动测试背景图片 本文概念部分参考&#xff1a;CSS背景background设置 设置背景颜色 background-color 设置背景颜色 设置…

当我们谈上下文切换时我们在谈些什么

相信不少小伙伴面试时&#xff0c;都被问到过这样一个问题&#xff1a;进程和线程的区别是什么&#xff1f;大学老师会告诉我们&#xff1a;进程是资源分配的基本单位&#xff0c;线程是调度的基本单位。说到调度&#xff0c;就不得不提到CPU的上下文切换了。 何为CPU上下文切换…

香港服务器托管:你对服务器托管了解多少?

在当今数字化的时代&#xff0c;服务器托管已成为企业和网站运营的关键一环。对于许多企业来说&#xff0c;如何选择一个安全、稳定、高效的服务器托管方案&#xff0c;成为了确保业务连续性和数据安全的重要课题。那么&#xff0c;究竟什么是服务器托管&#xff0c;它又有哪些…

使用WAF防御网络上的隐蔽威胁之扫描器

在网络安全领域&#xff0c;扫描器是用于侦察和识别网络系统漏洞的工具。 它们可以帮助网络管理员识别安全漏洞&#xff0c;也可能被攻击者用来寻找攻击目标。 扫描器的基本概念 定义&#xff1a;扫描器是一种自动化工具&#xff0c;用于探测网络和服务器中的漏洞、开放端口、…

手机崩溃日志的查找与分析

手机崩溃日志的查找与分析 摘要 本文介绍了一款名为克魔助手的iOS应用日志查看工具&#xff0c;该工具可以方便地查看iPhone设备上应用和系统运行时的实时日志和崩溃日志。同时还提供了崩溃日志的分析查看模块&#xff0c;可以对苹果崩溃日志进行符号化、格式化和分析&#x…

统计学R语言 实验3 点估计

统计学R语言 实验3 点估计 一、实验目的 1. 掌握理解点估计的相关概念和方法。 2. 掌握理解点估计的估计质量好坏判断方法。 3. 熟悉R语言等语言的集成开发环境。 二、实验分析与内容 某灯泡厂从某日生产的一批灯泡中抽取10个灯泡进行寿命试验&#xff0c;得到灯泡寿命&…

leetocode 15 三数之和

题目 给你一个整数数组 nums &#xff0c;判断是否存在三元组 [nums[i], nums[j], nums[k]] 满足 i ! j、i ! k 且 j ! k &#xff0c;同时还满足 nums[i] nums[j] nums[k] 0 。请你返回所有和为 0 且不重复的三元组。 注意&#xff1a;答案中不可以包含重复的三元组。 示例…

Linux网络引导自动安装centos7

目录 一、部署PXE远程安装服务 1. 系统装机的三种引导方式 2. pxe概述 3. 实现过程 4. 搭建过程中服务介绍 4.1 TFTP服务 4.2 vsftp&#xff1a;安装系统镜像文件获取方式 4.3 syslinux 4.4 DHCP服务 5. 操作过程 二、实现Kickstart无人值守安装 1. 安装Kickstart图…