第十四章大数据和数据科学4分

14.1 引言

14.1.3 科学理念

1.数据科学

数据科学将数据挖掘、统计分析和机器学习与数据集成整合,结合数据建模能力,去构建预测模型、探索数据内容模式。
数据科学依赖于:
1)丰富的数据源。具有能够展示隐藏在组织或客户行为中不可见模式的潜力。
2)信息组织和分析。用来领会数据内容,结合数据集针对有意义模式进行假设和测试的技术。
3)信息交付。针对数据运行模型和数学算法,进行可视化展示及其他方式输出,以此加强对行为的深入洞察。
4)展示发现和数据洞察。分析和揭示结果,分享洞察观点(表 14-1)对比了传统的数据仓库/商务智能与基于数据科学技术实现的预测性分析和规范性分析的作用。
在这里插入图片描述

2.数据科学的过程

在数据科学的过程中 获得和接收数据源工作量最大

3.大数据

早 期 ,人 们 通 过 3V 来 定 义 大 数 据 含 义 的 特 征 :数 据 量 大(Volume)、数据更新快(Velocity)、数据类型多样/可变(Variety)(Laney,2001)。随着越来越多的组织开始深挖大数据的潜力,已经不止于以上三个 V。V 列表有了更多的扩展:
1)数据量大(Volume)。大数据通常拥有上千个实体或数十亿个记录中的元素。
2)数据更新快(Velocity)。指数据被捕获、生成或共享的速度。大数据通常实时地生成、分发及进行分析。
3)数据类型多样/可变(Variety/Variability)。指抓取或传递数据的形式。大数据需要多种格式储存。通常,数据集内或跨数据集的数据结构是不一致的。
4)数据黏度大(Viscosity)。指数据使用或集成的难度比较高。
5)数据波动性大(Volatility)。指数据更改的频率,以及由此导致的数据有效时间短。

5.大数据来源

结构化数据+非结构化数据

6.数据湖

数据湖是一种可以 提取、存储、评估和分析不同类型和结构海量数据的环境,可供多种场景使用。如可以提供:
1)数据科学家可以挖掘和分析数据的环境。
2)原始数据的集中存储区域,只需很少量的转换(如果需要的话)。
3)数据仓库明细历史数据的备用存储区域。
4)信息记录的在线归档。
5)可以通过自动化的模型识别提取流数据的环境。

数据湖的风险在于,它可能很快会变成 数据沼泽 ——杂乱、不干净、不一致。为了建立数据湖中的内容清单,在数据被摄取时对元数据进行管理至关重要。

Q:数据湖管理不好会变成?
A 池塘 B 沼泽 C 大海A:不是池塘,是沼泽。
Q:数据湖是否管理好表示什么?
A 元数据是否管理好?B 数据质量得到保证A:元数据是否管理好

7.基于服务的架构基于服务的体系结构(Services-Based Architecture,SBA)

8.机器学习

机器学习探索了学习算法的构建和研究。这些算法一般分为三种类型:
1)监督学习(Supervised learning)。基于通用规则(如将 SPAM 邮件与非 SPAM 邮件分开)。
2)无监督学习(Unsupervised learning)。基于找到的那些隐藏的规律(数据挖掘)。
3)强化学习(Reinforcement learning)。基于目标的实现(如在国际象棋中击败对手)。

Q:预测明天销售额是多少?A:有无限可能性,
无监督学习
Q:预测明年销售额是否笔今年多?ABC 一样 D 不知道
监督学习

12.规范分析

规范分析(Prescriptive Analytics)比预测分析更进一步,它对将会影响结果的动作进行定义,而不仅仅是根据已发生的动作预测结果。 规范分析预计将会发生什么,何时会发生,并暗示它将会发生的原因。由于规范分析可以显示各种决策的含义,因此可以建议如何利用机会或避免风险。规范分析可以不断接收新数据以重新预测和重新规定。该过程可以提高预测准确性,并提供更好的方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/2689.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

jpa分页插件对象Pageable出现了错误异常如何解决?

jpa分页插件对象Pageable出现了错误异常如何解决?! 一般来说,遇到这种的错误异常情况,通常情况 下,都是因为程序员把传递的分页页码数字写错了。 正常情况下,分页页码起始数字应该是0;而不是1…

区块链钱包开发——专业区块链开发

随着区块链技术的发展,钱包开发成为了一项至关重要的任务。本文将探讨区块链钱包开发的重要性,分析当前面临的挑战,并展望未来的发展趋势。 一、区块链钱包概述 区块链钱包是一种用于存储和管理数字货币的软件工具。它为用户提供了一个安全的…

揭开ChatGPT面纱(2):OpenAI主类源码概览

文章目录 〇、使用OpenAI的两个步骤一、初始化方法__init__()1.源码2.参数解析 二、提供的接口1.源码2.接口说明主要接口说明 OpenAI版本1.6.1 〇、使用OpenAI的两个步骤 在上一篇博客中,我实现并运行了一个OpenAI的demo,我们可以发现,想要使…

Unity的旋转实现一些方法总结(案例:通过输入,玩家进行旋转移动)

目录 1. Transform.Rotate 方法 使用 2. Transform.rotation 或 Transform.localRotation 属性与四元数 使用方式: 小案例 :目标旋转角度计算:targetRotation(Quaternion类型) 玩家发现敌人位置,玩家…

ubuntu20 中设置桌面背景任务

1. 下载conky 使用 Conky 在 Ubuntu 中显示信息,例如你的阅读计划,可以分几个步骤来完成。Conky 是一款灵活的轻量级系统监视器,能够在桌面上显示各种信息。以下是基本的设置步骤: 安装 Conky 首先,你需要在 Ubuntu…

【学习记录】autoware标定相机与激光雷达外参

一、autoware选择 这里踩了好几个坑,首先autoware作为一个无人驾驶知名框架,其内部实际上是有两套标定的东西的,这一点绝大多数博客没有提到。其中最常用的是一个叫标定工具箱的东西,这个ros包已经在1.10往后的版本中被删掉了&am…

Spring 1、初识Spring

初识Spring 了解Spring家族了解Spring发展史Spring Framework系统架构学习路线 了解Spring家族 官网spring.io Spring形成了一种开发的生态圈,Spring提供了若干个项目,每个项目用于完成特定的功能。 Spring Framework(最基础的东西&#x…

SpringCloud Alibaba--nacos配置中心

目录 一.基础介绍 1.1概念 1.2 功能 二.实现 2.1 依赖 2.2 新建配置文件 2.3 克隆 2.4 配置bootstap.yml文件 三.测试 一.基础介绍 1.1概念 在微服务架构中,配置中心就是统一管理各个微服务配置文件的服务。把传统的单体jar包拆分成多个微服务后&#xf…

跨越未知,拥抱挑战——新征程

在浩瀚的IT领域里,每一位开发工程师都如同一位探险家,不断地探索、挑战和成长。作为一名新入职的Java开发工程师,我面临着全新的技术栈和业务领域,这是一次跨越未知的征程,也是一次自我提升的机会。 新入职 初入公司…

低代码开发之腾讯云微搭工具

低代码开发之腾讯云微搭工具 微搭简介诞生缘由开发模式如何创建组件模块介绍实例讲解url传参级联联动使用事件其他方法调用数据源方法 callDataSource触发流程 callProcess 数据模型方法V2 微搭简介 微搭(WeDa),全称是腾讯云微搭低代码开发平…

Powershell 一键安装 virtio_qemu_agent

前言 qemu-guest-agent qemu-guest-agent是一个助手守护进程,安装在客户机中。它用于在主机和客户端之间交换信息,并在客户端执行命令。 在Proxmox VE中,qemu-guest-agent主要用于三件事: 正确关闭客户机,而不是依赖于ACPI命令或windows策略在进行备份/快照时冻结客户机…

plt.show()输出<Figure size 1200x800 with 1 Axes>没有展示出图片在notebook里

解决方法如下: 在Jupyter Notebook中,如果使用plt.show()没有直接显示图像,可能是由于某些设置或限制导致的。您可以尝试使用%matplotlib inline魔术命令来确保图像能够直接显示在Notebook中。请在Notebook的第一个单元格中执行以下命令&…

世界首台能探测单个原子的量子模拟器,诞生!

量子物理学依赖于高精度的传感技术,以便深入研究材料的微观特性。近期开发的模拟量子处理器显示出量子气体显微镜在原子层面理解量子系统方面的强大潜力。这种显微镜可以生成极高分辨率的量子气体图像,甚至能够检测到单个原子。 在西班牙巴塞罗那的ICFO&…

156.25MHz的差分晶体振荡器SG3225VEN

数字经济正焕发出勃勃生机,云计算,大数据,5G和人工智能等新技术的发展给行业带来了新的机遇。无论是在数据中心内部还是在数据中心之间,提供低成本,高速的100/200/400G小型化解决方案都是光模块的发展需求。为了使DSP稳定工作,需要一个小型的封装晶体振荡器来提供参…

书生·浦语大模型第二期实战营第六节-Lagent AgentLego 智能体应用搭建 笔记和作业

来源: 视频教程:Lagent & AgentLego 智能体应用搭建 文字教程: Lagent Web Demo:https://github.com/InternLM/Tutorial/blob/camp2/agent/lagent.md#1-lagent-web-demo AgentLego: https://github.com/Inter…

ComfyUI学习旅程

一、模型文件(Checkpoint) 首先它很大,这些文件是你从huggingface或者civitai下载而来的, 所以这些大文件如 .ckpt 或 .safetensors ,实际上包含了什么内容呢? 它包含了包含了三种不同模型的权重&#x…

做大模型产品,如何设计prompt?

做GenAI产品,除了要设计好的AI任务流程,合理的拆分业务以外,最重要的就是写好prompt,管理好prompt,持续迭代prompt。 prompt一般有两种形式:结构化prompt和对话式prompt。 结构化prompt的优点是通过规范的…

Odoo:全球排名第一的免费开源PLM管理系统介绍

概述 利用开源智造OdooPLM产品生命周期管理应用,重塑创新 实现产品生命周期管理数字化,高效定义、开发、交付和管理创新的可持续产品,拥抱数字化供应链。 通过开源智造基于Odoo开源技术平台打造数字化的产品生命周期管理(PLM&am…

allegro输出正反面bom

不是前面两条命令,而是component report

李沐65_注意力分数——自学笔记

Additive Attention 等价于将key和value合并起来后放入到一个隐藏大小为h输出大小为1的单隐藏层 总结 1.注意力分数是query和key的相似度,注意力权重是分数的softmax结果 2.两种常见的分数计算: (1)将query和key合并起来进入一个单输出单…