大数据思考:面对海量数据时,选择哪种模式才是更适合自己的?

如果您从事科技行业或者您不在这个行业,也许您已经听说过很多关于 AI 的信息。 我所说的不仅仅是多年来我们都喜欢的科幻小说中“天网正在接管地球”式的人工智能,而是人工智能和机器学习已经逐渐成为我们日常生活中的实际应用 .

大数据是人工智能与机器学习的 生命线和支柱。 庞大的数据,或者说海量数据,一直驱动着当今的人工智能与机器学习的发展。虽然我们总是希望数据量越大越好,但近年来组织已经开始从追求大数据转向选择小而宽。

让我们比较一下两者。

大量的数据

大数据可以分为两种方式。

第一种是收集和组织大型数据集——这是一个可能难以良好执行的简单概念。 该过程需要大量快速填充且通常是非结构化数据。 容纳此数据流的后端基础设施是资源密集型的,会涉及到网络带宽、存储空间和处理能力以支持大规模数据库部署,并且 通常价格昂贵。

第二种方法将变得更棘手。 在拥有大量数据后,您需要从中提取所需的洞察力与价值。 技术已经发展以适应大数据的规模,但在确定可以从这些堆积如山的信息中得出什么方面却进展较少。

是时候变得更聪明了。 即使是无限存储空间和完美NoSQL部署的环境,如果没有合适的模型来匹配,世界上所有的数据都将毫无意义。

这其中也蕴含了机会。 一些公司正在寻找更多来源的更少数据更实用的用例,并从数据集中得出更好的结论和相关性。

小而宽

通过“小而宽”的方法,您可以查看更多种类的来源,搜索相关性,而不仅仅是增加原始数量。 这种更具战术性的方法需要更少的数据,从而减少计算资源。从小到大意味着寻找不同的数据格式,结构化和非结构化,并找到它们之间的联系。

根据 Gartner 2021 年的一份报告:“可以使用小数据和大数据的潜在领域是零售业的需求预测、应用于超个性化的客户服务中的实时行为和情感智能,以及客户体验的改善。”

潜力看上去很大,但在实践中看起来又是怎样的呢? 海量数据集可能会很快变得笨拙或过时。 在信息时代,人类趋势和行为可能会突然发生变化,容易发生文化和经济转变。 使用可以动态适应这些变化的较小数据集的更敏捷模型还有空间。

哈佛商业评论的一份报告解释说,“组织中许多最有价值的数据集都非常小:想想千字节或兆字节,而不是艾字节。 因为这些数据缺乏大数据的数量和速度,所以它经常被忽视,在PC和功能数据库中萎靡不振,并且与企业范围的IT创新计划无关。”

报告描述了他们与医学编码人员进行的一项实验,该实验强调了用小数据训练 人工智能时的人为因素。 我建议通读这项研究,但最终的结论是,除了小数据之外,考虑人为因素可以改进模型,并使组织在大数据军备竞赛中具有竞争优势。

换句话说,我们探讨的是小数据、大数据和智能数据的成功组合。

结论推导

这一切意味着什么呢?我们在前面已经描述了很多,最后简单举一个例子来总结:虽然我希望拥有一台足够强大的电脑,但它的发热量足以成为我的家庭或办公室的加热源,并且未来总有一天它会遇到问题,比如一个缺乏优化的软件依然会在这台性能强大的机器上以糟糕的方式运行,即使我们使用了高端的工作站,也无法逃脱这样的问题。

在多数情况下,将更多资源投入到一个问题上是不切实际的,而且会让人们忽视真正的问题。 更常见的情况是,有一个很好的改进机会摆在面前,这就是我们今天开始看到的大数据。 仍然存在确实需要大量数据的用例,但通过设计模型来充分利用数据也是至关重要的,而不仅仅是依靠设计方法来获得最多数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/675437.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PCIE 参考时钟架构

一、PCIe架构组件 首先先看下PCIE架构组件,下图中主要包括: ROOT COMPLEX (RC) (CPU); PCIE PCI/PCI-X Bridge; PCIE SWITCH; PCIE ENDPOINT (EP) (pcie设备); BUFFER; 各个器件的时钟来源都是由100MHz经过Buffer后提供。一个PCIE树上最多可以有256…

Android Studio中打开文件管理器

文章目录 一、前言二、操作步骤 一、前言 在Android Studio中有时候需要查看手机的文件目录或者复制文件,但是有时候文件管理器找不到在哪,这里记录该操作流程 二、操作步骤 第一步: 第二步: 第三步:

云游戏发行需要哪些条件

云游戏是一种创新性的游戏服务模式,将游戏运算和渲染等处理任务移至云端服务器,通过互联网实时传输画面和操作指令,使玩家能够在低端终端设备上也能流畅玩游戏。要做云游戏发行,需要考虑一系列条件,包括技术、基础设施…

Qt未来市场洞察

跨平台开发:Qt作为一种跨平台的开发框架,具有良好的适应性和灵活性,未来将继续受到广泛应用。随着多设备和多平台应用的增加,Qt的前景在跨平台开发领域将更加广阔。 物联网应用:由于Qt对嵌入式系统和物联网应用的良好支…

Ubuntu 18.04上安装cuDNN 8.9.6.50:一站式指南

Content 一、前言二、准备工作三、安装步骤1. 启用本地仓库2. 导入CUDA GPG密钥3. 更新仓库元数据4. 安装运行时库5. 安装开发者库6. 安装代码示例7. 另外一种安装办法 四、验证安装1. 验证cuDNN版本2. 测试示例代码 五、总结 一、前言 在深度学习领域,高效的计算资…

通过Demo学WPF—数据绑定(二)

准备 今天学习的Demo是Data Binding中的Linq: 创建一个空白解决方案,然后添加现有项目,选择Linq,解决方案如下所示: 查看这个Demo的效果: 开始学习这个Demo xaml部分 查看MainWindow.xaml: …

【Java八股面试系列】JVM-常见参数设置

目录 堆内存相关 显式指定堆内存–Xms和-Xmx 显式新生代内存(Young Generation) 显式指定永久代/元空间的大小 垃圾收集相关 垃圾回收器 GC 日志记录 处理 OOM JDK监控和故障处理工具总结 堆内存相关 Java 虚拟机所管理的内存中最大的一块,Java 堆是所有线…

【嵌入式-传感器】从旋转编码器到学会看懂方波

背景: 在学习STM32F103的中断时,用到旋转编码器,需要通过旋转编码器输出的DO信号,获取旋转的刻度和方向。 前提知识: 使用中断需要RCC使能GPIO外设口及AFIO口、初始化GPIO、中断引脚AFIO选择配置、EXTI外部中断配置…

第62讲商品搜索动态实现以及性能优化

商品搜索后端动态获取数据 后端动态获取数据&#xff1a; /*** 商品搜索* param q* return*/GetMapping("/search")public R search(String q){List<Product> productList productService.list(new QueryWrapper<Product>().like("name", q)…

SpringMVC 1.请求参数检查 2.全局异常处理 3.请求参数封装为Pojo

ErrorEnum.java // 枚举所有的错误 package com.example.demo.enums;import lombok.Getter;public enum ErrorEnum {SYSTEM_ERROR(-1, "系统错误"),PARAM_ERROR(-2, "参数错误"),OK(0, "成功"),;Getterprivate final int code;Getterprivate fi…

免费生成ios证书的方法(无需mac电脑)

使用hbuilderx的uniapp框架开发移动端程序很方便&#xff0c;可以很方便地开发出移动端的小程序和app。但是打包ios版本的app的时候却很麻烦&#xff0c;官方提供的教程需要使用mac电脑来生成证书&#xff0c;但是mac电脑却不便宜&#xff0c;一般的型号都差不多上万。 因此&a…

Linux部署Nacos注册中心实现远程访问UI管理界面

Nacos是阿里开放的一款中间件,也是一款服务注册中心&#xff0c;它主要提供三种功能&#xff1a;持久化节点注册&#xff0c;非持久化节点注册和配置管理。 本例通过结合Cpolar内网穿透实现远程访问Nacos 提供的UI (控制台)界面,帮助管理所有的服务和应用的配置 Cpolar内网穿…

OpenHarmony轻量级内核-LiteOS-M

OpenHarmony轻量级内核 思维导图 https://download.csdn.net/download/lanlingxueyu/88816723 概述 内核是一人操作系统的运算核心,决定着系统的性能和稳定性。它是基于硬件的第一层软件扩充,提供操作系统的基本功能,是操作系统工作的基础。它负责管理系统的进程、内存、…

【Node系列】node中的流(Stream)

文章目录 一、流&#xff08;Stream&#xff09;二、四种基本流的案例三、组合流&#xff1a;管道流&#xff08;Pipeline Stream&#xff09;四、组合流&#xff1a;链式流&#xff08;Chaining Stream&#xff09;五、热门文章 一、流&#xff08;Stream&#xff09; Node.j…

idea: 无法创建Java Class文件(SpringBoot)已解决

第一&#xff1a;点击file-->project Sructure... 第二步&#xff1a;点击Moudules 选择自己需要创建java的文件夹&#xff08;我这里选择的是main&#xff09;右键点击Sources&#xff0c;然后点击OK即可 然后就可以创建java类了

第十四篇【传奇开心果系列】Python的OpenCV库技术点案例示例:图像特征提取与描述

传奇开心果短博文系列 系列短博文目录Python的OpenCV库技术点案例示例系列短博文目录前言一、OpenCV图像特征提取与描述介绍二、OpenCV图像特征提取与描述初步示例代码三、扩展思路介绍四、特征点筛选和匹配优化示例代码五、多尺度特征提取示例代码六、非局部特征描述子示例代码…

Quartus工程的qsf配置约束文件介绍

一、qsf文件概述 qsf&#xff1a;Quartus Setting File&#xff0c;是Quartus工程的配置文件&#xff1b; 包含一个Quartus工程的所有约束&#xff0c;包括工程的软件版本信息、FPGA器件信息、引脚约分配、引脚电平分配&#xff0c;编译约束和用于Classic TimingAnalyzer的时…

c#stream

在C#中&#xff0c;Stream 是一个抽象基类&#xff0c;用于处理输入和输出的字节序列。它是所有输入/输出 (I/O) 操作的基础&#xff0c;包括文件操作、网络操作、内存操作等。Stream 类提供了一组方法和属性&#xff0c;使得可以对数据进行读取、写入和定位。下面是一些Stream…

Python爬虫 pyquery库详解

使用 pyquery 在上一节中&#xff0c;我们介绍了 Beautiful Soup 的用法&#xff0c;它是一个非常强大的网页解析库&#xff0c;你是否觉得它的一些方法用起来有点不适应&#xff1f;有没有觉得它的 CSS 选择器的功能没有那么强大&#xff1f; 如果你对 Web 有所涉及&#xf…

3分钟部署完成Docker Registry及可视化管理工具Docker-UI

安装docker-registry 由于镜像文件会非常占用空间&#xff0c;因此需要选择一个磁盘充裕的位置来存放镜像数据。 这里设置为&#xff1a;-v /data/registry:/var/lib/registry&#xff0c;其中/data/registry是宿主机存放数据的位置。 docker run -d -p 5000:5000 --restart…