针对海量数据的存储与访问瓶颈的解决方案

背景

在当今这个时代,人们对互联网的依赖程度非常高,也因此产生了大量的数据,企业视这些数据为瑰宝。而这些被视为瑰宝的数据为我们的系统带来了很大的烦恼。这些海量数据的存储与访问成为了系统设计与使用的瓶颈,而这些数据往往存储在数据库中,传统的数据库存在着先天的不足,即单机(单库)性能瓶颈,并且扩展起来非常的困难。在当今的这个大数据时代,我们急需解决这个问题 。如果单机数据库易于扩展,数据可切分,就可以避免这些问题,但是当前的这些数据库厂商,包括开源的数据库MySQL在内,提供这些服务都是需要收费的,所以我们转向一些第三方的软件,使用这些软件做数据的切分,将原本在一台数据库上的数据,分散到多台数据库当中,降低每一个单体数据库的负载。那么我们如何做数据切分呢?

数据切分

数据切分,简单的说,就是通过某种条件,将我们之前存储在一台数据库上的数据,分散到多台数据库中,从而达到降低单台数据库负载的效果。数据切分,根据其切分的规则,大致分为两种类型,垂直切分和水平切分。

垂直切分

垂直切分就是按照不同的表或者Schema切分到不同的数据库中,比如:在我们的课程中,订单表(order) 和商品表(product) 在同一个数据库中,而我们现在要对其切分,使得订单表(order) 和商品表(product) 分别落到不同的物理机中的不同的数据库中,使其完全隔离,从而达到降低数据库负载的效果。如图所示:

垂直切分的特点就是规则简单,易于实施,可以根据业务模块进行划分,各个业务之间耦合性低,相互影响也较小。

一个架构设计较好的应用系统,其总体功能肯定是有多个不同的功能模块组成的。每一个功能模块对应着数据库里的一系列表。例如在咱们的课程当中,商品功能模块对应的表包括:类目、属性、属性值、品牌、商品、sku等表。而在订单模块中,对应的表包括:订单、订单明细、订单收货地址、订单日志等。如图所示:

在架构设计中,各个功能模块之间的交互越统一、越少越好。这样,系统模块之间的耦合度会很低,各个系统模块的可扩展性、可维护性也会大大提高。这样的系统,实现数据的垂直切分就会很容易。

但是,在实际的系统架构设计中,有一些表很难做到完全的独立,往往存在跨库join的现象。还是上面的例子,比如我们接到了一个需求,要求查询某一个类目产生了多少订单,如果在单体数据库中,我们直接连表查询就可以了。但是现在垂直切分成了两个数据库,跨库连表查询是十分影响性能的,也不推荐这样用,只能通过接口去调取服务,这样系统的复杂度又升高了。对于这种很难做到完全独立的表,作为系统架构设计人员,就要去做平衡,是数据库让步于业务,将这些表放在一个数据库当中?还是拆分成多个数据库,业务之间通过接口来调用呢?在系统初期,数据量比较小,资源也有限,往往会选择放在一个数据库当中。而随着业务的发展,数据量达到了一定的规模,就有必要去进行数据的垂直切分了。而如何进行切分,切分到什么程度,则是对架构师的一个艰难的考验。

下面我们来看看垂直切分的优缺点:

优点:

  • 拆分后业务清晰,拆分规则明确;

  • 系统之间容易扩展和整合;

  • 数据维护简单

缺点:

  • 部分业务表无法join,只能通过接口调用,提升了系统的复杂度;

  • 跨库事务难以处理;

  • 垂直切分后,某些业务数据过于庞大,仍然存在单体性能瓶颈;

正如缺点中的最后一条所说,当某一个业务模块的数据暴增时,仍然存在着单机性能缺陷。还是之前的例子,如果出现了一个爆款商品,订单量急剧上升,达到了单机性能瓶颈,那么你所有和订单相关的业务都要受到影响。这时我们就要用到水平切分。

水平切分

水平切分相比垂直切分,更为复杂。它需要将一个表中的数据,根据某种规则拆分到不同的数据库中,例如:订单尾号为奇数的订单放在了订单数据库1中,而订单尾号为偶数的订单放在了订单数据库2中。这样,原本存在一个数据库中的订单数据,被水平的切分成了两个数据库。在查询订单数据时,我们还要根据订单的尾号,判断这个订单在数据库1中,还是在数据库2中,然后将这条SQL语句发送到正确的数据库中,查出订单。水平切分的架构图如下:

水平拆分数据,要先订单拆分的规则,找到你要按哪个维度去拆分,还是前面订单的例子,我们按照订单尾号的奇偶去拆分,那么这样拆分会有什么影响呢?假如我是一个用户,我下了两个订单,一个订单尾号为奇数,一个订单尾号为偶数,这时,我去个人中心,订单列表页去查看我的订单。那么这个订单列表页要去怎么查,要根据我的用户d分别取订单1库和订单2库去查询出订单,然后再合并成一个列表,是不是很麻烦。所以,咱们在拆分数据时,一定要结合业务,选择出适合当前业务场景的拆分规则。那么按照用户id去拆分数据就合理吗?也不一定,比如:咱们的身份变了,不是买家了,而是卖家,我这个卖家有很多的订单,卖家的后台系统也有订单列表页,那这个订单列表页要怎么样去查?是不是也要在所有的订单库中查一遍,然后再聚合成一个订单列表呀。那这样看,是不是按照用户id去拆分订单又不合理了。所以在做数据水平拆分时,是对架构师的真正考验。

我们看看几种水平拆分的典型的分片规则:

  • 用户id求模,我们前面已经提到过;

  • 按照日期去拆分数据;

  • 按照其他字段求模,去拆分数据;

上面是按照用户id去求模拆分的一个示意图。咱们再来看看水平拆分的优缺点:

优点:

  • 解决了单库大数据、高并发的性能瓶颈;

  • 拆分规则封装好,对应用端几乎透明,开发人员无需关心拆分细节;

  • 提高了系统的稳定性和负载能力;

缺点:

  • 拆分规则很难抽象;

  • 分片事务一致性难以解决;

二次扩展时,数据迁移、维护难度大。比如:开始我们按照用户id对2求模,但是随着业务的增长,2台数据库难以支撑,还是继续拆分成4个数据库,那么这时就需要做数据迁移了。

总结

世界上的万物没有完美的,有利就有弊,就像数据切分一样。无论是垂直切分,还是水平切分,它们解决了海量数据的存储和访问性能问题,但也随之而来的带来了很多新问题,它们的共同缺点有:分布式的事务问题;跨库join问题;多数据源的管理问题针对多数据源的管理问题,主要有两种思路:

  1. 客户端模式,在每个应用模块内,配置自己需要的数据源, 直接访问数据库,在各模块内完成数据的整合;

  1. 中间代理模式,中间代理统一管理所有的数据源,数据库层对开发人员完全透明,开发人员无需关注拆分的细节。

基于这两种模式,目前都有成熟的第三方软件,代表作分别如下:

  • 中间代理模式: MyCat

  • 客户端模式: sharding-jdbc

文章转载自:程序员波特

原文链接:https://www.cnblogs.com/potterCoding/p/17908759.html

体验地址:引迈 - JNPF快速开发平台_低代码开发平台_零代码开发平台_流程设计器_表单引擎_工作流引擎_软件架构

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/231172.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python装饰器泛化公有和私有属性

Python装饰器是一种强大的功能,允许程序员修改函数或类的行为。通过装饰器,可以在不修改函数或类本身的情况下,添加额外的功能或修改其行为。本文将深入探讨如何利用装饰器来泛化公有和私有属性的访问和修改方式。 Python装饰器的概念和作用…

正点原子驱动开发BUG(一)--SPI无法正常通信

目录 一、问题描述二、讲该问题的解决方案三、imx6ull的spi适配器驱动程序控制片选分析3.1 设备icm20608的驱动程序分析3.2 imx的spi适配器的驱动程序分析 四、BUG修复测试五、其他问题 一、问题描述 使用正点的im6ull开发板进行spi通信驱动开发实验的时候,主机无法…

install cuda cudnn tersorRT

# 安装 $ ubuntu-drivers devices$ sudo apt-get install nvidia-driver-470-server # 推荐是server,都可以。#delelt sudo apt --purge remove nvidia-* CUDA Toolkit Archive | NVIDIA Developerhttps://developer.nvidia.com/cuda-toolkit-archive CUDA Toolk…

装饰器设计模式

2. 装饰器设计模式 2.1 实现原理 装饰器设计模式(Decorator)是一种结构型设计模式,它允许动态地为对象添加新的行为。它通过创建一个包装器来实现,先将对象放入一个装饰器类中,再将装饰器类放入另一个装饰器类中&…

在4*4的平面上计算2a1+1+1

0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 在4*4的平面上有2个点,保持2a1的结构,然后向剩余的14个格子里随机扔2个石子。 共有14*13/291种可能 1 - - - 2 - - - 3 - - 1 4 - - - 1 1 - 1 1 - - - - - - - 1 - - …

如何免费搭建私人电影网站(一)

前言:在线看电影经常会出现烦人的广告,为了不浪费时间看广告,有必要做自己的专属网站。 准备工作: 1、申请免费域名(也可以花钱注册域名相对稳定)链接: 申请免费域名方法 2、申请免费主机(也可以…

JAVA:深入探讨Java 8 Stream的强大功能与用法

1、简述 Java 8引入了Stream API,为处理集合数据提供了一种更为强大和灵活的方式。Stream是一种抽象的数据结构,它允许你以一种声明性的方式处理数据集合。与传统的集合操作不同,Stream并不是一个存储数据的数据结构,而是在源数据…

代码随想录 518. 零钱兑换 II

题目 给你一个整数数组 coins 表示不同面额的硬币,另给一个整数 amount 表示总金额。 请你计算并返回可以凑成总金额的硬币组合数。如果任何硬币组合都无法凑出总金额,返回 0 。 假设每一种面额的硬币有无限个。 题目数据保证结果符合 32 位带符号整数。…

Linux线程——常用API

线程创建 函数原型及头文件 #include <pthread.h> int pthread_create(pthread_t *restrict tidp, const pthread_attr_t *restrict attr, void *(*start_rtn)(void *), void *restrict arg);参数解读 tidp当pthread_create成功返回时&#xff0c;由tidp指向的内存单元…

接口返回HTML页面详解

import requests from bs4 import BeautifulSoup import re import jsonurl https://listado.mercadolibre.com.mx/hogar-muebles-jardin/cocina/almacenamiento-organizacion/organizadores-cocina/_CustId_570995983_PrCategId_AD# 添加 headers 和 cookies headers {User-…

JS函数全解、闭包、递归、柯里化

函数的返回值由什么确定&#xff1f; 影响因素&#xff1a; 1.调用时输入的参数params 2.定义时的环境env let x1 x let a 1 function f1(x1){return x1 a }a 3 {let a 2console.log(f1(x)) // x3} a 4// 这个例子说明a是定义时的a &#xff0c;而不是执行时的a …

深度学习网站集锦1

深度学习网站集锦 1. https://paperswithcode.com/导航栏论文和代码做了对应可以下载数据集角度看对应相关paper code看神经网络常用方法paper及实现code有什么用处还有哪些网站 1. https://paperswithcode.com/ 超简单实用&#xff0c;推荐的深度学习科研必备网站&#xff08…

第三周:Python能力复盘

资料&#xff1a; 《笨办法学Python》阅读地址&#xff1a;https://www.bookstack.cn/read/LearnPython3TheHardWay 《廖雪峰Python教程》阅读地址&#xff1a;http://t.cn/RK0qGu7 《机器学习numpy与pandas基础》&#xff1a;https://zhuanlan.zhihu.com/p/639733816 《matplo…

组态和SCADA

在工业自动化领域&#xff0c;"组态"&#xff08;SCADA&#xff0c;Supervisory Control and Data Acquisition&#xff09;是一种用于监控和控制工业过程的系统。它是一种集成了数据采集、实时监控、远程操作和数据分析等功能的软件系统。 组态系统通常由以下几个主…

智能网关是什么

智能网关&#xff08;Smart Gateway&#xff09;是一种设备或系统&#xff0c;用于连接和交互不同类型的设备、传感器、终端和网络。它充当连接物联网&#xff08;IoT&#xff09;设备和互联网的桥梁&#xff0c;提供数据传输、通信协议转换和智能控制等功能。 智能网关在物联…

java多个设计模式解决大量if-else堆积

当面对大量的 if-else 语句时&#xff0c;可以考虑使用以下几种常见的设计模式来减少代码的复杂性和维护成本&#xff1a; 策略模式&#xff08;Strategy Pattern&#xff09;&#xff1a;将各个分支的逻辑封装成不同的策略类&#xff0c;然后通过一个上下文类来根据条件选择合…

JAVA主流日志框架梳理学习及使用

前言&#xff1a;目前市面上有挺多JAVA的日志框架&#xff0c;比如JUL(JDK自带的日志框架),Log4j,Logback,Log4j2等&#xff0c;有人可能有疑问说还有slf4j&#xff0c;不过slf4j不是一种日志框架的具体实现&#xff0c;而是一种日志门面&#xff08;日志门面可以理解为是一种统…

Python---多任务的介绍

1. 提问 利用现学知识能够让两个函数或者方法同时执行吗? 不能&#xff0c;因为之前所写的程序都是单任务的&#xff0c;也就是说一个函数或者方法执行完成另外一个函数或者方法才能执行&#xff0c;要想实现这种操作就需要使用多任务。 多任务的最大好处是充分利用CPU资源&…

Python---多进程的使用

1 导入进程包 #导入进程包 import multiprocessing2. Process进程类的说明 Process([group [, target [, name [, args [, kwargs]]]]]) group&#xff1a;指定进程组&#xff0c;目前只能使用Nonetarget&#xff1a;执行的目标任务名name&#xff1a;进程名字args&#xff…

3800个字彻底弄清cortex

3800个字彻底弄清cortex arm内核发展历史cortexM0系列芯片系统框图通用寄存器m0特殊寄存器m3/m4/m7特殊寄存器 MSP和PSPxPSRPRIMASKCONTROLFAULTMASKBASEPRI 栈空间操作异常和中断 系统异常 NVIC可嵌套向量中断控制器系统操作寄存器 NVIC寄存器系统控制块SCB寄存器SysTick寄存…