mongodb如何写入图片_CTO之瞳-数据库-MongoDB

MongoDB,常用的NoSql数据库,在https://db-engines.com/en/ranking 里被分类为文档型数据库。

本文从以下五个方面来了解MongoDB (和上一篇一样,基础操作请查询官方文档或者菜鸟教程)

  1. 使用场景
  2. 存储引擎
  3. 性能测试
  4. 索引-B树
  5. 分片与复制

1.使用场景

一个业务系统的搭建,什么情况下用关系型数据库MySql,又在什么情况下用文档型数据库MongoDB呢?

在回答这个问题之前,先来了解一下MongoDB与关系型数据库的几个显著区别。在MongoDB的自述中,抽取出个人认为重要的两个点:

https://www.mongodb.com/nosql-explained

1. Dynamic Schemas:动态的数据结构

MySql需要先定义好一张表的字段,然后每个字段的值才能被插入;MongoDB不用预先定义字段和数据类型,可以随时动态插入新增的字段。对于一个不断变化发展的业务,数据定义也必然是变化发展的,因此一个灵活可变的数据结构才能较好的应对。比如,社交类软件,每一次的改版,后台的数据结构都有相应的变化。

2. Auto-sharding:自动分片

数据库层面原生的水平分库分表方案,对于海量数据,不用人为的去做分库分表操作。基本原理如下图所示(图片来自MongoDB官网)。

67836c2173b7ec4b2b8588f30b923611.png

基于以上两个特点,不难看出在什么情况下需要使用MongoDB。

  • 遇到经常变化的数据需求。产品今天提需求要支持每个用户设定3个兴趣爱好;明天起床觉得3这个数貌似不是自己的幸运数字啊,还是改为7个兴趣爱好吧;后天老板说我有8个爱好怎么办,产品又默默的改了需求。如果用MySql来存储,相信DBA会默默的准备麻袋和棍棒。所以,一般不经常变的个人数据存在MySql里,例如生日、姓名、籍贯,当然还有性别。而经常变化的数据通过userid关联到MongoDB里存储,比如头像、自我介绍、兴趣爱好,可能、也许、应该还有婚姻状况。
  • 海量数据,例如日志。

其实MongoDB的使用场景,在官网的用户案例里已经给出了很多答案:

百度在什么场景用MongoDB?信息,图片分享,百度云,百度地图,社交论坛,用户行为日志。

奇虎呢?基于地理位置信息的移动搜索与结果分发,单点登录信息的缓存(The user’s SSO session is cached in MongoDB for ultra-fast access. MongoDB supports millions of concurrent users, handling 30,000 operations per second and 1.8 billion queries daily. 关于性能在本篇第3部分中阐述),日志分析平台。

还有很多其他公司的应用实例,大家可以访问下面这个链接获取信息。

https://www.mongodb.com/mongodb-scale

最常用的几个场景还是:文档,LBS相关的地理位置信息,日志。这几个场景的共同特点:数据量大,需要经常查询。

2.存储引擎

MongoDB 4.x版本有两个常用的存储引擎(关于存储引擎的概念,请参看上一篇文章 CTO之瞳-数据库-MySql)

1. WiredTiger:默认引擎,也是社区版(免费版)唯一支持的引擎。

从下图(图片来自MongoDB官网)可以看出,WT引擎在内存中分了两个缓存区域,一个是没做数据压缩的WT Cache,另一个是做了数据压缩的FS Cache,查询的顺序是先去WT Cache,没有命中再去FS Cache,最后再去磁盘;而存进磁盘的数据都是压缩过的(默认压缩)。

0f70dd3c64846bc78cbc7914df319a33.png

2. In-Memory:企业版才支持的引擎

看名字就想象的出,所有的数据是存在内存中的,目的是为了避免硬盘I/O操作,提升性能。缺点也很明显,一旦关机或重启,所有数据都会丢失。看到这里,始终想不明白In-Memory引擎的用途,直到看见了MongoDB的又一特性Replication(复制)才秒懂。

Replication类似于MySql Router机制。试想一下,如果把Master设为In-Memory模式,而数据持久化到Slave上,读写不经过硬盘,性能是何其的强劲;或者把一台slave设为高频数据的专用读取源,比如用户token,这个访问性能也一定是杠杠的。猜想第1节里奇虎案例提到的性能参数 (MongoDB supports millions of concurrent users, handling 30,000 operations per second and 1.8 billion queries daily),就是通过使用In-Memory引擎实现的。

对于In-Memory引擎的使用场景,在第5节-分片与复制里再详述。

3.性能测试

测试环境

MongoDB 4.2, Windwos社区版, WT engine

IDEA 2019

Windows10

i7-9700F, 8G内存, 东芝固态硬盘

代码访问路径

https://gitlab.com/ctoeyes/mongodb

Database:test

Collection:WiredTiger

为了和上一篇MySql的测试结果比对,MongoDB的数据表设计如下

67bd51282bffa654aaef7b166c0c6db0.png

实验一:单线程连续插入5w条数据,数据和MySql测试案例保持一致。

实验二:单线程连续查询1w次,每次以_id列作为查询条件(索引查询)。

实验三:单线程连续查询1w次,每次以D列作为查询条件(非索引查询)。

实验四:查看数据占用空间大小。

实验结果如下:

a055ab1c6524624e0ae6fc9264783ec3.png

14341a647cabdeedf370cb0c9340767b.png

和上一篇MySql的结果比对如下:

38801af08a86b5b4055dc46cd5212584.png

插入速度:MongoDB 4.2支持事务,与同样支持事务处理的MySql-InnoDB比较,性能是较优的。

索引列查询速度:MongoDB劣于MySql的两个引擎,这可能与MongoDB的索引采用B树的数据结构,而MySql索引采用B+树数据结构有关,详细的在下一节“索引-B树”里讨论。

非索引列查询速度,MongoDB也明显慢于MySql,原因是否和MongoDB的数据默认压缩后再存进磁盘有关?查询前要解压缩,有一定耗时。

占用空间:MongoDB占优。

4.索引-B树

MongoDB索引采用的数据结构是B树,以上一篇MySql里相同的数据表为例,画一下在MongoDB里的数据结构。

23470b5b4bf8345f357ac5ce76054b1d.png

这些数据长成这样:

c3bddbe274adfffbefa9f62036561808.png

回顾上一篇MySql InnoDB引擎的B+树

f6aa4d55de2dfc5c5b4a578313a56e61.png

可以发现两者有两个很明显的区别

1. B+树只有最下层的叶子节点保存数据,其他节点只保存关键字;而B树每一层节点均保存数据。因此单一数据查询,B+树必须查到最下一层,而B树只有在最坏情况下需要查询到最下层。但第3节的实验结果明明索引查询是MySql的B+树胜出,为什么?个人猜测(未必正确),因为B+树的非叶节点不保存数据,空间占用小而被缓存在内存中,这样访问速度快;B树的非叶节点因为保存数据,空间占用大,有些存在磁盘里,因而访问速度慢。

2. B+树每个相邻的叶子节点有指针连接,而B树没有。因此范围查询,B+树更有优势。

思考:如果把Seat No也设为索引,数据应该长什么样(此时B+树只有叶子节点保存数据的优势就体现出来了)?

5.分片与复制

分片(Sharding)与复制(Replication)是MonoDB的两种扩展方式,前文也提到过。

分片:实质是一种水平方向上的分库分表,主要目的是为了增大容量、提升性能。第1节里的示意图一目了然,不再重复。

复制:类似于MySql Router,主要目的是数据备份、故障热切换、读写分离。而第2节里提到的In-Memory引擎用在复制模式里,也可以帮助提升性能,看下图(图片来自MongoDB官网)。

492414c2fb9605f4d608ee23d88a7b13.png

如果把右边的secondary DB设为读操作的默认DB,同时设定它使用In-Memory引擎,那么一些常用的数据读取会极大的提速。当然,这种情况下,需要保证最少两台secondary。为什么呢?试想如果只有一台secondary且是In-Memory模式,此时primary挂了,secondary自动接替为primary,然后它也宕机了,那么primary切换后写入的数据就会全部丢失。这时咋办?赶紧回家卷铺盖跑路吧 ^^

如果把primary设为In-Memory模式,读写都通过primary,而数据持久化到secondary中,那么读写性能都可以得到极大的提升。

了解了分片与复制机制后,想到一个问题,这两种方式能不能放到一起用?也就是既要分表扩容,又要数据备份与故障热切换。仔细看了下MondoDB的官网,其实已经给出了答案,看下图(图片来自MongoDB官网)。

812ee38050be5057b6827663e0ca88ef.png

在介绍Sharding架构的图中,已经明确标明了(红色圈圈),每一台Shard DB和Config Server都可以是一组Replica集群。

所以

  • 对于小型业务,一台Primary+一台Secondary的Replication方式即可满足业务需求。
  • 对于中大型业务,采用Sharding + Replication的矩阵组合基本也可满足业务需求。

MongoDB就聊到这里,依然是九牛一毛,关键是思考;另外,官方文档仔细看,有很多有价值的信息可以挖掘。

下一篇开始说说后端体系,坑中坑,头大,现在觉得B坑的一年之约太乐观了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/334475.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小波滤波器与其他滤波器的区别_滤波器国产 VS 国外

一、滤波器技术及产品类型详细分析几次技术应用的潮流引领了声波射频滤波器技术的发展,而SAW滤波器可以说是军用转民用的技术典范。早期国内的SAW滤波器仅用于国防如雷达、通信等方面需求;而该技术的第一次民用,即用于彩电产业,带…

Unix/Linux/BSD 它们之间的关系以及各自派系的介绍

文章目录一、Unix 是什么二、Unix 派系(一)BSD 分支1.BSD 是什么2.由 BSD 衍生的闭源 Unix 版本3.由 BSD 衍生的开源 Unix 版本(二)System V 分支1.System V 是什么2.System V 与 BSD 的版权纠纷,以及 UnixWare 的由来…

arraylist获取前多少位_Java 面试题 :百度前 200 页都在这里

作者:唐尤华,基本概念操作系统中 heap 和 stack 的区别什么是基于注解的切面实现什么是 对象/关系 映射集成模块什么是 Java 的反射机制什么是 ACIDBS与CS的联系与区别Cookie 和 Session的区别fail-fast 与 fail-safe 机制有什么区别get 和 post请求的区…

航空订票系统界面java_Java命令行界面(第21部分):航空公司2

航空订票系统界面java本系列文章的第21篇关于Java中解析命令行参数的文章的重点是Airline 2库。 Airline 2的GitHub项目页面描述了该库,“ Airline是一个Java库,提供了基于注释的框架来解析命令行界面。” 该页面进入状态:航空公司“同时支持…

python爬虫数据_python爬取数据分析

一.python爬虫使用的模块 1.import requests 2.from bs4 import BeautifulSoup 3.pandas 数据分析高级接口模块 二. 爬取数据在第一个请求中时, 使用BeautifulSoupimport requests # 引用requests库 from bs4 import BeautifulSoup # 引用BeautifulSoup库 res_movies requests…

java 迁移数据_Java 9迁移指南:七个最常见的挑战

java 迁移数据我敢肯定,您已经听说过更新到Java 9并不是一件容易的事,甚至可能是不兼容的更新,而且对于大型代码库而言,迁移毫无意义。 这样做之后,我迁移了一个相当大的旧代码库,我可以告诉你,…

markdown java 代码高亮_MarkdownPad2使用代码高亮插件

MarkdownPad 2有插入代码块的功能,但样式却不尽人意,但又不想换个编辑器,找了挺多相关资料,最后在MarkdownPad 2集成prettify高亮插件。如下相关资料:你可以下载后引用,也可以直接引用bootcdn。具体步骤&am…

需求调研 现有系统梳理_对速度的需求,访问现有数据的速度提高了1000倍

需求调研 现有系统梳理了解如何通过使用标准Java 8流和Speedment的In-JVM-Memory加速器将分析数据库应用程序加速1000倍。 Web和移动应用程序有时会很慢,因为后备数据库很慢和/或与数据库的连接施加了延迟。 现代的UI和交互式应用程序需要快速后端,并且…

order by 影响效率么_提升开发效率N倍的20+命令行神器

图 by:石头青海湖关于作者:程序猿石头(ID: tangleithu),现任阿里巴巴技术专家,清华学渣,前大疆后端 Leader。以每篇文章都让人有收获为目的,欢迎关注,交流和指导!背景本文主要来源于…

超级酒吧女生Java下载_超真实分享:一个人去酒吧的经验+注意事项

原标题:超真实分享:一个人去酒吧的经验+注意事项今天想跟大家分享我自己一个很奇妙也很特别的经验,就是关于我自己一个人去酒吧喝酒的故事~对这个故事有好奇心的女孩欢迎跟我一起聊聊~我的个性很独立而且蛮…

java parse_Java命令行界面(第9部分):parse-cmd

java parseparse-cmd库由单个类ParseCmd.java组成,该类是“用于在Java应用程序中定义和解析命令行参数的Java类。” 该库托管在Google Code存档上 ,因此可以随时关闭 。 该JAR似乎也可以在GitHub上使用 。 这篇文章介绍了如何使用parse-cmd 0.0.93处理Ja…

mysql 聚簇索引和非聚簇索引_MySQL学习之——索引

转自:CSDNMySQL是目前绝大多数互联网公司使用的关系型数据库,它性能出色、资源丰富、成本低廉,是快速搭建互联网应用的首选关系型数据库。但是,俗话说,“好马配好鞍”,仅仅会使用MySQL是不够的,…

java登录界面命令_Java命令行界面(第10部分):picocli

java登录界面命令picocli主页面将picocli描述为“强大的微小命令行界面”,“ picocli”是一个单文件Java框架,用于解析命令行参数并生成精美,易于定制的用法帮助消息。 有颜色。” 这篇文章简要概述了如何使用Picocli 0.9.7处理Java代码中的命…

navicat运行sql文件慢_SQL进阶之路——入门

一、初步了解SQL数据库:用来存放数据关系数据库:1.含有多张表 2.各表之间有关系关系数据库中表的样式:a.每个表1个表名 b.每个表中包含记录列名的列和记录数据的行 c.利用主键用来标识数据的唯一性关系数据库中每个表之间如何建立联系&#x…

java登录界面命令_Java命令行界面(第19部分):jClap

java登录界面命令本系列中第19个帖子的重点是从Java代码解析命令行参数是jClap ( Java命令行参数解析器 ),不应与JCLAP库混淆,该库是我本系列前 一篇文章的重点。 上 一篇 文章介绍了Giles Winstanley( snaq.net &…

weka分类器怎么设置样本类别_【程序喵笔记】小样本学习1.0

小样本学习前几天接触小样本学习 Few-Shot Learning,感觉很是有意思。看到Shusen Wang老师的讲解,感觉很棒~持续学习~学会学习 Lean to learn小朋友去动物园,见到未知的动物,他虽然不知道类别,但是给他看一些卡片&…

maven 生成本地库_在2017年从Maven工件生成P2存储库

maven 生成本地库几年前,我写了一篇博客文章,介绍如何基于Maven工件生成P2存储库。 如今,这种描述的方法已经过时了,我想展示一种基于p2-maven-plugin的新方法,该方法是为解决此问题而创建的。 Maven构建生命周期中的…

java 状态模式 同步_JAVA设计模式之状态模式

在阎宏博士的《JAVA与模式》一书中开头是这样描述状态(State)模式的:状态模式,又称状态对象模式(Pattern of Objects for States),状态模式是对象的行为模式。状态模式允许一个对象在其内部状态改变的时候改变其行为。这个对象看上去就像是改…

python列表修改_python修改列表

广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 由于惯性思维,导致使用for循环修改列表中的值出现问题首次尝试:def make_great(orig…

python装饰器作用和功能_Python装饰器原理与用法分析

这篇文章主要介绍了Python装饰器原理与用法,结合实例形式分析了Python装饰器的概念、原理、使用方法及相关操作注意事项,需要的朋友可以参考下 本文实例讲述了Python装饰器原理与用法。分享给大家供大家参考,具体如下: 1、装饰器的本质是函数&#xff0c…