分布式图床项目

一、图床架构分析

在这里插入图片描述


二、后台数据处理框架

在这里插入图片描述

  • 秒传:
    • 如果上传的文件已经在服务器中存在了,就不需要二次上传了,但是服务器会对这个文件的引用计数加一,这样服务器就知道这个文件是多个人持有的。
    • 先对上传的文件进行 md5 校验来判断服务器中已经存在相同的文件了(同样的文件拿到的 md5 值是一样的)。

三、FastDFS 架构

  • FastDFS 主要的功能包括文件存储,同步和访问。它的设计基于高可用和负载均衡
  • FastDFS 非常适用于基于文件服务的站点。
  • FastDFS 由跟踪服务器(tracker server)存储服务器(storage server)客户端(client) 三个部分组成,主要解决海量数据存储问题,特别适合以中小文件(建议范围:4KB < file_size < 500MB)为载体的在线服务,例如图片分享和视频分享网站。
    • Client:FastDFS 向使用者提供基本文件访问接口,比如 monitor、upload、download、append、delete 等,以客户端库的方式提供给用户使用。
    • Tracker
      • Tracker 是 FastDFS 的协调者,负责管理所有的 Storage 和 Group,每个 Storage 在启动后会连接 Tracker,告知自己所属的 Group 等信息,并保持周期性的心跳,Tracker 会根据 Storage 的心跳信息,建立 Group => [Storage list]的映射表。
      • Tracker 需要管理的元信息很少,会全部存储在内存中。
      • Tracker 上的元信息都是由 Storage 汇报的信息生成的,本身不需要持久化任何数据,这样使得Tracker 非常容易扩展,直接增加 Tracker 机器即可扩展为 Tracker cluster 来服务,cluster 里每个 Tracker 之间是完全对等的,所有的 Tracker 都接受 Storage 的心跳信息,生成元数据信息来提供读写服务。
    • Storage
      • Storage 以组(Group)为单位组织,一个 Group 内包含多台 Storage 机器,数据互为备份,存储空间以 Group 内容量最小的 Storage 为准,所以建议 Group 内的多个 Storage 尽量配置相同,以免造成存储空间的浪费。
      • 以 Group 为单位组织存储能方便的进行应用隔离、负载均衡、副本数定制(Group 内的 Storage 数量即为该 Group 的副本数),比如将不同应用数据存到不同的 Group 就能隔离应用数据,同时还可以根据应用的访问特性将应用数据分配到不同的 Group 来做负载均衡;
      • 缺点是 Group 的容量受单机存储容量的限制,同时当 Group 内有机器坏掉时,数据恢复只能依赖Group 内的其它机器,使得恢复时间会很长。
      • Group 内每个 Storage 的存储依赖于本地文件系统,Storage 可配置多个数据存储目录,比如有 10块磁盘,分别挂载在 /data/disk1-/data/disk10,则可将这 10 个目录都配置为 Storage 的数据存储目录。
      • Storage 接收到写文件请求时,会根据配置好的规则,选择其中一个存储目录来存储文件。为了避免单个目录下的文件数太多,在 Storage 第一次启动时,会在每个数据存储目录里创建 2 级子目录,每级 256 个,总共 65536 个文件,新写的文件会以 hash 的方式被路由到其中某个子目录下,然后将文件数据直接作为一个本地文件存储到该目录中。
        在这里插入图片描述
  • upload file 原理
    在这里插入图片描述
    • 选择 tracker server
      • 当集群中不止一个 tracker server 时,由于 Tracker 之间是完全对等的关系,客户端在 upload 文件时可以任意选择一个Tracker 。
    • 选择存储的 Group
      • 当 Tracker 接收到 upload file 的请求时,会为该文件分配一个可以存储该文件的 Group,支持如下选择 Group 的规则:
        • Round robin,所有的 Group 间轮询。
        • Specified group,指定某一个确定的 Group。
        • Load balance,选择最大剩余空间的组上传文件。
    • 选择 storage server
      • 当选定 Group 后,Tracker 会在 Group 内选择一个 storage server 给客户端,支持如下选择 Storage 的规则:
        • Round robin,在 Group 内的所有 Storage 间轮询。
        • First server ordered by ip,按 IP 排序。
        • First server ordered by priority,按优先级排序(优先级在 Storage 上配置)。
    • 选择 Storage path
      • 当分配好 storage server 后,客户端将向 Storage 发送写文件请求,Storage 将会为文件分配一个数据存储目录,支持如下规则:
        • Round robin,多个存储目录间轮询。
        • 剩余存储空间最多的优先。
    • 生成 Fileid
      • 选定存储目录之后,Storage 会为文件生一个 fileid,由:storage server ip、文件创建时间、文件大小、文件 crc32 和一个随机数拼接而成,然后将这个二进制串进行 base64 编码,转换为可打印的字符串。
    • 选择两级目录
      • 选定存储目录之后,Storage 会为文件分配一个 fileid,每个存储目录下有两级 256*256 的子目录,Storage会按文件 fileid 进行两次 hash,路由到其中一个子目录,然后将文件以 fileid 为文件名存储到该子目录下。
    • 生成文件名
      • 当文件存储到某个子目录后,即认为该文件存储成功,接下来会为该文件生成一个文件名,文件名由:Group、存储目录、两级子目录、fileid、文件后缀名(由客户端指定,主要用于区分文件类型)拼接而成。
        在这里插入图片描述
  • download file 原理
    在这里插入图片描述
    • 客户端 upload file 成功后,会拿到一个 Storage 生成的文件名,接下来客户端根据这个文件名即可访问到该文件。
    • 跟 upload file 一样,在 download file 时客户端可以选择任意 tracker server。
    • Client 发送 download 请求给某个 Tracker,必须带上文件名信息,Tracke 从文件名中解析出文件的Group、文件大小、创建时间等信息,然后为该请求选择一个 Storage 用来服务读请求。由于 Group 内的文件同步是在后台异步进行的,所以有可能出现在读的时候,文件还没有同步到某些 storage server上,为了尽量避免访问到这样的 Storage,Tracker 按照如下规则选择 Group 内可读的 Storage。
      • 该文件上传到的源头 Storage — 源头 Storage 只要存活着,肯定包含这个文件,源头的地址被编码在文件名中。
      • 文件创建时间戳 == Storage 被同步到的时间戳且(当前时间 - 文件创建时间戳)> 文件同步最大时间(如 5 分钟),认为经过最大同步时间后,肯定已经同步到其它 Storage 中了。
      • 文件创建时间戳 < Storage 被同步到的时间戳。同步时间戳之前的文件确定已经同步了。
      • (当前时间 - 文件创建时间戳) > 同步延迟阀值(如一天)。经过同步延迟阈值时间,认为文件肯定已经同步了。
  • FastDFS 如何实现高可用
    • 可以配置 Tracker 集群,多个 tracker server 同时崩掉的几率很小,Storage 会向所有的 Tracker 上报信息。
    • 为什么要通过 Tracker 进行查询,因为要实现存储高可用:存储高可用要有冗余,为了保证数据不丢失,需要对数据进行备份(一般存 3 份)。
  • 文件上传的吞吐量
    • 增加 Group 里的 Storage 能否提高文件上传的吞吐量?
      • 不可以,并且会影响上传速度,因为备份越多,Storage 的同步次数越多。
    • 增加 Group 能否提高文件上传的吞吐量?
      • 可以,文件1 可以上传到 Group1,文件2 可以上传到 Group2。
  • 文件下载的吞吐量
    • 增加 Group 里的 Storage 能否提高文件下载的吞吐量?
      • 可以,如果多个用户下载同一个文件,可以从不同的 Storage 中下载。
    • 增加 Group 能否提高文件下载的吞吐量?
      • 可以,如果多个用户下载不同的文件,可以从不同的 Group 中下载。
  • 分布式系统的一致性:强一致性、弱一致性。
    • 强一致性:文件上传到 Storage1 中,会等到将该文件同步到 Storage2 中才会返回上传结果。
      • 优点:保证对应的备份有数据。
      • 缺点:要等待同步完成,影响上传速度。
    • 弱一致性:文件上传到 Storage1 中直接返回上传结果。
    • FastDFS 是弱一致性,可以根据实际需求改为强一致性。
  • HTTP 下载逻辑
    • FastDFS 自带的 http 服务已经弃用,需要通过 nginx + fastdfs-nginx-module 的方式实现下载。
  • 同步机制
    • 同一组内 storage server 之间是对等的,文件上传、下载、删除等操作可以在任意一台 storage server 上进行。
    • 文件同步只在同组内的 storage server 之间进行,采用 push 方式,即源服务器同步给目标服务器。

四、Nginx 环境搭建

  • gcc、g++编译器
    apt-get install gcc
    apt-get install g++
    apt-get install build-essential
    apt-get install libtool
    <

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/780811.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenHarmony无人机MAVSDK开源库适配方案分享

MAVSDK 是 PX4 开源团队贡献的基于 MavLink 通信协议的用于无人机应用开发的 SDK&#xff0c;支持多种语言如 C/C、python、Java 等。通常用于无人机间、地面站与通信设备的消息传输。 MAVLink 是一种非常轻量级的消息传递协议&#xff0c;用于与无人机&#xff08;以及机载无…

[flink 实时流基础]源算子和转换算子

文章目录 1. 源算子 Source1. 从集合读2. 从文件读取3. 从 socket 读取4. 从 kafka 读取5. 从数据生成器读取数据 2. 转换算子基本转换算子&#xff08;map/ filter/ flatMap&#xff09; 1. 源算子 Source Flink可以从各种来源获取数据&#xff0c;然后构建DataStream进行转换…

Day55:WEB攻防-XSS跨站CSP策略HttpOnly属性Filter过滤器标签闭合事件触发

目录 XSS跨站-安全防御-CSP XSS跨站-安全防御-HttpOnly XSS跨站-安全防御-XSSFilter(过滤器的意思) 1、无任何过滤 2、实体化 输入框没有 3、全部实体化 利用标签事件 单引号闭合 4、全部实体化 利用标签事件 双引号闭合 5、事件关键字过滤 利用其他标签调用 双引号闭合…

代码随想录训练营第60天 | LeetCode 84.柱状图中最大的矩形、总结

LeetCode 84.柱状图中最大的矩形 文章讲解&#xff1a;代码随想录(programmercarl.com) 视频讲解&#xff1a;单调栈&#xff0c;又一次经典来袭&#xff01; LeetCode&#xff1a;84.柱状图中最大的矩形_哔哩哔哩_bilibili 思路 代码如下&#xff1a; ​​​​​​总结 感…

代码随想录|Day28|贪心03|1005.K次取反后最大化的数组和、134.加油站、135.分发糖果

1005.K次取反后最大化的数组和 思路&#xff1a; 优先取反 绝对值最大的负数如果没有负数&#xff0c;不断取反 绝对值最小的数&#xff0c;直到次数 K 耗尽 取反最小数有一个优化技巧&#xff1a; 如果 K 为偶数&#xff0c;则取反 K 次后&#xff0c;正负不变。如果 K 为奇数…

ROM-IP

1.原理 通过添加数据文件&#xff0c;使ROM看起来不是易失性存储器&#xff0c; 产生256个数据&#xff0c;每个数据的位宽是8 如果前面为x&#xff0c;后面就是x256-1 2.单端口ROM配置 FPGA内部没有非易失性存储器。调用的ROM和RAM都是用RAM来生成的 3.双端口ROM配置 使用第一…

马斯克旗下xAI发布Grok-1.5,相比较开源的Grok-1,各项性能大幅提升,接近GPT-4!

本文原文来自DataLearnerAI官方网站&#xff1a;马斯克旗下xAI发布Grok-1.5&#xff0c;相比较开源的Grok-1&#xff0c;各项性能大幅提升&#xff0c;接近GPT-4&#xff01; | 数据学习者官方网站(Datalearner) 继Grok-1开源之后&#xff0c;xAI宣布了Grok-1.5的内测消息&…

手撕算法-跳跃游戏

描述 分析 如果某一个作为 起跳点 的格子可以跳跃的距离是 3&#xff0c;那么表示后面 3 个格子都可以作为 起跳点可以对每一个能作为 起跳点 的格子都尝试跳一次&#xff0c;把 能跳到最远的距离 不断更新如果可以一直跳到最后&#xff0c;就成功了 代码 class Solution {…

07-JavaScript DOM事件

1. 事件 1.1 事件概述 JavaScript 使我们有能力创建动态页面&#xff0c;而事件是可以被 JavaScript 侦测到的行为。 简单理解&#xff1a; 触发--- 响应机制。 网页中的每个元素都可以产生某些可以触发 JavaScript 的事件&#xff0c;例如&#xff0c;我们可以在用户点击某…

【漏洞潜在风险】弹框干扰类风险

弹框干扰风险定义: 游戏过程中&#xff0c;客户端经常会以文字类形式对玩家进行说明和指引&#xff0c;而对于一些更为重要的信息&#xff0c;便会用游戏中的弹框进行强调。由玩家主动触发对其他玩家造成重复弹框进而干扰到正常游戏的都可以称之为弹框干扰类风险。弹框干扰风险…

C++项目——集群聊天服务器项目(六)MySQL模块

Hello&#xff0c;大家好啊&#xff0c;最近比较忙&#xff0c;没来得及更新项目&#xff0c;实在抱歉~今天就恢复更新拉~ 在验证完网络模块与业务模块代码可以正常使用后&#xff0c;需完成的操作是与底层数据库进行交互&#xff0c;为实现各类用户查询、增删业务奠定良好的基…

【群晖】白群晖如何公网访问

【群晖】白群晖如何公网访问 ——> 点击查看原文 在使用默认配置搭建好的群晖NAS后&#xff0c;我们可以通过内网访问所有的服务。但是&#xff0c;当我们出差或者不在家的时候也想要使用应该怎么办呢&#xff1f; 目前白群提供了两种比较快捷的方式&#xff0c;一种是直接注…

【Python系列】合并配置文件的最佳实践

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

python实现两个Excel表格数据对比、补充、交叉验证

业务背景 业务中需要用到类似企查查一类的数据平台进行数据导出&#xff0c;但企查查数据不一定精准&#xff0c;所以想采用另一个官方数据平台进行数据对比核验&#xff0c;企查查数据缺少的则补充&#xff0c;数据一致的保留企查查数据&#xff0c;不一致的进行颜色标注。 …

脱壳之常用的加固样本特征

梆梆加固样本特征 清单文件入口 android:name“com.SecShell.SecShell.ApplicationWrapper” 特征 免费版 meta-data meta-data总结 assets/secData0.jar lib/armeabi/libSecShell.so lib/armeabi/libSecShell-x86.so 梆梆企业版 assets/classes0.jar lib/armeabi-v7a/libD…

第一次运行 Python 项目,使用 python-pptx 提取 ppt 中的文字和图片

人工智能时代&#xff0c;最需要学习的编程语言是&#xff1a;python 。笔者是个 python 小白&#xff0c;昨天花了两个小时&#xff0c;第一次成功运行起来 python 项目 。 项目是 powerpoint-extractor &#xff0c;可以将 ppt 文件中的图片提取出来&#xff0c;并输出到固定…

Windows安装tomcat,以服务的方式管理,如何设置虚拟内存

之前工作中&#xff0c;部署tomcat都是使用Linux服务器&#xff0c;最近遇到个客户&#xff0c;提供的服务器是Windows server&#xff0c;并且需要通过服务的方式管理tomcat&#xff1b;以自己多年的码农经验&#xff0c;感觉应该没有问题&#xff0c;结果啪啪打脸了&#xf…

双向BFS

P1032 [NOIP2002 提高组] 字串变换 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 方法学自于B19 双向BFS 字串变换_哔哩哔哩_bilibili #include<iostream> #include<algorithm> #include<cstdio> #include<queue> #include<map> using namesp…

Adaboost集成学习 | Matlab实现基于BiLSTM-Adaboost双向长短期记忆神经网络结合Adaboost集成学习时间序列预测(股票价格预测)

目录 效果一览基本介绍模型设计程序设计参考资料效果一览 基本介绍 Matlab实现基于BiLSTM-Adaboost双向长短期记忆神经网络结合Adaboost集成学习时间序列预测(股票价格预测) 模型设计 股票价格预测是一个具有挑战性的时间序列预测问题,可以使用深度学习模型如双向长短期记忆…

python爬虫之selenium4使用(万字讲解)

文章目录 一、前言二、selenium的介绍1、优点&#xff1a;2、缺点&#xff1a; 三、selenium环境搭建1、安装python模块2、selenium4新特性3、安装驱动WebDriver驱动选择驱动安装和测试 基础操作1、属性和方法2、单个元素定位通过id定位通过class_name定位一个元素通过xpath定位…