从零手写实现 nginx-07-大文件传输 分块传输(chunked transfer)/ 分页传输(paging)

前言

大家好,我是老马。很高兴遇到你。

我们希望实现最简单的 http 服务信息,可以处理静态文件。

如果你想知道 servlet 如何处理的,可以参考我的另一个项目:

手写从零实现简易版 tomcat minicat

手写 nginx 系列

如果你对 nginx 原理感兴趣,可以阅读:

从零手写实现 nginx-01-为什么不能有 java 版本的 nginx?

从零手写实现 nginx-02-nginx 的核心能力

从零手写实现 nginx-03-nginx 基于 Netty 实现

从零手写实现 nginx-04-基于 netty http 出入参优化处理

从零手写实现 nginx-05-MIME类型(Multipurpose Internet Mail Extensions,多用途互联网邮件扩展类型)

从零手写实现 nginx-06-文件夹自动索引

从零手写实现 nginx-07-大文件下载

从零手写实现 nginx-08-范围查询

从零手写实现 nginx-09-文件压缩

从零手写实现 nginx-10-sendfile 零拷贝

从零手写实现 nginx-11-file+range 合并

从零手写实现 nginx-12-keep-alive 连接复用

从零手写实现 nginx-13-nginx.conf 配置文件介绍

从零手写实现 nginx-14-nginx.conf 和 hocon 格式有关系吗?

从零手写实现 nginx-15-nginx.conf 如何通过 java 解析处理?

从零手写实现 nginx-16-nginx 支持配置多个 server

目标

前面的内容我们实现了小文件的传输,但是如果文件的内容特别大,全部加载到内存会导致服务器报废。

那么,应该怎么解决呢?

思路

我们可以把一个非常大的文件直接拆分为多次,然后分段传输过去。

传输完成后,告诉浏览器已经传输完成了,发送一个结束标识即可。

大文件传输的方式

一次梭哈

这种方式通常用于发送较小的文件,因为整个文件内容会被加载到内存中。

代码示例:

RandomAccessFile randomAccessFile = new RandomAccessFile(file, "r"); // 以只读的方式打开文件long fileLength = randomAccessFile.length();
// 创建一个默认的HTTP响应
HttpResponse response = new DefaultHttpResponse(HTTP_1_1, OK);
// 设置Content Length
HttpUtil.setContentLength(response, fileLength);// 读取文件内容到字节数组
byte[] fileContent = new byte[(int) fileLength];
int bytesRead = randomAccessFile.read(fileContent);
if (bytesRead != fileLength) {sendError(ctx, INTERNAL_SERVER_ERROR);return;
}// 将文件内容转换为FullHttpResponse
FullHttpResponse fullHttpResponse = new DefaultFullHttpResponse(HTTP_1_1, OK);
fullHttpResponse.content().writeBytes(fileContent);
fullHttpResponse.headers().set(HttpHeaderNames.CONTENT_LENGTH, fileLength);
// 写入HTTP响应并关闭连接
ctx.writeAndFlush(fullHttpResponse).addListener(ChannelFutureListener.CLOSE);

这段代码的主要变化如下:

  1. 读取文件内容:使用randomAccessFile.read(fileContent)一次性读取整个文件到字节数组fileContent中。
  2. 创建FullHttpResponse:使用DefaultFullHttpResponse创建一个完整的HTTP响应对象,并将文件内容写入到响应的content()中。
  3. 设置Content-Length:在FullHttpResponse的headers中设置Content-Length
  4. 发送响应并关闭连接:使用ctx.writeAndFlush(fullHttpResponse)一次性发送整个响应,并通过.addListener(ChannelFutureListener.CLOSE)确保在发送完成后关闭连接。

请注意,这种方式适用于文件大小不是很大的情况,因为整个文件内容被加载到了内存中。

如果文件非常大,这种方式可能会导致内存溢出。

对于大文件,推荐使用分块传输(chunked transfer)或者分页传输(paging)的方式。

分块传输(chunked transfer)

分块传输(Chunked Transfer)是一种HTTP协议中用于传输数据的方法,允许服务器在知道整个响应内容大小之前就开始发送数据。

这在发送大文件或动态生成的内容时非常有用。

以下是使用Netty实现分块传输的一个示例:

RandomAccessFile randomAccessFile = new RandomAccessFile(file, "r"); // 以只读的方式打开文件
long fileLength = randomAccessFile.length();// 创建一个默认的HTTP响应
HttpResponse response = new DefaultHttpResponse(HTTP_1_1, OK);// 由于是分块传输,移除Content-Length头
response.headers().remove(HttpHeaderNames.CONTENT_LENGTH);// 如果request中有KEEP ALIVE信息
if (HttpUtil.isKeepAlive(request)) {response.headers().set(HttpHeaderNames.CONNECTION, HttpHeaderValues.KEEP_ALIVE);
}// 将HTTP响应写入Channel
ctx.write(response);// 分块传输文件内容
final int chunkSize = 8192; // 设置分块大小
ByteBuffer buffer = ByteBuffer.allocate(chunkSize);
while (true) {int bytesRead = randomAccessFile.read(buffer.array());if (bytesRead == -1) { // 文件读取完毕break;}buffer.limit(bytesRead);// 写入分块数据ctx.write(new DefaultHttpContent(Unpooled.wrappedBuffer(buffer)));buffer.clear(); // 清空缓冲区以供下次使用
}// 写入最后一个分块,即空的HttpContent,表示传输结束
ctx.writeAndFlush(LastHttpContent.EMPTY_LAST_CONTENT).addListener(ChannelFutureListener.CLOSE);

这段代码的主要变化如下:

  1. 移除Content-Length:由于是分块传输,我们不需要在响应头中设置Content-Length

  2. 分块读取文件:使用一个固定大小的缓冲区ByteBuffer来分块读取文件内容。

  3. 发送分块数据:在循环中,每次读取文件内容到缓冲区后,创建一个DefaultHttpContent对象,并将缓冲区的数据包装在Unpooled.wrappedBuffer()中,然后写入Channel。

  4. 发送结束标记:在文件读取完毕后,发送一个空的LastHttpContent对象,以标记HTTP消息体的结束。

  5. 关闭连接:在发送完最后一个分块后,使用addListener(ChannelFutureListener.CLOSE)确保关闭连接。

分页传输

分页传输通常是指将大文件分成多个小的部分(页),然后逐个发送这些部分。

这种方式适用于在网络编程中传输大文件,因为它可以减少内存的使用,并且允许接收方逐步处理数据。

在Netty中,实现分页传输通常涉及到手动控制数据的发送,而不是使用HTTP分块编码(chunked encoding)。

以下是一个简化的分页传输实现示例,我们将使用Netty的FileRegion来实现高效的文件传输:

import io.netty.channel.ChannelHandlerContext;
import io.netty.channel.FileRegion;
import io.netty.channel.socket.SocketChannel;
import io.netty.handler.stream.ChunkedFile;import java.io.RandomAccessFile;
import java.io.IOException;
import java.nio.channels.FileChannel;
import java.nio.file.Path;
import java.nio.file.Paths;public class FilePageTransfer {public static void sendFile(ChannelHandlerContext ctx, Path filePath) {try {RandomAccessFile randomAccessFile = new RandomAccessFile(filePath.toFile(), "r");FileChannel fileChannel = randomAccessFile.getChannel();long fileSize = fileChannel.size();long position = 0;final long pageSize = 8192; // 定义每页的大小,可以根据实际情况调整while (position < fileSize) {long remaining = fileSize - position;long size = remaining > pageSize ? pageSize : remaining;// 使用FileRegion进行传输FileRegion region = new DefaultFileRegion(fileChannel, position, size);((SocketChannel) ctx.channel()).write(region);// 更新位置position += size;// 检查传输是否成功if (!region.isWritten()) {// 传输失败,可以进行重试或者发送错误响应break;}}// 发送结束标记ctx.writeAndFlush(LastHttpContent.EMPTY_LAST_CONTENT).addListener(ChannelFutureListener.CLOSE);} catch (IOException e) {e.printStackTrace();// 发送错误响应ctx.writeAndFlush(new DefaultFullHttpResponse(HttpVersion.HTTP_1_1, HttpResponseStatus.NOT_FOUND));}}
}

在这个示例中,我们定义了一个sendFile方法,它接受一个ChannelHandlerContext和一个文件路径Path作为参数。以下是该方法的主要步骤:

  1. 打开文件:使用RandomAccessFile打开要传输的文件,并获取FileChannel

  2. 计算文件大小:通过fileChannel.size()获取文件的总大小。

  3. 分页传输:使用一个循环来逐页读取文件内容。在每次迭代中,我们计算要传输的数据块的大小,并使用FileRegion来表示这部分数据。

  4. 写入Channel:将FileRegion写入Netty的Channel

  5. 更新位置:更新position变量以指向下一页的开始位置。

  6. 检查传输状态:通过region.isWritten()检查数据是否成功写入。

  7. 发送结束标记:传输完成后,发送LastHttpContent.EMPTY_LAST_CONTENT来标记消息结束,并关闭连接。

  8. 错误处理:如果在传输过程中发生异常,发送一个错误响应。

请注意,这个示例是一个简化的版本,它没有处理HTTP协议的细节,也没有设置HTTP头信息。

在实际的HTTP服务器实现中,你需要在发送文件内容之前发送一个包含适当头信息的HTTP响应。

此外,LastHttpContent.EMPTY_LAST_CONTENT用于HTTP/1.1,如果你使用的是HTTP/1.0,可能需要不同的处理方式。

改进后的核心代码

统一的分发

为了避免实现膨胀,难以管理,我们将实现全部抽象。

protected NginxRequestDispatch getDispatch(NginxRequestDispatchContext context) {final FullHttpRequest requestInfoBo = context.getRequest();final NginxConfig nginxConfig = context.getNginxConfig();// 消息解析不正确/*如果无法解码400*/if (!requestInfoBo.decoderResult().isSuccess()) {return NginxRequestDispatches.http400();}// 文件File targetFile = getTargetFile(requestInfoBo, nginxConfig);// 是否存在if(targetFile.exists()) {// 设置文件context.setFile(targetFile);// 如果是文件夹if(targetFile.isDirectory()) {return NginxRequestDispatches.fileDir();}long fileSize = targetFile.length();if(fileSize <= NginxConst.BIG_FILE_SIZE) {return NginxRequestDispatches.fileSmall();}return NginxRequestDispatches.fileBig();}  else {return NginxRequestDispatches.http404();}
}

大文件的核心逻辑

大文件我们使用 chunk 的方式

    public void doDispatch(NginxRequestDispatchContext context) {final FullHttpRequest request = context.getRequest();final File targetFile = context.getFile();final String bigFilePath = targetFile.getAbsolutePath();final long fileLength = targetFile.length();logger.info("[Nginx] match big file, path={}", bigFilePath);HttpResponse response = new DefaultHttpResponse(HttpVersion.HTTP_1_1, HttpResponseStatus.OK);response.headers().set(HttpHeaderNames.CONTENT_DISPOSITION, "attachment; filename=\"" + targetFile.getName() + "\"");response.headers().set(HttpHeaderNames.CONTENT_TYPE, InnerMimeUtil.getContentType(targetFile));response.headers().set(HttpHeaderNames.CONTENT_LENGTH, fileLength);final ChannelHandlerContext ctx = context.getCtx();ctx.write(response);// 分块传输文件内容long totalLength = targetFile.length();long totalRead = 0;try(RandomAccessFile randomAccessFile = new RandomAccessFile(targetFile, "r")) {ByteBuffer buffer = ByteBuffer.allocate(NginxConst.CHUNK_SIZE);while (true) {int bytesRead = randomAccessFile.read(buffer.array());if (bytesRead == -1) { // 文件读取完毕break;}buffer.limit(bytesRead);// 写入分块数据ctx.write(new DefaultHttpContent(Unpooled.wrappedBuffer(buffer)));buffer.clear(); // 清空缓冲区以供下次使用// process 可以考虑加一个 listenertotalRead += bytesRead;logger.info("[Nginx] bigFile process >>>>>>>>>>> {}/{}", totalRead, totalLength);}// 发送结束标记ctx.writeAndFlush(LastHttpContent.EMPTY_LAST_CONTENT).addListener(ChannelFutureListener.CLOSE);} catch (Exception e) {logger.error("[Nginx] bigFile meet ex", e);}}

这里采用的是直接下载的方式。

当然,也可以实现在线播放,但是试了下效果不好,后续有时间可以尝试下。

测试日志

[INFO] [2024-05-26 15:53:58.498] [nioEventLoopGroup-3-3] [c.g.h.n.s.h.NginxNettyServerHandler.channelRead0] - [Nginx] channelRead writeAndFlush start request=HttpObjectAggregator$AggregatedFullHttpRequest(decodeResult: success, version: HTTP/1.1, content: CompositeByteBuf(ridx: 0, widx: 0, cap: 0, components=0))
GET /mime/2.mp4 HTTP/1.1
Host: 192.168.1.12:8080
Connection: keep-alive
Cache-Control: max-age=0
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7
Accept-Encoding: gzip, deflate
Accept-Language: zh-CN,zh;q=0.9
content-length: 0, id=40a5effffe257be0-00001c6c-00000003-0824dff434805bd3-b09fd676
[INFO] [2024-05-26 15:53:58.498] [nioEventLoopGroup-3-3] [c.g.h.n.s.r.d.h.AbstractNginxRequestDispatchFullResp.doDispatch] - [Nginx] match big file, path=D:\data\nginx4j\mime\2.mp4
[INFO] [2024-05-26 15:53:58.514] [nioEventLoopGroup-3-3] [c.g.h.n.s.r.d.h.AbstractNginxRequestDispatchFullResp.doDispatch] - [Nginx] bigFile process >>>>>>>>>>> 8388608/668918096
...
[INFO] [2024-05-26 15:53:59.616] [nioEventLoopGroup-3-3] [c.g.h.n.s.r.d.h.AbstractNginxRequestDispatchFullResp.doDispatch] - [Nginx] bigFile process >>>>>>>>>>> 668918096/668918096
[INFO] [2024-05-26 15:53:59.627] [nioEventLoopGroup-3-3] [c.g.h.n.s.h.NginxNettyServerHandler.channelRead0] - [Nginx] channelRead writeAndFlush DONE id=40a5effffe257be0-00001c6c-00000003-0824dff434805bd3-b09fd676

小结

本节我们实现了一个大文件的下载处理,主要思想就是分段。

可以考虑类似于视频软件,采用分段加载实时播放的方式。

下一节,我们考虑实现以下文件的范围查询。

我是老马,期待与你的下次重逢。

开源地址

为了便于大家学习,已经将 nginx 开源

https://github.com/houbb/nginx4j

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/23508.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

金融科技重塑跨境支付:创新引领全球支付新纪元

一、引言 随着全球化的加速和科技的飞速发展,跨境支付作为国际贸易的“血脉”,正经历着前所未有的变革。金融科技以其强大的创新能力和技术支撑,正在重塑跨境支付领域的格局,推动全球支付行业向更加高效、安全、便捷的方向发展。本文将深入探讨金融科技如何引领跨境支付的创…

Python高效计算库Joblib的详细入门教程

文章目录 1. Joblib库是什么&#xff1f;2. 核心功能介绍及演示2.1 高效序列化和反序列化对象2.2 快速磁盘缓存2.3 并行计算 1. Joblib库是什么&#xff1f; Joblib 是一个用于在 Python 中进行高效计算的开源库&#xff0c;提供了一些用于内存映射和并行计算的工具&#xff0…

图分类之Hierarchical Graph Differentiable Pooling (下)

作者代码链接 https://github.com/RexYing/diffpool 1. paper中介绍的图池化机制 SoftPoolingGcnEncoder 是为图结构数据设计的神经网络模型。它通过结合分层池机制扩展了传统图卷积网络&#xff08;GCN&#xff09;的功能。这种池化机制通过逐步减少节点数量&#xff0c;同…

【Mongodb】Mongodb亿级数据性能测试和压测

一&#xff0c;mongodb数据性能测试 如需转载&#xff0c;请标明出处&#xff1a;https://zhenghuisheng.blog.csdn.net/article/details/139505973 mongodb数据性能测试 一&#xff0c;mongodb数据性能测试1&#xff0c;mongodb数据库创建和索引设置2&#xff0c;线程池批量…

React+TS前台项目实战(一)-- 项目初始化配置及开此系列的初衷

文章目录 前言一、初始化项目二、基础配置1. 项目目录及说明如下2. TS版本使用Craco需注意 总结 前言 前面 后台管理系统实战 系列教程暂时告一段落了&#xff0c;想了解全局各种配置的可自行查看。本次教程将重点介绍React前台项目的实操&#xff0c;关于具体的配置&#xff…

龙迅LT8712X TYPE-C或者DP转HDMI加VGA输出,内置MCU,只是IIS以及4K60HZ分辨率

龙迅LT8712X描述&#xff1a; LT8712X是一种高性能的Type-C/DP1.2到HDMI2.0和VGA转换器&#xff0c;设计用于将USB Type-C源或DP1.2源连接到HDMI2.0和VGA接收器。LT8712X集成了一个DP1.2兼容的接收器&#xff0c;一个HDMI2.0兼容的发射机和一个高速三角机窝视频DAC。此外&…

Python 可变长参数的魔法:灵活函数设计的秘密

哈喽&#xff0c;大家好&#xff0c;我是木头左&#xff01; 什么是可变长参数&#xff1f; 在 Python 中&#xff0c;可变长参数允许你向函数传入任意数量的参数&#xff0c;而无需预先定义它们的个数。这为编写更加灵活和通用的函数提供了可能。可变长参数主要有两种形式&am…

记录某书请求返回406及响应{“code“:-1,“success“:false}

今天测试某个平台的爬虫时使用requests post请求正常写了个测试脚本把各种参数带上出来以后出现了406情况&#xff0c;和网站数据是完全一样的 以为是 X-S、X-T参接不对&#xff0c;但在postman里测试又是可以的成功&#xff0c;以为是检验了参数顺序&#xff0c;测试发现也没…

JavaSE基础语法合集

随着不断学习&#xff0c;我们已经走完了JavaSE基础语法的所有内容&#xff0c;博主的单独语法篇共十二篇&#xff0c;感兴趣的也可以去看看&#xff0c;内容基本一致&#xff0c;目录是重新排布的&#xff0c;数组和方法都在初识Java章节。 适合&#xff1a;老手复习和新手从零…

Linux下的Git应用及配置

1、卸载 2、安装 3、创建并初始化 4、配置 &#xff08;附加删除语句&#xff09; 5、查看&#xff08;tree .git/&#xff09; 6、增加和提交 7、打印日志 8、验证已操作工作

sc.tl.rank_genes_groups()问题

今天被问到了一个关于sc.tl.rank_genes_groups()的奇怪的问题 import scanpy as sc import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt # from CellDART import da_cellfraction # from CellDART.utils import random_mix from…

谷歌个人开发者账号“14+20”封测没通过?你可能忽视了这个细节

众所周知&#xff0c;在Google play平台如果使用个人开发者账号上架应用&#xff0c;在提审正式版应用前&#xff0c;需要满足20人连续封闭测试14天的要求&#xff0c;不少开发者在这个阶段遇到了问题&#xff0c;被谷歌认为没满足要求&#xff0c;从而不能上架应用。 为什么你…

国产开发板——香橙派Kunpeng Pro的上手初体验

开发板&#xff08;Development Board&#xff09;是一种特殊的电子产品&#xff0c;它的主要目的是为了帮助开发者快速地设计、测试和验证电子产品的硬件和软件设计。开发板通常提供了一个完整的硬件平台&#xff0c;包括微控制器、存储器、接口和其他外围设备&#xff0c;开发…

性能狂飙:SpringBoot应用优化实战手册

在数字时代&#xff0c;速度就是生命&#xff0c;性能就是王道&#xff01;《极速启航&#xff1a;SpringBoot性能优化的秘籍》带你深入SpringBoot的内核&#xff0c;探索如何打造一个飞速响应、高效稳定的应用。从基础的代码优化到高级的数据库连接池配置&#xff0c;再到前端…

【深度学习-第6篇】使用python快速实现CNN多变量回归预测(使用pytorch框架)

上一篇我们讲了使用CNN进行分类的python代码&#xff1a; Mr.看海&#xff1a;【深度学习-第5篇】使用Python快速实现CNN分类&#xff08;模式识别&#xff09;任务&#xff0c;含一维、二维、三维数据演示案例&#xff08;使用pytorch框架&#xff09; 这一篇我们讲CNN的多变…

Debian12安装K8S

Docker环境 添加 Docker 的官方 GPG 密钥 安装 apt 依赖包&#xff0c;用于通过 HTTPS 来获取仓库 sudo apt-get install \apt-transport-https \ca-certificates \curl \gnupg2 \software-properties-common添加秘钥 curl -fsSL https://mirrors.ustc.edu.cn/docker-ce/linux…

OZON快蜗牛数据工具,OZON数据分析工具

在当今的电商时代&#xff0c;数据已经成为了商家们最宝贵的资产之一。无论是产品选品、市场定位&#xff0c;还是营销策略的制定&#xff0c;都离不开对数据的深入分析和精准把握。而在众多电商平台中&#xff0c;OZON以其独特的商业模式和庞大的用户群体&#xff0c;吸引了众…

【Elasticsearch】es基础入门-03.RestClient操作文档

RestClient操作文档 示例&#xff1a; 一.初始化JavaRestClient &#xff08;一&#xff09;引入es的RestHighLevelClient依赖 <!--elasticsearch--> <dependency><groupId>org.elasticsearch.client</groupId><artifactId>elasticsearch-rest…

spring框架限制接口是否要登录过才能访问

1、引入spring 、spring boot依赖&#xff0c;这部分不再多说&#xff0c;正常开发spring boot项目就可以。 2、定义类&#xff0c;实现WebMvcConfigurer接口 package com.hmblogs.config;import com.hmblogs.config.web.interceptor.PortalTokenInterceptor; import org.spri…

JVM垃圾收集器和性能调优

目标&#xff1a; 1.JVM垃圾收集器有哪几种&#xff1f; 2.CMS垃圾收集器回收步骤。 一、JVM常见的垃圾回收器 为什么垃圾回收的时候需要STW? 标记垃圾的时候&#xff0c;如果不STW&#xff0c;可能用户线程就会不停的产生垃圾。 1.1 单线程收集 Serial和SerialOld使用单…