开发函数计算的正确姿势——使用 brotli 压缩大文件

大文件问题

函数计算对上传的 zip 代码包尺寸限制为 50M。某些场景中代码包中会超过这一限制,比如二进制 serverless-chrome 经过一番裁剪以后 ZIP 压缩包的体积为 43.4M,类似的还有 liboffice ,此外常见的还有机器学习训练的模型文件。

目前解决大文件问题有三种方法

  1. 采用更高压缩比的算法,比如本文介绍的 brotli 算法
  2. 采用 OSS 运行时下载
  3. 采用 NAS 文件共享

简单的比较一下这三种方法的优劣

方法优点缺点
高密度压缩发布简单,启动最快上传代码包较慢;要写解压代码;大小受限制不超过 50 M
OSS下载解压后文件不超过 512 M需要预先上传至 OSS;要写下载和解压代码,大概 50M/s 的下载速度
NAS文件大小没有限制,无需压缩需要预先上传至 NAS;VPC 环境有冷启动时延(~5s)

正常情况下如果代码包能控制在 50M 以下启动较快。而且工程上也比较简单,数据和代码放在一起,不需要额外的写脚本去同步更新 OSS 或者 NAS。

压缩算法

Brotli 是 Google 工程师开发的开源压缩算法,目前已经被新版的主流浏览器支持,作为 HTTP 传输的压缩算法。下面是在网上找到的关于 Brotli 和其他常见压缩算法对比基准测试。


从上面三幅图我们可以看出:相比于 gzip、xz 和 bz2,brotli 有最高的压缩比,接近于 gzip 的解压速度,以及最慢的压缩速度。

然而在我们的场景对于压缩慢这一缺点不敏感,压缩任务只要在开发准备物料的阶段执行一次就好了。

制作压缩文件

下面我先介绍一下如何制作压缩文件。下面的代码和用例都来自于项目 packed-selenium-java-example 。

安装 brotli 命令

Mac 用户

brew install brotli

Windows 用户可以去这个界面下载,https://github.com/google/brotli/releases

打包并压缩

打包前两个文件大小分别为 7.5M 和 97M

╭─ ~/D/test1[◷ 18:15:21]
╰─  ll
total 213840
-rwxr-xr-x  1 vangie  staff   7.5M  3  5 11:13 chromedriver
-rwxr-xr-x  1 vangie  staff    97M  1 25  2018 headless-chromium

使用 GZip 打包并压缩,大小为 44 M。

╭─ ~/D/test1[◷ 18:15:33]
╰─  tar -czvf chromedriver.tar chromedriver headless-chromium
a chromedriver
a headless-chromium
╭─ ~/D/test1[◷ 18:16:41]
╰─  ll
total 306216
-rwxr-xr-x  1 vangie  staff   7.5M  3  5 11:13 chromedriver
-rw-r--r--  1 vangie  staff    44M  3  6 18:16 chromedriver.tar
-rwxr-xr-x  1 vangie  staff    97M  1 25  2018 headless-chromium

tar 去掉 z 选项再打包一遍,大小为 104M

╭─ ~/D/test1[◷ 18:16:42]
╰─  tar -cvf chromedriver.tar chromedriver headless-chromium
a chromedriver
a headless-chromium
╭─ ~/D/test1[◷ 18:17:06]
╰─  ll
total 443232
-rwxr-xr-x  1 vangie  staff   7.5M  3  5 11:13 chromedriver
-rw-r--r--  1 vangie  staff   104M  3  6 18:17 chromedriver.tar
-rwxr-xr-x  1 vangie  staff    97M  1 25  2018 headless-chromium

压缩后的大小为 33M,相比 Gzip 的 44M 小了不少。耗时也非常的感人 6 分 18 秒,Gzip 只要 5 秒。

╭─ ~/D/test1[◷ 18:17:08]
╰─  time brotli -q 11 -j -f chromedriver.tar
brotli -q 11 -j -f chromedriver.tar  375.39s user 1.66s system 99% cpu 6:18.21 total
╭─ ~/D/test1[◷ 18:24:23]
╰─  ll
total 281552
-rwxr-xr-x  1 vangie  staff   7.5M  3  5 11:13 chromedriver
-rw-r--r--  1 vangie  staff    33M  3  6 18:17 chromedriver.tar.br
-rwxr-xr-x  1 vangie  staff    97M  1 25  2018 headless-chromium

运行时解压缩

下面以 java maven 项目为例

添加解压依赖包

<dependency><groupId>org.apache.commons</groupId><artifactId>commons-compress</artifactId><version>1.18</version>
</dependency><dependency><groupId>org.brotli</groupId><artifactId>dec</artifactId><version>0.1.2</version>
</dependency>

commons-compress 是 apache 提供的解压缩工具包,对于各种压缩算法提供一致的抽象接口,其中对于 brotli 算法只支持解压,这里足够了。org.brotli:dec 包是 Google 提供的 brotli 解压算法的底层实现。

实现 initialize 方法

public class ChromeDemo implements  FunctionInitializer {public void initialize(Context context) throws IOException {Instant start = Instant.now();try (TarArchiveInputStream in =new TarArchiveInputStream(new BrotliCompressorInputStream(new BufferedInputStream(new FileInputStream("chromedriver.tar.br"))))) {TarArchiveEntry entry;while ((entry = in.getNextTarEntry()) != null) {if (entry.isDirectory()) {continue;}File file = new File("/tmp/bin", entry.getName());File parent = file.getParentFile();if (!parent.exists()) {parent.mkdirs();}System.out.println("extract file to " + file.getAbsolutePath());try (FileOutputStream out = new FileOutputStream(file)) {IOUtils.copy(in, out);}Files.setPosixFilePermissions(file.getCanonicalFile().toPath(),getPosixFilePermission(entry.getMode()));}}Instant finish = Instant.now();long timeElapsed = Duration.between(start, finish).toMillis();System.out.println("Extract binary elapsed: " + timeElapsed + "ms");}
}

实现 FunctionInitializer 接口的 initialize 方法。解压过程刚开始是四层嵌套流,作用分别如下:

  1. FileInputStream 读取文件
  2. BufferedInputStream 提供缓存,介绍系统调用带来的上下文切换,提示读取的速度
  3. BrotliCompressorInputStream 对字节流进行解码
  4. TarArchiveInputStream 把 tar 包里的文件逐个解出来

然后 Files.setPosixFilePermissions 的作用是还原 tar 包中文件的权限。代码太长此处略去,参阅 packed-selenium-java-example

Instant start = Instant.now();
...Instant finish = Instant.now();
long timeElapsed = Duration.between(start, finish).toMillis();System.out.println("Extract binary elapsed: " + timeElapsed + "ms");

上面的代码段会打印出解压的耗时,真实执行大概在 3.7 s 左右。

最后不要忘记在 template.yml 里配置上 Initializer 和 InitializationTimeout


原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/519582.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

流程变量的分组_01

项目地址&#xff1a;https://gitee.com/lwj/flowable.git 分支flowable-base 视频地址&#xff1a;https://www.bilibili.com/video/av79774697/ 业务场景&#xff1a; 实际场景中&#xff0c;有可能我们的流程变量会比较多&#xff0c;如果一个变量就作为一条记录存储的话&a…

编写一个C程序,实现以下功能:动态申请长度为5的整数空间数组,用户输入5个整数;动态扩展数组空间为8,用户另外输入3个整数,最后输出扩展后的全部数组元素。

DGUT最简单的题。没有之一&#xff0c;只要面向GOOGLE和百度编程就行。 在GOOGLE查询malloc和realloc。 malloc&#xff1a;动态申请内存。 realloc&#xff1a;动态更改&#xff08;扩展&#xff09;内存 代码如下 #define _CRT_SECURE_NO_WARNINGS 1 #include<stdio.…

amd显卡风扇调节_中端游戏显卡新晋黑马,华硕ROG STRIX RX5600XT O6G GAMING拆解评测...

在年初的CES2020上&#xff0c;AMD发布了面向中端市场的Radeon RX 5500 XT&#xff0c;进一步完善了自己的游戏显卡产品线。在本月21日&#xff0c;RX 5600 XT正式解禁发布。各大AIB厂商也在第一时间推出了自己的相关产品。我们也在第一时间收到了来自华硕的ROG STRIX RX5600XT…

集成源码深度剖析:Fescar x Spring Cloud

Fescar 简介 常见的分布式事务方式有基于 2PC 的 XA (e.g. atomikos)&#xff0c;从业务层入手的 TCC( e.g. byteTCC)、事务消息 ( e.g. RocketMQ Half Message) 等等。XA 是需要本地数据库支持的分布式事务的协议&#xff0c;资源锁在数据库层面导致性能较差&#xff0c;而支…

CPU 到底是怎么认识代码的?涨姿势了!

戳蓝字“CSDN云计算”关注我们哦&#xff01;作者 | brightwang责编 | 阿秃最近读到这样一篇好文章&#xff0c;从底层硬件角度出发剖析了一下CPU对代码的识别和读取&#xff0c;内容非常精彩&#xff0c;读完感觉大学里学到的很多东西瞬间联系起来了&#xff0c;这里分享给大家…

编写一个C程序,实现以下功能:编写一个常规的函数和一个递归函数,两个函数均能将输入的一个字符串以按反序形式的字符串作为返回值。在main函数中输入一行字符串,分别调用两个函数,输出反序后的字符串。

题目要求&#xff1a; 编写一个C程序&#xff0c;实现以下功能&#xff1a;编写一个常规的函数和一个递归函数&#xff0c;两个函数均能将输入的一个字符串以按反序形式的字符串作为返回值。在main函数中输入一行字符串&#xff0c;分别调用两个函数&#xff0c;输出反序后的字…

.流程引擎对接的三种方式_02

项目地址&#xff1a;https://gitee.com/lwj/flowable.git分支flowable-base 视频地址&#xff1a;https://www.bilibili.com/video/av79774697/ 业务场景&#xff1a; 实际业务中&#xff0c;我们有三种对接流程的方式 1、自定义流程对接 2、内部业务流程对接 3、外部系统对接…

Dubbo Mesh 在闲鱼生产环境中的落地实践

本文作者至简曾在 2018 QCon 上海站以《Service Mesh 的本质、价值和应用探索》为题做了一次分享&#xff0c;其中谈到了 Dubbo Mesh 的整体发展思路是“借力开源、反哺开源”&#xff0c;也讲到了 Service Mesh 在阿里巴巴的发路径将经历以下三大阶段&#xff1a; 撬动做透价…

github private链接访问_将github配置为图床+PicGo配置

将github配置为图床PicGo配置快乐的红领巾&#xff1a;​zhuanlan.zhihu.com1、建一个git仓库 2、获取授权token 3、配置PicGo 4、picgo快捷键1、建一个git仓库用于存需要上传的图片。这个仓库最好是public的&#xff0c;因为private的仓库&#xff0c;图片链接会带token&#…

编写一个C程序,实现以下功能:编写一个函数decTobin(int n),该函数能将一个十进制数n转换成二进制数,输入13 输出 1101。在main函数中输入整数n,调用函数,输出它的二进制

题目要求&#xff1a; 编写一个C程序&#xff0c;实现以下功能&#xff1a; //编写一个函数decTobin(int n)&#xff0c;该函数能将一个十进制数n转换成二进制数&#xff0c;输入13 输出 1101。 //在main函数中输入整数n,调用函数&#xff0c;输出它的二进制数。 二进值怎么来…

RocketMQ 在平安银行的实践和应用

随着互联网金融业务和相关技术的不断发展&#xff0c;传统金融行业为满足业务快速发展需求&#xff0c;正在积极引入各类开源技术&#xff0c;以快速抢占市场。那么&#xff0c;以金融和科技作为双驱动的平安银行在开源技术的引入方面是如何评估&#xff0c;运用到哪些业务场景…

flowable节点的自定义属性扩展_03

文章目录新增一个节点属性新增一个package&#xff1b;把我们新增的这个package添加节点属性中编写angularJS脚本在properties.js 配置模板&#xff1b;编写js控制器配置引用后台配置解析我们的节点属性编写一个自定义的解析器bean的初始化spring定义bean项目地址&#xff1a;h…

终于有人把超融合和边缘计算说清楚了

戳蓝字“CSDN云计算”关注我们哦&#xff01;作者 | 采葑责编 | 阿秃近年来超融合在国内迎来快速增长&#xff0c;根据IDC最新发布的报告&#xff0c;2019上半年中国超融合市场增长率达56.7%&#xff0c;大幅超越去年同期。Gartner发布的最新报告&#xff0c;到2023年我国超融合…

表格存储TableStore全新升级,打造统一的在线数据存储平台!

表格存储TableStore是阿里云自研的面向海量结构化和半结构化数据存储的Serverless NoSQL多模型数据库&#xff0c;被广泛用于社交、物联网、人工智能、元数据和大数据等业务场景。表格存储TableStore采用与Google Bigtable类似的宽表模型&#xff0c;天然的分布式架构&#xff…

编写一个函数,该函数能判断一个英文句子str(带空格)中是否含有某个单词w,如“How old are you?”含有“old”。在main函数中输入一个英文句子,再输入一个单词,如果英文句子中含有那

题目要求&#xff1a; 编写一个C程序&#xff0c;实现以下功能&#xff1a; 编写一个函数&#xff0c;该函数能判断一个英文句子str(带空格&#xff08;升级版&#xff09;)中是否含有某个单词w,如“How old are you?”含有“old”。 在main函数中输入一个英文句子&#xff0…

java短信验证码功能发送的验证码如何校验_企业如何选择短信平台才能保障安全和稳定性?...

现如今互联网不断发展&#xff0c;人们对网络的依赖性越来越大&#xff0c; 伴随而来的网络运营安全问题越来越严重&#xff0c;安全是我们企业都担忧的一个大问题&#xff0c;短信平台的安全性再次被企业所重视起来。短信验证码日常生活中经常遇到&#xff0c;比如银行卡的绑定…

达摩院里的女Leader,一面温柔似水一面灿烂如阳

天下网商 贡晓丽 作为全球最成功的女性之一,谢丽尔桑德伯格在《向前一步》一书中深刻地剖析了男女不平等现象的根本原因&#xff0c;她认为&#xff0c;女性之所以没有勇气跻身领导层&#xff0c;不敢放开脚步追求自己的梦想&#xff0c;更多是出于内在的恐惧与不自信。 纵然…

flowable DMN规则引擎几种类型解释_04

文章目录单一命中第一个&#xff08;FIRST&#xff09;唯一&#xff08;UNIQUE&#xff09;优先级&#xff08;PRIORITY&#xff09;任何&#xff08;ANY&#xff09;多重命中输出顺序&#xff08;OUTPUT ORDER&#xff09;规则顺序&#xff08;RULE ORDER&#xff09;采集&…

“我哥毕业1年,做Python挣了50W!”网友:吹得太少...

现状揭秘&#xff1a;Python岗位大厂50K起&#xff1f;程序员&#xff1a;心态崩了&#xff01;屠杀各种榜单&#xff0c;拿下语言排行榜的Python&#xff0c;薪酬真的如同网传开挂了吗&#xff1f;笔者在脉脉上发现了这样的一个信息&#xff1a;但Python真的这么火&#xff1f…

Nvidia GPU如何在Kubernetes 里工作

Nvidia GPU如何在Kubernetes 里工作 本文介绍Nvidia GPU设备如何在Kubernetes中管理调度。 整个工作流程分为以下两个方面&#xff1a; 如何在容器中使用GPUKubernetes 如何调度GPU如何在容器中使用GPU 想要在容器中的应用可以操作GPU&#xff0c; 需要实两个目标 容器中可…