开发函数计算的正确姿势——使用 brotli 压缩大文件

大文件问题

函数计算对上传的 zip 代码包尺寸限制为 50M。某些场景中代码包中会超过这一限制,比如二进制 serverless-chrome 经过一番裁剪以后 ZIP 压缩包的体积为 43.4M,类似的还有 liboffice ,此外常见的还有机器学习训练的模型文件。

目前解决大文件问题有三种方法

  1. 采用更高压缩比的算法,比如本文介绍的 brotli 算法
  2. 采用 OSS 运行时下载
  3. 采用 NAS 文件共享

简单的比较一下这三种方法的优劣

方法优点缺点
高密度压缩发布简单,启动最快上传代码包较慢;要写解压代码;大小受限制不超过 50 M
OSS下载解压后文件不超过 512 M需要预先上传至 OSS;要写下载和解压代码,大概 50M/s 的下载速度
NAS文件大小没有限制,无需压缩需要预先上传至 NAS;VPC 环境有冷启动时延(~5s)

正常情况下如果代码包能控制在 50M 以下启动较快。而且工程上也比较简单,数据和代码放在一起,不需要额外的写脚本去同步更新 OSS 或者 NAS。

压缩算法

Brotli 是 Google 工程师开发的开源压缩算法,目前已经被新版的主流浏览器支持,作为 HTTP 传输的压缩算法。下面是在网上找到的关于 Brotli 和其他常见压缩算法对比基准测试。


从上面三幅图我们可以看出:相比于 gzip、xz 和 bz2,brotli 有最高的压缩比,接近于 gzip 的解压速度,以及最慢的压缩速度。

然而在我们的场景对于压缩慢这一缺点不敏感,压缩任务只要在开发准备物料的阶段执行一次就好了。

制作压缩文件

下面我先介绍一下如何制作压缩文件。下面的代码和用例都来自于项目 packed-selenium-java-example 。

安装 brotli 命令

Mac 用户

brew install brotli

Windows 用户可以去这个界面下载,https://github.com/google/brotli/releases

打包并压缩

打包前两个文件大小分别为 7.5M 和 97M

╭─ ~/D/test1[◷ 18:15:21]
╰─  ll
total 213840
-rwxr-xr-x  1 vangie  staff   7.5M  3  5 11:13 chromedriver
-rwxr-xr-x  1 vangie  staff    97M  1 25  2018 headless-chromium

使用 GZip 打包并压缩,大小为 44 M。

╭─ ~/D/test1[◷ 18:15:33]
╰─  tar -czvf chromedriver.tar chromedriver headless-chromium
a chromedriver
a headless-chromium
╭─ ~/D/test1[◷ 18:16:41]
╰─  ll
total 306216
-rwxr-xr-x  1 vangie  staff   7.5M  3  5 11:13 chromedriver
-rw-r--r--  1 vangie  staff    44M  3  6 18:16 chromedriver.tar
-rwxr-xr-x  1 vangie  staff    97M  1 25  2018 headless-chromium

tar 去掉 z 选项再打包一遍,大小为 104M

╭─ ~/D/test1[◷ 18:16:42]
╰─  tar -cvf chromedriver.tar chromedriver headless-chromium
a chromedriver
a headless-chromium
╭─ ~/D/test1[◷ 18:17:06]
╰─  ll
total 443232
-rwxr-xr-x  1 vangie  staff   7.5M  3  5 11:13 chromedriver
-rw-r--r--  1 vangie  staff   104M  3  6 18:17 chromedriver.tar
-rwxr-xr-x  1 vangie  staff    97M  1 25  2018 headless-chromium

压缩后的大小为 33M,相比 Gzip 的 44M 小了不少。耗时也非常的感人 6 分 18 秒,Gzip 只要 5 秒。

╭─ ~/D/test1[◷ 18:17:08]
╰─  time brotli -q 11 -j -f chromedriver.tar
brotli -q 11 -j -f chromedriver.tar  375.39s user 1.66s system 99% cpu 6:18.21 total
╭─ ~/D/test1[◷ 18:24:23]
╰─  ll
total 281552
-rwxr-xr-x  1 vangie  staff   7.5M  3  5 11:13 chromedriver
-rw-r--r--  1 vangie  staff    33M  3  6 18:17 chromedriver.tar.br
-rwxr-xr-x  1 vangie  staff    97M  1 25  2018 headless-chromium

运行时解压缩

下面以 java maven 项目为例

添加解压依赖包

<dependency><groupId>org.apache.commons</groupId><artifactId>commons-compress</artifactId><version>1.18</version>
</dependency><dependency><groupId>org.brotli</groupId><artifactId>dec</artifactId><version>0.1.2</version>
</dependency>

commons-compress 是 apache 提供的解压缩工具包,对于各种压缩算法提供一致的抽象接口,其中对于 brotli 算法只支持解压,这里足够了。org.brotli:dec 包是 Google 提供的 brotli 解压算法的底层实现。

实现 initialize 方法

public class ChromeDemo implements  FunctionInitializer {public void initialize(Context context) throws IOException {Instant start = Instant.now();try (TarArchiveInputStream in =new TarArchiveInputStream(new BrotliCompressorInputStream(new BufferedInputStream(new FileInputStream("chromedriver.tar.br"))))) {TarArchiveEntry entry;while ((entry = in.getNextTarEntry()) != null) {if (entry.isDirectory()) {continue;}File file = new File("/tmp/bin", entry.getName());File parent = file.getParentFile();if (!parent.exists()) {parent.mkdirs();}System.out.println("extract file to " + file.getAbsolutePath());try (FileOutputStream out = new FileOutputStream(file)) {IOUtils.copy(in, out);}Files.setPosixFilePermissions(file.getCanonicalFile().toPath(),getPosixFilePermission(entry.getMode()));}}Instant finish = Instant.now();long timeElapsed = Duration.between(start, finish).toMillis();System.out.println("Extract binary elapsed: " + timeElapsed + "ms");}
}

实现 FunctionInitializer 接口的 initialize 方法。解压过程刚开始是四层嵌套流,作用分别如下:

  1. FileInputStream 读取文件
  2. BufferedInputStream 提供缓存,介绍系统调用带来的上下文切换,提示读取的速度
  3. BrotliCompressorInputStream 对字节流进行解码
  4. TarArchiveInputStream 把 tar 包里的文件逐个解出来

然后 Files.setPosixFilePermissions 的作用是还原 tar 包中文件的权限。代码太长此处略去,参阅 packed-selenium-java-example

Instant start = Instant.now();
...Instant finish = Instant.now();
long timeElapsed = Duration.between(start, finish).toMillis();System.out.println("Extract binary elapsed: " + timeElapsed + "ms");

上面的代码段会打印出解压的耗时,真实执行大概在 3.7 s 左右。

最后不要忘记在 template.yml 里配置上 Initializer 和 InitializationTimeout


原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/519582.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

流程变量的分组_01

项目地址&#xff1a;https://gitee.com/lwj/flowable.git 分支flowable-base 视频地址&#xff1a;https://www.bilibili.com/video/av79774697/ 业务场景&#xff1a; 实际场景中&#xff0c;有可能我们的流程变量会比较多&#xff0c;如果一个变量就作为一条记录存储的话&a…

amd显卡风扇调节_中端游戏显卡新晋黑马,华硕ROG STRIX RX5600XT O6G GAMING拆解评测...

在年初的CES2020上&#xff0c;AMD发布了面向中端市场的Radeon RX 5500 XT&#xff0c;进一步完善了自己的游戏显卡产品线。在本月21日&#xff0c;RX 5600 XT正式解禁发布。各大AIB厂商也在第一时间推出了自己的相关产品。我们也在第一时间收到了来自华硕的ROG STRIX RX5600XT…

集成源码深度剖析:Fescar x Spring Cloud

Fescar 简介 常见的分布式事务方式有基于 2PC 的 XA (e.g. atomikos)&#xff0c;从业务层入手的 TCC( e.g. byteTCC)、事务消息 ( e.g. RocketMQ Half Message) 等等。XA 是需要本地数据库支持的分布式事务的协议&#xff0c;资源锁在数据库层面导致性能较差&#xff0c;而支…

CPU 到底是怎么认识代码的?涨姿势了!

戳蓝字“CSDN云计算”关注我们哦&#xff01;作者 | brightwang责编 | 阿秃最近读到这样一篇好文章&#xff0c;从底层硬件角度出发剖析了一下CPU对代码的识别和读取&#xff0c;内容非常精彩&#xff0c;读完感觉大学里学到的很多东西瞬间联系起来了&#xff0c;这里分享给大家…

Dubbo Mesh 在闲鱼生产环境中的落地实践

本文作者至简曾在 2018 QCon 上海站以《Service Mesh 的本质、价值和应用探索》为题做了一次分享&#xff0c;其中谈到了 Dubbo Mesh 的整体发展思路是“借力开源、反哺开源”&#xff0c;也讲到了 Service Mesh 在阿里巴巴的发路径将经历以下三大阶段&#xff1a; 撬动做透价…

github private链接访问_将github配置为图床+PicGo配置

将github配置为图床PicGo配置快乐的红领巾&#xff1a;​zhuanlan.zhihu.com1、建一个git仓库 2、获取授权token 3、配置PicGo 4、picgo快捷键1、建一个git仓库用于存需要上传的图片。这个仓库最好是public的&#xff0c;因为private的仓库&#xff0c;图片链接会带token&#…

RocketMQ 在平安银行的实践和应用

随着互联网金融业务和相关技术的不断发展&#xff0c;传统金融行业为满足业务快速发展需求&#xff0c;正在积极引入各类开源技术&#xff0c;以快速抢占市场。那么&#xff0c;以金融和科技作为双驱动的平安银行在开源技术的引入方面是如何评估&#xff0c;运用到哪些业务场景…

flowable节点的自定义属性扩展_03

文章目录新增一个节点属性新增一个package&#xff1b;把我们新增的这个package添加节点属性中编写angularJS脚本在properties.js 配置模板&#xff1b;编写js控制器配置引用后台配置解析我们的节点属性编写一个自定义的解析器bean的初始化spring定义bean项目地址&#xff1a;h…

终于有人把超融合和边缘计算说清楚了

戳蓝字“CSDN云计算”关注我们哦&#xff01;作者 | 采葑责编 | 阿秃近年来超融合在国内迎来快速增长&#xff0c;根据IDC最新发布的报告&#xff0c;2019上半年中国超融合市场增长率达56.7%&#xff0c;大幅超越去年同期。Gartner发布的最新报告&#xff0c;到2023年我国超融合…

表格存储TableStore全新升级,打造统一的在线数据存储平台!

表格存储TableStore是阿里云自研的面向海量结构化和半结构化数据存储的Serverless NoSQL多模型数据库&#xff0c;被广泛用于社交、物联网、人工智能、元数据和大数据等业务场景。表格存储TableStore采用与Google Bigtable类似的宽表模型&#xff0c;天然的分布式架构&#xff…

java短信验证码功能发送的验证码如何校验_企业如何选择短信平台才能保障安全和稳定性?...

现如今互联网不断发展&#xff0c;人们对网络的依赖性越来越大&#xff0c; 伴随而来的网络运营安全问题越来越严重&#xff0c;安全是我们企业都担忧的一个大问题&#xff0c;短信平台的安全性再次被企业所重视起来。短信验证码日常生活中经常遇到&#xff0c;比如银行卡的绑定…

“我哥毕业1年,做Python挣了50W!”网友:吹得太少...

现状揭秘&#xff1a;Python岗位大厂50K起&#xff1f;程序员&#xff1a;心态崩了&#xff01;屠杀各种榜单&#xff0c;拿下语言排行榜的Python&#xff0c;薪酬真的如同网传开挂了吗&#xff1f;笔者在脉脉上发现了这样的一个信息&#xff1a;但Python真的这么火&#xff1f…

Nvidia GPU如何在Kubernetes 里工作

Nvidia GPU如何在Kubernetes 里工作 本文介绍Nvidia GPU设备如何在Kubernetes中管理调度。 整个工作流程分为以下两个方面&#xff1a; 如何在容器中使用GPUKubernetes 如何调度GPU如何在容器中使用GPU 想要在容器中的应用可以操作GPU&#xff0c; 需要实两个目标 容器中可…

mysql的每隔1分钟定时_简单易用,spring boot集成quartz,实现分布式定时任务

什么是quartz&#xff1f;Quartz是一个完全由 Java 编写的开源任务调度框架。我们经常会遇到一些问题&#xff1a;想每个月27号&#xff0c;提醒信用卡还款&#xff1b;想每隔1小时&#xff0c;提醒一下&#xff0c;累了&#xff0c;站起来活动一下&#xff1b;想每个月定时发送…

阿里云安全肖力:从RSA2019看安全技术发展的十个机遇

又一年RSA大会归来。每一年参会&#xff0c;总会有一些不同的感悟&#xff0c;或是发现全球安全行业的新趋势&#xff0c;或是找到志同道合的新伙伴&#xff0c;或是看到很多人也相信我们相信的安全技术新方向。今天在回国的航班上提笔写下我的感悟和判断&#xff0c;希望对安全…

华为组织架调整,CloudAI升至第四大BG,打通全球第一款集成5G模组的4K直播编码器网络通信服务;谷歌宣布与IBM合作……...

关注并标星星CSDN云计算 速递、最新、绝对有料。这里有企业新动、这里有业界要闻&#xff0c;打起十二分精神&#xff0c;紧跟fashion你可以的&#xff01;每周两次&#xff0c;打卡即read更快、更全了解泛云圈精彩newsgo go goIntel 10nm Tiger Lake晶圆首曝&#xff1a;核心面…

flowable DMN部署单独使用_06

文章目录配置规则部署使用项目地址&#xff1a;https://gitee.com/lwj/flowable.git 分支flowable-base视频地址&#xff1a;https://www.bilibili.com/video/av79774697/DMN部署&#xff1a; dmn制定了规则之后&#xff0c;还需要部署好才能用DMN部署&#xff0c;独立使用 配…

SpringBoot使用SOFA-Lookout监控

本文介绍SpringBoot使用蚂蚁金服SOFA-Lookout配合Prometheus进行监控。 1.SOFA-Lookout介绍 上一篇已经介绍使用Prometheus进行暴露SpringBoot的一些指标进行监控&#xff0c;传送门&#xff0c;这一篇介绍如何使用SOFA-Lookout配合Prometheus。 SOFA-Lookout是蚂蚁金服开源的…

python迷宫小游戏大全_Python迷宫小游戏源代码、源程序

Python迷宫小游戏源程序包括两个文件maze.py和mazeGenerator.py&#xff0c;mazeGenerator.py实现迷宫地图的生成&#xff0c;程序运行截图&#xff1a;mazeGenerator.pyimport numpy as npimport randomimport copyclass UnionSet(object): """ 并查集实…

NoSQL最新现状和趋势:云NoSQL数据库将成重要增长引擎

NoSQL最早起源于1998年&#xff0c;但从2009年开始&#xff0c;NoSQL真正开始逐渐兴起和发展。回望历史应该说NoSQL数据库的兴起&#xff0c;完全是十年来伴随互联网技术&#xff0c;大数据数据的兴起和发展&#xff0c;NoSQL在面临大数据场景下相对于关系型数据库运用&#xf…