从0到1构建美团压测工具

背景

美团内部的RPC服务大多构建在Thrift之上,在日常开发服务的过程中,需要针对这些服务进行压力测试(以下简称压测)来发现潜在问题。常用的方法有:

  • 使用一些脚本语言如:Python、Ruby等,读取线上日志构建请求,用多线程模拟用户请求进行压测
  • 使用开源工具进行压测

然而,无论采取哪种方法,压测都是一个十分耗时而又繁琐的过程,主要痛点有:

  • 需要写很多代码解析日志,还原请求,对于比较复杂的请求,解析很容易出错
  • 需要搭建脚本或者工具的运行环境,通常这一过程比较耗时
  • 由于打压方法没有统一,导致打压的结果指标比较混乱,有的结果甚至以终端输出的方式展示,非常不直观
  • 对一个应用的打压测试,由于环境、代码的问题,导致组内同学很难共享

针对上述问题,提供一个简单好用的压测工具是十分有必要的。

在构建压测工具之前,对于一些现有的开源工具进行了调研。现在主流的压测工具主要有以下几个:

JMeter

JMeter是一个比较老牌的压测工具,主要针对HTTP服务进行打压,该工具在以下方面并不满足美团内部的压测需求:

  • 默认不支持Thrift的打压测试
  • 需要本地安装,并且配置复杂
  • 对于用户操作并不友好

Jmeter

twitter/iago

iago 是一个由Twitter开源的压测工具,支持对HTTP、Thrift等服务进行压测,其主要问题如下:

  • 对每个压测应用都需要创建一个项目
  • 压测结果并不直观
  • 流量重放依赖本地文件
  • 项目依赖于一个较老版本的Scala,搭建不便
  • 相关文档比较少

除此之外,当时还考察了Gatling、Grinder、Locust 等一些常见的压测工具,都因为适用场景和美团的需求有些出入而排除了。

综上,针对当前压测工具的一些现状,构建一个简单易用的压测工具还是很有必要的。

针对之前提到的痛点,新的压测工具主要提供以下功能:

  • 线上流量拷贝
  • 简单易用的操作界面(接入压测的时间应该控制在1小时以内)
  • 清晰的图表能反映压测应用的各项指标
  • 满足包括Thrift、HTTP等服务的压测需求

抽象

目标已经明确,怎么实现呢?首先是抽象压测的过程。 一个典型的压测过程如图所示,首先在init方法里面,进行一些初始化的工作,比如连接数据库,创建客户端等。接下来,在run方法里面发出压测请求,为了保证能够对服务产生足够的压力,这里通常采用多线程并发访问,同时记录每次请求的发起时间和结束时间,这两个时间的简单相减就能够得到每次请求的响应时间,利用该结果就可以计算出TP90、平均响应时间、最大响应时间等指标,等压测结束后,通过destroy方法进行资源回收等工作。

Model

以上过程可以用接口表示,无论是压测Thrift服务还是HTTP服务,本质上都是这三个方法实现的不同。考虑到压测工具的灵活性和通用性,压测工具可以将这个接口交给打压测试的同学实现,而压测工具则重点实现多线程打压,打压结果的聚合等比较耗时的工作。

interface Runner {def init(Test app) // 初始化压测def run(Test app, String log) // 每次打压请求,传入log方便构建请求def destroy(Test app) // 压测完毕后,回收资源
}

拷贝流量

Thrift服务打压的难点之一就是如何简单地拷贝线上真实流量用来构建打压请求。一些大型的Thrift服务数据结构非常复杂,写打压脚本的时候需要很多代码来解析日志,而且容易出错。 因此提供一个简单好用的拷贝流量方法是十分有必要的。

在这里压测工具提供了一个叫VCR(录像机)的工具来拷贝流量。VCR能够将线上的请求序列化后写到Redis里面。

考虑到用户需要查看具体请求和易用性等需求,最终选取了JSON格式作为序列化和反序列化的协议。同时需要部署在生产环境,为了降低对线上服务的影响,这里采取了单线程异步写的方式来拷贝流量。

VCR

聚合数据

应用打压完成后,需要一些指标来评估压测结果,常见的指标有: - 最大响应时间 - 平均响应时间 - QPS - TP90 - TP50

压测工具采用了 InfluxDB 来完成数据的聚合工作。 以TP90为例子,仅需要一行查询就能实现需求。

SELECT PERCENTILE(response_time, 90) FROM test_series GROUP BY time(10s)

整体而言,整个打压过程如下:

Loading Test

拷贝流量

美团内部的服务大多使用Java来构建,VCR以Maven Package的方式提供给用户。

对用户来说只需要2行代码可以拷贝流量。

为了不影响线上服务,通常选取单台机器进行流量拷贝工作。


public class TestAppRPC implements TestApp.Iface {private Vcr _vcr = new Vcr("testapp"); // 指定拷贝流量的key@Overridepublic TestResponse echo(TestRequest req) throws TException {_vcr.copy(req); // 拷贝操作long start = System.currentTimeMillis();TestResponse response = new TestResponse();return response;}
}

一旦流量拷贝完成后,通过Web界面,用户能够查看日志的收集情况和单条日志的详情。 vcr

压测逻辑实现

压测工具采用Groovy来进行编写。对每个应用来说,只需要实现runner接口就可以实现对应用的打压。

interface Runner {def init(Test app)def run(Test app, String log)def destroy(Test app)
}

以Thrift服务为例:


class TestServiceRunner implements Runner {RPCService.Client _clientTTransport _transport;@Overridedef init(Test app) {def conf = app.config // 读取应用配置_transport = new TFramedTransport(new TSocket(conf.get("thrift_service_host") as String, conf.get("thrift_service_port") as int))TProtocol protocol = new TBinaryProtocol(_transport)_client = new RPCService.Client(protocol)_transport.open()}@Overridedef run(Test app, String log) {TestRequest req = Vcr.deSerialize(log, TestRequest.class) // 将拷贝流量反序列化_client.echo(req) // 发送请求}@Overridedef destroy(Test app) {_transport.close() // 关闭服务}
}

创建应用

实现以上接口后,就可以对应用进行打压了。

用户可以通过Web界面创建应用,除了必填配置以外,用户可以按照应用灵活配置。

vcr

性能指标

用户可以通过直观的图表来查看应用的各种性能指标。

result

压测工具上线以来,已经接入了20多个应用,完成数百次打压实验,现在应用的接入时间仅需要15~30分钟。保证了美团服务的稳定和节省了开发同学的时间,使大家告别了以往繁琐冗长的打压测试。

欢迎对这方面有兴趣的同学一起讨论。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478028.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文浅尝 | ERNIE-ViL:从场景图中获取结构化知识来学习视觉语言联合表示

笔记整理:朱珈徵,天津大学硕士链接:https://www.aaai.org/AAAI21Papers/AAAI-6208.YuFei.pdf动机现有的视觉语言预训练方法试图通过在大的图像文本数据集上的视觉基础任务来学习联合表示,包括基于随机掩码子词的掩码语言建模、掩码…

LeetCode 222. 完全二叉树的节点个数(二分查找)

1. 题目 给出一个完全二叉树,求出该树的节点个数。 说明: 完全二叉树的定义如下:在完全二叉树中,除了最底层节点可能没填满外,其余每层节点数都达到最大值,并且最下面一层的节点都集中在该层最左边的若干…

常见的统计分析方法汇总,指标对比分析、时间序列预测

常见的八种统计分析法如下: 指标对比分析法分组分析法时间数列及动态分析法指数分析法平衡分析法综合评价分析景气分析预测分析 1 比较分析法## 一、指标对比分析法指标对比分析法,又称比较分析法,是统计分析中最常用的方法。是通过有关的指…

这三个NLP项目写进简历,网申通过率提高50%

01三大企业级项目项目一京东智能对话系统项目项目简介:智能客服机器人已经成为了客服系统的重要组成部分,帮助人工客服提升工作效率,为企业降低人工成本。作为智能客服的行业先驱,京东多年来致力打造全链路的客服机器人&#xff0…

论文浅尝 | MulDE:面向低维知识图嵌入的多教师知识蒸馏

笔记整理:朱渝珊,浙江大学在读博士,研究方向为快速知识图谱的表示学习,多模态知识图谱。Motivation为了更高的精度,现有的KGE方法都会采用较高的embedding维度,但是高维KGE需要巨大的训练成本和存储空间。现…

LeetCode 453. 最小移动次数使数组元素相等(数学)

1. 题目 给定一个长度为 n 的非空整数数组,找到让数组所有元素相等的最小移动次数。每次移动可以使 n - 1 个元素增加 1。 示例: 输入: [1,2,3]输出: 3 解释: 只需要3次移动(注意每次移动会增加两个元素的值):[1,2,3] > [2…

性能优化模式

摘要 性能优化涉及面很广。一般而言,性能优化指降低响应时间和提高系统吞吐量两个方面,但在流量高峰时候,性能问题往往会表现为服务可用性下降,所以性能优化也可以包括提高服务可用性。在某些情况下,降低响应时间、提高…

征稿 | 国际KG大会 IJCKG 2021专辑征文

国际知识图谱联合会议(International Joint Conference on Knowledge Graphs (IJCKG 2021, 与ACM/SIGAI联合办会)今年将于12月6日-8日在线召开。Data Intelligence今年被EI数据库收录后,有幸成为大会推荐期刊,大会优秀论文将推荐在…

200字带你看完一本书,GPT-3已经会给长篇小说写摘要了

文 | 博雯源 | 量子位现在,AI能帮你200字看完一段12万词的长篇小说了!比如这样一段121567词的《傲慢与偏见》原文:▲图源OpenAI官网AI分四个阶段来总结:先把原文总结成276个摘要(24796词),然后进…

LeetCode 1252. 奇数值单元格的数目

1. 题目 给你一个 n 行 m 列的矩阵,最开始的时候,每个单元格中的值都是 0。 另有一个索引数组 indices,indices[i] [ri, ci] 中的 ri 和 ci 分别表示指定的行和列(从 0 开始编号)。 你需要将每对 [ri, ci] 指定的行…

Google Research新成果,让表格理解和检索更上一层楼!

文 | 舞风小兔编 | 智商掉了一地如何更好地理解自然语言查询问题与表格信息?Google Research给出了一个改进版Transformer,一起来看看吧!表格以结构化方式存储信息,广泛地存在于web世界中。表格最为常见的一种用法就是人们查询其中…

论文浅尝 | 用于视觉推理的显式知识集成

论文笔记整理:刘克欣,天津大学硕士链接:https://openaccess.thecvf.com/content/CVPR2021/papers/Zhang_Explicit_Knowledge_Incorporation_for_Visual_Reasoning_CVPR_2021_paper.pdf动机现有的可解释的和显式的视觉推理方法仅执行基于视觉证…

美团O2O排序解决方案——线下篇

背景 针对美团90%的交易发生在移动端的业务特点,我们实现了一套适用于O2O业务的搜索排序技术方案,已在许多产品和子行业中得到应用。在之前的线上篇中,我们已经介绍了服务的框架、排序算法等。本文为线下篇,主要讲述数据清洗、特征…

LeetCode 401. 二进制手表

1. 题目 二进制手表顶部有 4 个 LED 代表小时(0-11),底部的 6 个 LED 代表分钟(0-59)。 每个 LED 代表一个 0 或 1,最低位在右侧。 例如,上面的二进制手表读取 “3:25”。 给定一个非负整数 …

EMNLP'21 | 让压缩语言模型自动搜索最优结构!

文 | Cheney编 | 智商掉了一地既让模型跑得快又好,又要空间占用少,真的有这样效果爆表的操作存在吗?在当前疫情反复的情况下,大家平时出门用健康宝刷脸的频率变得越来越高。如果每次人脸识别都需要等很久的话,那也太让…

直播分享丨前沿技术讲习班:知识图谱前沿技术与应用(CIPS ATT27)

本文转载自公众号:智源社区助手。作为大数据时代重要的知识表示方式,知识图谱是人工智能领域构建和应用知识的新阶段,它能够更好地实现大规模数据的认知与推理。同时,知识图谱和深度学习相互协作,是实现具有强鲁棒性、…

美团O2O排序解决方案——线上篇

美团的愿景是连接消费者和商家,而搜索在其中起着非常重要的作用。随着业务的发展,美团的商家和团购数正在飞速增长。这一背景下,搜索排序的重要性显得更加突出:排序的优化能帮助用户更便捷地找到满足其需求的商家和团购&#xff0…

手把手教你模型选择,模型评估

数据来源是:头条新闻数据,经过处理之后的部分数据如下: 首先通过交叉验证,取选择模型: from sklearn.linear_model import LogisticRegression from sklearn.ensemble import RandomForestClassifier from sklearn.s…

LeetCode 1030. 距离顺序排列矩阵单元格(排序Lambda表达式BFS)

文章目录1. 题目2. 解题2.1 multimap2.2 Lambda 表达式排序2.3 BFS搜索1. 题目 给出 R 行 C 列的矩阵&#xff0c;其中的单元格的整数坐标为 (r, c)&#xff0c;满足 0 < r < R 且 0 < c < C。 另外&#xff0c;我们在该矩阵中给出了一个坐标为 (r0, c0) 的单元格…

干货 | 带你理解对比学习损失函数的性质以及温度系数的作用

文 | Feng源 | 对白的算法屋很多小伙伴都了解对比学习&#xff0c;但要说温度系数的作用可能就不太清楚了。卷友们好&#xff0c;我是对白。对比学习中的温度系数是一个神秘的参数&#xff0c;大部分论文都默认采用小的温度系数来进行自监督对比学习&#xff08;例如0.07&#…