- 响应时间 (Response Time)
定义:从用户发出请求到接收到响应的时间。
重要性:直接影响用户体验。响应时间过长会导致用户不满,甚至放弃使用。
度量:通常以毫秒 (ms) 为单位。 - 吞吐量 (Throughput)
定义:单位时间内系统处理的请求数或事务数。
重要性:衡量系统的处理能力。高吞吐量表示系统能够处理更多的请求。
度量:通常以每秒事务数 (TPS) 或每秒请求数 (RPS) 为单位。 - 并发用户数 (Concurrent Users)
定义:同一时间内与系统交互的用户数量。
重要性:影响系统的负载能力和稳定性。高并发用户数可能暴露系统瓶颈。
度量:通常以用户数为单位。 - CPU 使用率 (CPU Utilization)
定义:CPU 被占用的程度。
重要性:过高或过低的 CPU 使用率都可能是问题的标志。过高可能导致系统响应变慢,过低可能表示资源未被充分利用。
度量:通常以百分比 (%) 为单位。 - 内存使用率 (Memory Utilization)
定义:系统使用的内存量。
重要性:内存不足会导致系统性能下降,甚至崩溃。过多的内存使用可能表示内存泄漏。
度量:通常以兆字节 (MB) 或千兆字节 (GB) 为单位。 - 磁盘 I/O (Disk I/O)
定义:磁盘读写操作的速度和频率。
重要性:磁盘 I/O 性能差会影响系统的整体性能,特别是在数据密集型应用中。
度量:通常以每秒读写次数 (IOPS) 和每秒传输的数据量 (MB/s) 为单位。 - 网络 I/O (Network I/O)
定义:网络接口的输入输出流量。
重要性:网络延迟和带宽限制可以严重影响分布式系统的性能。
度量:通常以每秒传输的数据量 (Mbps) 为单位。 - 错误率 (Error Rate)
定义:失败的请求或事务占总请求或事务的比例。
重要性:高错误率可能表示系统存在严重的问题,如配置错误、资源不足或代码缺陷。
度量:通常以百分比 (%) 为单位。 - JVM 相关指标(对于 Java 应用)垃圾回收 (Garbage Collection):GC 次数和 GC 时间。堆内存 (Heap Memory):年轻代和老年代
- 数据库相关指标查询时间 (Query Time):SQL 查询的执行时间。连接池 (Connection Pool):可用连接数和等待连接数。锁竞争 (Lock Contention):数据库中的锁竞争情况。
应用程序特定指标业务逻辑相关的指标:例如,订单处理时间、支付成功率等。日志分析:通过日志文件分析异常和错误信息。 - 系统稳定性 (System Stability)
定义:系统在长时间运行下保持稳定的能力。重要性:确保系统在高负载下不会崩溃或出现严重的性能退化。
度量:通过长时间的压力测试来评估。 - 资源利用率 (Resource Utilization)
定义:系统资源(如 CPU、内存、磁盘、网络)的使用情况。
重要性:合理利用资源可以提高系统的效率和成本效益。
度量:通过 top、htop、iostat 等工具进行监控。 - 扩展性 (Scalability)
定义:系统在增加资源(如 CPU、内存、服务器)时提升性能的能力。
重要性:确保系统可以通过增加资源来应对更高的负载。
度量:通过水平扩展(增加服务器)和垂直扩展(增加单个服务器的资源)来评估。 - 用户体验 (User Experience)
定义:用户对系统的主观感受,包括页面加载时间、交互流畅度等。
重要性:直接影响用户的满意度和留存率。
度量:通过用户反馈、A/B 测试和实际使用数据来评估。 - 系统健康状况 (System Health)
定义:系统各个组件的状态,包括硬件、软件和服务。
重要性:确保系统的所有部分都在正常运行。度量:通过监控工具和日志分析来评估。使用情况。非堆内存 (Non-Heap Memory):元空间等非堆内存的使用情况。