开源运维监控系统篇
1.zabbix
用户群:85%以上的泛互联网企业。
优点:支持多平台的企业级分布式开源监控软件 安装部署简单,多种数据采集插件灵活集成 功能强大,可实现复杂多条件告警, 自带画图功能,得到的数据可以绘成图形 提供多种API接口,支持调用脚本 出现问题时可自动远程执行命令(需对agent设置执行权限)
缺点:项目批量修改不方便 社区虽然成熟,但是中文资料相对较少,服务支持有限; 入门容易,能实现基础的监控,但是深层次需求需要非常熟悉Zabbix并进行大量的二次定制开发,难度较大; 系统级别报警设置相对比较多,如果不筛选的话报警邮件会很多;并且自定义的项目报警需要自己设置,过程比较繁琐; 缺少数据汇总功能,如无法查看一组服务器平均值,需进行二次开发; 数据报表需要特殊二次开发定义;
2.nagios
用户群:适合复杂IT环境的企业
优点:出错的服务器、应用和设备会自动重启,自动日志滚动 配置灵活,可以自定义shell脚本,通过分布式监控模式支持以冗余方式进行主机监控,报警设置多样命令重新加载配置文件无需打扰Nagios的运行缺点:事件控制台功能很弱,插件易用性差对性能、流量等指标的处理不给力看不到历史数据,只能看到报警事件,很难追查故障原因配置复杂,初学者投入的时间、精力和成本比较大
3.open-falcon
Open-falcon是小米运维团队从互联网公司的需求出发,根据多年的运维经验,
结合SRE、SA、DEVS的使用经验和反馈,开发的一套面向互联网的企业级开源监控产品。
用户群:目前有几十家企业用户不同程度使用。
优点:自动发现,支持falcon-agent、snmp、支持用户主动push、用户自定义插件支持支持每个周期上亿次的数据采集、告警判定、历史数据存储和查询高效的portal、支持策略模板、模板继承和覆盖、多种告警方式、支持callback调用单机支撑200万metric的上报、归档、存储采用rrdtool的数据归档策略,秒级返回上百个metric一年的历史数据多维度的数据展示,用户自定义Screen通过各种插件目前支持Linux、Windows、Mysql、Redis、Memache、RabbitMQ和交换机监控。缺点:由于发布时间较短,很多基础的服务监控插件(如Tomcat、apache等)还不支持,很多功能还在不断完善中,另外由于缺少专门的支持,虽然有开放社区,但是解决问题的效率相对较低。
4.zenoss
优点:Zenoss比较出色的地方在于它的Dashboard,可以配置很多portlet每个用户的界面都是分开管理的,自定义dashboard不会影响其他用户强大监控功能支持服务器、路由交换、防火墙、存储、数据库、中间件监控采用基于HBASE的opentsdb存储任意时间段的数据将状态监控,性能监控,资源管理,良好的报告机制进行有机的整合缺点:对资源要求较高,即使只管理少数几台设备,也需要消耗大量硬件及内存等附加资源。针对windows系统,开源版只提供SNMP,通过WMI检测CPU,Disk,软硬件和性能只在收费版提供。
商用运维监控系统篇
1.监控宝
监控宝是云智慧为用户提供IT性能监控(IT Performance Monitoring)的SaaS产品,包含网站监控、服务器监控、中间件监控、数据库监控、应用监控、API监控和页面性能监控等功能。包含免费版、畅享版和企业版,目前用户约40万,监控宝app也是国内唯一提供移动监控服务的产品。
用户群:覆盖电子商务、移动互联网、广告传媒、在线游戏、教育医疗等行业的几十万用户,小米、陌陌、高德、用友、金山、途牛、聚美优品、陆金所、中 国平安、建行信用卡中心、春雨医生、畅游、国家电网、中国电信、滴滴打车、春秋航空、凤凰网等各行业领先企业和中国互联网百强企业超过30%在使用监控 宝。
优点:作为国内最早提供基于SaaS服务的网络监控平台,监控宝不但为初级用户提供免费的标准服务,企业用户还可以按需购买所需的监控、告警资源,最大限度的节省企业运维成本;监控宝通过遍布全球的300多个分布式监测节点,对网络进行稳定性和可用性的主动监控和实时分析,支持http(https)、ftp、ping、udp、tcp、smtp、traceroute等多种协议,测量CDN效果及DNS状态,全网全地域性能趋势分析。实时捕捉服务器深层性能指标,支持Linux/Unix/Windows系统及云平台,支持CPU使用率、CPU平均负载、内存使用比例、磁盘IO、磁盘空 间使用率、网络流量和系统进程数统计等物理指标及30多种应用服务,云主机监控端一键开启,无需复杂配置。对于应用服务的监控,监控宝已经支持常见的应用 类型包括:Apache、Lighttpd、Nginx、Tomcat、IIS、Memcache和Redis,存储层监控支持Hadoop、 MySQL、MongoDB、SQLServer、Oracle的健康状态及性能监控。监控宝是国内目前唯一支持API监控的网络监控产品,通过API接口调用模拟用户使用过程,支持对get、post、put、delete、head、 options六种请求方式进行实时监控;支持JSON、XML、Text、Response Status验证及Postman脚本导入。Docker监控也是监控宝的独家功能,能够实时监控Docker容器的CPU、内存、网络流量及Swap状态,让开发者和运维人员在使用Docker时清晰掌握其资源消耗状况。监控宝提供页面性能管理,基于国际标准制定页面性能指数,识别加载元素的状态及正确性,对全网全用户加载响应时间分析,同时准确定位问题元素及优化建议。及时有效的告警通知对运维来说至关重要,监控宝可以根据SLA设置告警阈值,第一时间发送告警通知。监控宝覆盖最全面的告警通知方式:电子邮件、短信、电话 语音、URL回调通知、App Push等。另外监控宝提供分级告警通知,能够根据告警事件的不同等级将不同的告警推送给不同的人员,支持企业分层管理!监控宝目前对其Smart Agent进行了开源,用户可以根据业务需求定制化开发Agent,同时用户的数据安全得到保障。监控宝提供私有化部署解决方案,满足政企、金融行业专有网络监控的需求。来自Compuware、CA、IBM等企业IT服务资深专家,超过5年的本土化企业级SaaS服务经验,以及超过百人的技术服务团队,为用户提供最佳的服务保障。
2.360网站服务监控
用户群:个人站长
优点:服务免费,支持网站HTTP监控、PING监控、域名DNS监控和服务器监控提供网站访问全景数据和简单配置信息缺点:只支持简单的网站和服务器监控,历史数据保留15天,且免费监控点数量仅为四个最后一次产品更新是2014年9月,目前已停止更新和运营支持
3.阿里云监控
阿里云监控是一款免费网站监控产品,可监控站点和服务器,并提供多种告警方式:短信,旺旺,邮件
用户群:阿里云用户
优点:与阿里云服务捆绑紧密,允许用户自定义数据监控阿里云多IDC间内网数据传输,不占用客户公网资源支持对业务数据的通用统计,从各个角度反应服务的运行情况缺点:所有服务基于阿里云,功能单一,扩展性差功能不够强大,只能满足基础监控需求
4.百度云观测
百度云观测是百度推出的一款云服务产品,类似于360云监控、阿里云监控,主要是为站长提供免费的一站式网站监测、预警服务,功能覆盖网站运行状况、安全和访问速度等多个方面。
用户群:个人站长
优点:对于用户每日访问的站点进行安全检测国内各大城市云节点覆盖,支持CDN、DNS状态和主机监控缺点:需要进行网站认证监控点少,功能简单,只能监测网站状态,不支持服务器、应用监控。
5.小蜜蜂网站监测
小蜜蜂网站监测是一款针对中小企业需求开发的综合测量网站运营情况线上工具,可以定时监控网站或服务器器的可用率(Uptime),一旦网站无法连结、或是服务器发生错误,即可发送告警通知。
用户群:中小企业网站管理员
优点:小蜜蜂通过探测节点和Last Mile两种模式监测网站可用性,支持多种站点监控类型和不同的网络访问传输协议;提供多样化监控告警设置,并支持站内实时告警消息,支持RSS。缺点:只支持基本的网站监控,监控点不可选,监控服务不稳定;网站性能历史数据不够详细,且无法导出。随 着新技术的不断发展,云服务已经互联网企业的必须,但是长期以来会存在传统物理主机和云主机、私有云和公有云并存的状态。此外,互联网企业的发展速度非常 快,小米、滴滴出行等很多企业都是在短短几年内发展起来的,因此选择一款合适的云监控产品,伴随企业同步成长,是非常必要的。