- 基础监控、业务监控、实时监控
- 监控系统演进
- Prometheus + Consul-template
- Open-Falcon
- Zabbix
- MySQL
- PostgreSQL
- OpenTSDB
- InfluxDB
- Graphite
- Nagios+Cacti
- grafana
- collectd
- telegraf
- lxcfs
- cAdvisor
- Heapster
- 黑盒监控、白盒监控
- 日志上传不压缩, 秒杀场景压缩会严重影响业务
- 单机最大pull/push监控项并发任务数
- pull/push模型
- 监控查询语言(SQL协议), prometheus PromQL
- 监控服务降级方案
- 监控高可用方案
- 存储选型
- 告警合并、升级
- 告警关联分析
- 全链路监控
- Google SRE: 流量、延迟、成功率、饱和度
- 趋势预测
- 故障预测
- 基础服务巡检
- 与任务管理系统集成, 追踪进度
- 服务树集成
- 监控模板自动推导
- 告警事件订阅
- Counter, Gauge, Histogram, Summary
- 日志字符串监控&告警