失效链接处理 |
监控系统常见面试题总结 PDF 下载
本站整理下载:
相关截图:
主要内容:
建⽴完善的监控体系主要是为了:
⻓期趋势分析 :通过对监控样本数据的持续收集和统计,对监控指标进⾏⻓
期趋势分析。例如,通过对磁盘空间增⻓率的判断,我们可以提前预测在未
来什么时间节点上需要对资源进⾏扩容。
数据可视化 :通过可视化仪表盘能够直接获取系统的运⾏状态、资源使⽤情
况、以及服务运⾏状态等直观的信息。
预知故障和告警 : 当系统出现或者即将出现故障时,监控系统需要迅速反应
并通知管理员,从⽽能够对问题进⾏快速的处理或者提前预防问题的发⽣,
避免出现对业务的影响。
辅助定位故障、性能调优、容量规划以及⾃动化运维
出任何线上事故,先不说其他地⽅有问题,监控部分⼀定是有问题的。
如何才能更好地使⽤监控使⽤?
1. 了解监控对象的⼯作原理:要做到对监控对象有基本的了解,清楚它的⼯作
原理。⽐如想对 JVM 进⾏监控,你必须清楚 JVM 的堆内存结构和垃圾回收
机制。
2. 确定监控对象的指标:清楚使⽤哪些指标来刻画监控对象的状态?⽐如想对
某个接⼝进⾏监控,可以采⽤请求量、耗时、超时量、异常量等指标来衡
量。
3. 定义合理的报警阈值和等级:达到什么阈值需要告警?对应的故障等级是多
少?不需要处理的告警不是好告警,可⻅定义合理的阈值有多重要,否则只
会降低运维效率或者让监控系统失去它的作⽤。
4. 建⽴完善的故障处理流程:收到故障告警后,⼀定要有相应的处理流程和
oncall 机制,让故障及时被跟进处理。
硬件监控 :电源状态、CPU 状态、机器温度、⻛扇状态、物理磁盘、raid
状态、内存状态、⽹卡状态
服务器基础监控 :CPU、内存、磁盘、⽹络
数据库监控 :数据库连接数、QPS、TPS、并⾏处理的会话数、缓存命中
率、主从延时、锁状态、慢查询
中间件监控 :
Nginx:活跃连接数、等待连接数、丢弃连接数、请求量、耗时、5XX
错误率
Tomcat:最⼤线程数、当前线程数、请求量、耗时、错误量、堆内存
使⽤情况、GC 次数和耗时
缓存 :成功连接数、阻塞连接数、已使⽤内存、内存碎⽚率、请求量、
耗时、缓存命中率
消息队列:连接数、队列数、⽣产速率、消费速率、消息堆积量
应⽤监控 :
HTTP 接⼝:URL 存活、请求量、耗时、异常量
RPC 接⼝:请求量、耗时、超时量、拒绝量
JVM :GC 次数、GC 耗时、各个内存区域的⼤⼩、当前线程数、死锁
线程数
线程池:活跃线程数、任务队列⼤⼩、任务执⾏耗时、拒绝任务数
连接池:总连接数、活跃连接数
⽇志监控:访问⽇志、错误⽇志
业务指标:视业务来定,⽐如 PV、订单量等
|