Metrics Logging Tracing
Peter Bourgon在2017年 Distributed Tracing Summit后发表的一篇博文,阐述了 Metrics、Logging、Tracing、三者的关系,三者并不是的孤立的存在, 如下图所示:

MTL.png
特别是运维一个线上的应用系统,在分析故障,性
能等问题,通常要综合相关各类指标来排查并解决问题,先从某Web系统上线发生异常这样一个场景来描述这个过程:
- 某个时间段,收到告警信息,告警信息显示某个API 最近出现较多的超时次数
- 系统上线前已经经过压测,并且配置了指标告警,运行日志采集等常规监控,当发生告警的时候,监控软件只能按照阈值的设定,将告警信息按照不同级别发送给运维人员
- 运维人员收到告警后,从告警指标只能判断异常现象发生
方案概述
基于公有云服务和Grafana Stack技术栈

流程图.jpg
日志系统
vector agent -> Loki -> grafana
- vector agent 的安装部署: https://www.jianshu.com/p/551c8483ea75
- Loki的安装部署:https://www.jianshu.com/p/f71576485021
- grafana的安装部署: https://www.jianshu.com/p/9e5057de67eb

截屏2021-08-10 下午1.54.09.png
监控系统
prometheus -> Cortex -> grafana
- Prometheus的安装部署 https://www.jianshu.com/p/f210707b9c07
- Cortex的安装部署 https://www.jianshu.com/p/39985a974000
截屏2021-08-10 下午2.00.31.png
