当前位置:首页 > 资讯 > 正文

货拉拉智能监控实践:如何解决多云架构下的故障应急问题?

货拉拉智能监控实践:如何解决多云架构下的故障应急问题?

在月活超千万的大规模业务背景下,货拉拉遭遇了多云环境下的监控碎片化、规划无序等问题。为了应对这些挑战,货拉拉开发了一站式监控平台——Monitor。该平台的部署有效地实现了对核心应用的监控和报警全覆盖,显著提高了应急响应的效率:超过72%的云应急事件能在5分钟内被识别和处理,同时,接近80%的事件能在1分钟内被检测到,并有近70%的事件在5分钟内得到准确定位。详细的解决策略和方法,请参阅文章正文。

作者介绍

货拉拉监控平台负责人——柯圣

TakinTalks 稳定性社区专家团成员,货拉拉监控平台负责人。曾任职于携程、饿了么的核心中间件团队,深入参与多个自研日志平台、监控平台、时序数据库等系統的研发,深耕可观测性领域近 10 年。目前在货拉拉技术中心负责整体监控体系与监控平台建设。

温馨提醒:本文约7500字,预计花费12分钟阅读。

TakinTalks公众号后台回复 “交流” 进入读者交流群;回复“1221”获取课件;

背景

在我加入货拉拉的技术团队之前,货拉拉已经使用开源的监控产品搭建了初步的监控体系。例如,使用 Prometheus 用于数据的采集和存储,用 Elasticsearch 用于日志的查询与存储,以及基于 SkyWalking 上报链路数据。然而,即使这些开源产品在各自的领域都非常成熟和被广泛使用,但对于我们的研发团队而言,他们在排查问题、查看应用、分析日志时,都需要在各个平台之间不断切换。这样的监控体系给他们带来了强烈的割裂感,使得监控体验相当糟糕。

1.1 分析监控系统诉求

面对上述的技术挑战,我们需仔细分析监控平台的建设方向。这张图是我的个人思考。它明确了监控平台的关键业务功能、目标定位及必需的数据要素,并展示了如何利用这些要素服务于用户和公司团队。我们的设计目标是确保平台能够满足特定的性能要求,从而提升服务质量。