大数据平台监控宝典(2):联通大数据集群平台监控体系详解

在前一篇文章《[旧驱动运行维护大数据平台监控宝典(1)》中,我们介绍了当前中国联通大数据监控平台由GRAFA INMILL DB Prometheus报警管理器等组件组成,并着重阐述了以Grafana为核心的图形显示功能。

本文继续分享运行维护监控系统的另一个重要内容,即报警分析、处理和发送功能。

一、为什么要选择Prometheus+Alertmanager

您的监控系统曾经面临过这些痛点吗:

的报警信息推送不能分类,某些人不能重复特定的报警,或者无用的报警太多,重要的报警容易被隐藏,监控系统不能提供可视化显示,或者只能对监控历史数据进行两次或多维查询, 并且故障排除缺乏基础

对于拥有大量业务和平台主机的公司来说,以nagios ganglia为首的传统监控平台经常会遇到上述情况,超出其能力范围。经过大量的实际工作,我们* * *选择普罗米修斯报警管理器作为联通大数据监控平台报警分析、处理和发送工具的组合。这种组合不仅可以一个接一个地解决上述痛点,还可以说是运维人员确保集群平台稳定运行、故障排除和问题定位的利器。

在接下来的章节中,作者将逐一介绍普罗米修斯、警报器管理器以及系统中的其他组件。

二、Prometheus-数据存储及分析

1. Prometheus简介

大数据平台监控宝典(2):联通大数据集群平台监控体系详解

根据上图,我们可以清楚地看到普罗米修斯实际上是一个tsdb类型的数据库,其中所有收集的数据都以度量的形式存储,数据可以放到本地磁盘上供用户再次查询。

普罗米修斯还具有强大的计算和分析功能。它可以使用各种标签和promql语句来完成多维监控数据查询,从而为故障排除和问题定位提供可靠的依据。

在监控规则方面,普罗米修斯可以根据promql获取数据,并计算与固定阈值进行比较。如果超出正常范围,它将被标记为报警信息,并且报警描述可以在组和标签中定义,供后续报警管理器使用。

在可扩展性方面,普罗米修斯可以轻松完成服务发现功能,具有每秒采集和分析数万个数据点的监控数据的处理能力,完全脱离了传统监控系统对监控主机数量的要求。目前,中国联通拥有数千台大数据平台机器,监控实例超过10万个,监控实例索引超过1000万个。* * *,可以支持普罗米修斯的出色表现。

2. Prometheus特点

(1)监控数据存储功能和多维查询

下图给出了一个简单的例子:该查询可以在15分钟内看到集群接口机器的系统负载,涉及的标签维度有集群、主机IP、主机类型等。在实际的在线环境中,可以添加多个标签来完成查询,以及特殊的查询语句(sum、count_values、topk等)。)可以用来完成更丰富的多维查询,为运行维护人员提供可靠、方便、直观的监控数据。

大数据平台监控宝典(2):联通大数据集群平台监控体系详解

(2)卓越的定制和第三方监控扩展功能

Pushgateway是普罗米修斯环境中的数据收集器。将其定义为收集器的原因非常简单。标准普罗米修斯(Prometheus)将使用拉模式从目标获取监控数据,但当由于外部原因(如网络、硬件等)不能直接从目标获取数据时。),它将依赖于Pushgateway。请参见下图:

大数据平台监控宝典(2):联通大数据集群平台监控体系详解

一般过程是在客户端部署脚本(支持多语言外壳、python等)。)将收集目标中的数据,并以度量形式将其发送到Pushgateway,只要确保客户端和Pushgateway之间的正常通信。普罗米修斯会根据配置的时间定期在普什盖特威上调出监控数据,以便收集目标。

下图显示了Pushgetway发送数据的代码过程:

大数据平台监控宝典(2):联通大数据集群平台监控体系详解

我们可以这样理解它吗:对于通用组件(redis、mysql、nginx、haproxy等)。),我们可以依靠现有的富客户端库直接监控和管理它们;对于一些特殊组件或定制服务,可以通过多语言脚本收集监控数据或服务嵌入点,Pushgateway作为数据收集器从各方收集数据,从而完成监控和管理。

(3)良好监控生态圈的通用客户端库

由于近年来普罗米修斯的崛起,开源社区中越来越多的人贡献了自己的代码,使得普罗米修斯拥有了一个巨大的客户库(redis、mysql、nginx、haproxy等)。),可由运行维护人员使用,实现即时监控功能。

3. 配置

全局:s crape _ interval :15 sevaluation _ interval :15s # scrap _ time outssetthetoglobadefault(10秒).#警报管理器配置配置:警报管理器:-静态_配置3360-目标3360[‘ IP33609093 ‘]规则_文件:#-‘第一_规则。yml’#-‘第二_规则。yml ‘ # asrapconfiguration包含xactlyonendpointtoscrape :-作业_名称: ‘普罗米修斯’刮擦_ interval:15sstatic静态静态_配置333 mpl ‘ route : group _ by :[‘ cluster ‘]group _ wait :10s group _ interval :20 sre repeat _ interval :30 me receiver : ‘ host ‘ route 3360示例# # # # # # # # # # # # # # # # # # # # # # # #-接收器:群集:示例继续: rue-name 3360 ‘示例短信以下内容以下内容:一般是通过往神谕插入告警信息走短信网关发送;优点是及时高效,但缺点是神谕支持的并发量有限。邮件以下内容以下内容:邮件告警的及时性是一个很大的问题,并且如果没有合理设置阈值,邮件轰炸会影响其他工作邮件的阅读。企业微信以下内容以下内容:企业微信不存在短信网关的并发限制,但弊端在于告警条数有限。钉钉以下内容以下内容:有强大的分组功能且不限制告警条数;可按项目创建告警群,也方便解除

三、Alertmanager-告警的分类搬运工

1. Alertmanager简介

报警管理器在监控系统中的定位是接收普罗米修斯发送的报警,根据配置中的路由逐一分类,并通过静音和禁止规则进行计算,最终获得有效的报警信息,通过邮件、钉钉、微信等方式发送给各业务组。

2. Alertmanager特点

(1)分组

可以用一个业务场景来解释:一个大型数据集群由于网络问题而瘫痪,数百个数据节点触发断开警报。如果遵循传统的监控模式,将会收到数百条报警短信,形成短信轰炸。但是,如果使用分组功能,警报管理器会将具有共同属性的警报作为一个警报发送到接收端,这是清楚明了的。

(2)禁止

或用业务场景解释该特性:mysql实例正在主机上运行。如果主机停机,它将收到多个关于mysql监控的警报消息。但是,如果配置了禁止,只要主机的停机警报被触发,mysql触发的警报就会被禁止。

(3)静音

例如,主机硬件主板损坏,但制造商的反馈需要2天时间来更换主板。通常,此警报会重复大量发送,直到更换主板。如果此时使用静音功能,可以通过在页面上配置静音选项来暂停警报,并且可以在修复完成后取消静音规则。

大数据平台监控宝典(2):联通大数据集群平台监控体系详解

3. 配置

四、钉钉-最终告警接收查阅

运行维护人员常用的报警发送工具包括短信、电子邮件、企业微信和打钉。选择打钉的原因如下:

使用打钉作为报警接收工具只是为了在打钉群聊中配置机器人。每个机器人都将有一个独特的网络钩子,在收到警报管理器的警报后可以发送到手机。钉钉机器人的结构在本文中将不再详细描述。感兴趣的学生可以自己在网上查找信息。

五、补充知识点

作为操作和维护人员,所做的最多的工作是例行检查和故障恢复。公司集群的规模越大,出现的故障就越多,故障实例的数量也会成倍增加。我相信每个操作和维护人员都有在假期被临时叫去修理故障的经历。这里,作者给出了一个额外的“自动恢复”提示,以释放随时等待呼叫的操作和维护人员。您应该拥有:

automatic simple process:通过收集和分析普罗米修斯中的警报数据,多线程安全并发远程连接工具(如fabric或ansible)被用来执行相关角色实例的恢复。

大数据平台监控宝典(2):联通大数据集群平台监控体系详解

Fabric建立连接以执行恢复命令。

大数据平台监控宝典(2):联通大数据集群平台监控体系详解

目前,参与自动恢复的群集的日常操作和维护操作包括:

如果计算节点检测到时钟偏差,它将自动校正时钟偏差。Cloudera manager代理挂起,并将自动重新启动。主机检测到坏磁盘,并在坏磁盘更换完成后自动恢复。角色实例检测到异常断开,并自动恢复在线状态。群集中有多个节点。磁盘存储空间不足。磁盘级数据平衡器会自动执行。当群集存储达到阈值时,会自动执行节点级数据平衡器。

需要指出的是,自动恢复的应用场景有很多,但并不适用于罕见的故障,而且故障有一定的概率会影响某些平台的功能性能。建议您在使用前仔细称量并开出正确的药物。

极牛网精选文章《大数据平台监控宝典(2):联通大数据集群平台监控体系详解》文中所述为作者独立观点,不代表极牛网立场。如若转载请注明出处:https://geeknb.com/4049.html

(30)
打赏 微信公众号 微信公众号 微信小程序 微信小程序
主编的头像主编认证作者
上一篇 2019年5月14日 下午12:34
下一篇 2019年5月14日 下午1:26

相关推荐

发表回复

登录后才能评论
扫码关注
扫码关注
分享本页
返回顶部