大数据平台监控宝典（2）：联通大数据集群平台监控体系详解

在前一篇文章《[旧驱动运行维护大数据平台监控宝典(1)》中，我们介绍了当前中国联通大数据监控平台由GRAFA INMILL DB Prometheus报警管理器等组件组成，并着重阐述了以Grafana为核心的图形显示功能。

本文继续分享运行维护监控系统的另一个重要内容，即报警分析、处理和发送功能。

一、为什么要选择Prometheus+Alertmanager

您的监控系统曾经面临过这些痛点吗:

的报警信息推送不能分类，某些人不能重复特定的报警，或者无用的报警太多，重要的报警容易被隐藏，监控系统不能提供可视化显示，或者只能对监控历史数据进行两次或多维查询，并且故障排除缺乏基础

对于拥有大量业务和平台主机的公司来说，以nagios ganglia为首的传统监控平台经常会遇到上述情况，超出其能力范围。经过大量的实际工作，我们* * *选择普罗米修斯报警管理器作为联通大数据监控平台报警分析、处理和发送工具的组合。这种组合不仅可以一个接一个地解决上述痛点，还可以说是运维人员确保集群平台稳定运行、故障排除和问题定位的利器。

在接下来的章节中，作者将逐一介绍普罗米修斯、警报器管理器以及系统中的其他组件。

二、Prometheus-数据存储及分析

1. Prometheus简介

根据上图，我们可以清楚地看到普罗米修斯实际上是一个tsdb类型的数据库，其中所有收集的数据都以度量的形式存储，数据可以放到本地磁盘上供用户再次查询。

普罗米修斯还具有强大的计算和分析功能。它可以使用各种标签和promql语句来完成多维监控数据查询，从而为故障排除和问题定位提供可靠的依据。

在监控规则方面，普罗米修斯可以根据promql获取数据，并计算与固定阈值进行比较。如果超出正常范围，它将被标记为报警信息，并且报警描述可以在组和标签中定义，供后续报警管理器使用。

在可扩展性方面，普罗米修斯可以轻松完成服务发现功能，具有每秒采集和分析数万个数据点的监控数据的处理能力，完全脱离了传统监控系统对监控主机数量的要求。目前，中国联通拥有数千台大数据平台机器，监控实例超过10万个，监控实例索引超过1000万个。* * *，可以支持普罗米修斯的出色表现。

2. Prometheus特点

(1)监控数据存储功能和多维查询

下图给出了一个简单的例子:该查询可以在15分钟内看到集群接口机器的系统负载，涉及的标签维度有集群、主机IP、主机类型等。在实际的在线环境中，可以添加多个标签来完成查询，以及特殊的查询语句(sum、count_values、topk等)。)可以用来完成更丰富的多维查询，为运行维护人员提供可靠、方便、直观的监控数据。

(2)卓越的定制和第三方监控扩展功能

Pushgateway是普罗米修斯环境中的数据收集器。将其定义为收集器的原因非常简单。标准普罗米修斯(Prometheus)将使用拉模式从目标获取监控数据，但当由于外部原因(如网络、硬件等)不能直接从目标获取数据时。)，它将依赖于Pushgateway。请参见下图:

一般过程是在客户端部署脚本(支持多语言外壳、python等)。)将收集目标中的数据，并以度量形式将其发送到Pushgateway，只要确保客户端和Pushgateway之间的正常通信。普罗米修斯会根据配置的时间定期在普什盖特威上调出监控数据，以便收集目标。

下图显示了Pushgetway发送数据的代码过程:

我们可以这样理解它吗:对于通用组件(redis、mysql、nginx、haproxy等)。)，我们可以依靠现有的富客户端库直接监控和管理它们；对于一些特殊组件或定制服务，可以通过多语言脚本收集监控数据或服务嵌入点，Pushgateway作为数据收集器从各方收集数据，从而完成监控和管理。

(3)良好监控生态圈的通用客户端库

由于近年来普罗米修斯的崛起，开源社区中越来越多的人贡献了自己的代码，使得普罗米修斯拥有了一个巨大的客户库(redis、mysql、nginx、haproxy等)。)，可由运行维护人员使用，实现即时监控功能。

3. 配置

全局:s crape _ interval :15 sevaluation _ interval :15s # scrap _ time outssetthetoglobadefault(10秒).#警报管理器配置配置:警报管理器:-静态_配置3360-目标3360[‘ IP33609093 ‘]规则_文件:#-‘第一_规则。yml’#-‘第二_规则。yml ‘ # asrapconfiguration包含xactlyonendpointtoscrape :-作业_名称: ‘普罗米修斯’刮擦_ interval:15sstatic静态静态_配置333 mpl ‘ route : group _ by :[‘ cluster ‘]group _ wait :10s group _ interval :20 sre repeat _ interval :30 me receiver : ‘ host ‘ route 3360示例# # # # # # # # # # # # # # # # # # # # # # # #-接收器:群集:示例继续: rue-name 3360 ‘示例短信以下内容以下内容:一般是通过往神谕插入告警信息走短信网关发送；优点是及时高效,但缺点是神谕支持的并发量有限。邮件以下内容以下内容:邮件告警的及时性是一个很大的问题,并且如果没有合理设置阈值,邮件轰炸会影响其他工作邮件的阅读。企业微信以下内容以下内容:企业微信不存在短信网关的并发限制,但弊端在于告警条数有限。钉钉以下内容以下内容:有强大的分组功能且不限制告警条数；可按项目创建告警群,也方便解除

三、Alertmanager-告警的分类搬运工

1. Alertmanager简介

报警管理器在监控系统中的定位是接收普罗米修斯发送的报警，根据配置中的路由逐一分类，并通过静音和禁止规则进行计算，最终获得有效的报警信息，通过邮件、钉钉、微信等方式发送给各业务组。

2. Alertmanager特点

(1)分组

可以用一个业务场景来解释:一个大型数据集群由于网络问题而瘫痪，数百个数据节点触发断开警报。如果遵循传统的监控模式，将会收到数百条报警短信，形成短信轰炸。但是，如果使用分组功能，警报管理器会将具有共同属性的警报作为一个警报发送到接收端，这是清楚明了的。

(2)禁止

或用业务场景解释该特性:mysql实例正在主机上运行。如果主机停机，它将收到多个关于mysql监控的警报消息。但是，如果配置了禁止，只要主机的停机警报被触发，mysql触发的警报就会被禁止。

(3)静音

例如，主机硬件主板损坏，但制造商的反馈需要2天时间来更换主板。通常，此警报会重复大量发送，直到更换主板。如果此时使用静音功能，可以通过在页面上配置静音选项来暂停警报，并且可以在修复完成后取消静音规则。

3. 配置

四、钉钉-最终告警接收查阅

运行维护人员常用的报警发送工具包括短信、电子邮件、企业微信和打钉。选择打钉的原因如下:

使用打钉作为报警接收工具只是为了在打钉群聊中配置机器人。每个机器人都将有一个独特的网络钩子，在收到警报管理器的警报后可以发送到手机。钉钉机器人的结构在本文中将不再详细描述。感兴趣的学生可以自己在网上查找信息。

五、补充知识点

作为操作和维护人员，所做的最多的工作是例行检查和故障恢复。公司集群的规模越大，出现的故障就越多，故障实例的数量也会成倍增加。我相信每个操作和维护人员都有在假期被临时叫去修理故障的经历。这里，作者给出了一个额外的“自动恢复”提示，以释放随时等待呼叫的操作和维护人员。您应该拥有:

automatic simple process:通过收集和分析普罗米修斯中的警报数据，多线程安全并发远程连接工具(如fabric或ansible)被用来执行相关角色实例的恢复。

Fabric建立连接以执行恢复命令。

目前，参与自动恢复的群集的日常操作和维护操作包括:

如果计算节点检测到时钟偏差，它将自动校正时钟偏差。Cloudera manager代理挂起，并将自动重新启动。主机检测到坏磁盘，并在坏磁盘更换完成后自动恢复。角色实例检测到异常断开，并自动恢复在线状态。群集中有多个节点。磁盘存储空间不足。磁盘级数据平衡器会自动执行。当群集存储达到阈值时，会自动执行节点级数据平衡器。

需要指出的是，自动恢复的应用场景有很多，但并不适用于罕见的故障，而且故障有一定的概率会影响某些平台的功能性能。建议您在使用前仔细称量并开出正确的药物。

极牛网精选文章《大数据平台监控宝典（2）：联通大数据集群平台监控体系详解》文中所述为作者独立观点，不代表极牛网立场。如有侵权请联系删除。如若转载请注明出处：https://geeknb.com/4049.html