hugo-teek is loading...

2024-12-25 k8s +2 k8s监控报警 PrometheusOperator 4351 字 20 分钟 -- 次

自定义监控报警

最后更新于: 2025-12-06 10:36:40

自定义监控报警

上节课和大家讲解了 Prometheus Operator 的安装和基本使用方法，这节课给大家介绍如何在 Prometheus Operator 中添加一个自定义的监控项。

除了 Kubernetes 集群中的一些资源对象、节点以及组件需要监控，有的时候我们可能还需要根据实际的业务需求去添加自定义的监控项，添加一个自定义监控的步骤也是非常简单的。

第一步建立一个 ServiceMonitor 对象，用于 Prometheus 添加监控项
第二步为 ServiceMonitor 对象关联 metrics 数据接口的一个 Service 对象
第三步确保 Service 对象可以正确获取到 metrics 数据

接下来我们就来为大家演示如何添加 etcd 集群的监控。无论是 Kubernetes 集群外的还是使用 kubeadm 安装在集群内部的 etcd 集群，我们这里都将其视作集群外的独立集群，因为对于二者的使用方法没什么特殊之处。

实验环境

实验软件

1、etcd 监控

1.查询etcd启动参数

由于我们这里演示环境使用的是 kubeadm 搭建的集群，我们可以使用 kubectl 工具去获取 etcd 启动的相关参数：

 1[root@master1 ~]#kubectl get pods -n kube-system -l component=etcd                                                                                                          
 2NAME           READY   STATUS    RESTARTS      AGE
 3etcd-master1   1/1     Running   6 (15d ago)   309d
 4
 5$ kubectl get pods etcd-master1 -n kube-system -o yaml
 6......
 7spec:
 8  containers:
 9  - command:
10    - etcd
11    - --advertise-client-urls=https://172.29.9.51:2379
12    - --cert-file=/etc/kubernetes/pki/etcd/server.crt
13    - --client-cert-auth=true
14    - --data-dir=/var/lib/etcd
15    - --initial-advertise-peer-urls=https://172.29.9.51:2380
16    - --initial-cluster=master1=https://172.29.9.51:2380
17    - --key-file=/etc/kubernetes/pki/etcd/server.key
18    - --listen-client-urls=https://127.0.0.1:2379,https://172.29.9.51:2379
19    - --listen-metrics-urls=http://127.0.0.1:2381 #注意这里的参数
20    - --listen-peer-urls=https://172.29.9.51:2380
21    - --name=master1
22    - --peer-cert-file=/etc/kubernetes/pki/etcd/peer.crt
23    - --peer-client-cert-auth=true
24    - --peer-key-file=/etc/kubernetes/pki/etcd/peer.key
25    - --peer-trusted-ca-file=/etc/kubernetes/pki/etcd/ca.crt
26    - --snapshot-count=10000
27    - --trusted-ca-file=/etc/kubernetes/pki/etcd/ca.crt
28......

我们可以看到启动参数里面有一个 --listen-metrics-urls=http://127.0.0.1:2381 的配置，该参数就是来指定 metrics 接口运行在 2381 端口下面的，而且是 http 的协议，所以也不需要什么证书配置，这就比以前的版本要简单许多了，以前的版本需要用 https 协议访问，所以要配置对应的证书。

2.创建ServiceMonitor 对象

接下来我们直接创建对应的 ServiceMonitor 对象即可:

[root@master1 prometheus-operator]#vim kubernetesControlPlane-serviceMonitorEtcd.yaml

 1# kubernetesControlPlane-serviceMonitorEtcd.yaml
 2apiVersion: monitoring.coreos.com/v1
 3kind: ServiceMonitor
 4metadata:
 5  name: etcd-k8s
 6  namespace: monitoring
 7  labels:
 8    k8s-app: etcd-k8s
 9spec:
10  jobLabel: k8s-app
11  endpoints:
12    - port: port
13      interval: 15s
14  selector:
15    matchLabels:
16      k8s-app: etcd
17  namespaceSelector:
18    matchNames:
19      - kube-system

上面我们在 monitoring 命名空间下面创建了名为 etcd-k8s 的 ServiceMonitor 对象，基本属性和前面章节中的一致，匹配 kube-system 这个命名空间下面的具有 k8s-app=etcd 这个 label 标签的 Service，jobLabel 表示用于检索 job 任务名称的标签，由于 etcd 的 metrics 接口在 2381 端口下面，不需要 https 安全认证，所以用默认的配置即可。

关于 ServiceMonitor 更多的配置属性，可以参考官方的 API 文档的描述。

然后我们直接创建这个 ServiceMonitor 对象即可：

1[root@master1 prometheus-operator]#kubectl apply -f kubernetesControlPlane-serviceMonitorEtcd.yaml
2servicemonitor.monitoring.coreos.com/etcd-k8s created

但实际上现在并不能监控到 etcd 集群，因为并没有一个满足 ServiceMonitor 条件的 Service 对象与之关联：

1[root@master1 prometheus-operator]#kubectl get svc -n kube-system -l k8s-app=etcd
2No resources found in kube-system namespace.

此时，可以看下prometheus-k8s监控对象

3.自定义 Endpoints 对象来创建 Service 对象

所以接下来我们需要创建一个满足上面条件的 Service 对象，由于我们把 etcd 当成是集群外部的服务，所以要引入到集群中来我们就需要自定义 Endpoints 对象来创建 Service 对象了：

[root@master1 prometheus-operator]#vim svc-etcd.yaml

 1# svc-etcd.yaml
 2apiVersion: v1
 3kind: Service
 4metadata:
 5  name: etcd-k8s
 6  namespace: kube-system
 7  labels:
 8    k8s-app: etcd
 9spec:
10  type: ClusterIP
11  clusterIP: None # 一定要设置 clusterIP:None
12  ports:
13    - name: port
14      port: 2381
15---
16apiVersion: v1
17kind: Endpoints #注意这里
18metadata:
19  name: etcd-k8s
20  namespace: kube-system
21  labels:
22    k8s-app: etcd
23subsets:
24  - addresses:
25      - ip: 172.29.9.51 # 指定etcd节点地址，如果是集群则继续向下添加
26        nodeName: etc-master
27    ports:
28      - name: port
29        port: 2381

我们这里创建的 Service 没有采用前面通过 label 标签的形式去匹配 Pod 的做法，因为前面我们说过很多时候我们创建的 etcd 集群是独立于集群之外的，这种情况下面我们就需要自定义一个 Endpoints，要注意 metadata 区域的内容要和 Service 保持一致，Service 的 clusterIP 设置为 None，新版本的 etcd 将 metrics 接口数据放置到了 2381 端口。

直接创建该资源对象即可：

1[root@master1 prometheus-operator]#kubectl apply -f svc-etcd.yaml 
2service/etcd-k8s created
3endpoints/etcd-k8s created
4[root@master1 prometheus-operator]#kubectl get svc -n kube-system -l k8s-app=etcd
5NAME       TYPE        CLUSTER-IP   EXTERNAL-IP   PORT(S)    AGE
6etcd-k8s   ClusterIP   None         <none>        2381/TCP   8s

4.修改

创建完成后，隔一会儿去 Prometheus 的 Dashboard 中查看 targets，便会有 etcd 的监控项了：

可以看到有一个明显的错误，2381 端口链接被拒绝，这是因为我们这里的 etcd 的 metrics 接口是监听在 127.0.0.1 这个 IP 上面的，所以访问会拒绝：

1--listen-metrics-urls=http://127.0.0.1:2381

我们只需要在 /etc/kubernetes/manifest/ 目录下面（静态 Pod 默认的目录）的 etcd.yaml 文件中将上面的listen-metrics-urls 更改成节点 IP 即可：

1--listen-metrics-urls=http://0.0.0.0:2381

注意：这里修改完etcd后要稍等一会儿才行。

当 etcd 重启生效后，查看 etcd 这个监控任务就正常了：

5.验证

数据采集到后，可以在 grafana 中导入编号为 3070 的 dashboard，就可以获取到 etcd 的监控图表：

测试完成。😘

2、配置 PrometheusRule

现在我们知道怎么自定义一个 ServiceMonitor 对象了，但是如果需要自定义一个报警规则的话呢？

我们去查看 Prometheus Dashboard 的 Alert 页面下面就已经有很多报警规则了，这一系列的规则其实都来自于项目 https://github.com/kubernetes-monitoring/kubernetes-mixin，我们都通过 Prometheus Operator 安装配置上了。

但是这些报警信息是哪里来的呢？他们应该用怎样的方式通知我们呢？我们知道之前我们使用自定义的方式可以在 Prometheus 的配置文件之中指定 AlertManager 实例和报警的 rules 文件，现在我们通过 Operator 部署的呢？

我们可以在 Prometheus Dashboard 的 Config 页面下面查看关于 AlertManager 的配置：

 1alerting:
 2  alert_relabel_configs:
 3  - separator: ;
 4    regex: prometheus_replica
 5    replacement: $1
 6    action: labeldrop
 7  alertmanagers:
 8  - follow_redirects: true
 9    enable_http2: true
10    scheme: http
11    path_prefix: /
12    timeout: 10s
13    api_version: v2
14    relabel_configs:
15    - source_labels: [__meta_kubernetes_service_name]
16      separator: ;
17      regex: alertmanager-main
18      replacement: $1
19      action: keep
20    - source_labels: [__meta_kubernetes_endpoint_port_name]
21      separator: ;
22      regex: web
23      replacement: $1
24      action: keep
25    kubernetes_sd_configs:
26    - role: endpoints
27      kubeconfig_file: ""
28      follow_redirects: true
29      enable_http2: true
30      namespaces:
31        own_namespace: false
32        names:
33        - monitoring
34rule_files:
35- /etc/prometheus/rules/prometheus-k8s-rulefiles-0/*.yaml

上面 alertmanagers 的配置我们可以看到是通过 role 为 endpoints 的 kubernetes 的自动发现机制获取的，匹配的是服务名为 alertmanager-main，端口名为 web 的 Service 服务。

我们可以查看下 alertmanager-main 这个 Service：

 1$ kubectl describe svc alertmanager-main -n monitoring
 2Name:                     alertmanager-main
 3Namespace:                monitoring
 4Labels:                   app.kubernetes.io/component=alert-router
 5                          app.kubernetes.io/instance=main
 6                          app.kubernetes.io/name=alertmanager
 7                          app.kubernetes.io/part-of=kube-prometheus
 8                          app.kubernetes.io/version=0.24.0
 9Annotations:              <none>
10Selector:                 app.kubernetes.io/component=alert-router,app.kubernetes.io/instance=main,app.kubernetes.io/name=alertmanager,app.kubernetes.io/part-of=kube-prometheus
11Type:                     NodePort
12IP Family Policy:         SingleStack
13IP Families:              IPv4
14IP:                       10.109.67.21
15IPs:                      10.109.67.21
16Port:                     web  9093/TCP
17TargetPort:               web/TCP
18NodePort:                 web  32033/TCP
19Endpoints:                10.244.1.193:9093,10.244.2.208:9093,10.244.2.210:9093
20Port:                     reloader-web  8080/TCP
21TargetPort:               reloader-web/TCP
22NodePort:                 reloader-web  30181/TCP
23Endpoints:                10.244.1.193:8080,10.244.2.208:8080,10.244.2.210:8080
24Session Affinity:         ClientIP
25External Traffic Policy:  Cluster
26Events:                   <none>

可以看到服务名正是 alertmanager-main，Port 定义的名称也是 web，符合上面的规则，所以 Prometheus 和 AlertManager 组件就正确关联上了。

而对应的报警规则文件位于：/etc/prometheus/rules/prometheus-k8s-rulefiles-0/ 目录下面所有的 YAML 文件。

我们可以进入 Prometheus 的 Pod 中验证下该目录下面是否有 YAML 文件：

 1$ kubectl exec -it prometheus-k8s-0 /bin/sh -n monitoring
 2kubectl exec -it prometheus-k8s-0 -n monitoring -- /bin/sh /prometheus 
 3
 4$ ls /etc/prometheus/rules/prometheus-k8s-rulefiles-0/
 5monitoring-alertmanager-main-rules-79543974-2f8e-4c5f-9d23-2c349c38ff1d.yaml
 6monitoring-grafana-rules-8fc5e057-099e-4546-b6bd-d8fb1107c24d.yaml
 7monitoring-kube-prometheus-rules-79b18777-2df4-4e43-84a8-193053400842.yaml
 8monitoring-kube-state-metrics-rules-8341740e-f2b7-48e9-82c2-bd6b979f1da2.yaml
 9monitoring-kubernetes-monitoring-rules-4b169784-b211-4449-922f-52fb2efd839c.yaml
10monitoring-node-exporter-rules-b5f0f4d3-aa18-4e7d-836f-ef0a8fda7569.yaml
11monitoring-prometheus-k8s-prometheus-rules-9560ae4f-764c-4ba4-9a37-2fedb56773c7.yaml
12monitoring-prometheus-operator-rules-7d3a1645-efe3-4214-b825-c77c39ceb0d4.yaml
13/prometheus 
14
15$ cat /etc/prometheus/rules/prometheus-k8s-rulefiles-0/monitoring-kube-prometheus-rules-79b18777-2df4-4e43-84a8-193053400842.yaml
16groups:
17- name: general.rules
18  rules:
19  - alert: TargetDown
20    annotations:
21      description: '{{ printf "%.4g" $value }}% of the {{ $labels.job }}/{{ $labels.service
22        }} targets in {{ $labels.namespace }} namespace are down.'
23      runbook_url: https://runbooks.prometheus-operator.dev/runbooks/general/targetdown
24      summary: One or more targets are unreachable.
25    expr: 100 * (count(up == 0) BY (job, namespace, service) / count(up) BY (job,
26      namespace, service)) > 10
27    for: 10m
28    labels:
29      severity: warning
30......

这个 YAML 文件实际上就是我们之前创建的一个 PrometheusRule 文件包含的内容：

 1$ cat kubePrometheus-prometheusRule.yaml
 2apiVersion: monitoring.coreos.com/v1
 3kind: PrometheusRule
 4metadata:
 5  labels:
 6    app.kubernetes.io/component: exporter
 7    app.kubernetes.io/name: kube-prometheus
 8    app.kubernetes.io/part-of: kube-prometheus
 9    prometheus: k8s
10    role: alert-rules
11  name: kube-prometheus-rules
12  namespace: monitoring
13spec:
14  groups:
15  - name: general.rules
16    rules:
17    - alert: TargetDown
18      annotations:
19        description: '{{ printf "%.4g" $value }}% of the {{ $labels.job }}/{{ $labels.service
20          }} targets in {{ $labels.namespace }} namespace are down.'
21        runbook_url: https://runbooks.prometheus-operator.dev/runbooks/general/targetdown
22        summary: One or more targets are unreachable.
23      expr: 100 * (count(up == 0) BY (job, namespace, service) / count(up) BY (job,
24        namespace, service)) > 10
25      for: 10m
26      labels:
27        severity: warning
28......

我们这里的 PrometheusRule 的 name 为 kube-prometheus-rules，namespace 为 monitoring，我们可以猜想到我们创建一个 PrometheusRule 资源对象后，会自动在上面的 prometheus-k8s-rulefiles-0 目录下面生成一个对应的 <namespace>-<name>-<xxx-id>.yaml 文件。

所以如果以后我们需要自定义一个报警选项的话，只需要定义一个 PrometheusRule 资源对象即可。至于为什么 Prometheus 能够识别这个 PrometheusRule 资源对象呢？这就需要查看我们创建的 prometheus 这个资源对象了，里面有非常重要的一个属性 ruleSelector，用来匹配 rule 规则的过滤器，我们这里没有过滤，所以可以匹配所有的。

假设要求匹配具有 prometheus=k8s 和 role=alert-rules 标签的 PrometheusRule 资源对象，则可以添加下面的配置：

1ruleSelector:
2  matchLabels:
3    prometheus: k8s
4    role: alert-rules

1.创建prometheus-etcdRules资源对象

所以我们要想自定义一个报警规则，只需要创建一个能够被 prometheus 对象匹配的 PrometheusRule 对象即可，比如现在我们添加一个 etcd 是否可用的报警，我们知道 etcd 整个集群有一半以上的节点可用的话集群就是可用的，所以我们判断如果不可用的 etcd 数量超过了一半那么就触发报警，创建文件 prometheus-etcdRules.yaml：

vim prometheus-etcdRules.yaml

 1apiVersion: monitoring.coreos.com/v1
 2kind: PrometheusRule
 3metadata:
 4  labels:
 5    prometheus: k8s
 6    role: alert-rules
 7  name: etcd-rules
 8  namespace: monitoring
 9spec:
10  groups:
11    - name: etcd
12      rules:
13        - alert: EtcdClusterUnavailable
14          annotations:
15            summary: etcd cluster small
16            description: If one more etcd peer goes down the cluster will be unavailable
17          expr: |
18            count(up{job="etcd"} == 0) > (count(up{job="etcd"}) / 2 - 1)
19          for: 3m
20          labels:
21            severity: critical

2.验证

创建完成后，隔一会儿再去容器中查看下 rules 文件夹：

 1[root@master1 prometheus-operator]#kubectl apply -f prometheus-etcdRules.yaml
 2prometheusrule.monitoring.coreos.com/etcd-rules created
 3
 4[root@master1 prometheus-operator]#kubectl exec -it prometheus-k8s-0 /bin/sh -n monitoring
 5kubectl exec [POD] [COMMAND] is DEPRECATED and will be removed in a future version. Use kubectl exec [POD] -- [COMMAND] instead.
 6/prometheus $ ls -l /etc/prometheus/rules/prometheus-k8s-rulefiles-0/|grep etcd
 7lrwxrwxrwx    1 root     2000            70 Sep 11 00:09 monitoring-etcd-rules-1a4df4bb-cab3-4d3c-b0a3-21461b0daac0.yaml -> ..data/monitoring-etcd-rules-1a4df4bb-cab3-4d3c-b0a3-21461b0daac0.yaml
 8/prometheus $
 9/prometheus $ cat  /etc/prometheus/rules/prometheus-k8s-rulefiles-0/monitoring-etcd-rules-1a4df4bb-cab3-4d3c-b0a3-21461b0daac0.yaml
10groups:
11- name: etcd
12  rules:
13  - alert: EtcdClusterUnavailable
14    annotations:
15      description: If one more etcd peer goes down the cluster will be unavailable
16      summary: etcd cluster small
17    expr: |
18      count(up{job="etcd"} == 0) > (count(up{job="etcd"}) / 2 - 1)
19    for: 3m
20    labels:
21      severity: critical
22/prometheus $

可以看到我们创建的 rule 文件已经被注入到了对应的 rulefiles 文件夹下面了，证明我们上面的设想是正确的。

然后再去 Prometheus Dashboard 的 Alert 页面下面就可以查看到上面我们新建的报警规则了：

3、配置报警

我们知道了如何去添加一个报警规则配置项，但是这些报警信息用怎样的方式去发送呢？前面的课程中我们知道我们可以通过 AlertManager 的配置文件去配置各种报警接收器，现在我们是通过 Operator 提供的 alertmanager 资源对象创建的组件，应该怎样去修改配置呢？

首先我们去 Alertmanager 的页面上 status 路径下面查看 AlertManager 的配置信息:

这些配置信息实际上是来自于 Prometheus-Operator 自动创建的名为 alertmanager-main-generated 的 Secret 对象：

 1[root@master1 ~]#kubectl get sts alertmanager-main -oyaml -nmonitoring
 2……
 3        volumeMounts:
 4        - mountPath: /etc/alertmanager/config
 5          name: config-volume
 6          
 7……
 8      volumes:
 9      - name: config-volume
10        secret:
11          defaultMode: 420
12          secretName: alertmanager-main-generated

 1$ kubectl get secret alertmanager-main-generated -n monitoring -o json | jq -r '.data."alertmanager.yaml"' | base64 --decode
 2"global":
 3  "resolve_timeout": "5m"
 4"inhibit_rules":
 5- "equal":
 6  - "namespace"
 7  - "alertname"
 8  "source_matchers":
 9  - "severity = critical"
10  "target_matchers":
11  - "severity =~ warning|info"
12- "equal":
13  - "namespace"
14  - "alertname"
15  "source_matchers":
16  - "severity = warning"
17  "target_matchers":
18  - "severity = info"
19- "equal":
20  - "namespace"
21  "source_matchers":
22  - "alertname = InfoInhibitor"
23  "target_matchers":
24  - "severity = info"
25"receivers":
26- "name": "Default"
27- "name": "Watchdog"
28- "name": "Critical"
29- "name": "null"
30"route":
31  "group_by":
32  - "namespace"
33  "group_interval": "5m"
34  "group_wait": "30s"
35  "receiver": "Default"
36  "repeat_interval": "12h"
37  "routes":
38  - "matchers":
39    - "alertname = Watchdog"
40    "receiver": "Watchdog"
41  - "matchers":
42    - "alertname = InfoInhibitor"
43    "receiver": "null"
44  - "matchers":
45    - "severity = critical"
46    "receiver": "Critical"

我们可以看到内容和上面查看的配置信息是一致的，所以如果我们想要添加自己的接收器，我们就可以直接更改这个文件，但是这里的内容是 base64 编码过后的，如果手动添加内容就非常不方便，为此 Prometheus-Operator 新增了一个 AlertmanagerConfig 的 CRD，比如我们将 Critical 这个接收器的报警信息都发送到钉钉进行报警。

1.部署钉钉 webhook 处理器

首先在 monitoring 命名空间下面部署一个简单的钉钉 webhook 处理器，前面 Alertmanager 章节已经学习过，这里就不赘述了。

2.新建AlertmanagerConfig 资源对象

然后新建一个 AlertmanagerConfig 类型的资源对象，可以通过 kubectl explain alertmanagerconfig 或者在线 API 文档来查看字段的含义

 1# alertmanager-config.yaml
 2apiVersion: monitoring.coreos.com/v1alpha1
 3kind: AlertmanagerConfig
 4metadata:
 5  name: dinghook
 6  namespace: monitoring
 7  labels:
 8    alertmanagerConfig: example
 9spec:
10  receivers:
11    - name: Critical
12      webhookConfigs:
13        - url: http://<webhook-url>
14          sendResolved: true
15  route:
16    groupBy: ["namespace"]
17    groupWait: 30s
18    groupInterval: 5m
19    repeatInterval: 12h
20    receiver: Critical
21    routes:
22      - receiver: Critical
23        match:
24          severity: critical

不过如果直接创建上面的配置是不会生效的，我们需要添加一个 Label 标签，并在 Alertmanager 的资源对象中通过标签来关联上面的这个对象，比如我们这里新增了一个 Label 标签：alertmanagerConfig: example，然后需要重新更新 Alertmanager 对象，添加 alertmanagerConfigSelector 属性去匹配 AlertmanagerConfig 资源对象：

 1# alertmanager-alertmanager.yaml
 2apiVersion: monitoring.coreos.com/v1
 3kind: Alertmanager
 4metadata:
 5  labels:
 6    alertmanager: main
 7  name: main
 8  namespace: monitoring
 9spec:
10  image: quay.io/prometheus/alertmanager:v0.21.0
11  nodeSelector:
12    kubernetes.io/os: linux
13  replicas: 3
14  securityContext:
15    fsGroup: 2000
16    runAsNonRoot: true
17    runAsUser: 1000
18  serviceAccountName: alertmanager-main
19  version: v0.21.0
20  configSecret:
21  alertmanagerConfigSelector: # 匹配 AlertmanagerConfig 的标签
22    matchLabels:
23      alertmanagerConfig: example

现在我们重新更新上面的资源对象：

1kubectl apply -f alertmanager-config.yaml
2kubectl apply -f alertmanager-alertmanager.yaml

3.验证

更新完成后默认的配置会和我们创建的配置进行合并，我们可以重新查看生成的 Secret 资源对象内容，也可以直接查看 Alertmanager 的 WEB UI 界面的配置内容：

可以看到我们在 AlertmanagerConfig 里面定义的名为 Critical 的 Receiver，在最终生成的配置中名称了 monitoring-dinghook-Critical，格式为 <namespace>-<name>-<receiver name>。

到这里我们就完成了 Prometheus Operator 的自定义监控和报警。

测试结束。😘

FAQ

注意：这里会出现2个node-exporter监控失败问题，重新创建下pod就好：

关于我

我的博客主旨：

排版美观，语言精炼；
文档即手册，步骤明细，拒绝埋坑，提供源码；
本人实战文档都是亲测成功的，各位小伙伴在实际操作过程中如有什么疑问，可随时联系本人帮您解决问题，让我们一起进步！

🍀 微信二维码

x2675263825 （舍得）， qq：2675263825。

🍀 微信公众号

《云原生架构师实战》

🍀 csdn

https://blog.csdn.net/weixin_39246554?spm=1010.2135.3001.5421

🍀 博客

www.onlyyou520.com

🍀 知乎

https://www.zhihu.com/people/foryouone

🍀 语雀

https://www.yuque.com/books/share/34a34d43-b80d-47f7-972e-24a888a8fc5e?# 《云笔记最佳实践》

最后

好了，关于本次就到这里了，感谢大家阅读，最后祝大家生活快乐，每天都过的有意义哦，我们下期见！

📡

👤 作者: 余温Gueen

🔗 链接: https://wiki.xxdevops.cn/topic/wovqm

🌐 版权: 本站文章除特别声明外，均采用 CC BY-NC-SA 4.0 协议，转载请注明来自余温Gueen Blog！

推荐使用微信支付

推荐使用支付宝

上一篇 PrometheusOperator安装下一篇 Prometheus

自定义监控报警

自定义监控报警

目录

自定义监控报警

实验环境

实验软件

1、etcd 监控

1.查询etcd启动参数

2.创建ServiceMonitor 对象

3.自定义 Endpoints 对象来创建 Service 对象

4.修改

5.验证

2、配置 PrometheusRule

1.创建prometheus-etcdRules资源对象

2.验证

3、配置报警

1.部署钉钉 webhook 处理器

2.新建AlertmanagerConfig 资源对象

3.验证

FAQ

关于我

最后

文档导航

本页导航