常见问题

本页面提供关于可观测服务的一些常见问题的解答

一般性问题

监控了哪些内容?

可观测服务对 数字原生引擎云产品用户负载 都进行了相关监控。 数字原生引擎 包括云平台操作系统及服务器硬件状态,例如:Linux OS,物理磁盘状态、CPU温度、风扇转速等;同时包括云平台核心服务状态,例如:计算、网络、存储、数据库、消息队列等服务。 除此以外,丰富云平台功能的众多 云产品 也在可观测服务的视野当中,例如:容器服务、数据保护、资源编排、多区域管理、Devops等服务,帮助用户时刻掌握云平台各项服务的状态。 用户创建负载均衡实例、裸金属实例、在用户命名空间下创建容器等资源,这些都属于 用户负载,可观测服务通过云产品预先定义的告警规则模板,自动为用户项目或命名空间添加告警规则和告警分组,并在资源状态异常时实时发送告警通知给用户,减少业务中断。

支持哪些告警通知方式?

支持通过 邮件企业微信、钉钉、飞书Webhook 五种方式推送平台监控告警信息。 用户可以创建告警订阅资源,然后与某些告警分组绑定、设置通知策略,按需订阅告警消息,极大提高了告警通知的灵活性。

正在发生的告警,发送通知的策略是什么?

告警分组关联告警订阅时,需要设置通知策略,默认重复周期为3h。 用户可以通过修改默认值、添加子策略的方式,自定义通知策略。

可以保存多长时间的监控数据和告警消息?

默认保存最近30天的监控数据、展示最近15天(上限5万条)的告警消息。 目前还不支持用户自定义修改,需要提交变更申请,后台手动变更。

如何修改告警阈值?

内置告警规则不支持修改告警阈值,如果内置告警规则无法满足用户使用场景,可以禁用内置规则后,创建自定义规则。 自定义告警规则可以进行任何符合校验的设置,以满足用户的差异化需求。

开放API支持哪些功能对接?

可观测服务支持 Prometheus 原生的查询语言 PromQL,允许即时查询以及范围查询监控数据。查询后的结果可以显示为各式图表(对接 Grafana 等),也可以通过联邦机制对接给其他监控系统。 同时提供实时和历史告警消息的查询,支持获取平台/项目的告警,用于异常情况下的故障分析和第三方告警系统对接等场景。

常见问题解决

如何让告警不发通知?

若不想再收到所有告警的通知,只需去除自己的联系方式即可,如在告警订阅资源中删除自己的邮箱,或者禁用关联的告警订阅资源。若想暂时停止某些告警的通知,只需在告警消息页面勾选这些告警,点击屏蔽消息,完成即可。

监控概览的平台服务健康状态的依据是什么?

判断依据来源于控制服务状态页面的各项服务状态,您可以点击详情,直接跳转至控制服务状态页面进行查看。平台服务状态健康状态与控制服务状态关系如下:

  • 健康:控制服务和控制子服务运行状态均为运行中;
  • 警告:控制服务存在警告状态或控制子服务存在警告、停止、无数据和未知状态;
  • 故障:控制服务存在停止、无数据和未知状态。

如何停止监控页面的刷新?

监控页面自动刷新周期默认为5分钟,点击标题行最右侧的齿轮图标,可查看预选值。若想停止刷新,选择“停止刷新”并保存即可。

如何修改监控时间范围?

监控数据展示时间范围默认为3小时,可点击页面右上角的选择框,查看预选值,选择或自定义即可修改。