监控与告警

本章节介绍如何使用Operations Manager(SCOM)监控SDDC环境中各组件的健康状态,以及如何处理常见告警。

SCOM监控仪表板

常用监控视图

打开Operations Manager控制台后,以下视图是日常监控中最常用的:

视图路径
用途

监视 → 活动警报

查看所有未关闭的告警

监视 → Windows计算机 → Windows计算机状态

查看所有受监控服务器的健康状态

监视 → 分布式应用程序

查看应用程序级别的健康状态

告警严重级别

级别
图标
含义
处理要求

严重

🔴

服务中断或即将中断

需要立即处理

警告

🟡

存在潜在问题

需要关注,计划处理

信息

🔵

通知性消息

了解即可

常见告警及处理

Hyper-V主机相关

告警
可能原因
处理方法

主机CPU利用率过高

VM密度过大或存在异常进程

检查VM资源分配,考虑迁移部分VM

主机内存不足

动态内存配置不当

调整VM内存分配或增加主机内存

虚拟交换机连接中断

网络配置变更或物理网络故障

检查虚拟交换机和物理网络配置

VMM相关

告警
可能原因
处理方法

VMM服务不可用

VMM服务停止或崩溃

检查SCVMMService服务状态

主机通信失败

网络中断或WinRM配置问题

检查网络连通性和WinRM配置

库服务器不可达

库共享路径不可用

检查文件共享和权限

SDN相关

告警
可能原因
处理方法

NC服务异常

NC节点故障或证书过期

检查NC服务状态和证书有效期

MUX BGP对等断开

网络中断或BGP配置错误

检查MUX与DCGW之间的网络和BGP配置

Host Agent断开

计算节点与NC通信中断

检查NCHostAgent服务状态

性能监控基线

建议监控以下关键性能指标,并建立基线:

指标
建议阈值(警告)
建议阈值(严重)

CPU利用率

> 70%持续15分钟

> 90%持续5分钟

内存利用率

> 80%

> 95%

磁盘队列长度

> 2

> 5

网络丢包率

> 0.1%

> 1%

配置告警通知

SCOM支持通过邮件、短信等方式发送告警通知:

  1. 在SCOM控制台中,进入管理 → 通知

  2. 配置通知通道(如SMTP邮件)

  3. 创建通知订阅,指定告警条件和接收人

课后习题

  • 在SCOM中创建一个自定义仪表板,展示所有Hyper-V主机的CPU和内存利用率。

  • 了解一下SCOM的分布式应用程序功能,如何将SDDC的多个组件建模为一个分布式应用。

最后更新于