本章节介绍如何使用Operations Manager(SCOM)监控SDDC环境中各组件的健康状态,以及如何处理常见告警。
打开Operations Manager控制台后,以下视图是日常监控中最常用的:
Operations Manager控制台
监视 → 活动警报
查看所有未关闭的告警
监视 → Windows计算机 → Windows计算机状态
查看所有受监控服务器的健康状态
监视 → 分布式应用程序
查看应用程序级别的健康状态
严重
🔴
服务中断或即将中断
需要立即处理
警告
🟡
存在潜在问题
需要关注,计划处理
信息
🔵
通知性消息
了解即可
主机CPU利用率过高
VM密度过大或存在异常进程
检查VM资源分配,考虑迁移部分VM
主机内存不足
动态内存配置不当
调整VM内存分配或增加主机内存
虚拟交换机连接中断
网络配置变更或物理网络故障
检查虚拟交换机和物理网络配置
VMM服务不可用
VMM服务停止或崩溃
检查SCVMMService服务状态
主机通信失败
网络中断或WinRM配置问题
检查网络连通性和WinRM配置
库服务器不可达
库共享路径不可用
检查文件共享和权限
NC服务异常
NC节点故障或证书过期
检查NC服务状态和证书有效期
MUX BGP对等断开
网络中断或BGP配置错误
检查MUX与DCGW之间的网络和BGP配置
Host Agent断开
计算节点与NC通信中断
检查NCHostAgent服务状态
建议监控以下关键性能指标,并建立基线:
CPU利用率
> 70%持续15分钟
> 90%持续5分钟
内存利用率
> 80%
> 95%
磁盘队列长度
> 2
> 5
网络丢包率
> 0.1%
> 1%
SCOM支持通过邮件、短信等方式发送告警通知:
在SCOM控制台中,进入管理 → 通知
管理 → 通知
配置通知通道(如SMTP邮件)
创建通知订阅,指定告警条件和接收人
在SCOM中创建一个自定义仪表板,展示所有Hyper-V主机的CPU和内存利用率。
了解一下SCOM的分布式应用程序功能,如何将SDDC的多个组件建模为一个分布式应用。
分布式应用程序
最后更新于1个月前