常见问题排查

本章节汇总SDDC POC环境中常见的故障场景及排查方法,提供常用的诊断PowerShell命令。

排查方法论

在排查问题时,建议遵循以下步骤:

  1. 确认现象:明确故障的具体表现和影响范围

  2. 检查日志:查看相关组件的事件日志和SCOM告警

  3. 网络验证:确认网络连通性和DNS解析

  4. 服务状态:检查相关服务是否正常运行

  5. 配置核查:对比配置是否符合预期

  6. 逐步恢复:从最小变更开始,逐步恢复

常见问题及解决方案

1. VMM纳管主机失败

现象:在VMM中添加Hyper-V主机时,作业失败。

排查步骤

# 检查目标主机的WinRM配置
Test-WSMan -ComputerName "POC-COMP1.contoso.com"

# 检查防火墙状态(确认组策略已生效)
Invoke-Command -ComputerName "POC-COMP1" {
    Get-NetFirewallProfile | Format-Table Name, Enabled
}

# 检查目标主机是否已加域
Invoke-Command -ComputerName "POC-COMP1" {
    (Get-WmiObject Win32_ComputerSystem).Domain
}

# 检查运行方式帐户是否有本地管理员权限
Invoke-Command -ComputerName "POC-COMP1" {
    net localgroup administrators
}

常见原因

  • 防火墙未关闭(组策略未生效,使用gpupdate /force

  • 运行方式帐户未添加到目标主机本地管理员组

  • DNS解析失败

2. SDN组件通信故障

现象:NC REST API无响应或返回错误。

排查步骤

常见原因

  • NC虚拟机未启动或服务停止

  • 证书过期或配置错误

  • DNS记录不存在或指向错误地址

  • Management网络连通性问题

3. 证书过期处理

现象:SDN组件之间通信失败,日志中出现证书相关错误。

排查步骤

处理方法

  1. 在CA服务器上重新申请证书

  2. 将新证书导出为PFX

  3. 在NC节点上安装新证书

  4. 更新NC配置使用新证书指纹

  5. 重启NC服务

4. BGP邻居状态异常

现象:MUX通告的VIP路由在DCGW上不可见。

排查步骤

常见原因

  • MUX的HNV Transit IP地址与DCGW配置不匹配

  • BGP端口(TCP 179)被阻断

  • MUX服务未正常启动

5. 虚拟机网络不通

现象:租户虚拟网络中的虚拟机无法通信。

排查步骤

常见原因

  • NCHostAgent服务停止

  • 逻辑交换机未正确应用到计算节点

  • VXLAN封装的MTU问题(建议Jumbo Frame)

  • 虚拟子网配置错误

常用诊断命令速查

系统级诊断

VMM诊断

SDN诊断

课后习题

  • 整理一份SDDC健康检查脚本,自动检查所有关键组件的状态并输出报告。

  • 了解一下Windows Server中的事件转发(Event Forwarding)功能,如何将所有服务器的关键事件集中到一台管理主机上。

最后更新于