首页 vSphere 故障排除

vSphere 故障排除

举报
开通vip

vSphere 故障排除 vSphere 故障排除 ESXi 5.0 vCenter Server 5.0 在本文档被更新的版本替代之前,本文档支持列出的每个产 品的版本和所有后续版本。要查看本文档的更新版本,请访 问 http://www.vmware.com/cn/support/pubs。 ZH_CN-000606-00 vSphere 故障排除 2 VMware, Inc. 最新的技术文档可以从 VMware 网站下载: http://www.vmware.com/cn/support/pubs/ VMware...

vSphere 故障排除
vSphere 故障排除 ESXi 5.0 vCenter Server 5.0 在本文档被更新的版本替代之前,本文档支持列出的每个产 品的版本和所有后续版本。要查看本文档的更新版本,请访 问 http://www.vmware.com/cn/support/pubs。 ZH_CN-000606-00 vSphere 故障排除 2 VMware, Inc. 最新的技术文档可以从 VMware 网站下载: http://www.vmware.com/cn/support/pubs/ VMware 网站还提供最近的产品更新信息。 您如果对本文档有任何意见或建议,请把反馈信息提交至: docfeedback@vmware.com 版权所有 © 2009–2011 VMware, Inc. 保留所有权利。本产品受美国和国际版权及知识产权法的保护。VMware 产品受一项 或多项专利保护,有关专利详情,请访问 http://www.vmware.com/go/patents-cn。 VMware 是 VMware, Inc. 在美国和/或其他法律辖区的注册商标或商标。此处提到的所有其他商标和名称分别是其各自公 司的商标。 VMware, Inc. 3401 Hillview Ave. Palo Alto, CA 94304 www.vmware.com 北京办公室 北京市海淀区科学院南路 2 号 融科资讯中心 C 座南 8 层 www.vmware.com/cn 上海办公室 上海市浦东新区浦东南路 999 号 新梅联合广场 23 楼 www.vmware.com/cn 广州办公室 广州市天河北路 233 号 中信广场 7401 室 www.vmware.com/cn 目录 关于 vSphere 故障排除 5 1 虚拟机故障排除 7 容错虚拟机故障排除 7 排除 USB 直通设备故障 10 恢复孤立的虚拟机 11 从模板克隆或部署后未打开虚拟机电源 11 2 主机故障排除 13 vCenter Server 和 ESXi 主机证书故障排除 13 vSphere HA 主机状况故障排除 15 Auto Deploy 故障排除 18 排除 vCenter Server 插件故障 23 链接模式故障排除 23 配置 VMware 清单服务的日志记录 25 身份验证标记操作错误 26 活动目录规则集错误导致主机配置文件合规性故障 26 3 群集故障排除 29 vSphere HA 接入控制故障排除 29 检测信号数据存储故障排除 31 vSphere HA 故障切换故障排除 32 排除网络分区中的 vSphere Fault Tolerance 故障 33 Storage I/O Control 故障排除 34 存储 DRS 故障排除 35 直接连接到主机时无法创建资源池 39 4 存储故障排除 41 解决 SAN 存储器的显示问题 41 解决 SAN 性能问题 43 具有 RDM 的虚拟机需要忽略 SCSI INQUIRY 缓存 46 在不需要时启用软件 iSCSI 适配器 46 无法挂载 NFS 数据存储 46 索引 49 VMware, Inc. 3 vSphere 故障排除 4 VMware, Inc. 关于 vSphere 故障排除 《vSphere 故障排除》介绍了 vCenter Server 实施及相关组件的故障排除问题和过程。 目标读者 此信息专为需要检查虚拟机、ESXi 主机、群集和相关存储解决 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 的用户提供。本书的目标读者为熟悉虚拟机 技术和数据中心操作且具有丰富经验的 Windows 或 Linux 系统管理员。 VMware, Inc. 5 vSphere 故障排除 6 VMware, Inc. 虚拟机故障排除 1 虚拟机故障排除主题为您在使用虚拟机时可能遇到的潜在问题提供了解决方案。 本章讨论了以下主题: n 第 7 页,“容错虚拟机故障排除” n 第 10 页,“排除 USB 直通设备故障” n 第 11 页,“恢复孤立的虚拟机” n 第 11 页,“从模板克隆或部署后未打开虚拟机电源” 容错虚拟机故障排除 要保持容错虚拟机的高级别性能和稳定性并最小化故障切换率,应当了解某些故障排除问题。 此处讨论的故障排除主题重点介绍了在虚拟机上使用 vSphere Fault Tolerance 功能时可能遇到的问题。本主题 还介绍了解决这些问题的方法。 也可以参见 VMware 知识库文章,网址为 http://kb.vmware.com/kb/1033634,以帮助您排除 Fault Tolerance 故障。该文章包含在尝试使用该功能时可能遇到的错误消息列 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf ,以及如何解决每个错误的建议(如果可用)。 硬件虚拟化未启用 使用 vSphere Fault Tolerance 之前,必须启用硬件虚拟化 (HV)。 问题 尝试打开启用了 Fault Tolerance 的虚拟机的电源时,如果未启用 HV,则可能会显示一条错误消息。 原因 通常情况下,出现此错误的原因是:对于您尝试在其上打开虚拟机电源的 ESXi 服务器,HV 在其上不可用。硬 件虚拟化不可用的原因可能是其不受 ESXi 服务器硬件支持或未在 BIOS 中启用。 解决方案 如果 ESXi 服务器硬件支持硬件虚拟化,但当前未启用硬件虚拟化,请在该服务器的 BIOS 中将其启用。各种 BIOS 中启用硬件虚拟化的过程不同。请参见主机的 BIOS 文档以获取有关如何启用硬件虚拟化的详细信息。 如果 ESXi 服务器硬件不支持硬件虚拟化,请切换到使用支持 Fault Tolerance 的处理器的硬件。 VMware, Inc. 7 无兼容主机可用于辅助虚拟机 如果打开启用了 Fault Tolerance 的虚拟机的电源,但没有为辅助虚拟机提供任何兼容主机,可能会显示一条错 误消息。 问题 “近期任务”窗格中可能会显示以下错误消息: 辅助虚拟机无法打开电源,因为没有兼容主机可以容纳该虚拟机。 原因 这可能是由多种原因造成的,包括群集内没有其他主机、没有其他已启用硬件虚拟化的主机、数据存储不可访 问、可用容量不足或主机正处于维护模式中。 解决方案 如果主机数量不足,请向群集内添加更多主机。如果群集内有多台主机,请确保它们支持硬件虚拟化且硬件虚 拟化已启用。各种 BIOS 中启用硬件虚拟化的过程不同。请参见主机的 BIOS 文档以获取有关如何启用硬件虚 拟化的详细信息。检查主机是否有足够容量,并确认它们未处于维护模式中。 过载主机上的辅助虚拟机降低主虚拟机的性能 如果主虚拟机的执行速度似乎缓慢,即便它所在主机上的负载较轻且有空闲 CPU 时间,也请检查运行辅助虚 拟机的主机是否负载较重。 问题 当辅助虚拟机所在的主机负载过重时,这会影响主虚拟机的性能。 此问题的症状是主虚拟机“Fault Tolerance”面板上的“vLockstep 时间间隔”指示器为黄色或红色。这表示 辅助虚拟机比主虚拟机的运行慢数秒。在这种情况下,Fault Tolerance 将减慢主虚拟机的速度。如果“vLockstep 时间间隔”指示器长时间保持为黄色或红色,则充分表明辅助虚拟机未能获取足够的 CPU 资源,因此跟不上 主虚拟机的速度。 原因 在 CPU 资源过载的主机上运行的辅助虚拟机获取的 CPU 资源与主虚拟机获取的 CPU 资源数量可能不同。当 出现此情况时,主虚拟机必须减速以使辅助虚拟机跟进,将主虚拟机的执行速度大大降低至辅助虚拟机的较慢 速度。 解决方案 要解决此问题,请为主虚拟机设置明确的 CPU 预留(以 MHz 为单位),该预留应足以在所需性能级别上运行 负载。此预留对于主虚拟机和辅助虚拟机均适用,能够确保两者均能以指定的速率执行。有关设置此预留的指 导,请在启用 Fault Tolerance 前查看虚拟机的性能图表以查看在正常条件下使用的 CPU 资源量。 具有较大内存的虚拟机会阻止使用 Fault Tolerance 只能在内存最大为 64 GB 的虚拟机上启用 Fault Tolerance。 问题 在具有 64 GB 以上内存的虚拟机上启用 Fault Tolerance 会失败。如果正在运行的容错虚拟机的内存大于 15 GB,或者如果内存的更改速率比 vMotion 通过网络复制的速率要快,则使用 vMotion 迁移此虚拟机也会失败。 原因 如果由于虚拟机的内存大小而没有足够的带宽以在默认超时时间段(8 秒)内完成 vMotion 切换操作,则会出 现此问题。 vSphere 故障排除 8 VMware, Inc. 解决方案 要解决此问题,请在启用 Fault Tolerance 前,关闭虚拟机电源并将下行添加到虚拟机的 vmx 文件中,以增加 虚拟机的超时时间段: ft.maxSwitchoverSeconds = "30" 其中 30 是超时时间段的数值,以秒为单位。启用 Fault Tolerance 并重新打开虚拟机电源。除了在网络活动极 多的情况下,此解决方案均可正常使用。 注意 如果您将超时时间段增加到 30 秒,则在启用 FT 或在故障切换之后创建新辅助虚拟机时,容错虚拟机可 能会在较长时间内都没有响应(最多 30 秒)。 辅助虚拟机出现 CPU 使用过度 在某些情况中,您可能会注意到某个辅助虚拟机的 CPU 使用率高于其关联的主虚拟机。 问题 当主虚拟机空闲时,主虚拟机和辅助虚拟机的 CPU 使用情况之间的相对差异看起来可能会较大。 原因 在辅助虚拟机上重放事件(如计时器中断)比在主虚拟机上记录事件的成本稍高。而额外开销较小。 解决方案 不需要解决办法。检查实际 CPU 使用情况时会发现主虚拟机或辅助虚拟机当前消耗的 CPU 资源很少。 主虚拟机遭受空间不足错误 如果正在使用的存储系统内置了精简置备,则主虚拟机在遇到空间不足错误时可能会发生崩溃。 问题 使用精简置备的存储系统时,主虚拟机可能会发生崩溃。辅助虚拟机替换了主虚拟机,但 vSphere Client 上显 示“没有更多空间可供虚拟磁盘 使用 (There is no more space for virtual disk )”的 错误消息。 原因 如果精简置备内置到存储系统中,则 ESX/ESXi 主机不能了解是否已为一对容错虚拟机分配足够的磁盘空间。 如果主虚拟机要求额外的磁盘空间,但存储器上没有剩余的空间,则该主虚拟机将崩溃。 解决方案 错误消息会提供选项,您可以通过单击“重试”以继续会话,或者单击“取消”以终止会话。请确保具有足够 的磁盘空间用于容错虚拟机对,并单击“重试”。 Fault Tolerant 虚拟机故障切换 即使主虚拟机或辅助虚拟机的 ESXi 主机未崩溃,主虚拟机或辅助虚拟机也可进行故障切换。在这种情况下, 虚拟机执行不会中断,但会临时失去冗余。要避免此类故障切换,请了解可能会出现此类故障切换的一些情况, 并采取措施进行避免。 与存储器有关的部分硬件故障 当存储器访问缓慢或无法访问某台主机时,可能出现此问题。此问题发生时,VMkernel 日志中将列出许多存 储器错误。要解决此问题,必须解决与存储器有关的问题。 章 1 虚拟机故障排除 VMware, Inc. 9 与网络有关的部分硬件故障 如果日志记录网卡不能正常工作或通过该网卡与其他主机的连接断开,将触发容错虚拟机进行故障切换,从而 重新建立冗余。要避免此问题,请将每个独立网卡专门用于 vMotion 和 FT 日志记录通信,并仅在虚拟机活动 较少时执行 vMotion 迁移。 日志记录网卡网络上的带宽不足 如果主机上有过多的容错虚拟机,则会发生此问题。要解决此问题,请将容错虚拟机对分布到更多的不同主机上。 由虚拟机活动级别引起的 vMotion 故障 如果通过 vMotion 迁移容错虚拟机失败,则虚拟机可能需要进行故障切换。此问题通常在虚拟机过于活跃(因 而无法在对其造成最小损坏的情况下完成迁移)时发生。要避免此问题,请只在虚拟机活动较少时执行 vMotion 迁移。 VMFS 卷上活动过多可能会导致虚拟机故障切换 在单一 VMFS 卷上执行大量文件系统锁定操作、虚拟机打开电源/关闭电源或 vMotion 迁移时,可能会触发容 错虚拟机进行故障切换。可能发生此现象的症状为在 VMkernel 日志中收到许多有关 SCSI 预留的警告。要解 决此问题,请减少文件系统操作的数量,或确保容错虚拟机位于 VMFS 卷上,而且该卷上没有大量定期打开电 源/关闭电源或使用 vMotion 进行迁移的其他虚拟机。 文件系统空间不足导致无法启动辅助虚拟机 请检查 /(root) 或 /vmfs/datasource 文件系统中是否有可用空间。这些文件系统可能会因多种原因而变得空间已 满,空间不足会导致您无法启动新辅助虚拟机。 排除 USB 直通设备故障 有关功能行为的信息有助于在 USB 设备连接到虚拟机时解决或避免潜在的问题。 尝试使用附加的 USB 设备迁移虚拟机时的错误消息 将多个 USB 设备从 ESXi 主机连接到虚拟机且一个或多个设备未启用 vMotion 功能时,通过 vMotion 进行迁 移将无法继续并会发出一条并不十分明确的错误消息。 问题 迁移虚拟机向导会在迁移操作开始之前运行兼容性检查。如果检测到不受支持的 USB 设备,兼容性检查会失 败,并显示一条与以下类似的错误消息:当前已连接的设备“USB 1”使用不可访问的备用“path:1/7/1”。 原因 将 USB 设备从主机连接到虚拟机时,必须选择虚拟机上的所有 USB 设备,vMotion 迁移才能成功。如果一个 或多个设备未启用 vMotion 功能,迁移将失败。 解决方案 1 请先确保设备未处在传输数据的进程中,然后再删除设备。 2 对每个受影响的 USB 设备重新添加和启用 vMotion。 vSphere 故障排除 10 VMware, Inc. USB 直通设备不响应 可能有多种原因导致 USB 设备不响应,包括非安全地中断数据传输,或客户机操作系统驱动程序向设备发送不 受支持的命令。 问题 USB 设备不响应。 原因 数据传输被中断或使用了不支持的设备。例如,如果客户机驱动程序向某些不受支持的 USB 闪存驱动器发送 SCSI REPORT LUNS 命令,设备会停止响应所有命令。 解决方案 1 从 ESXi 主机以物理方式分离 USB 设备并重新附加该设备。 2 完全关闭主机(并非重置)并保持关闭状态至少 30 秒,以确保主机 USB 总线电源完全关闭。 恢复孤立的虚拟机 虚拟机显示在 vSphere Client 清单列表中,其中 (orphaned) 附加到其名称。 问题 在极少数情况下,位于由 vCenter Server 管理的 ESXi 主机上的虚拟机可能会变为孤立状态。vCenter Server 数据库中存在这些虚拟机,但 ESXi 主机不再能识别出它们。 原因 如果主机故障切换失败,或直接在主机上取消对虚拟机的注册时,虚拟机可能会变为孤立状态。如果发生这种 情况,请将孤立的虚拟机移动到数据中心(该数据中心可访问其中存储着虚拟机文件的数据存储)中的其他主机。 解决方案 1 在 vSphere Client 清单列表中,右键单击虚拟机,然后选择重定位。 此时将显示可用主机列表。 2 选择要在其中放置虚拟机的主机。 如果没有可用主机,请添加可访问其中存储着虚拟机文件的数据存储的主机。 3 单击确定保存更改。 虚拟机已连接到新的主机,并显示在清单列表中。 从模板克隆或部署后未打开虚拟机电源 从模板工作流中完成克隆或部署后,虚拟机不会打开电源。 问题 当从模板中克隆或部署虚拟机时,可以在“即将完成”页面上选中创建后打开此虚拟机电源复选框。但虚拟机 在创建后可能不会自动打开电源。 原因 创建虚拟机磁盘时,未预留交换文件大小。 章 1 虚拟机故障排除 VMware, Inc. 11 解决方案 n 减小虚拟机所需的交换文件的大小。可以通过增加虚拟机内存预留空间来实现。 a 在 vSphere Client 清单中,右键单击虚拟机并选择编辑设置。 b 选择资源选项卡,然后单击内存。 c 使用“预留”滑块增加分配给虚拟机的内存量。 d 单击确定。 n 或者,可以通过将其他虚拟机磁盘从交换文件正在使用的数据存储中移出来增加交换文件的可用空间量。 a 在 vSphere Client 清单中,选择一个数据存储,然后单击虚拟机选项卡。 b 对于每个要移动的虚拟机,右键单击虚拟机,然后选择迁移。 c 选择更改数据存储。 d 继续完成迁移虚拟机向导。 n 另外,可以通过将交换文件位置更改为具有足够空间的数据存储来增加交换文件的可用空间量。 a 在 vSphere Client 清单中,选择主机,然后单击配置选项卡。 b 在“软件”下,选择虚拟机交换文件位置。 c 单击编辑。 注意 如果主机属于指定虚拟机交换文件与虚拟机存储在同一目录的群集,则无法单击编辑。您必须 使用“群集设置”对话框更改群集的交换文件位置策略。 d 从列表中选择数据存储,然后单击确定。 vSphere 故障排除 12 VMware, Inc. 主机故障排除 2 主机故障排除主题为您在使用 vCenter Server 和 ESXi 主机时可能遇到的潜在问题提供了解决方案。 本章讨论了以下主题: n 第 13 页,“vCenter Server 和 ESXi 主机证书故障排除” n 第 15 页,“vSphere HA 主机状况故障排除” n 第 18 页,“Auto Deploy 故障排除” n 第 23 页,“排除 vCenter Server 插件故障” n 第 23 页,“链接模式故障排除” n 第 25 页,“配置 VMware 清单服务的日志记录” n 第 26 页,“身份验证标记操作错误” n 第 26 页,“活动目录规则集错误导致主机配置文件合规性故障” vCenter Server 和 ESXi 主机证书故障排除 安装 vCenter Server 时会自动生成证书。这些默认证书不是由商业证书颁发机构 (CA) 签署的,可能不提供加 强安全性。可以将默认的 vCenter Server 证书替换为由商业 CA 签署的证书。当替换 vCenter Server 和 ESXi 证书时,您可能会遇到错误。 vCenter Server 无法连接到数据存储 替换默认的 vCenter Server 证书后,可能无法连接到 vCenter Server 数据库。 问题 替换默认的 vCenter Server 证书后,vCenter Server 无法连接到 vCenter Server 数据库,因此无法重新启动。 原因 必须重置数据库密码。 解决方案 通过运行以下命令重置数据库密码:vpxd -P pwd。 VMware, Inc. 13 vCenter Server 无法连接到受管主机 替换默认的 vCenter Server 证书并重新启动系统后,vCenter Server 可能无法连接到受管主机。 问题 在服务器证书被替换且系统重新启动后,vCenter Server 无法连接到受管主机。 解决方案 以 root 用户身份登录主机并将主机重新连接到 vCenter Server。 似乎不加载新的 vCenter Server 证书 替换默认的 vCenter Server 证书后,似乎不会加载新的证书。 问题 安装新的 vCenter Server 证书后,可能看不到新证书。 原因 现有的指向 vCenter Server 的打开连接不会被强制关闭,可能仍会使用旧的证书。 解决方案 要强制所有连接使用新的证书,请使用以下方法之一。 n 重新启动服务器上的网络堆栈或网络接口。 n 重新启动 vCenter Server 服务。 重新生成 ESXi 主机的证书 在某些情况下,可能需要强制主机生成新的证书。 问题 如果更改了主机名或意外删除了证书,则可能需要生成新证书。 解决方案 1 登录 ESXi Shell 并获取 root 特权。 2 在 /etc/vmware/ssl 目录中,备份现有证书,方法是使用以下命令对其进行重命名。 mv rui.crt orig.rui.crt mv rui.key orig.rui.key 注意 如果由于删除了证书而需要重新生成这些证书,则不必执行此步骤。 3 运行命令 /sbin/generate-certificates 生成新的证书。 4 运行命令 /etc/init.d/hostd restart 重新启动 hostd 进程。 5 通过执行以下命令并将新证书文件的时间戳与 orig.rui.crt 和 orig.rui.key 进行比较,来确认主机是否 已成功生成新证书。 ls -la vSphere 故障排除 14 VMware, Inc. vSphere HA 主机状况故障排除 vCenter Server 会报告 vSphere HA 主机状况,指示主机上的错误情况。这类错误会阻止 vSphere HA 充分保 护主机上的虚拟机,并阻碍 vSphere HA 在故障出现后重新启动虚拟机的功能。当在主机上配置或取消配置 vSphere HA 时,或很少数情况下在正常运行期间可能出现错误。当出现错误时,应确定如何解决错误才能使 vSphere HA 全面运行。 vSphere HA 代理处于代理无法访问状况 主机上的 vSphere HA 代理已处于代理无法访问状况一分钟或更长时间。可能需要用户干预来解决这种情况。 问题 当首选主机或 vCenter Server 无法访问主机的代理时,vSphere HA 会报告代理处于代理无法访问状况。因此, vSphere HA 无法监控该主机上的虚拟机,并且在出现故障后可能不会重新启动这些虚拟机。 原因 vSphere HA 代理可能因多个原因而处于代理无法访问状况。这种情况通常表示网络连接问题正在阻止 vCenter Server 访问首选主机和主机上的代理,或表示群集中的所有主机都失败。这种情况还可能表示一种不太可能的 情况:主机上的代理已失败且监视程序进程无法将其重新启动。 解决方案 确定 vCenter Server 是否报告主机无响应。如果是,则说明存在网络问题或整体性群集故障。解决上述任一种 情况后,vSphere HA 即可恢复正常工作。但是,如果 vCenter Server 报告主机有响应,请重新配置主机上的 vSphere HA。 vSphere HA 代理处于未初始化状况 主机上的 vSphere HA 代理已处于未初始化状况一分钟或更长时间。可能需要用户干预来解决这种情况。 问题 当主机的代理无法进入运行状况并成为首选主机时,或无法连接到首选主机时,vSphere HA 会报告代理处于 未初始化状况。因此,vSphere HA 无法监控该主机上的虚拟机,并且在出现故障后可能不会重新启动这些虚 拟机。 原因 vSphere HA 代理可能因一个或多个原因而处于未初始化状况。这种情况通常表示主机对任何数据存储都没有 访问权限。在少数情况下,表示主机对 vSphere HA 用来缓存状况信息的本地数据存储没有访问权限、主机上 的代理无法访问或 vSphere HA 代理无法打开所需防火墙端口。 解决方案 在主机的事件列表中搜索近期发生的主机的 vSphere HA 代理出错 (vSphere HA Agent for the host has an error) 事件。此事件指明主机处于未初始化状况的原因。如果由于数据存储问题而出现这种情况,请解决任何 阻止主机访问受影响数据存储的问题。解决上述问题后,如果代理未返回到操作状况,请重新配置主机上的 vSphere HA。 注意 如果由于防火墙问题而出现这种情况,请检查主机上是否有其他服务在使用端口 8192。如果是这样,请 关闭此服务,然后重新配置 vSphere HA。 章 2 主机故障排除 VMware, Inc. 15 vSphere HA 代理处于“初始化错误”状况 主机上的 vSphere HA 代理已处于“初始化错误”状况一分钟或更长时间。需要用户干预来解决这种情况。 问题 vSphere HA 报告代理上一次尝试配置主机的 vSphere HA 失败时处于“初始化错误”状况。vSphere HA 不监 控此类主机上的虚拟机,并且在发生故障后可能不会重新启动这些虚拟机。 原因 这种情况通常表示,在主机上安装或配置 vSphere HA 代理时 vCenter Server 无法连接到该主机。这种情况还 可能表示安装和配置已完成,但代理在超时期限内未成为首选主机或从属主机。这种情况很少表示主机的本地 数据存储上没有足够的磁盘空间用于安装代理,或主机上没有足够的未预留内存资源用于代理资源池。最后, 对于 ESXi 5.0 主机,如果先前安装另一组件时需要重新引导主机但尚未进行重新引导,则配置将失败。 解决方案 如果配置 HA 任务失败,将报告失败的原因。 失败原因 操作 主机通信错误 解决主机出现的任何通信问题,然后重试配置操作。 超时错误 可能的原因包括主机在配置任务期间崩溃、代理在安装后无法启动或代理在启动后无法初始化。验证 vCenter Server 是否能与主机通信。如果能,请参见第 15 页,“vSphere HA 代理处于代理无法访问状况”或第 15 页,“vSphere HA 代理处于未初始化状况”以获取可行的解决方案。 文件空间不足 释放约 75 MB 的磁盘空间。如果此故障是由于未预留的内存不足造成的,可通过将虚拟机重定位到另一主 机或降低其预留来在主机上释放内存。在这两种情况下,请在解决问题后重试 vSphere HA 配置任务。 挂起的重新引 导 如果安装 5.0 或更高版本的主机失败的原因是重新引导挂起,请重新引导主机,然后重试 vSphere HA 配置 任务。 vSphere HA 代理处于“未初始化错误”状况 主机上的 vSphere HA 代理处于“未初始化错误”状况。需要用户干预来解决这种情况。 问题 在取消配置 HA 任务期间,当 vCenter Server 无法取消配置主机上的代理时,vSphere HA 会报告代理处于未 初始化错误状况。处于此状况的代理可能干扰群集的运行。例如,主机上的代理可能选择自身作为主要主机并 锁定数据存储。锁定某个数据存储会阻止有效的群集主要主机管理配置文件位于此数据存储上的虚拟机。 原因 这种情况通常表明当取消配置代理时,vCenter Server 与主机的连接丢失。 解决方案 将主机添加回版本 5.0 或更高版本的 vCenter Server。可以将主机作为独立主机添加,或者可以添加到任何群集。 vSphere HA 代理处于“主机出现故障”状况 主机上的 vSphere HA 代理处于“主机出现故障”状况。需要用户干预来解决这种情况。 问题 通常,此类报告表示主机实际上已发生故障,但故障报告有时可能不正确。故障主机会降低群集的可用容量, 如果出现错误报告,会阻止 vSphere HA 保护在该主机上运行的虚拟机。 vSphere 故障排除 16 VMware, Inc. 原因 当 vCenter Server 连接到的 vSphere HA 首选主机无法与该主机以及用于该主机的检测信号数据存储进行通信 时,会报告此主机状况。如果伴随有网络故障,使数据存储无法访问主机的任何存储故障均会导致此情况。 解决方案 请检查是否存在所述的故障情况并解决发现的任何故障。 vSphere HA 代理处于“网络已分区”状况 主机上的 vSphere HA 代理处于“网络已分区”状况。可能需要用户干预来解决这种情况。 问题 尽管主机上运行的虚拟机继续由负责它们的首选主机监控,但 vSphere HA 在出现故障后重新启动虚拟机的能 力将受到影响。首先,每台首选主机都可以访问主机的子集,因此每台主机可用的故障切换容量降低。其次, 发生故障后,vSphere HA 可能无法重新启动辅助虚拟机(请参见第 33 页,“主虚拟机保持在“需要辅助虚 拟机”状态”)。 原因 如果满足以下两个条件,则会将主机报告为已分区: n vCenter Server 连接到的 vSphere HA 首选主机无法使用管理网络与主机通信,但可以使用已为其选择的 检测信号数据存储来与该主机通信。 n 主机未隔离。 网络分区的出现有很多原因,包括 VLAN 标记错误、物理网卡或交换机发生故障、配置部分主机仅使用 IPv4 而其他主机仅使用 IPv6 的群集,或者部分主机的管理网络在没有先使主机进入维护模式的情况下移至其他虚 拟交换机。 解决方案 解决阻止主机使用管理网络进行通信的网络连接问题。 vSphere HA 代理处于“网络已隔离”状况 主机上的 vSphere HA 代理处于“网络已隔离”状况。需要用户干预来解决这种情况。 问题 当主机处于“网络已隔离”状况时,vSphere HA 会对主机上运行的虚拟机应用关闭主机电源或主机关机隔离 响应。vSphere HA 会继续监控保持打开电源状态的虚拟机。当主机处于此状况时,vSphere HA 在虚拟机出现 故障后重新启动虚拟机的能力将受到影响。如果主机上的代理确定由首选主机负责虚拟机,则 vSphere HA 仅 对虚拟机执行关闭电源或关机。 原因 如果满足以下两个条件,则主机处于网络隔离状态: n 隔离地址已配置且主机无法 ping 这些地址。 n 主机上的 vSphere HA 代理无法访问其他群集主机上运行的任何代理。 解决方案 解决阻止主机 Ping 其隔离地址并与其他主机通信的网络问题。 章 2 主机故障排除 VMware, Inc. 17 Auto Deploy 故障排除 Auto Deploy 故障排除主题提供了通过 Auto Deploy 置备的主机未按预期工作情况下的解决方案。 在引导时出现 Auto Deploy TFTP 超时错误 当由 Auto Deploy 置备的主机进行引导时,会显示 TFTP 超时错误消息。消息的文本内容取决于 BIOS。 问题 当由 Auto Deploy 置备的主机进行引导时,会显示 TFTP 超时错误消息。消息的文本内容取决于 BIOS。 原因 TFTP 服务器已关闭或无法访问。 解决方案 u 请确保您的 TFTP 服务正在运行且可由您要尝试引导的主机访问。 Auto Deploy 主机在配置错误的情况下进行引导 主机在 ESXi 映像、主机配置文件或文件夹位置与规则中指定的不同的情况下进行引导。 问题 主机在 ESXi 映像或配置与规则指定的映像或配置不同的情况下进行引导。例如,您将规则更改为分配其他映 像配置文件,但主机仍使用旧的映像配置文件。 原因 将主机添加到 vCenter Server 系统后,由 vCenter Server 系统确定引导配置。vCenter Server 系统将映像配置 文件、主机配置文件或文件夹位置与主机关联。 解决方案 u 使用 Test-DeployRuleSetCompliance 和 Repair-DeployRuleSetCompliance PowerCLI cmdlet 重新评估规 则,并将正确的映像配置文件、主机配置文件或文件夹位置与主机关联。 主机未重定向至 Auto Deploy 服务器 在引导期间,您希望其置备 Auto Deploy 的主机会加载 gPXE,但不会重定向至 Auto Deploy 服务器。 问题 在引导期间,您希望其置备 Auto Deploy 的主机会加载 gPXE,但不会重定向至 AutoDeploy 服务器。 原因 TFTP ZIP 文件中包含的 tramp 文件中的 Auto Deploy 服务器的 IP 地址错误。 解决方案 u 请按照《vSphere 安装和设置》文档中的说明更正 tramp 文件中的 Auto Deploy 服务器的 IP 地址。 vSphere 故障排除 18 VMware, Inc. 将映像配置文件分配给 Auto Deploy 主机时的数据包警告消息 在运行分配了某个映像配置文件的 PowerCLI cmdlet 时(该映像配置文件不准备用于 Auto Deploy),将显示 一则警告消息。 问题 在编写或修改规则以将映像配置文件分配给一个或多个主机时,将出现以下错误: 警告:映像配置文件 包含一个或多个并非无状态的软件包。在结合使用此配置文件和 Auto Deploy 时可能 会出现问题。 原因 映像配置文件中的每个 VIB 均具有可指示 VIB 是否可以与 Auto Deploy 配合使用的 stateless-ready 标志。如 果尝试编写使用映像配置文件的 Auto Deploy 规则(该映像配置文件中一个或多个 VIB 已将该标志设置为 FALSE),则会显示错误。 解决方案 1 使用 Image Builder PowerCLI cmdlet 查看映像配置文件中的 VIB。 2 移除所有并非无状态的 VIB。 3 重新运行 Auto Deploy PowerCLI cmdlet。 具有内置 USB 闪存驱动器的 Auto Deploy 主机不向本地磁盘发送 Coredump 如果 Auto Deploy 主机具有内置 USB 闪存驱动器,且有错误导致 coredump,则 coredump 会丢失。将系统 设置为使用 ESXi Dump Collector 将 coredump 存储在联网的主机上。 问题 如果 Auto Deploy 主机具有内置 USB 闪存,并遇到导致出现 coredump 的错误,则不会向本地磁盘发送 coredump。 解决方案 1 在选择的系统上安装 ESXi Dump Collector。 vCenter Server 安装程序附带了 ESXi Dump Collector。 2 使用 ESXCLI 将主机配置为使用 ESXi Dump Collector。 esxcli conn_options system coredump network set IP-addr,port esxcli system coredump network set -e true 3 使用 ESXCLI 禁用本地 coredump 分区。 esxcli conn_options system coredump partition set -e false 章 2 主机故障排除 VMware, Inc. 19 将映像配置文件分配给 Auto Deploy 主机时的 vmware-fdm 警告消息 用户运行将映像配置文件分配给一个或多个主机的 PowerCLI cmdlet 时,如果 vmware-fdm 软件包不是映像 配置文件的一部分,则会导致错误。如果将 Auto Deploy 主机和 vSphere HA 一起使用,则需要此软件包。 问题 如果用户编写或修改规则以将映像配置文件分配给一个或多个 Auto Deploy 主机,将出现以下错误: WARNING:The supplied image profile does not contain the "vmware-fdm" software package, which is required for the vSphere HA feature.If this image profile is to be used with hosts in a vSphere HA cluster, you should add the vmware-fdm package to the image profile.The vmware-fdm package can be retrieved from the software depot published by this vCenter Server at the following URL: http:// 设置 > 控制面板 > 管理工具。 b 双击服务打开“服务管理”面板。 c 在“服务”字段中,请查找 VMware vSphere Auto Deploy Waiter 服务,如果该服务未在运行,请重 新启动。 3 打开 Web 浏览器,然后输入以下 URL 并检查是否可以访问 Auto Deploy 服务器。 https://Auto Deploy 服务器 IP 地址:Auto Deploy 服务器端口/vmw/rdb 注意 仅使用此地址检查是否可以访问该服务器。 4 如果无法访问该服务器,则可能会出现防火墙问题。 a 尝试设置 Auto Deploy 服务器端口的可允许 TCP 入站规则。 端口一直为 6501,除非在安装期间指定了其他端口。 b 如果上述方法不奏效,请暂时禁用防火墙,然后在验证该防火墙是否阻止了流量之后再启用它。不要 在生产环境中禁用防火墙。 要禁用防火墙,请运行 netsh firewall set opmode disable。要启用防火墙,请运行 netsh firewall set opmode enable。 Auto Deploy 主机无法获取 DHCP 分配的地址 使用 Auto Deploy 置备的主机无法获取 DHCP 地址。 问题 尝试引导使用 Auto Deploy 置备的主机时,该主机会执行网络引导,但不会分配有 DHCP 地址。Auto Deploy 服务器无法使用映像配置文件置备主机。 原因 DHCP 服务或防火墙设置可能出现问题。 解决方案 1 检查将 DHCP 服务器设置为置备主机的 Windows 系统上是否正在运行 DHCP 服务器服务。 a 单击开始 > 设置 > 控制面板 > 管理工具。 b 双击服务打开“服务管理”面板。 c 在“服务”字段中,请查找 DHCP 服务器服务,如果该服务未运行,请重新启动它。 2 如果 DHCP 服务器正在运行,请重新检查为目标主机配置的 DHCP 范围和 DHCP 预留。 如果 DHCP 范围和预留已正确配置,则问题最有可能与防火墙有关。 3 暂时的解决办法是,关闭防火墙以确定能否解决该问题。 a 通过单击开始 > 程序 > 附件 > 命令提示符来打开命令提示符。 b 键入以下命令以暂时关闭防火墙。不要在生产环境中关闭防火墙。 netsh firewall set opmode disable vSphere 故障排除 22 VMware, Inc. c 尝试使用 Auto Deploy 置备主机。 d 键入以下命令以再次打开防火墙。 netsh firewall set opmode enable 4 设置规则以允许 DHCP 网络流量到达目标主机。 有关详细信息,请参见 DHCP 和正在运行 DHCP 服务器的 Windows 系统的防火墙文档。 Auto Deploy 主机不会进行网络引导 使用 Auto Deploy 置备的主机会启动,但不会进行网络引导。 问题 尝试引导使用 Auto Deploy 置备的主机时,该主机不会启动网络引导过程。 原因 您尚未启用主机进行网络引导。 解决方案 1 重新引导主机,然后按照屏幕说明访问 BIOS 配置。 如果有 EFI 主机,必须将 EFI 系统切换到 BIOS 兼容模式。 2 在 BIOS 配置中,启用“引导设备”配置中的“网络引导”。 排除 vCenter Server 插件故障 对于 vCenter Server 插件未正常运行的情况,有多种方法可更正问题。 在 Tomcat 服务器上运行的 vCenter Server 插件拥有一些 extension.xml 文件,其中包含可访问相应的 Web 应 用程序的 URL。这些文件位于 C:\Program Files\VMware\Infrastructure\VirtualCenter Server\extensions 中。扩展安装程序使用计算机的 DNS 名称填充这些 XML 文件。 来自统计信息 extension.xml 文件的示例:https://SPULOV-XP-VM12.vmware.com: 8443/statsreport/vicr.do。 使用这些文件的 vCenter Server、插件服务器和 vSphere Client 必须位于同一域下的系统中。如果它
本文档为【vSphere 故障排除】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_556646
暂无简介~
格式:pdf
大小:1MB
软件:PDF阅读器
页数:50
分类:互联网
上传时间:2011-12-07
浏览量:96