VMware vSphere67可用性架构规划

VMware vSphere67可用性架构规划vSphere可用性VMwarevSphere6.7VMwareESXi6.7vCenterServer6.7目录关于vSphere可用性51业务连续性和最小化停机时间6减少计划的停机时间6防止非计划停机时间7vSphereHA提供快速中断恢复7vSphereFaultTolerance提供连续可用性8使用vCenterHighAvailability保护vCenterServerAppliance8使用VMwareServiceLifecycleManager保护vCenterServer92创建和使用vSphe...

vSphere可用性VMwarevSphere6.7VMwareESXi6.7vCenterServer6.7 目录关于vSphere可用性51业务连续性和最小化停机时间6减少计划的停机时间6防止非计划停机时间7vSphereHA提供快速中断恢复7vSphereFaultTolerance提供连续可用性8使用vCenterHighAvailability保护vCenterServerAppliance8使用VMwareServiceLifecycleManager保护vCenterServer92创建和使用vSphereHA群集10vSphereHA的工作方式10vSphereHA准入控制17vSphereHA互操作性22创建vSphereHA群集25配置vSphere可用性设置28适用于VMwarevSphere®HighAvailability群集的最佳做法373为虚拟机提供FaultTolerance41FaultTolerance的工作方式41FaultTolerance用例42FaultTolerance要求、限制和许可42FaultTolerance互操作性43为FaultTolerance准备群集和主机44使用FaultTolerance47FaultTolerance的最佳做法51旧版FaultTolerance53容错虚拟机故障排除534vCenterHighAvailability59规划vCenterHA部署60配置网络64使用vSphereClient配置vCenterHA65管理vCenterHA配置67vCenterHA环境故障排除73vSphereWebClient中的配置工作流概述78修补vCenterHighAvailability环境84vCenterHighAvailability升级84VMware,Inc.保留所有权利。35使用Microsoft群集服务实现基于Windows的vCenterServer高可用性87使用MSCS的优点和限制87在MSCS环境中升级vCenterServer87配置MSCS以实现高可用性89vSphere可用性VMware,Inc.保留所有权利。4关于vSphere可用性《vSphere可用性》介绍提供业务连续性的解决方案，包括如何建立vSphere®HighAvailability(HA)和vSphereFaultTolerance。目标读者此信息专供需要通过vSphereHA和FaultTolerance解决方案提供业务连续性的用户使用。本书的目标读者为熟悉虚拟机技术和数据中心操作且具有丰富经验的Windows或Linux系统管理员。vSphereClient和vSphereWebClient本指南中的说明反映vSphereClient（基于HTML5的GUI）。您也可以使用这些说明通过vSphereWebClient（基于Flex的GUI）执行任务。vSphereClient和vSphereWebClient之间工作流明显不同的任务具有重复过程，其根据相应客户端界面提供步骤。与vSphereWebClient有关的过程在标题中包含vSphereWebClient。注在vSphere6.7Update1中，几乎所有vSphereWebClient功能在vSphereClient中得以实现。有关其他不受支持的功能的最新列表，请参见《vSphereClient功能更新说明》。VMware,Inc.保留所有权利。5业务连续性和最小化停机时间1无论是计划停机时间还是非计划停机时间，都会带来相当大的成本。但是，用于确保更高级别可用性的解决方案通常都需要较大开销，并且难以实施和管理。VMware软件可为重要应用程序提供更高级别的可用性，并且操作更简单，成本更低。使用vSphere，您可以提高为所有应用程序提供的可用性基准级别，并且以更低成本和更简单的操作来实现更高级别的可用性。使用vSphere，您可以：n独立于硬件、操作系统和应用程序提供高可用性。n减少常见维护操作的计划停机时间。n在出现故障时提供自动恢复。vSphere可以减少计划的停机时间，防止出现非计划停机，并迅速从中断中恢复。本章讨论了以下主题：n减少计划的停机时间n防止非计划停机时间nvSphereHA提供快速中断恢复nvSphereFaultTolerance提供连续可用性n使用vCenterHighAvailability保护vCenterServerAppliancen使用VMwareServiceLifecycleManager保护vCenterServer减少计划的停机时间计划的停机时间通常占数据中心停机时间的80%以上。硬件维护、服务器迁移和固件更新均需要将物理服务器停机。为最小化此停机时间的影响，会强制组织延迟维护，直到出现不便且难以调度的停机时间段。通过vSphere，组织可以显著减少计划的停机时间。由于vSphere环境中的工作负载无需停机或服务中断就可以动态移动到其他物理服务器，所以服务器维护无需应用程序和服务停机就可以执行。通过vSphere，组织可以执行以下任务：n消除常见维护操作的停机时间。n消除计划的维护时间段。VMware,Inc.保留所有权利。6n随时执行维护，无需中断用户和服务。由于VMware环境中的工作负载无需中断服务即可动态移动到不同的物理服务器或基础存储器，所以，通过vSphere中的vSpherevMotion®和StoragevMotion功能，组织可以减少计划的停机时间。管理员可以快速而完整地执行透明的维护操作，无需强制调度不方便的维护时间段。防止非计划停机时间在ESXi主机为应用程序的运行提供稳定平台时，组织还必须保护自身，避免出现硬件或应用程序故障所导致的非计划停机时间。vSphere将重要功能构建到数据中心基础架构中，这有助于避免出现非计划停机时间。这些vSphere功能是虚拟基础架构的一部分，因此，对操作系统以及虚拟机中运行的应用程序而言是透明的。这些功能可以进行配置，而且可供物理系统上的所有虚拟机使用，从而降低成本并降低实现高可用性的复杂程度。vSphere中内置的密钥可用性功能：n共享存储器。通过在共享存储器（如光纤通道、iSCSISAN或NAS）上存储虚拟机文件来消除单一故障点。可以使用SAN镜像和复制功能将虚拟磁盘的更新副本保留在灾难恢复站点。n网络接口绑定。允许单个网卡发生故障。n存储多路径。允许存储路径发生故障。除了这些功能外，vSphereHA和FaultTolerance功能分别通过提供中断快速恢复和连续可用性来最小化或消除非计划停机时间。vSphereHA提供快速中断恢复vSphereHA利用配置为群集的多台ESXi主机，为虚拟机中运行的应用程序提供快速中断恢复和具有成本效益的高可用性。vSphereHA通过以下方式保护应用程序可用性：n通过在群集内的其他主机上重新启动虚拟机，防止服务器故障。n通过持续监控虚拟机并在检测到故障时对其进行重新设置，防止应用程序故障。n通过在仍然有权访问其数据存储的其他主机上重新启动受影响的虚拟机，可防止出现数据存储可访问性故障。n如果虚拟机的主机在管理或vSAN网络上被隔离，它会通过重新启动这些虚拟机来防止网络隔离。即使网络已分区，仍会提供此保护。与其他群集解决方案不同，vSphereHA提供基础架构并使用该基础架构保护所有工作负载：n无需在应用程序或虚拟机内安装特殊软件。所有工作负载均受vSphereHA保护。配置vSphereHA之后，不需要执行操作即可保护新虚拟机。它们会自动受到保护。n可以将vSphereHA与vSphereDistributedResourceScheduler(DRS)结合使用以防止出现故障，以及在群集内的主机之间提供负载平衡。vSphere可用性VMware,Inc.保留所有权利。7与传统的故障切换解决方案相比，vSphereHA具有多个优势：最小化设置设置vSphereHA群集之后，群集内的所有虚拟机无需额外配置即可获得故障切换支持。减少了硬件成本和设置虚拟机可充当应用程序的移动容器，可在主机之间移动。管理员会避免在多台计算机上进行重复配置。使用vSphereHA时，必须拥有足够的资源来对要通过vSphereHA保护的主机数进行故障切换。但是，VMwarevCenterServer®系统会自动管理资源并配置群集。提高了应用程序的可用性虚拟机内运行的任何应用程序的可用性变得更高。虚拟机可以从硬件故障中恢复，提高了在引导周期内启动的所有应用程序的可用性，而且没有额外的计算需求，即使该应用程序本身不是群集应用程序也一样。通过监控和响应VMwareTools检测信号并重新启动未响应的虚拟机，可防止客户机操作系统崩溃。DRS和vMotion集成如果主机发生了故障，并且在其他主机上重新启动了虚拟机，则DRS会提出迁移建议或迁移虚拟机以平衡资源分配。如果迁移的源主机和/或目标主机发生故障，则vSphereHA会帮助从该故障中恢复。vSphereFaultTolerance提供连续可用性vSphereHA通过在主机出现故障时重新启动虚拟机来为虚拟机提供基本级别的保护。vSphereFaultTolerance可提供更高级别的可用性，允许用户对任何虚拟机进行保护以防止主机发生故障时丢失数据、事务或连接。FaultTolerance通过确保主虚拟机和辅助虚拟机的状态在虚拟机的指令执行的任何时间点均相同来提供连续可用性。如果运行主虚拟机的主机或运行辅助虚拟机的主机发生故障，则会发生即时且透明的故障切换。正常运行的ESXi主机将无缝变成主虚拟机的主机，而不会断开网络连接或中断正在处理的事务。使用透明故障切换，不会有数据损失，并且可以维护网络连接。在进行透明故障切换之后，将重新生成新的辅助虚拟机，并将重新建立冗余。整个过程是透明且全自动的，并且即使vCenterServer不可用，也会发生。使用vCenterHighAvailability保护vCenterServerAppliancevCenterHighAvailability(vCenterHA)不仅能够在主机和硬件出现故障时提供保护，而且还能够在vCenterServer应用程序出现故障时提供保护。使用自动故障切换功能从主动切换到被动，vCenterHA支持的高可用性可最大限度减少停机时间。vCenterHA可以保护vCenterServerAppliance。但是，PlatformServicesController为vCenterServerAppliance提供身份验证、证书管理和许可证。因此，您必须保证PlatformServicesController的高可用性。您可以选择以下选项：n部署具有嵌入式PlatformServicesController部署的主动节点。克隆过程中将克隆PlatformServicesController及其所有服务。在从主动节点同步到被动节点的过程中，将更新被动节点上的PlatformServicesController。从主动节点故障切换到被动节点时，被动节点上的PlatformServicesController将可用，并提供完整的环境。vSphere可用性VMware,Inc.保留所有权利。8n至少部署两个PlatformServicesController实例，并将其置于负载平衡器之后。当从主动节点故障切换到被动节点时，被动节点将继续指向负载平衡器。当其中一个PlatformServicesController实例不再可用时，负载平衡器会将请求定向到第二个PlatformServicesController实例。您从vSphereClient中配置vCenterHA。配置向导提供以下选项。选项描述自动“自动”选项可以将主动节点克隆到被动节点和见证节点，并为您配置这些节点。如果您的环境满足以下要求之一，您可以使用此选项。n成为主动节点的vCenterServerAppliance要管理其自己的ESXi主机及虚拟机。此配置有时称为自我管理vCenterServer。nvCenterServerAppliance由另一个vCenterServer管理。两者都使用外部PlatformServicesController且都运行vSphere6.5或更高版本。手动“手动”选项更具灵活性。如果您的环境满足硬件和软件要求，便可以使用此选项。如果您选择此选项，您将负责将主动节克隆到被动节点和见证节点。您还必须执行一些网络配置。有关详细信息，请参见#unique_9。使用VMwareServiceLifecycleManager保护vCenterServerVMwareServiceLifecycleManager可提供vCenterServer可用性。如果vCenter服务失败，VMwareServiceLifecycleManager会重新启动该服务。VMwareServiceLifecycleManager监控服务的运行状况，并在检测到故障时采取预先配置的修复操作。如果多次尝试修复均失败，服务将不会重新启动。vSphere可用性VMware,Inc.保留所有权利。9创建和使用vSphereHA群集2vSphereHA群集允许ESXi主机集合作为一个组协同工作，这些主机为虚拟机提供的可用性级别比ESXi主机单独提供的级别要高。当规划新vSphereHA群集的创建和使用时，您选择的选项会影响群集对主机或虚拟机故障的响应方式。在创建vSphereHA群集之前，应清楚vSphereHA标识主机故障和隔离以及响应这些情况的方式。还应了解接入控制的工作方式以便可以选择符合故障切换需要的策略。建立群集之后，不但可以通过高级选项自定义其行为，还可以通过执行建议的最佳做法优化其性能。注尝试使用vSphereHA时可能会获得错误消息。有关与vSphereHA相关的错误消息的信息，请参见位于http://kb.vmware.com/kb/1033634的VMware知识库文章。本章讨论了以下主题：nvSphereHA的工作方式nvSphereHA准入控制nvSphereHA互操作性n创建vSphereHA群集n配置vSphere可用性设置n适用于VMwarevSphere®HighAvailability群集的最佳做法vSphereHA的工作方式vSphereHA可以将虚拟机及其所驻留的主机集中在群集内，从而为虚拟机提供高可用性。群集中的主机均会受到监控，如果发生故障，故障主机上的虚拟机将在备用主机上重新启动。创建vSphereHA群集时，会自动选择一台主机作为首选主机。首选主机可与vCenterServer进行通信，并监控所有受保护的虚拟机以及从属主机的状态。可能会发生不同类型的主机故障，首选主机必须检测并相应地处理故障。首选主机必须可以区分故障主机与处于网络分区中或已与网络隔离的主机。首选主机使用网络和数据存储检测信号来确定故障的类型。SphereHA群集(http://link.brightcove.com/services/player/bcpid2296383276001?bctid=ref:vSphereHAClusters)VMware,Inc.保留所有权利。10首选主机和辅助主机在将主机添加到vSphereHA群集时，代理将上载到主机，并配置为与群集内的其他代理通信。群集中的每台主机作为首选主机或辅助主机运行。如果为群集启用了vSphereHA，则所有活动主机（未处于待机或维护模式的主机或未断开连接的主机）都将参与选择群集的首选主机。挂载最多数量的数据存储的主机在选举中具有优势。每个群集通常只存在一台首选主机，其他所有主机都是辅助主机。如果首选主机出现故障、关机或处于待机模式或者从群集中移除，则会进行新的选举。群集中的首选主机具有多个职责：n监控辅助主机的状况。如果辅助主机发生故障或无法访问，首选主机将确定必须重新启动哪些虚拟机。n监控所有受保护虚拟机的电源状况。如果有一台虚拟机出现故障，首选主机可确保重新启动该虚拟机。首选主机还可使用本地放置引擎确定进行重新启动的位置。n管理群集主机和受保护的虚拟机列表。n充当群集的vCenterServer管理界面并报告群集运行状况。辅助主机主要通过在本地运行虚拟机、监控其运行时状况和向首选主机报告状况更新来对群集提供支持。首选主机也可运行和监控虚拟机。辅助主机和首选主机都可实现虚拟机和应用程序监控功能。首选主机执行的功能之一是协调受保护虚拟机的重新启动。在vCenterServer观察到为响应用户操作，某虚拟机的电源状况由关闭电源变为打开电源之后，该虚拟机会受到首选主机的保护。首选主机会将受保护虚拟机的列表保留在群集的数据存储中。新选的首选主机使用此信息来确定要保护哪些虚拟机。注如果断开主机与群集之间的连接，则向该主机注册的虚拟机将不受vSphereHA保护。主机故障类型VMwarevSphere®HighAvailability群集的首选主机负责检测辅助主机的故障。根据检测到的故障类型，在主机上运行的虚拟机可能需要进行故障切换。在vSphereHA群集中，检测三种类型的主机故障：n故障。主机停止运行。n隔离。主机出现网络隔离。n分区。主机失去与首选主机的网络连接。首选主机监控群集中辅助主机的活跃度。此通信通过每秒交换一次网络检测信号来进行。当首选主机停止从辅助主机接收这些检测信号时，它会在声明该主机出现故障之前检查主机活跃度。首选主机执行的活跃度检查是要确定辅助主机是否在与数据存储之一交换检测信号。请参见数据存储检测信号。而且，首选主机还检查主机是否对发送至其管理IP地址的ICMPping进行响应。如果首选主机无法直接与辅助主机上的代理通信，则辅助主机不会响应ICMPping。如果代理未发出检测信号，则被视为出现故障。会在备用主机上重新启动主机的虚拟机。如果此类辅助主机正在与数据存储交换检测信号，首选主机会假设辅助主机在网络分区上或已与网络隔离。因此，首选主机会继续监控该主机及其虚拟机。请参见网络分区。vSphere可用性VMware,Inc.保留所有权利。11当主机仍在运行但无法再监视来自管理网络上vSphereHA代理的流量时，会发生主机网络隔离。如果主机停止监视此流量，则它会尝试ping群集隔离地址。如果此ping也失败，主机会声明它已与网络隔离。首选主机会监控隔离主机上正在运行的虚拟机。如果首选主机观察到虚拟机已关闭电源，且首选主机负责虚拟机，则会重新启动虚拟机。注如果您确保网络基础架构具有足够的冗余度且至少有一个网络路径始终可用，则不太可能发生主机网络隔离。ProactiveHA故障当主机组件发生故障时，即发生了ProactiveHA故障，这会导致冗余丢失或非灾难性故障。但是，主机上的虚拟机的功能行为不会受到影响。例如，如果主机出现电源故障，但是其他电源可用，则属于ProactiveHA故障。发生ProactiveHA故障时，可在vSphereClient的“vSphere可用性”部分自动执行修复操作。受影响主机上的虚拟机可以撤出到其他主机，并将该主机置于隔离模式或维护模式。注您的群集必须使用vSphereDRS，以便ProactiveHA故障监控正常工作。确定对主机问题的响应如果主机发生故障而必须重新启动虚拟机，您可使用虚拟机重新启动优先级”设置控制重新启动虚拟机的顺序。您也可使用主机隔离响应设置，配置主机与其他主机失去管理网络连接时vSphereHA的响应方式。发生故障后，vSphereHA重新启动虚拟机时还将考虑其他因素。以下设置适用于主机发生故障或主机隔离时群集内的所有虚拟机。此外，也可以为特定虚拟机配置异常。请参见自定义单个虚拟机。主机隔离响应主机隔离响应确定当vSphereHA群集内的某个主机失去其管理网络连接但仍继续运行时出现的情况。您可以使用隔离响应使vSphereHA关闭隔离主机上运行的虚拟机的电源，然后在非隔离主机上将其重新启动。主机隔离响应要求启用“主机监控状态”。如果“主机监控状态”处于禁用状态，则主机隔离响应将同样被挂起。当主机无法与其他主机上运行的代理通信且无法ping其隔离地址时，该主机确定其已被隔离。然后，主机会执行其隔离响应。响应为“关闭虚拟机电源再重新启动虚拟机”或“关闭再重新启动虚拟机”。还可以为各个虚拟机自定义此属性。注如果虚拟机的重新启动优先级设置为“已禁用”，则不会做出任何主机隔离响应。要使用“关闭再重新启动虚拟机”设置，必须在虚拟机的客户机操作系统中安装VMwareTools。将虚拟机关机的优点在于可以保留其状况。关机操作优于关闭虚拟机电源操作，关闭虚拟机不会将最近的更改刷新到磁盘中，也不会提交事务。在关机完成时，正在关机的虚拟机需要更长时间进行故障切换。未在300秒内或在高级选项das.isolationshutdowntimeout中指定的时间内关机的虚拟机将被关闭电源。创建vSphereHA群集后，可以替代特定虚拟机的“重新启动优先级”和“隔离响应”的默认群集设置。此替代操作对于用于特殊任务的虚拟机很有帮助。例如，可能需要先打开提供基础架构服务（如DNS或DHCP）的虚拟机电源，再打开群集内的其他虚拟机电源。vSphere可用性VMware,Inc.保留所有权利。12如果主机已从主主机隔离或分区，或主主机无法使用检测信号数据存储与该主机通信，则可能会发生虚拟机“裂脑”情况。在这种情况下，主主机无法确定该主机处于活动状态，因此声明其已停止运行。然后，主主机尝试重新启动已隔离或已分区主机上正在运行的虚拟机。如果虚拟机仍在已隔离/已分区主机上运行，且该主机在隔离或分区时失去对虚拟机数据存储的访问权限，则此尝试将成功。然后，便会发生裂脑情况，因为存在两个虚拟机实例。但是，只有一个实例能够读取或写入虚拟机的虚拟磁盘。虚拟机组件保护可用于防止发生此裂脑情况。使用激进设置启用VMCP时，它会监控已打开电源的虚拟机的数据存储可访问性，并关闭失去对其数据存储访问权限的虚拟机。为了从此情况中恢复，ESXi会针对已丢失磁盘锁的虚拟机生成一个问题（关于主机何时摆脱隔离状态且无法重新获取磁盘锁）。vSphereHA将自动回答该问题，这就使已丢失磁盘锁的虚拟机实例关闭电源，只留下具有磁盘锁的实例。虚拟机依赖关系可以在虚拟机组之间创建依赖关系。要执行此操作，必须首先在vSphereClient中创建虚拟机组，方法是转到群集的配置选项卡，然后选择虚拟机/主机组。创建组之后，可以在组之间创建重新启动依赖关系规则，方法是浏览到虚拟机/主机规则，然后在“类型”下拉菜单中，选择虚拟机到虚拟机。这些规则可以指定在其他指定虚拟机组就绪之前，不会重新启动某些虚拟机。重新启动虚拟机要考虑的因素发生故障后，群集的主主机会确定一个可打开受影响虚拟机电源的主机，从而尝试重新启动这些虚拟机。选择此类主机时，主主机会考虑许多因素。文件可访问性在可启动虚拟机之前，必须能够从可通过网络与主主机通信的某个活动群集主机中访问该虚拟机的文件虚拟机与主机的兼容性如果存在可访问的主机，则虚拟机必须至少与其中一个主机兼容。为虚拟机设置的兼容性包括任何所需虚拟机-主机关联性规则的影响。例如，如果某个规则仅允许虚拟机在两个主机上运行，则会考虑将其放置在这两个主机上。资源预留在可运行虚拟机的主机中，必须至少有一个主机具有足够的未预留容量以满足虚拟机的内存开销及任何资源预留。可采用四种预留类型：CPU、内存、虚拟网卡和虚拟闪存。此外，必须提供足够的网络端口，才能打开虚拟机电源。主机限制除了资源预留之外，一个虚拟机只能放置在一个主机上（如果这样做不会违反允许的虚拟机最大数量或正在使用的vCPU数量）。功能限制如果已设置需要vSphereHA强制执行虚拟机-虚拟机反关联性规则的高级选项，则vSphereHA不会违反此规则。此外，vSphereHA不会违反为容错虚拟机配置的任何每主机限制。如果没有任何主机满足上述注意事项，则主主机会发布一个事件指出没有足够的资源让vSphereHA来启动虚拟机，并会在群集状况发生更改时进行重试。例如，如果虚拟机不可访问，则主主机会在文件可访问性发生更改后进行重试。vSphere可用性VMware,Inc.保留所有权利。13虚拟机和应用程序监控如果在设置的时间内没有收到单个虚拟机的VMwareTools检测信号，虚拟机监控将重新启动该虚拟机。同样，如果没有收到虚拟机正在运行的应用程序的检测信号，应用程序监控也可以重新启动该虚拟机。可以启用这些功能，并配置vSphereHA监控无响应时的敏感度。启用虚拟机监控后，虚拟机监控服务（使用VMwareTools）将通过检查正在客户机内运行的VMwareTools进程的常规检测信号和I/O活动来评估群集内的每个虚拟机是否正在运行。如果没有收到检测信号或I/O活动，则很有可能是客户机操作系统出现故障，或未分配给VMwareTools用来完成任务的时间。在这种情况下，虚拟机监控服务会先确定虚拟机已发生故障，然后决定重新引导虚拟机以还原服务。有时，仍然正常工作的虚拟机或应用程序会停止发送检测信号。为了避免不必要的重置，虚拟机监控服务还监控虚拟机的I/O活动。如果在故障时间间隔内未收到任何检测信号，则会检查I/O统计间隔（群集级别属性）。I/O统计间隔确定在前两分钟（120秒）内是否已发生与虚拟机有关的任何磁盘或网络活动。如果没有，则重置该虚拟机。可以使用高级选项das.iostatsinterval更改此默认值（120秒）。要启用应用程序监控，必须先获取相应的SDK（或使用可支持VMware应用程序监控的应用程序），然后使用它来设置要监控的应用程序的自定义检测信号。完成此操作后，应用程序监控的工作方式将与虚拟机监控的工作方式大致相同。如果在指定时间内没有收到应用程序的检测信号，将重新启动其虚拟机。您可以配置监控敏感度的级别。高敏感度监控可以更快得出已发生故障的结论。然而，如果受监控的虚拟机或应用程序实际上仍在运行，但由于资源限制等因素导致未收到检测信号，高敏感度监控可能会错误地认为此虚拟机发生了故障。低敏感度监控会延长实际故障和虚拟机重置之间服务中断的时间。请选择一个有效折衷满足需求的选项。也可以通过选中自定义复选框来指定监控敏感度和I/O统计间隔的自定义值。表2‑1.虚拟机监控设置设置故障时间间隔（秒）重置期高301小时中6024小时低1207天检测到故障后，vSphereHA会重置虚拟机。重置可确保这些服务仍然可用。为了避免因非瞬态错误而反复重置虚拟机，默认情况下，在某个可配置的时间间隔内将对虚拟机仅重置三次。在对虚拟机执行过三次重置后，指定的时间结束之前，vSphereHA不会在后续故障出现后进一步尝试重置虚拟机。可以使用每个虚拟机的最大重置次数自定义设置来配置重置次数。注当关闭虚拟机电源然后再次打开虚拟机电源时，或使用vMotion将虚拟机迁移到其他主机时，重置统计信息将被清除。这将导致客户机操作系统重新引导，但不同于虚拟机电源状况发生更改的“重新启动”。虚拟机组件保护如果启用虚拟机组件保护(VMCP)，vSphereHA可以检测到数据存储可访问性故障，并为受影响的虚拟机提供自动恢复。vSphere可用性VMware,Inc.保留所有权利。14VMCP可防止发生数据存储可访问性故障，这些故障可能会影响vSphereHA群集中主机上正在运行的虚拟机。当发生数据存储可访问性故障时，受影响的主机无法再访问特定数据存储的存储路径。您可以确定vSphereHA将对此类故障作出的响应，从创建事件警报到虚拟机在其他主机上重新启动。注使用虚拟机组件保护功能时，ESXi主机的版本必须为6.0或更高版本。故障类型存在两种类型的数据存储可访问性故障：PDLPDL（永久设备丢失）是在存储设备报告主机无法再访问数据存储时发生的不可恢复的可访问性丢失。如果不关闭虚拟机的电源，此状况将无法恢复。APDAPD（全部路径异常）表示暂时性或未知的可访问性丢失，或I/O处理中的任何其他未识别的延迟。此类型的可访问性问题是可恢复的。配置VMCP在vSphereClient中配置虚拟机组件保护。转到配置选项卡并单击vSphere可用性和编辑。在故障和响应下，可以选择处于PDL状态的数据存储或处于APD状态的数据存储。您可选择的存储保护级别以及可用的虚拟机修复操作根据数据库可访问性故障的类型而异。PDL故障在处于PDL状态的数据存储下，可以选择发布事件或关闭虚拟机电源再重新启动虚拟机。APD故障响应APD事件是更加复杂的，相应地配置是更加精细的。可以选择发布事件、关闭虚拟机电源再重新启动虚拟机-保守的重新启动策略或关闭虚拟机电源再重新启动虚拟机-激进的重新启动策略注如果禁用“主机监控”或“虚拟机重新启动优先级”设置，VMCP将无法执行虚拟机重新启动。但是，仍可监控存储运行状况，且可发布事件。网络分区在vSphereHA群集发生管理网络故障时，该群集中的部分主机可能无法通过管理网络与其他主机进行通信。一个群集中可能会出现多个分区。已分区的群集会导致虚拟机保护和群集管理功能降级。请尽快更正已分区的群集。n虚拟机保护。vCenterServer允许虚拟机打开电源，但仅当虚拟机与负责它的首选主机在相同的分区中运行时，才能对其进行保护。首选主机必须与vCenterServer进行通信。如果首选主机以独占方式锁定包含虚拟机配置文件的数据存储上的系统定义的文件，则首选主机将负责虚拟机。n群集管理。vCenterServer可以与首选主机通信，但仅可与从属主机的子集通信。因此，只有在解决分区之后，配置中影响vSphereHA的更改才能生效。此故障可能会导致其中一个分区在旧配置下操作，而另一个分区使用新的设置。vSphere可用性VMware,Inc.保留所有权利。15数据存储检测信号当VMwarevSphere®HighAvailability群集中的首选主机无法通过管理网络与辅助主机通信时，首选主机将使用数据存储检测信号来确定辅助主机是否出现故障，是否位于网络分区中，或者是否与网络隔离。如果辅助主机已停止数据存储检测信号，则认为该辅助主机出现故障，并且其虚拟机已在别处重新启动。VMwarevCenterServer®选择一组首选数据存储集用于检测信号。这种选择会使有权访问检测信号数据存储的主机数最大，也会使数据存储由同一LUN或NFS服务器支持的可能性最小。可以使用高级选项das.heartbeatdsperhost更改vCenterServer为每个主机选择的检测信号数据存储的数量。默认值为2，最大有效值为5。vSphereHA将在用于数据存储检测信号和保留受保护的虚拟机集的每个数据存储的root目录中创建一个目录，目录名称为.vSphere-HA。请勿删除或修改存储在此目录中的文件，因为这可能会对操作产生影响。由于多个群集可能使用一个数据存储，因此将针对每个群集创建该目录的子目录。根用户拥有这些目录和文件，并且只有根用户可以读写这些目录和文件。vSphereHA使用的磁盘空间取决于多个因素，包括所用的VMFS版本以及将数据存储用于信号检测的主机数。使用vmfs3时，最大使用量为2GB，典型使用量为3MB。使用vmfs5时，最大使用量和典型使用量均为3MB。vSphereHA使用数据存储增加的开销很小，并且不会对其他数据存储操作的性能产生任何影响。vSphereHA会限制配置文件可在单个数据存储中的虚拟机数量。有关更新的限制，请参见最高配置。如果将超过该数量的虚拟机置于数据存储中并打开其电源，则vSphereHA只保护该上限数量的虚拟机。注vSAN数据存储无法用于数据存储检测信号。因此，如果群集中的所有主机均无法访问其他共享存储，则无法使用任何检测信号数据存储。但是，如果您拥有的存储可通过独立于vSAN网络的备用网络路径访问，则可以将其用于设置检测信号数据存储。vSphereHA安全性多个安全功能增强了vSphereHA。选择已打开的防火墙端口vSphereHA对代理至代理的通信使用TCP和UDP端口8182。防火墙端口将自动打开和关闭，确保仅在需要时打开端口。使用文件系统权限保护的配置文件vSphereHA在本地存储器或ramdisk（如果没有本地数据存储）上存储配置信息。使用文件系统权限保护这些文件，且仅root用户可以访问它们。不具有本地存储器的主机只有在由AutoDeploy管理时才受支持。详细的日志记录vSphereHA放置日志文件的位置取决于主机版本。n对于ESXi5.x主机，vSphereHA默认仅写入syslog，因此，日志放置在syslog所配置的放置位置。vSphereHA日志文件名前置fdm（fdm代表故障域管理器，vSphereHA中的一种服务）。n对于旧版ESXi4.x主机，vSphereHA写入本地磁盘上的/var/log/vmware/fdm以及syslog（如果已配置）。n对于旧版ESX4.x主机，vSphereHA写入/var/log/vmware/fdm。vSphere可用性VMware,Inc.保留所有权利。16安全vSphereHA登录vSphereHA使用vCenterServer创建的用户帐户vpxuser登录到vSphereHA代理。此帐户与vCenterServer用于管理主机的帐户相同。vCenterServer为此帐户创建随机密码，并定期更改密码。时间段由vCenterServerVirtualCenter.VimPasswordExpirationInDays设置进行设置。对主机的根文件夹具有管理特权的用户可登录到代理。安全通信vCenterServer和vSphereHA代理之间的所有通信都是通过SSL完成的。除选举消息以外（通过UDP完成），代理至代理的通信也使用SSL。选举消息通过SSL进行验证，因此，恶意代理只能阻止在其上运行代理的主机被选为首选主机。在这种情况下，将发出群集的配置问题，以便用户了解问题。需要验证主机SSL证书vSphereHA要求每个主机都具有一个经过验证的SSL证书。每个主机在首次引导时都会生成一个自签署证书。然后，可以重新生成或使用机构颁发的证书替换该证书。如果证书被替换，需要重新配置主机上的vSphereHA。如果主机在其证书更新后断开与vCenterServer的连接，且重新启动ESXi或ESX主机代理，则主机重新连接到vCenterServer时将自动重新配置vSphereHA。如果此时因禁用vCenterServer主机SSL证书验证而没有断开连接，请验证新证书并重新配置主机上的vSphereHA。vSphereHA准入控制vSphereHA使用准入控制确保在主机出现故障时预留足够的资源用于虚拟机恢复。准入控制对资源使用施加一些限制。任何可能违反这些限制的操作都不会被允许。可能不允许的操作示例如下：n打开虚拟机电源n迁移虚拟机n增加虚拟机的CPU或内存预留vSphereHA准入控制的基础是群集允许的且仍能保证可故障切换的主机故障数。可通过三种方式来设置主机故障切换容量：n群集资源百分比n插槽策略n专用故障切换主机注可以禁用vSphereHA准入控制。但是，如果禁用VMwareHA准入控制，将无法保证预期数量的虚拟机能够在故障后重新启动。请勿永久禁用准入控制。无论选择的准入控制选项如何，都会存在虚拟机资源减少阈值。您可以使用此设置指定允许的资源减少百分比，但在启用vSphereDRS后才可用。会针对CPU和内存进行资源减少计算。此项计算会考虑虚拟机的预留内存和内存过量分配以便决定是否允许打开电源、执行迁移或更改预留。计算不会考虑虚拟机消耗的实际内存，因为内存预留并不总是与虚拟机的实际内存使用率相关联。如果实际使用率大于预留内存，则故障切换容量会不足，导致故障切换的性能下降。vSphere可用性VMware,Inc.保留所有权利。17通过设置性能减少阈值，可以指定配置问题的发生次数。例如：n默认值为100%，不会产生任何警告。n如果阈值降至0%，则群集使用率超过可用容量时，就会生成警告。n如果阈值降至20%，可以允许的性能减少量按如下方式计算：performancereduction=currentutilization*20%。当前使用率减去性能减少量的值超过可用容量时，将发出配置通知。群集资源百分比准入控制可以将vSphereHA配置为通过预留特定百分比的群集CPU和内存资源来执行准入控制，用于从主机故障中进行恢复。使用此准入控制类型，vSphereHA可确保预留特定百分比的CPU和内存资源总量用于进行故障切换。使用群集资源百分比选项，vSphereHA可强制执行下列准入控制：1计算群集内所有已打开电源虚拟机的总资源要求。2计算可用于虚拟机的主机资源总数。3计算群集的“当前的CPU故障切换容量”和“当前的内存故障切换容量”。4确定“当前的CPU故障切换容量”或“当前的内存故障切换容量”是否小于对应的“配置的故障切换容量”（由用户提供）。如果是，则准入控制不允许执行此操作。vSphereHA将使用虚拟机的实际预留。如果虚拟机没有预留（即预留量为0），则会应用默认设置（0MB内存和32MHzCPU）。注准入控制的群集资源百分比选项还会检查群集中是否至少有两个启用了vSphereHA的主机（不包括正在进入维护模式的主机）。如果只有一个已启用vSphereHA的主机，即使可以使用足够的资源百分比，也不允许执行此操作。进行此次额外检查的原因在于如果群集中只有一个主机，则vSphereHA无法进行故障切换。计算当前故障切换容量已打开电源的虚拟机的总资源要求由两个组件组成，即CPU和内存。vSphereHA将计算这些值。nCPU组件值的计算方法是：加总已打开电源虚拟机的CPU预留。如果没有为虚拟机指定CPU预留，则系统会为其分配一个默认值32MHz（可以使用das.vmcpuminmhz高级选项更改此值）。n内存组件值的计算方法是：加总每台已打开电源虚拟机的内存预留（以及内存开销）。计算出主机的CPU和内存资源总和，从而得出虚拟机可使用的主机资源总数。这些值包含在主机的根资源池中，而不是主机的总物理资源中。不包括用于虚拟化目的的资源。只有处于连接状态、未进入维护模式而且没有vSphereHA错误的主机才列入计算范畴。先用主机CPU资源总数减去总CPU资源要求，然后再用这个结果除以主机CPU资源总数，从而计算出“当前的CPU故障切换容量”。“当前的内存故障切换容量”的计算方式与之相似。vSphere可用性VMware,Inc.保留所有权利。18示例：使用群集资源百分比进行准入控制示例中展示了使用此准入控制策略计算和使用“当前故障切换容量”的方式。对群集进行如下假设：n群集包括三台主机，每台主机上可用的CPU和内存资源数各不相同。第一台主机(H1)的可用CPU资源和可用内存分别为9GHz和9GB，第二台主机(H2)为9GHz和6GB，而第三台主机(H3)则为6GHz和6GB。n群集内存在五个已打开电源的虚拟机，其CPU和内存要求各不相同。VM1所需的CPU资源和内存分别为2GHz和1GB，VM2为2GHz和1GB，VM3为1GHz和2GB，VM4为1GHz和1GB，VM5则为1GHz和1GB。nCPU和内存的已配置故障切换容量都设置为25%。图2‑1.使用“预留的群集资源的百分比”策略的准入控制示例资源总量要求7GHz、6GB主机资源总量24GHz、21GB2GHz1GB2GHz1GB1GHz2GB1GHz1GB1GHz1GB虚拟机19GHz9GBH19GHz6GBH26GHz6GBH3虚拟机2虚拟机3虚拟机4虚拟机5已打开电源的虚拟机的总资源要求为7GHzCPU和6GB内存。可用于虚拟机的主机资源总数为24GHzCPU和21GB内存。根据上述情况，“当前的CPU故障切换容量”为70%((24GHz-7GHz)/24GHz)。同样，“当前的内存故障切换容量”为71%((21GB-6GB)/21GB)。由于群集的“配置的故障切换容量”设置为25%，因此仍然可使用45%的群集CPU资源总数和46%的群集内存资源打开其他虚拟机电源。插槽策略准入控制使用插槽策略选项，vSphereHA准入控制允许指定数目的主机出现故障，同时可以确保群集内留有足够的资源来对这些主机上的所有虚拟机进行故障切换。使用插槽策略时，vSphereHA通过以下方式执行准入控制：1计算插槽大小。插槽是内存和CPU资源的逻辑表示。默认情况下，会调整插槽的大小来满足群集中任何已打开电源虚拟机的要求。vSphere可用性VMware,Inc.保留所有权利。192确定群集内每台主机可以拥有的插槽数目。3确定群集的当前故障切换容量。这是可以发生故障并仍然有足够插槽满足所有已打开电源虚拟机的主机的数目。4确定“当前故障切换容量”是否小于“配置的故障切换容量”（由用户提供）。如果是，则准入控制不允许执行此操作。注您可以从vSphereClient中vSphereHA设置的准入控制部分设置CPU和内存的特定插槽大小。插槽大小计算vSphereHA插槽大小和准入控制(http://link.brightcove.com/services/player/bcpid2296383276001?bctid=ref:video_vsphere_slot_admission_control)插槽大小由两个组件（CPU和内存）组成。nvSphereHA计算CPU组件的方法是先获取每台已打开电源虚拟机的CPU预留，然后再选择最大值。如果没有为虚拟机指定CPU预留，则系统会为其分配一个默认值32MHz。可以使用das.vmcpuminmhz高级选项更改此值。nvSphereHA计算内存组件的方法是先获取每台已打开电源虚拟机的内存预留和内存开销，然后再选择最大值。内存预留没有默认值。如果群集内虚拟机的预留值大小不一致，则会影响插槽大小的计算。为避免出现这种情况，可以使用das.slotcpuinmhz或das.slotmeminmb高级选项分别指定插槽大小的CPU或内存组件的上限。请参见vSphereHA高级选项。您也可以通过查看需要多个插槽的虚拟机数来确定群集中资源碎片的风险。可以从vSphereClient中vSphereHA设置的准入控制部分对此进行计算。如果已使用高级选项指定了固定插槽大小或最大插槽大小，则虚拟机可能需要多个插槽。使用插槽数目计算当前故障切换容量计算出插槽大小后，vSphereHA会确定每台主机中可用于虚拟机的CPU和内存资源。这些值包含在主机的根资源池中，而不是主机的总物理资源中。可以在vSphereClient中主机的摘要选项卡上查找vSphereHA所用主机的资源数据。如果群集中的所有主机均相同，则可以用群集级别指数除以主机的数量来获取此数据。不包括用于虚拟化目的的资源。只有处于连接状态、未进入维护模式且没有任何vSphereHA错误的主机才列入计算范畴。然后，即可确定每台主机可以支持的最大插槽数目。为确定此数目，请用主机的CPU资源数除以插槽大小的CPU组件，然后将结果化整。对主机的内存资源数进行同样的计算。然后，比较这两个数字，较小的那个数字即为主机可以支持的插槽数。通过确定可以发生故障并仍然有足够插槽满足所有已打开电源虚拟机要求的主机的数目（从最大值开始）来计算当前故障切换容量。vSphere可用性VMware,Inc.保留所有权利。20示例：使用插槽策略的准入控制示例中展示了使用此准入控制策略计算和使用插槽大小的方式。对群集进行如下假设：n群集包括三台主机，每台主机上可用的CPU和内存资源数各不相同。第一台主机(H1)的可用CPU资源和可用内存分别为9GHz和9GB，第二台主机(H2)为9GHz和6GB，而第三台主机(H3)则为6GHz和6GB。n群集内存在五个已打开电源的虚拟机，其CPU和内存要求各不相同。VM1所需的CPU资源和内存分别为2GHz和1GB，VM2为2GHz和1GB，VM3为1GHz和2GB，VM4为1GHz和1GB，VM5则为1GHz和1GB。n“群集允许的主机故障数目”设置为1。图2‑2.使用“群集允许的主机故障数目”策略的准入控制示例如果H1出现故障则剩余6个插槽插槽大小2GHz、2GB2GHz1GB2GHz1GB1GHz2GB1GHz1GB1GHz1GB虚拟机19GHz9GB4个插槽H19GHz6GB3个插槽H26GHz6GB3个插槽H3虚拟机2虚拟机3虚拟机4虚拟机51比较虚拟机的CPU和内存要求，然后选择最大值，从而计算出插槽大小。最大CPU要求（由VM1和VM2共享）为2GHz，而最大内存要求（针对VM3）为2GB。根据上述情况，插槽大小为2GHzCPU和2GB内存。2由此可确定每台主机可以支持的最大插槽数目。H1可以支持四个插槽。H2可以支持三个插槽（取9GHz/2GHz和6GB/2GB中较小的一个），H3也可以支持三个插槽。3计算出当前故障切换容量。最大的主机是H1，如果它发生故障，群集内还有六个插槽，足够供所有五个已打开电源的虚拟机使用。如果H1和H2都发生故障，群集内将仅剩下三个插槽，这是不够用的。因此，当前故障切换容量为1。群集内可用插槽的数目为1（H2和H3上的六个插槽减去五个已使用的插槽）。vSphere可用性VMware,Inc.保留所有权利。21专用故障切换主机准入控制在配置vSphereHA时可以将特定主机指定为故障切换主机。借助专用故障切换主机准入控制，在主机发生故障时，vSphereHA将尝试在任一指定的故障切换主机上重新启动其虚拟机。如果无法重新启动虚拟机（例如，故障切换主机发生故障或者资源不足时），vSphereHA会尝试在群集内的其他主机上重新启动这些虚拟机。为了确保故障切换主机上拥有可用的空闲容量，将阻止您打开虚拟机电源或使用vMotion将虚拟机迁移到故障切换主机。而且，为了保持负载平衡，DRS也不会使用故障切换主机。注如果使用专用故障切换主机准入控制，并指定多个故障切换主机，则DRS不会尝试对故障切换主机上运行的虚拟机实施虚拟机-虚拟机关联性规则。vSphereHA互操作性vSphereHA可以与其他功能进行交互操作，如DRS和vSAN。在配置vSphereHA之前，应了解其与其他功能或产品进行交互操作的限制。将vSphereHA与vSAN配合使用可以使用vSAN作为vSphereHA群集的共享存储。如果启用，vSAN会将主机上指定的本地可用存储磁盘汇聚到所有主机共享的单个数据存储中。要将vSphereHA与vSAN配合使用，必须注意针对这两种功能的互操作性的某些注意事项和限制。有关vSAN的信息，请参见管理VMwarevSAN。注可以将vSphereHA与vSAN延伸群集配合使用。ESXi主机要求仅当满足以下条件时，才能将vSAN与vSphereHA群集配合使用：n群集中所有ESXi主机的版本必须全部为5.5或更高版本。n群集必须最低具有三个ESXi主机。网络连接差异vSAN具有自己的网络。如果为同一群集启用vSAN和vSphere

                    本文档为【VMware vSphere67可用性架构规划】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

VMware vSphere67可用性架构规划

你可能还喜欢