由于本地盘不提供数据高可用能力,为提升本地盘的使用体验,阿里云提供了丰富的本地盘运维能力,方便您及时了解本地盘实例是否发生异常并及时采取行动。本文介绍常见的运维场景以及相关系统事件。
常见运维场景及相关系统事件
本地盘实例常见的运维场景及相关系统事件如下图所示。
说明
您可以通过修改实例维护属性自定义实例自动恢复的方式,例如实例维护属性为自动重新部署,则在自动恢复实例时默认会进入重新部署实例相关的场景。更多信息,请参见修改实例维护属性。
弹性裸金属服务器实例还可以安装插件xdragon_hardware_detect_plugin,定期检测弹性裸金属服务器实例上的本地盘的健康状态。具体操作,请参见安装监控插件。
上述场景中相关系统事件的说明,请参见:
-
场景①
-
场景②
-
场景③
-
场景④
-
场景⑤
-
场景⑥
说明
为避免影响业务,在执行运维任务前请注意业务的可用性和数据备份,例如在应用层切换流量、从负载均衡实例中移除ECS实例、备份磁盘的数据等。
场景①
SystemMaintenance.Reboot对应的运维流程如下:
-
您收到计划重启实例的通知。
-
您按需选择一种响应方式。
-
不希望在计划的时间段内重启实例,自行修改预约重启时间。具体操作,请参见修改预约重启时间。
-
在用户操作窗口期内自行重启实例。具体操作,请参见重启实例。
说明
必须在ECS控制台重启实例或调用API RebootInstance,在实例内部重启无效。
-
等待系统自动重启实例。
-
-
您检查实例和应用是否正常。
SystemMaintenance.Reboot支持的事件状态,请参见ECS系统事件汇总。典型的事件状态变化示意图,请参见系统事件的状态和窗口期。
场景②
SystemMaintenance.Redeploy对应的运维流程如下:
-
您收到计划重新部署本地盘实例的通知。
-
您完成准备工作,包括修改/etc/fstab配置文件、备份数据等。
更多准备工作的信息,请参见重新部署本地盘实例的前提条件章节。
-
您按需选择一种响应方式。
-
在用户操作窗口期内自行重新部署本地盘实例。具体操作,请参见重新部署本地盘实例。
-
等待系统自动重新部署本地盘实例。
说明
重新部署本地盘实例后,实例会迁移到新的物理机上并重新初始化本地盘,本地盘上的数据会被清空。
-
-
您检查实例和应用是否正常,并按需同步数据。
SystemMaintenance.Redeploy支持的事件状态,请参见ECS系统事件汇总。典型的事件状态变化示意图,请参见系统事件的状态和窗口期。
场景③
SystemFailure.Reboot对应的运维流程:
-
系统开始自动重启实例。
-
您收到重启实例的通知。
实例自动重启中,您无需操作,等待完成即可。
-
您检查实例和应用是否正常。
SystemFailure.Reboot支持的事件状态,请参见ECS系统事件汇总。典型的事件状态变化示意图,请参见系统事件的状态和窗口期。
场景④
SystemFailure.Redeploy对应的运维流程:
-
您收到计划重新部署本地盘实例的通知。
-
您完成准备工作,包括修改/etc/fstab配置文件、备份数据等。
更多准备工作的信息,请参见重新部署本地盘实例的前提条件章节。
-
您按需选择一种响应方式。
-
在用户操作窗口期内自行重新部署本地盘实例。具体操作,请参见重新部署本地盘实例。
-
等待系统自动重新部署本地盘实例。
说明
重新部署本地盘实例后,实例会迁移到新的物理机上并重新初始化本地盘,本地盘上的数据会被清空。
-
-
您检查实例和应用是否正常,并按需同步数据。
SystemFailure.Redeploy支持的事件状态,请参见ECS系统事件汇总。典型的事件状态变化示意图,请参见系统事件的状态和窗口期。
场景⑤
针对场景⑤,您可以将实例重新部署到其他宿主机或者仅更换坏盘。更换坏盘时,请注意以下事项:
-
并非所有本地盘实例的磁盘都支持磁盘隔离,只有系统事件的操作中包含磁盘隔离时,您才能隔离受损磁盘。
-
磁盘隔离和磁盘维修为两个独立的操作,磁盘维修的前提是先进行磁盘隔离,但磁盘隔离后并不一定能维修,即并非所有实例都支持本地盘的维修。只有当阿里云发送恢复磁盘的通知时,您才能发起维修。
-
重新部署实例可以快速恢复本地盘可用性,但会丢失所有本地盘的数据。具体操作,请参见重新部署本地盘实例。
-
更换坏盘可以保留除坏盘外其他本地盘的数据,对应的运维流程如下:
-
您收到磁盘故障以及计划隔离坏盘的通知。
-
您完成准备工作,包括修改/etc/fstab配置文件、备份数据等。
-
如果系统事件中包括隔离坏盘事件或对应操作,您响应通知,授权隔离坏盘。
-
如果系统事件中包括Reboot事件或对应操作,您需要重启实例。
-
阿里云在宿主机上移除坏盘,并插入新盘,然后发送恢复磁盘的通知。
-
如果系统事件中包括恢复磁盘事件或对应操作,您响应通知,授权恢复磁盘。
-
如果系统事件中包括Reboot事件或对应操作,您需要重启实例。
说明
更换坏盘需要您和阿里云配合完成,具体操作,请参见隔离损坏的本地盘和隔离损坏的本地盘(CLI)。
更换坏盘相关系统事件支持的事件状态和对应的变化示意图如下。
-
场景⑥
针对场景⑥,您可以将实例重新部署到其他宿主机或者原地维修。原地维修时,请注意以下事项:
-
原地维修并不能保证100%数据无损也无法保证100%维修成功,建议您在授权维修前,对关键业务数据进行备份。
-
并非所有本地盘实例的磁盘都支持停机维修。
-
维修期间,该本地盘实例无法启动,但该实例还会根据实例的计费方式正常计费。
-
原地维修的周期为14个工作日,在维修期间您可以通过重新部署或释放维修中的实例,终止维修流程。
-
重新部署实例可以快速恢复本地盘可用性,但会丢失所有本地盘的数据。具体操作,请参见重新部署本地盘实例。
-
授权维修对应的运维流程如下:
-
您收到本地盘实例原地维修事件的通知。
-
您按需选择一种响应方式。
-
在用户操作窗口期内自行停止实例并授权维修。
-
等待系统自动执行停机维修操作。
-
-
阿里云对宿主机上的硬件进行维修,维修完成后,发送维修完成事件。
-
您检查实例和应用是否正常,并按需同步数据。
-
SystemMaintenance.StopAndRepair支持的事件状态,请参见ECS系统事件汇总。典型的事件状态变化示意图,请参见系统事件的状态和窗口期。
关于阿里云ecs服务器的内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家
阿里云企业补贴进行中: 马上申请
腾讯云限时活动1折起,即将结束: 马上收藏
同尘科技为腾讯云授权服务中心。
购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠
本文来自投稿,不代表新手站长_郑州云淘科技有限公司立场,如若转载,请注明出处:https://www.cnzhanzhang.com/9299.html