VM Compute Resiliency

Este post se trata sobre pruebas de fallos a máquinas virtuales en Windows server 2016, es una versión mejorada de versiones anteriores.

El comportamiento en las versiones anteriores es que cuando una máquina virtual (VM) experimentó un fallo en la lectura o escritura en su disco duro virtual (VHD / X), ya sea que la máquina virtual o aplicaciones que se ejecutan dentro de la máquina virtual falle. Obviamente, esto es muy perjudicial en entornos de trabajo.

En los entornos de nube de hoy en día los fallos transitorios en el almacenamiento han llegado a ser más común los fallos de disco duro. fallo en el almacenamiento transitorio significa que una máquina virtual (VM) no tiene acceso al archivo VHDX y que las peticiones de lectura o escritura en el disco están fallando. En Windows Server 2016 hay nuevas capacidades de Hyper-V que permiten a una máquina virtual detectar cuando el acceso de almacenamiento falla.

En Windows Server 2016 hay nuevas capacidades que se han introducido, que detecta los errores de almacenamiento y toma medidas para mitigar el impacto. Cuando una máquina virtual experimenta un fallo al momento de iniciarse o en ejecución a su VHD / VHDX la máquina virtual se coloca en un estado de pausa crítica. La máquina virtual está congelada en el tiempo, lo que resulta en todo el interior de la máquina virtual. El VM permanecerá en este estado hasta que pueda responder de nuevo. La máquina virtual se desplaza de nuevo a un estado de ejecución cuando pueda empezar a leer y escribir a su VHD / X. Dado que se mantiene el estado de la sesión de la máquina virtual, esto significa que la máquina virtual se reanuda exactamente donde lo dejó. Para fallos transitorios cortos, esto será comúnmente completamente transparente para los clientes.

Recuerde que cuando una máquina virtual está en un estado de pausa crítico, la máquina virtual se congela y no es accesible a los clientes. Así que hay una ventana en la que los clientes no serán capaces de acceder a la máquina virtual. Pero el hecho de que el estado de la sesión VM es retenido, hace que el corte de almacenamiento sea mucho menos impactante.

Una máquina virtual no se queda en un estado crítico de pausa indefinidamente, si el acceso de almacenamiento no puede ser recuperado dentro del tiempo de espera configurable, la máquina virtual se apaga y el siguiente arranque será un arranque en frío.

Algunos puntos que nos puede beneficiar:

Estos son algunos de los escenarios potencialmente transitorios en los que sería beneficioso que su máquina virtual sea más resistente a los fallos de comunicación dentro del clúster:

Nodo desconectado: El servicio de clúster intenta conectarse a todos los nodos activos. El (aislado) nodo desconectado no puede hablar con cualquier nodo de un grupo de miembros activos.

Accidente Cluster Service: El servicio de clúster en un nodo que está inactivo. El nodo no está en comunicación con cualquier otro nodo.

Desconexión asimétrica: el servicio de clúster está intentando conectarse a todos los nodos activos. El nodo aislado puede hablar con al menos un nodo de miembros de clúster activo.

Esto nos ayudara que en el caso de que una máquina virtual al iniciarse pueda fallar o sus aplicaciones fallen, la máquina virtual no se inicia por un periodo corto de tiempo y así evitar perder los datos que tiene la maquina.

 

Nombre: David

Apellidos: Claros Salazar