El tiempo medio de restauraci¨®n (a veces llamado tiempo medio de recuperaci¨®n), o MTTR, describe el tiempo promedio de recuperaci¨®n de una implementaci¨®n fallida, incidente o interrupci¨®n del servicio. Mide el tiempo desde la detecci¨®n de un incidente o una interrupci¨®n hasta que se restaura toda la funcionalidad del sistema.
MTTR es una m¨¦trica de alto nivel que lo ayuda a medir la velocidad de su proceso de recuperaci¨®n e indica la rapidez con la que su sistema puede recuperarse de una falla. En t¨¦rminos generales, MTTR generalmente se relaciona con incidentes no planificados, en lugar de solicitudes de servicio.
Tiempo medio de restauraci¨®n frente a resoluci¨®n: ?Cu¨¢l es la diferencia?
El tiempo medio de restauraci¨®n se refiere al tiempo promedio que lleva recuperarse de una falla de un producto o servicio, pero no incluye el tiempo adicional que lleva garantizar que el incidente no vuelva a ocurrir.
Por otro lado, el tiempo promedio para resolverlo es el tiempo promedio necesario para restaurar un sistema por completo, incluido el tiempo para solucionar el problema y completar cualquier trabajo adicional necesario para evitar que el problema vuelva a ocurrir. Esto puede incluir la detecci¨®n de fallas, el diagn¨®stico, la restauraci¨®n y las medidas proactivas adoptadas para fortalecer el sistema contra fallas similares en el futuro.
Como resultado, el tiempo medio de resoluci¨®n proporciona informaci¨®n sobre el alcance completo necesario para resolver el problema m¨¢s all¨¢ del tiempo de inactividad real, lo que extiende la responsabilidad del equipo m¨¢s all¨¢ de simplemente solucionar el problema para mejorar el rendimiento a largo plazo del sistema.
C¨®mo calcular el tiempo medio de restauraci¨®n
El tiempo medio de restauraci¨®n se calcula sumando el tiempo de inactividad total durante un per¨ªodo de tiempo espec¨ªfico y dividi¨¦ndolo por el n¨²mero total de incidentes dentro de ese per¨ªodo de tiempo.
MTTR = suma de todo el tiempo para resolver per¨ªodos/cantidad de incidentes
Por ejemplo, imagine que su sistema falla tres veces en dos semanas. Si el primer incidente tomara dos horas en restaurarse, el segundo incidente tomara cuatro horas y el tercer incidente tomara seis horas para un total de 12 horas, el MTTR para ese per¨ªodo de dos semanas ser¨ªa:
MTTR = 12 horas de tiempo de inactividad total/3 incidentes
MTTR = 4 horas
?Cu¨¢l es un buen momento para restaurar?
Las interrupciones del sistema y el tiempo de inactividad afectan en gran medida la experiencia del cliente, por lo que es importante que MTTR sea lo m¨¢s breve posible. Un MTTR m¨¢s alto significa que la organizaci¨®n y sus clientes tienen m¨¢s probabilidades de experimentar un tiempo de inactividad significativo y frecuente, lo que puede provocar quejas, cancelaciones y no renovaciones.
Un buen MTTR est¨¢ directamente relacionado con la rapidez con la que puede detectar e identificar la causa ra¨ªz de un problema (el tiempo medio de detecci¨®n o MTTD). Cuanto m¨¢s tarde en identificar un problema, m¨¢s tiempo le llevar¨¢ restaurar el sistema a su funcionamiento completo.
Una MTTD baja es la clave para reducir el MTTR y mejorar otras m¨¦tricas de confiabilidad. Si disminuye el tiempo necesario para detectar un problema, tambi¨¦n disminuye el tiempo hasta su resoluci¨®n. La observabilidad y el monitoreo continuo desempe?an un papel importante en la alerta a los equipos sobre problemas y la reducci¨®n r¨¢pida de MTTD.
Adem¨¢s del monitoreo, estas son otras formas de reducir el MTTR:
- Desarrolle un plan de gesti¨®n de incidentes claramente documentado que permita a los equipos saber c¨®mo gestionar un incidente, desde la primera alerta hasta el momento en que el sistema reanude el funcionamiento completo.
- Use herramientas automatizadas para asignar responsabilidades, crear documentos, capturar an¨¢lisis y administrar configuraciones.
- Defina y asigne claramente las funciones y responsabilidades del equipo para que todos sepan qu¨¦ hacer cuando ocurre un incidente.
- Realice informes post mortem sobre incidentes pasados para investigar y documentar los detalles espec¨ªficos de cada problema, c¨®mo sucedi¨® y c¨®mo evitarlo en el futuro.
C¨®mo calcular el tiempo medio de resoluci¨®n
El tiempo medio de resoluci¨®n (MTTR) difiere del tiempo medio de restauraci¨®n porque incluye cualquier tiempo adicional dedicado a evitar que ocurran problemas similares en el futuro.
Para calcular el MTTR, agregue el tiempo total que lleva restaurar el sistema, incluido el tiempo adicional para asegurarse de que el problema no vuelva a ocurrir, y divida este n¨²mero por el n¨²mero total de incidentes. Piense de esta manera:
MTTR = tiempo total de restauraci¨®n de incidentes + tiempo adicional dedicado a garantizar que el problema no vuelva a ocurrir/cantidad de incidentes
Imagine que su sistema falla dos veces en un per¨ªodo de 48 horas. El primer incidente dura una hora y el segundo dura dos horas. Luego, el equipo pasa tres horas adicionales fortaleciendo los sistemas para evitar que los problemas vuelvan a ocurrir, lo que da como resultado un total de seis horas.
MTTR = (1 + 2 + 3) horas/2 incidentes
MTTR = 3 horas
?Cu¨¢l es un buen momento para resolver?
Dado que la reducci¨®n de la MTTD reduce el tiempo medio de restauraci¨®n, las mismas acciones tambi¨¦n afectar¨¢n el tiempo de resoluci¨®n completa (tiempo medio de resoluci¨®n).
Tambi¨¦n se puede enfocar en mejorar la rapidez con la que el equipo puede implementar medidas preventivas. El post mortem del tiempo medio para restaurar el proceso, por ejemplo, ser¨¢ especialmente ¨²til aqu¨ª, ya que un an¨¢lisis profundo del problema puede revelar resultados ¨²tiles que se pueden aplicar a las actividades de seguimiento.
?Qui¨¦n debe usar MTTR y cu¨¢ndo?
En general, MTTR es una buena m¨¦trica para evaluar la velocidad de su proceso de recuperaci¨®n en varias ¨¢reas de la tecnolog¨ªa. Debe usar MTTR cuando desee mejorar el tiempo promedio que su equipo tarda en reparar los activos.
C¨®mo usar MTTR en ciberseguridad
El MTTR en ciberseguridad se refiere al tiempo que le lleva al equipo volver a poner en funcionamiento el sistema despu¨¦s de una violaci¨®n de la ciberseguridad. De esta manera, muestra la rapidez con la que su equipo de seguridad puede devolver el sistema y los clientes afectados a sus operaciones normales.
En los equipos de ciberseguridad, el reloj MTTR generalmente comienza cuando se alerta al equipo sobre una falla del sistema debido a un ciberataque.
Aqu¨ª, el proceso de restauraci¨®n puede implicar varios pasos, incluida la contenci¨®n (para detener la propagaci¨®n de la amenaza), la eliminaci¨®n real de la amenaza y la desinfecci¨®n de los componentes y recursos necesarios para restaurar el sistema a la normalidad. Una vez completados todos los pasos, el sistema se considera completamente restaurado.
C¨®mo usar MTTR en la respuesta a incidentes
El MTTR es una m¨¦trica clave en la respuesta a incidentes porque proporciona informaci¨®n sobre la gravedad de un impacto y ayuda a las organizaciones a evaluar si los incidentes de tiempo de inactividad se resuelven lo suficientemente r¨¢pido.
En respuesta a incidentes, MTTR es un promedio del tiempo que transcurre entre las marcas de tiempo informadas y resueltas para un problema. Las herramientas automatizadas no solo alertan a los equipos sobre incidentes, sino que tambi¨¦n los ayudan a colaborar y comunicarse con mayor facilidad, lo que lleva a un mejor MTTR.
Los objetivos de nivel de servicio (SLO) y los indicadores de nivel de servicio (SLI) tambi¨¦n se pueden usar para medir la confiabilidad y disponibilidad del sistema y la satisfacci¨®n aproximada del cliente con un producto o servicio. Cuando se viola una SLO, el tiempo medio para restaurar los servicios es el tiempo total para detectar, mitigar y resolver el problema hasta que vuelva a cumplir con la SLO.
C¨®mo usar MTTR en DevOps
En DevOps , MTTR puede representar el tiempo promedio necesario para restaurar una aplicaci¨®n despu¨¦s de una falla de producci¨®n. La medici¨®n de MTTR ayuda a los equipos a garantizar la resistencia y estabilidad del sistema, adem¨¢s de determinar d¨®nde se puede mejorar el proceso de respuesta.
En DevOps , la medici¨®n de MTTR a menudo implica el uso de sistemas de monitoreo para registrar el inicio de un incidente y cu¨¢ndo se resolvi¨® (por ejemplo, el tiempo para revertir un cambio o lanzamiento despu¨¦s de que haya llegado a la producci¨®n).
MTTR tambi¨¦n puede evaluar el rendimiento del equipo de DevOps. Cuanto m¨¢s bajo sea el MTTR de un equipo de DevOps, mejor. El identifica cuatro categor¨ªas de rendimiento para los equipos de DevOps:
- Elite: Menos de una hora
- Alto: Menos de 24 horas
- Medio: Menos de una semana
- Bajo: Una semana o m¨¢s
Un MTTR m¨¢s r¨¢pido produce tasas de falla m¨¢s bajas, entrega m¨¢s r¨¢pida y una mayor satisfacci¨®n del usuario. A medida que crece la madurez de DevOps, el MTTR deber¨ªa disminuir cada vez m¨¢s.
?Qu¨¦ herramientas necesita para monitorear los MTTR?
Para mejorar el MTTR, debe poder detectar r¨¢pidamente las fallas del sistema. Las herramientas de monitoreo continuo, como Prometheus y Grafana, as¨ª como las herramientas populares de monitoreo del rendimiento de las aplicaciones, como Datadog , Splunk y Dynatrace, pueden ayudarlo a recopilar m¨¦tricas de MTTR.
Estos sistemas utilizan una gran cantidad de datos hist¨®ricos y en tiempo real para ayudarlo a diagnosticar y analizar problemas m¨¢s r¨¢pidamente. Sin embargo, para respaldar sus consultas complejas y el procesamiento en tiempo real, necesitar¨¢ las velocidades de rendimiento ultrarr¨¢pidas que puede proporcionar el almacenamiento basado ¨ªntegramente en tecnolog¨ªa flash.
É«¿Ø´«Ã½ ofrece varias soluciones de almacenamiento de datos basadas ¨ªntegramente en tecnolog¨ªa flash que proporcionan un rendimiento masivo y un rendimiento consistente. FlashBlade ? es una plataforma de almacenamiento de objetos y archivos de alto rendimiento que ofrece la velocidad y el rendimiento necesarios para la aplicaci¨®n y las herramientas de monitoreo que admiten MTTD y MTTR m¨¢s r¨¢pidos.
?Cu¨¢l es la siguiente m¨¦trica despu¨¦s de MTTR?
Si bien el MTTR es un poderoso indicador de su capacidad para reaccionar r¨¢pidamente a los problemas, existen otras m¨¦tricas de confiabilidad importantes que tambi¨¦n debe monitorear. Obtenga m¨¢s informaci¨®n sobre otro c¨¢lculo cr¨ªtico: tiempo medio antes de la falla (MTBF).