Las 10 mejores prácticas para lidiar con incidentes graves en TI

Los incidentes graves afectan a organizaciones, grandes y pequeñas, sin excepción. Incidentes importantes como fallas en el servidor de transacciones bancarias, fallas en el software de facturación de aerolíneas y cortes en el mercado de valores tienen un impacto adverso en los clientes. En tales circunstancias, las mesas de ayuda se cierran con llamadas que solo aumentan el pánico y el caos. Es una carrera contrarreloj encontrar una solución, ya que cada hora de interrupción podría traducirse en miles, si no millones, de dólares perdidos. Los técnicos de TI a menudo se encuentran respondiendo llamadas y respondiendo correos electrónicos en lugar de tratar de encontrar una solución. ¿Qué se necesita para mantener la calma y dirigir a su organización fuera de la situación? Siga estas 10 mejores prácticas para lidiar con incidentes graves que se presenten en su camino.

 

Defina claramente un incidente grave

Cuando un problema causa un gran impacto comercial en varios usuarios, puede clasificarlo como un incidente grave. Es uno que obliga a una organización a desviarse de los procesos de gestión de incidentes existentes. Por lo general, los incidentes de alta prioridad se perciben erróneamente como incidentes graves. Esto probablemente se deba a la ausencia de pautas claras de ITIL. Por lo tanto, para evitar cualquier confusión, debe definir un incidente grave claramente basado en factores como la urgencia, el impacto y la gravedad.

Tenga flujos de trabajo exclusivos

Implementar un flujo de trabajo robusto lo ayuda a restaurar un servicio interrumpido rápidamente. Los flujos de trabajo separados para incidentes graves ayudan a una resolución perfecta. Concéntrese en automatizar y simplificar lo siguiente cuando formule un flujo de trabajo para incidentes graves:

  • Identificar el incidente grave
  • Comunicarse con los interesados afectados
  • Asignar a las personas adecuadas
  • Seguir al incidente grave a lo largo de su ciclo de vida
  • Escalar en caso de incumplimiento de los SLA
  • Resolver y cerrar
  • Generar y analizar informes

Obtenga los recursos correctos

Asegúrese de que sus mejores recursos estén trabajando en incidentes graves. Además, defina claramente sus roles y responsabilidades debido al alto impacto que estos incidentes tienen en los negocios. Podría tener un equipo dedicado o temporal, dependiendo de la frecuencia con la que ocurran incidentes graves. Algunas organizaciones tienen un equipo dedicado de incidentes graves encabezado por un gerente de incidentes graves, mientras que otras tienen un equipo dinámico y ad hoc que cuenta con expertos de varios departamentos. Su objetivo principal debe ser mantener sus recursos comprometidos y evitar conflictos de tiempo y prioridades.

Capacite a su personal y equípelos con las herramientas adecuadas

No sabe cuándo un incidente grave puede afectar su TI, pero el primer paso para manejarlo es estar preparado. Divida a su equipo principal de gestión de incidentes en equipos secundarios y capacítelos en la gestión de incidentes graves. Asigne responsabilidades mediante el mapeo de habilidades con los requisitos. Ejecute pruebas de simulación regularmente para identificar fortalezas, evaluar el rendimiento y abordar las brechas según sea necesario. Esto también ayudaría a su equipo a lidiar con el estrés y estar preparado para enfrentar escenarios en tiempo real. Otorgue a su equipo las herramientas adecuadas, como smartphones y tablets, con conectividad perfecta para que puedan trabajar desde cualquier lugar durante una emergencia.

Configure estrictos SLA y escalamientos jerárquicos

Defina estrictos acuerdos de niveles de servicio para incidentes graves. Configure SLA de respuesta y resolución por separado con puntos claros de escalación para cualquier incumplimiento del proceso. Además, siga un proceso de escalado manual si el técnico asignado no tiene la experiencia necesaria para resolver el incidente. Además, asegúrese de que siempre haya un técnico de respaldo disponible.

Mantenga informados a sus stakeholders

A lo largo del ciclo de vida de incidentes graves, envíe anuncios, notificaciones y actualizaciones de estado a las partes interesadas. Los anuncios en el portal de autoservicio evitarán que los usuarios finales generen tickets duplicados y sobrecarguen la mesa de ayuda. También envíe actualizaciones cada hora o cada dos horas durante un tiempo de inactividad del servicio causado por incidentes graves. Tenga una línea dedicada para responder a incidentes graves de inmediato y ofrecer apoyo a las partes interesadas. Utilice los medios de comunicación más rápidos, como llamadas telefónicas, visitas directas, chat en vivo y escritorio remoto, en lugar de depender del correo electrónico.

Relacione los incidentes graves con otros procesos de ITIL

Después de resolver un incidente grave, realice un análisis de causa raíz mediante el uso de métodos de gestión de problemas. Luego, implemente cambios en toda la organización para evitar la ocurrencia de incidentes similares en el futuro siguiendo el proceso de gestión de cambios. Acelere todo el proceso de gestión de incidentes, problemas y cambios al proporcionar información detallada sobre los activos involucrados mediante el uso de la gestión de activos.

Improvise su base de conocimiento

Formule plantillas de artículos de base de conocimiento simples que capturen detalles críticos como el tipo de incidente grave con el que se relaciona el artículo, el último problema resuelto usando el artículo, el propietario del artículo y los recursos que serían necesarios para implementar la solución. Cree y realice un seguimiento de las soluciones por separado para incidentes graves para que pueda acceder a ellas rápidamente con muy poco esfuerzo.

Revise e informe sobre incidentes graves

Documente y analice todos los incidentes graves para que pueda identificar áreas de mejora. Esto ayudará a su equipo a manejar eficientemente problemas similares en el futuro. Además, genere informes de incidentes graves específicos para análisis, evaluación y toma de decisiones. Puede generar los siguientes informes para ayudar en la toma de decisiones eficiente:

  1. Cantidad de incidentes graves planteados y cerrados cada mes
  2. Tiempo promedio de resolución para incidentes graves
  3. Porcentaje del tiempo de inactividad causante de incidentes graves
  4. Problemas y cambios relacionados con incidentes graves

Documente los procesos de incidentes graves para la mejora continua del servicio

Es una buena práctica documentar los principales procesos de incidentes y flujos de trabajo para una referencia rápida. Esto podría capturar detalles como la cantidad de personal involucrado, sus roles y responsabilidades, los canales de comunicación, las herramientas utilizadas para los flujos de trabajo de reparación, aprobación y escalado, y la estrategia general junto con las métricas de referencia para la respuesta y la resolución. La alta dirección debe evaluar los procesos de forma regular para verificar si se cumplen los niveles de rendimiento específicos en la gestión de incidentes graves. Esto puede ayudar a rectificar fallas y servir para la mejora continua del servicio.

Los incidentes graves son inevitables y cada uno es una experiencia de aprendizaje para su equipo. Adherirse a estas prácticas podría ser su primer paso para dominar el arte de manejar incidentes graves.

Abrir chat
1
¿Necesitas ayuda?
Hola👋
¿En qué podemos ayudarte?
Powered by