sql >> Base de Datos >  >> RDS >> Sqlserver

Cuatro maneras de ayudar a prevenir la sobrecarga de alertas con la supervisión de SQL Server

Para los administradores de bases de datos a cargo de responder a las alertas de SQL Server a todas horas del día y de la noche, la sensación de estar sobrecargados probablemente se vea exacerbada por el aluvión constante de notificaciones de que algo necesita su atención. DERECHO. AHORA.

La supervisión de SQL Server es crucial para mantener una alta disponibilidad y realizar un seguimiento de los problemas de rendimiento en su sistema, y ​​las alertas son, sin lugar a dudas, la forma más eficiente de descubrir si hay un problema. Pero es posible tener demasiado de algo bueno.

Como dice el dicho, “Cuando todo es una prioridad, nada es una prioridad”. La fatiga de alertas es real y puede hacer que ignore o descarte eventos que afectan negativamente a sus usuarios.

Cuando configura la supervisión del rendimiento de SQL Server, es importante configurar las alarmas de manera consciente y de forma que controle cuándo, por qué y con qué frecuencia recibe notificaciones. Aquí hay cuatro formas de administrar alertas que ayudarán a aliviar la sobrecarga de alertas y salvarán lo que queda de su cordura.

1. Apague las alarmas que no necesita

Para muchos DBA, es más fácil decirlo que hacerlo. Hay un pequeño elemento de terror ante la idea de elegir qué alertas no recibir. Afortunadamente, hay algunas mejores prácticas que puede implementar que pueden hacer que su FOMO sea un poco menos doloroso.

Una de las cosas más fáciles que puede hacer es revisar los registros de alertas y apagar las alertas que son crónicamente falsas alarmas o falsos positivos. Hay buenas probabilidades de que no te pierdas un problema real, y tu cerebro apreciará el descanso de reaccionar a notificaciones innecesarias.

Otra estrategia proviene de los ingenieros de confiabilidad del sitio (SRE) de Google. Los SRE están a cargo de la disponibilidad, la latencia, el rendimiento, la eficiencia, la gestión de cambios, la supervisión, la respuesta ante emergencias y la planificación de la capacidad.

Los equipos de SRE cuentan con un sistema de Alerta/Boleto/Registro para minimizar la sobrecarga de alertas mediante la asignación de una respuesta a un evento que se basa en la rapidez con la que se requiere la intervención humana. Las tres respuestas posibles incluyen:

  • Alerta:solo se envía una alerta si una persona debe tomar medidas de inmediato.
  • Boleto:si el evento requiere la acción de una persona, pero puede esperar hasta el horario comercial normal, se envía un boleto y pasa por los canales normales.
  • Registrar:si no se requiere ninguna acción, el evento se registra para el diagnóstico.

2. Use alarmas inteligentes para llegar rápidamente a la causa raíz de una alerta

Cuando su teléfono explota con notificaciones a las 3 a. m., no quiere pasar una hora hurgando para solucionar el problema.

Las alarmas inteligentes no solo le informan que tiene un problema, sino que también le sugieren formas de solucionarlo y lo ayudan a identificar la causa principal. Las alarmas inteligentes también brindan datos históricos sobre el evento para que sepa qué sucedió inmediatamente antes y después de que se activara la alerta.

3. Priorice sus alertas para identificar los problemas más urgentes

No todas las alertas se crean de la misma manera, por lo que es importante configurar su herramienta de monitoreo de rendimiento de SQL Server para que solo envíe alertas para los problemas más importantes. Al priorizar las alertas en función del nivel de gravedad, el impacto en la empresa o los clientes y si se requiere una acción inmediata, elimina parte del ruido generado por las alertas que no son críticas.

Concéntrese en configurar alertas para problemas que pueden hacer que sus servidores se desconecten, dañen gravemente los datos o provoquen una pérdida significativa de datos (es decir, gravedad 17 o superior y mensajes de error 823, 824 y 825).

4. Administre alarmas mediante la aplicación de umbrales y reglas específicos

Establecer umbrales y reglas es un gran ahorro de cordura porque lo ayudará a evitar ser bombardeado por múltiples alertas en un corto período de tiempo.

Cuando define umbrales de rendimiento, SQL Server no le notifica hasta que un valor para una métrica específica alcanza un nivel preocupante; por ejemplo, los niveles de espacio libre en disco o memoria física libre son peligrosamente bajos. Esto libera a los DBA para trabajar en otras tareas sin monitorear constantemente las métricas.

Establecer reglas para alertas le permite personalizar acciones, como la frecuencia con la que desea recibir notificaciones. Por ejemplo, puede configurar SQL Server para que solo envíe una notificación cuando una alerta específica se haya activado cuatro veces o si la alerta contiene un determinado objeto de base de datos o nombre de usuario.

A medida que los DBA comienzan a navegar en un entorno empresarial nuevo y muy diferente después de COVID-19, los niveles de estrés seguramente aumentarán. Mantener una alta disponibilidad y garantizar que sus sistemas SQL Server sean seguros y funcionen de manera óptima seguirá siendo una gran prioridad. Pero ahora es un buen momento para incorporar las capacidades de monitoreo de SQL Server para tomar el control de sus configuraciones de alerta y deshacerse del ruido innecesario.