GCP StackDriver

Rene Martinez

hace 6 años

Es la herramienta de monitoreo de Google Cloud. Toma muestras de métricas y metadatos de GCP y AWS y los muestra ordenadamente en un dashboard. Una de las principales ventajas de esta herramienta es que integra en una única solución funcionalidades y servicios que usualmente requieren el uso múltiples herramientas.

Gracias a las pre-configuraciones inteligentes de stackdriver es posible instalar un ambiente de control y monitoreo eficiente en menos de 5 minutos. Si se despliegan los agentes de logs y monitoreo adicionales (https://dl.google.com/cloudagents/install-monitoring-agent.sh y https://dl.google.com/cloudagents/install-logging-agent.sh) se pueden obtener aún más métricas e informaciones.

Se divide en 5 áreas cada una con determinadas responsabilidades:

Monitoring

Recolecta y muestra métricas de determinadas plataformas, sistemas y aplicaciones. Gracia a la configuración dinámica, las herramienta de monitoreo se configuran automáticamente al desplegar cada recurso.

Esta herramienta permite crear chequeos de tiempo de actividad (uptime checks), los cuales permiten observar el estado de cada servicio en tiempo real en dependencia de la frecuencia de chequeo que se configure.

La utilidad de monitoreo permite hacer chequeos de endpoints a aplicaciones web y otros servicios consumibles desde internet. Se pueden crear chequeos asociados a URL, grupos de instancias, recursos, balanceadores de carga, etc.

Se pueden crear métricas personalizadas y alertas para cuando una métrica sobrepase un determinado umbral se realice una notificación a la persona que debe revisar el problema.

SRE propone una serie de buenas prácticas a la hora de crear una alerta:

1- Crear alertas en síntomas, no en causas. (Chequear por fallos o lentitud en queries, no base de datos caida)
2- Usar varios canales de notificación. (Evitar un único punto de fallo, notificar mediante, SMS, eMail, webhook, etc)
3- Personalizar la alerta. (Brindar toda la información disponible para que el revisor de la alarma sepa que acción realizar y que recurso examinar)
4- Evitar el ruido. (Ajustar el monitoreo para que las alertas sean notables, no desechables)

Error Reporting.

Analiza y unifica los errores que ocurren en las aplicaciones desplegadas en la plataforma y realiza notificaciones con los mismos. Notifica cuando ocurre un error y tiene un tablero de errores.

Logging

Está activado por defecto en App Engine y Kubernetes Engine pero requiere la instalación manual del agente de logguing en las instancias de máquinas virtuales de Compute Engine. Almacena los logs asociados a plataformas, sistemas y aplicaciones. Permite visualizar, filtrar y exportar dichos logs.

Para exportar los logs se debe crear un sink el cual puede exportar los logs a Cloud Storage (de forma masiva cada una hora) y a Pub/Sub y BigQuery (de forma inmediata)

Al igual que las alarmas existen una serie de recomendaciones:

1- No usar creterios de búsquedas de subString para nombres de servicios o tipos de recursos.
2- Buscar por valores específicos en campos indexados.
3- Usar filtros avanzados para queries mas efectivas. Se pueden crear filtros directamente de los logs.
4- Utilizar la interfaz de vista avanzada cuando se requiere filtrado y seleccion avanzada

Debugger

Permite capturar valores de variables y llamadas a funciones en tiempo de ejecución y enlazarlos a cada línea de código fuente donde se encuentran, lo que permite hacer un efectivo debugger sin necesidad de parar o ralentizar la aplicación.

Trace

Provee muestreo y reportes de latencia a aplicaciones ejecutandose en App Engine. Recolecta información de GAE, balanceadores HTTPS u otras aplicaciones que utilicen la SDK de traceo de Stackdriver y muestra los datos tomados en tiempo real.

El uso de stackdriver requiere la creación de una cuenta en el sitio de StackDriver y seleccionar el o los proyectos que se van a monitorear con la misma. Una vez creada la cuenta para sacar mayor provecho a la herramienta se recomienda instalar los agentes de monitoreo y logueo.

Hay dos tipos de cuenta: Básica (gratis) y Premium (se cobra según los recursos que son monitoreados). El monitoreo de AWS requiere el tipo de cuenta premium.

Stackdriver soporta un gran ecosistema de tecnologías relacionadas con tareas de operaciones, seguridad y capacidad de cumplimiento.

Para construir un dashboard se puede seleccionar de una gran variedad de métricas preconfiguradas y ordenadas por tipo de servicio de la nube y de métrica. Alguna de las disponibles son:

Métricas GCP: