PGKAZ: PostgreSQL + Alta Disponibilidad (parte 2)
- mayo 3, 2021
En esta segunda parte del artĂculo la idea es mostrar, por un lado, quĂ© y cĂłmo visualizamos las distintas mĂ©tricas obtenidas del cluster PGKAZ y, por el otro, cĂłmo monitoreamos los datos obtenidos. Las mĂ©tricas en primera instancia son recepcionadas por Zabbix en el formato de âItemsâ. A continuaciĂłn les mostramos una captura de los Items con los que contamos y sus valores:

Para que se entienda mejor,qué es lo que representa cada Item, pasamos a enumerar uno por uno en detalle:



Zabbix nos permite mantener un historial de estos Items, graficarlos (en el caso de ser valores numĂ©ricos) y al mismo tiempo establecer alertas que nos notifican en caso de que algo no estĂ© funcionando bien. Para cubrir este Ășltimo punto, Zabbix nos ofrece los Triggers. Estos se construyen a partir de los Items mencionados anteriormente en conjunto con funciones proporcionadas por la herramienta de monitoreo y Macros, donde se establece por lo general ciertos umbrales.
El resumen de los Triggers es el siguiente:


- Macros/Variables configurables:.

NOTA: Existen otras variables, pero son internas y no deberĂan ser modificadas por el operador.
AdemĂĄs del Zabbix, para una mejor visualizaciĂłn de los datos utilizamos Grafana. Esta cuenta con la misma informaciĂłn que Zabbix (de hecho, obtiene los datos en base a un datasource de Zabbix) pero renderizada de una forma mĂĄs intuitiva y fĂĄcil de comprender. A diferencia de Zabbix, en Grafana siempre vamos a tener el snapshot actual del Cluster, lo cual es muy Ăștil cuando se quiere tener una vista a alto nivel del estado del PGKAZ.


Consideraciones finales
Como mencionamos en la primera parte de este artĂculo, PGKAZ fue implementado para dar servicio a sistemas crĂticos a nivel de disponibilidad y una pata muy grande para cumplir este requisito es contar con una buena herramienta de monitoreo constante. Zabbix y Grafana nos permiten obtener mĂ©tricas del estado del cluster que junto a algunos algoritmos configurados permiten optimizar la performance del cluster, saber en todo momento si hubo cambio de roles y porquĂ©, y lo mĂĄs importante: anticiparnos a futuros incidentes.
Desde Know-How creemos que este sistema de monitoreo implementado es un complemento fundamental al cluster tanto para nosotros (los operadores) como para el cliente, que en todo momento va a poder saber el estado actual (o histĂłrico) del PGKAZ, sin necesidad de consultarnos.