SegFault - reliability

SRE: Chaos Engineering, Rompiendo Cosas a Propósito

2026-03-02 | 11 min de lectura

Vamos a explorar chaos engineering en Kubernetes usando Litmus y Chaos Mesh, cómo planificar y ejecutar game days, y por qué romper cosas a propósito es la mejor forma de construir sistemas confiables...

[sre] [kubernetes] [chaos-engineering] [reliability] [testing]

SRE: Gestión de Dependencias y Degradación Elegante

2026-03-17 | 26 min de lectura

Vamos a explorar cómo gestionar dependencias de servicios de forma confiable, desde circuit breakers y patrones bulkhead hasta estrategias de degradación elegante y SLOs de dependencias con ejemplos prácticos en Elixir y Kubernetes...

[sre] [reliability] [patterns] [elixir] [kubernetes]

SRE: Confiabilidad de Bases de Datos

2026-03-23 | 27 min de lectura

Vamos a explorar patrones de confiabilidad de bases de datos para PostgreSQL en Kubernetes, desde connection pooling y estrategias de backup hasta migraciones sin downtime, el operador CloudNativePG, y automatización de failover...

[sre] [database] [postgresql] [kubernetes] [reliability]

SRE: Recuperación ante Desastres y Continuidad del Negocio

2026-04-03 | 29 min de lectura

Vamos a explorar la planificación de recuperación ante desastres para Kubernetes, desde objetivos de RPO y RTO hasta backups con Velero, recuperación de etcd, estrategias multi-región, simulacros de DR, y runbooks para recuperación completa del cluster...

[sre] [kubernetes] [disaster-recovery] [backup] [reliability]

DevOps desde Cero: Respuesta a Incidentes y On-Call

2026-06-14 | 27 min de lectura

Vamos a cubrir los fundamentos de la respuesta a incidentes, niveles de severidad, rotaciones de on-call, herramientas de alertas, runbooks, postmortems sin culpa, y como construir una cultura de on-call saludable que no queme a la gente...

[devops] [incident-response] [on-call] [reliability] [beginners]