SegFault - sre

SRE: SLIs, SLOs y Automatizaciones Que Realmente Ayudan

2026-02-06 | 12 min de lectura

Vamos a explorar cómo definir SLIs y SLOs como código, desplegarlos con ArgoCD, y usar servidores MCP para automatizar flujos de trabajo de SRE...

[sre] [kubernetes] [argocd] [observability] [automation]

SRE: Gestión de Incidentes, Guardias y Postmortems como Código

2026-02-23 | 17 min de lectura

Vamos a explorar cómo construir un flujo de gestión de incidentes efectivo, configurar guardias que no quemen a la gente, escribir runbooks como código y hacer postmortems sin culpar a nadie...

[sre] [kubernetes] [observability] [automation] [incidents]

SRE: Observabilidad a Fondo: Trazas, Logs y Métricas

2026-02-28 | 9 min de lectura

Vamos a explorar los tres pilares de la observabilidad, cómo instrumentar tus aplicaciones con OpenTelemetry, construir dashboards útiles en Grafana, y configurar agregación de logs que realmente ayude durante incidentes...

[sre] [kubernetes] [observability] [opentelemetry] [grafana]

SRE: Chaos Engineering, Rompiendo Cosas a Propósito

2026-03-02 | 11 min de lectura

Vamos a explorar chaos engineering en Kubernetes usando Litmus y Chaos Mesh, cómo planificar y ejecutar game days, y por qué romper cosas a propósito es la mejor forma de construir sistemas confiables...

[sre] [kubernetes] [chaos-engineering] [reliability] [testing]

SRE: Planificación de Capacidad, Autoescalamiento y Pruebas de Carga

2026-03-05 | 11 min de lectura

Vamos a explorar cómo dimensionar correctamente tus workloads de Kubernetes, configurar HPA y VPA para escalamiento automático, usar KEDA para escalamiento basado en eventos, y hacer pruebas de carga con k6...

[sre] [kubernetes] [scaling] [load-testing] [performance]

SRE: Gestión de Secretos en Kubernetes

2026-03-07 | 22 min de lectura

Vamos a explorar la gestión de secretos en Kubernetes, desde Sealed Secrets y External Secrets Operator hasta la integración con HashiCorp Vault, estrategias de rotación de secretos, y SOPS para encriptar secretos en Git...

[sre] [kubernetes] [security] [secrets] [vault]

SRE: GitOps con ArgoCD

2026-03-09 | 12 min de lectura

Vamos a explorar los principios de GitOps con ArgoCD, desde Application CRDs y patrones App of Apps hasta estrategias de sincronización, gestión multi-cluster con ApplicationSets, y monitoreo de tus flujos GitOps...

[sre] [kubernetes] [argocd] [gitops] [ci-cd]

SRE: Optimización de Costos en la Nube

2026-03-13 | 21 min de lectura

Vamos a explorar los principios de FinOps y estrategias de optimización de costos para Kubernetes e infraestructura cloud, desde right-sizing de workloads e instancias spot hasta visibilidad con Kubecost y SLOs conscientes del costo...

[sre] [kubernetes] [cloud] [cost-optimization] [finops]

SRE: Gestión de Dependencias y Degradación Elegante

2026-03-17 | 26 min de lectura

Vamos a explorar cómo gestionar dependencias de servicios de forma confiable, desde circuit breakers y patrones bulkhead hasta estrategias de degradación elegante y SLOs de dependencias con ejemplos prácticos en Elixir y Kubernetes...

[sre] [reliability] [patterns] [elixir] [kubernetes]

SRE: Ingeniería de Releases y Entrega Progresiva

2026-03-21 | 12 min de lectura

Vamos a explorar prácticas de ingeniería de releases para deployments confiables, desde canary releases con Argo Rollouts y deployments blue-green hasta feature flags, automatización de rollbacks, y SLOs de deployment...

[sre] [kubernetes] [deployment] [ci-cd] [argocd]

SRE: Confiabilidad de Bases de Datos

2026-03-23 | 27 min de lectura

Vamos a explorar patrones de confiabilidad de bases de datos para PostgreSQL en Kubernetes, desde connection pooling y estrategias de backup hasta migraciones sin downtime, el operador CloudNativePG, y automatización de failover...

[sre] [database] [postgresql] [kubernetes] [reliability]

SRE: Seguridad como Código

2026-03-29 | 24 min de lectura

Vamos a explorar prácticas de seguridad como código para Kubernetes, desde políticas de OPA Gatekeeper y Pod Security Standards hasta escaneo de imágenes con Trivy, network policies, seguridad en runtime con Falco, y seguridad de la cadena de suministro...

[sre] [kubernetes] [security] [opa] [policy]

SRE: Recuperación ante Desastres y Continuidad del Negocio

2026-04-03 | 29 min de lectura

Vamos a explorar la planificación de recuperación ante desastres para Kubernetes, desde objetivos de RPO y RTO hasta backups con Velero, recuperación de etcd, estrategias multi-región, simulacros de DR, y runbooks para recuperación completa del cluster...

[sre] [kubernetes] [disaster-recovery] [backup] [reliability]

SRE: Reduccion de Toil y Automatizacion

2026-04-09 | 21 min de lectura

Vamos a explorar estrategias de reduccion de toil del libro de Google SRE, desde identificar y medir el toil hasta construir sistemas auto-reparables, herramientas internas con Elixir, patrones de seguridad en automatizacion, y la regla del 50 por ciento...

[sre] [automation] [platform-engineering] [toil] [elixir]