SRE: SLIs, SLOs y Automatizaciones Que Realmente Ayudan
Vamos a explorar cómo definir SLIs y SLOs como código, desplegarlos con ArgoCD, y usar servidores MCP para automatizar flujos de trabajo de SRE...
SRE: Gestión de Incidentes, Guardias y Postmortems como Código
Vamos a explorar cómo construir un flujo de gestión de incidentes efectivo, configurar guardias que no quemen a la gente, escribir runbooks como código y hacer postmortems sin culpar a nadie...
SRE: Observabilidad a Fondo: Trazas, Logs y Métricas
Vamos a explorar los tres pilares de la observabilidad, cómo instrumentar tus aplicaciones con OpenTelemetry, construir dashboards útiles en Grafana, y configurar agregación de logs que realmente ayude durante incidentes...
SRE: Chaos Engineering, Rompiendo Cosas a Propósito
Vamos a explorar chaos engineering en Kubernetes usando Litmus y Chaos Mesh, cómo planificar y ejecutar game days, y por qué romper cosas a propósito es la mejor forma de construir sistemas confiables...
SRE: Planificación de Capacidad, Autoescalamiento y Pruebas de Carga
Vamos a explorar cómo dimensionar correctamente tus workloads de Kubernetes, configurar HPA y VPA para escalamiento automático, usar KEDA para escalamiento basado en eventos, y hacer pruebas de carga con k6...
SRE: Gestión de Secretos en Kubernetes
Vamos a explorar la gestión de secretos en Kubernetes, desde Sealed Secrets y External Secrets Operator hasta la integración con HashiCorp Vault, estrategias de rotación de secretos, y SOPS para encriptar secretos en Git...
SRE: GitOps con ArgoCD
Vamos a explorar los principios de GitOps con ArgoCD, desde Application CRDs y patrones App of Apps hasta estrategias de sincronización, gestión multi-cluster con ApplicationSets, y monitoreo de tus flujos GitOps...
SRE: Optimización de Costos en la Nube
Vamos a explorar los principios de FinOps y estrategias de optimización de costos para Kubernetes e infraestructura cloud, desde right-sizing de workloads e instancias spot hasta visibilidad con Kubecost y SLOs conscientes del costo...
SRE: Gestión de Dependencias y Degradación Elegante
Vamos a explorar cómo gestionar dependencias de servicios de forma confiable, desde circuit breakers y patrones bulkhead hasta estrategias de degradación elegante y SLOs de dependencias con ejemplos prácticos en Elixir y Kubernetes...
SRE: Ingeniería de Releases y Entrega Progresiva
Vamos a explorar prácticas de ingeniería de releases para deployments confiables, desde canary releases con Argo Rollouts y deployments blue-green hasta feature flags, automatización de rollbacks, y SLOs de deployment...
SRE: Confiabilidad de Bases de Datos
Vamos a explorar patrones de confiabilidad de bases de datos para PostgreSQL en Kubernetes, desde connection pooling y estrategias de backup hasta migraciones sin downtime, el operador CloudNativePG, y automatización de failover...
SRE: Seguridad como Código
Vamos a explorar prácticas de seguridad como código para Kubernetes, desde políticas de OPA Gatekeeper y Pod Security Standards hasta escaneo de imágenes con Trivy, network policies, seguridad en runtime con Falco, y seguridad de la cadena de suministro...
SRE: Recuperación ante Desastres y Continuidad del Negocio
Vamos a explorar la planificación de recuperación ante desastres para Kubernetes, desde objetivos de RPO y RTO hasta backups con Velero, recuperación de etcd, estrategias multi-región, simulacros de DR, y runbooks para recuperación completa del cluster...
SRE: Reduccion de Toil y Automatizacion
Vamos a explorar estrategias de reduccion de toil del libro de Google SRE, desde identificar y medir el toil hasta construir sistemas auto-reparables, herramientas internas con Elixir, patrones de seguridad en automatizacion, y la regla del 50 por ciento...