Experience operating highly available, business-critical applications in cloud and on-premises environments, including incident leadership
Strong Kubernetes knowledge with cluster management experience
Experience with GitOps principles and ArgoCD for deployment and delivery workflows
Experience with Infrastructure as Code, especially Terraform and Ansible
Requirements:
Design and implement observability solutions with Prometheus, Loki, and Mimir, including the definition of meaningful alerts and ongoing improvements to monitoring coverage
Analyze, troubleshoot and develop in-house Kubernetes controllers to ensure reliability and stability
Develop and maintain production applications with a focus on code quality, scalability, and operability
Operate, automate and continuously evolve the MKA platform with a focus on efficiency and maintainability, including development of internal tooling to promote automation and reduce manual effort
Job description
Deine Mission
Als Senior Site Reliability Engineer (m/w/d) im MetaKube Accelerator Team nutzt du moderne Kubernetes- und Cloud-Native-Technologien, um die Zuverlässigkeit, Skalierbarkeit und operative Exzellenz der MKA-Plattform zu maximieren. Du löst komplexe Plattform-Herausforderungen, entwickelst produktionsreife Systeme und trägst zu Shared Ownership und kontinuierlicher Verbesserung bei. Damit gestaltest du aktiv die Weiterentwicklung des MetaKube Accelerators und erhöhst die Zuverlässigkeit unserer Managed Services.
Deine Aufgaben
Entwerfen und Implementieren von Observability-Lösungen mit Prometheus, Loki und Mimir, einschließlich der Definition sinnvoller Alerts sowie der kontinuierlichen Verbesserung der Monitoring-Abdeckung
Analyse, Troubleshooting und Weiterentwicklung eigener Kubernetes-Controller, um Zuverlässigkeit und Stabilität sicherzustellen
Entwicklung und Wartung von Produktionsanwendungen mit Fokus auf Codequalität, Skalierbarkeit und operativer Einsatzfähigkeit
Betrieb, Automatisierung und kontinuierliche Weiterentwicklung der MKA-Plattform mit Fokus auf Effizienz und Wartbarkeit
Weiterentwicklung interner Tooling-Lösungen, um Automatisierung zu fördern und manuellen Aufwand zu reduzieren
Das bringst Du mit
Erfahrung im Betrieb von hochverfügbaren, geschäftskritischen Anwendungen in Cloud- und On-Premises-Umgebungen, inklusive Incident Leadership
Sehr gute Kubernetes-Kenntnisse sowie Erfahrung im Cluster-Management
Erfahrung mit GitOps-Prinzipien und ArgoCD für Deployment- und Delivery-Workflows
Erfahrung mit Infrastructure as Code, insbesondere Terraform und Ansible
Gute Kenntnisse in Bash und/oder Python für Automatisierung und Tooling
Verständnis von CI/CD-Pipelines, idealerweise mit Tekton-basierten Workflows
Sehr gute Deutschkenntnisse sowie gute Englischkenntnisse (B2+) für die technische Zusammenarbeit
Nice to have
Erfahrung in der Go-Programmierung
Erfahrung mit Nix für Development-Tooling und Automatisierung
Erfahrung mit Helm, Make und Git
Weitere Erfahrung mit Cloud-Native-Plattformen, Observability oder Plattform-Automatisierung
Was Dich bei uns erwartet
Du erhältst tiefgehende praktische Kubernetes-Erfahrung und lernst die Internals auf einem Level kennen, das nur wenige haben. Du bekommst die Freiheit, Herausforderungen zu lösen, Wissen zu teilen und kontinuierlich zu lernen – sei es durch Team-Zusammenarbeit, interne Show-and-Tell-Sessions oder Konferenzen wie KubeCon oder Container Days.
Bei SysEleven in Berlin realisieren wir erstklassige Cloud-Lösungen auf Basis von Kubernetes und OpenStack und stehen dabei konsequent für digitale Souveränität.
Wir leben Diversität – auch im Denken und Handeln, denn nur unterschiedliche Blickwinkel finden am Ende die beste Lösung, die uns und unsere Kunden weiterbringt. Kurz gesagt: Wir achten aufeinander und hängen uns voll rein. Wenn du in diesem vertrauensvollen Umfeld wachsen und die Zukunft flexibler Infrastrukturen mitprägen willst, bist du bei uns genau richtig.