Site Reliability Engineer (m/w/d)

Remote: 
Full Remote
Contract: 
Work from: 

Offer summary

Qualifications:

Practical experience in on-premises to cloud migrations with a focus on scaling, security, and governance., Solid knowledge of cloud platforms (e.g., AWS, Azure, GCP) and Infrastructure as Code (e.g., Terraform)., Experience with configuration management tools (e.g., Ansible) and container technologies (e.g., Podman, Kubernetes)., Strong understanding of observability, monitoring, logging, and tracing, along with experience in defining metrics and alerting standards..

Key responsibilities:

  • Contribute SRE expertise to Dev and platform teams, establishing cross-team Site Reliability Engineering practices.
  • Actively shape operational architecture and DevOps processes to ensure availability, performance, and compliance.
  • Participate in the daily operation of platforms and services, promoting systematic operational excellence.
  • Identify and automate toil, develop standards for observability, CI/CD, and incident response to enhance engineering productivity and reliability culture.

DATEV eG logo
DATEV eG SME https://www.datev.de/
5001 - 10000 Employees
See all jobs

Job description

Das ist das Arbeitsumfeld:

Du wirst Teil eines agilen Teams in der Softwareentwicklung im Digital & Print Solution Center (DPSC), welches für die Entwicklung komplexer, individueller und eng an die spezifischen Wünsche und Anforderungen unserer Kunden ausgerichteten Softwarelösungen in diesem Geschäftsfeld verantwortlich ist. Du übernimmst dabei schwerpunktmäßig Aufgaben um Umfeld des anstehenden Technologieshifts in die Cloud und erarbeitest zusammen mit den Mitgliedern der neu gegründeten Projektgruppe Lösungen für die Transformation der DPSC-IT-Landschaft im Rahmen der DATEV-Cloudstartegie.

Das sind die Aufgaben:
  • Du bringst dein SRE-Know-how in unsere Dev- und Plattform-Teams ein und etablierst teamübergreifend praktikable Site Reliability Engineering Practices (z. B. SLOs, Error Budgets, Toil-Reduktion, Postmortems).
  • Du gestaltest aktiv unsere Betriebsarchitektur und DevOps-Prozesse mit, um gemeinsam Verfügbarkeit, Performance, Robustheit, Kosteneffizienz sowie Compliance (Sicherheit, Datenschutz) nachhaltig sicherzustellen.
  • Du wirkst im täglichen Betrieb unserer Plattformen, 3rd-Party-Lösungen und produktiven Services mit und förderst systematische Operational Excellence.
  • Du identifizierst und automatisierst Toil, entwickelst Standards für Observability, CI/CD und Incident Response – und stärkst so unsere Engineering Productivity und Reliability Culture.

Das suchen wir:
Erforderliche Skills:
  • Du verfügst über praktische Erfahrung in On-Premises-zu-Cloud-Migrationen, idealerweise mit Fokus auf Skalierung, Sicherheit und Governance.
  • Du besitzt fundierte Kenntnisse im Umgang mit Cloud-Plattformen (z. B. AWS, Azure, GCP) und Infrastructure as Code (z. B. Terraform).
  • Du hast Erfahrung im Konfigurationsmanagement (z. B. Ansible).
  • Du verfügst über Praxiserfahrung in der Arbeit mit Container-Technologien (z. B. Podman, Kubernetes).
  • Du bist erfahren im Aufbau und Betrieb von CI/CD-Pipelines (z. B. GitLab CI, GitHub Actions).
  • Du besitzt fundierte Kenntnisse in Observability: Du gestaltest Monitoring, Logging und Tracing aktiv mit und verfügst über Erfahrung in der Auswahl, Einführung und Weiterentwicklung entsprechender Lösungen – einschließlich Metrikdefinition, Alerting-Standards und Dashboarding.
  • Du hast solides Know-how in der Administration von Windows-Systemen sowie ein tiefes Verständnis von Netzwerktechnologien (TCP/IP, DNS, Routing, Firewalls).

Erlernbare Skills:
  • Du erlernst den Einsatz von Cloud-native Tools (z. B. Service Mesh, KEDA, Flux) im täglichen Doing und erlangst Kenntnisse im Umgang mit relationalen Datenbanken (z. B. PostgreSQL, Microsoft SQL Server).
  • Du erarbeitest Dir Erfahrung mit Secret Management (z. B. HashiCorp Vault).
  • Du erlangst Vertrautheit mit den Prinzipien von Site Reliability Engineering, insbesondere der Definition und Messung von SLIs, SLOs und SLAs, sowie in der Automatisierung und Optimierung der Systemresilienz. 

Das bieten wir:
  • Möglichkeit zur Arbeit im "Homeoffice" im Sinne einer mobilen, ortsunabhängigen Arbeit innerhalb Deutschlands inkl. der dazugehörigen technischen Ausstattung
  • Flexible Arbeitszeit inkl. der Möglichkeit zum Freizeitausgleich für eine gute Work-Life-Balance
  • Großes Angebot an fachlichen und persönlichen Weiterbildungen innerhalb und außerhalb der Arbeitszeit sowie zahlreiche interne Communities zum Vernetzen und gegenseitigen Lernen
  • und vieles mehr… 

Das sind wir:

DATEV ist mehr als ein grünes Rechteck. Wir sind einer der größten Software- und IT-Dienstleister Europas mit Hauptsitz in Nürnberg. Mehr als 9.000 Mitarbeitende geben alles, um die Digitalisierung der Geschäftsprozesse unserer über 800.000 Kund:innen voranzutreiben. Diese vertrauen auf unsere PC- und Cloud-Lösungen sowie mobilen Apps und rechnen damit beispielsweise monatlich rund 14 Millionen Lohnabrechnungen ab. Wir sind eine starke und offene Community, in der die Menschen nicht nur schnell ankommen, sondern auch gerne bleiben. Dafür sorgt unsere Kultur von Sicherheit und Offenheit, die auf eine technologisch fortschrittliche Arbeitsumgebung trifft. Diversity, Equity und Inclusion sind für uns die essenzielle Grundlage, damit alle gleichberechtigt am Arbeitsleben teilhaben können. Dafür steht DATEV jeden Tag ein. Die beste Zukunft entsteht in starker Gemeinschaft. #WirsindDATEV!

Wir freuen uns auf die Bewerbung über unser Karriereportal und auf ein Kennenlernen. Um einen sicheren und effizienten Bewerbungsprozess zu gewährleisten, bitten wir auf der nächsten Seite um die Anlage eines Bewerbungsaccounts.

Kontakt:

Reinhold Polster

Telefon:

+49 (911) 31955591

E-Mail:

karriere@datev.de

Required profile

Experience

Spoken language(s):
German
Check out the description to know which languages are mandatory.

Other Skills

  • Teamwork
  • Communication
  • Adaptability
  • Problem Solving

Site Reliability Engineer (SRE) Related jobs