Strong Python skills and hands-on experience building data pipelines
Experience with modern data platforms/tools (Databricks, Apache Airflow, Apache Spark, Google BigQuery, Microsoft Fabric) and efficient usage
Advanced SQL and relational data modeling with experience in ETL/ELT architectures and orchestration of data workflows
Cloud data platform familiarity (data lakes/object storage) and CI/CD/versioning in data environments; exposure to ML/AI workflows is a plus
Requirements:
Design, implement and optimize batch and streaming data pipelines to ensure reliable, performant, and scalable data processing
Build robust ETL/ELT processes using Python and Databricks, from raw data ingestion to analytics-ready datasets
Design, manage and optimize analytics-oriented data models, ensuring data consistency and maintainability across platforms
Monitor and improve data quality, performance, and stability; implement monitoring and testing strategies; collaborate with teams and stakeholders to align data requirements
Job description
Deine Rolle:
Zur Verstärkung unseres Teams suchen wir ab sofort eine(n) (Senior) Data Engineer (m/w/d). Remote - Rhein/Ruhr oder München.
Als Data Engineer spielst du eine zentrale Rolle beim Aufbau und der Weiterentwicklung unserer Datenplattform. Du sorgst dafür, dass aus unterschiedlichsten Rohdaten – insbesondere Produktdaten – hochwertige, verlässliche und skalierbare Datensätze entstehen, die als Grundlage für Analytics, Reporting und datengetriebene Entscheidungen dienen.
Was dich bei uns erwartet:
Konzeption und Umsetzung moderner Datenpipelines: Du entwickelst und optimierst Batch- und Streaming-Datenpipelines und sorgst dafür, dass Daten zuverlässig, performant und skalierbar verarbeitet werden.
Aufbau leistungsfähiger ETL-/ELT-Prozesse: Mit Python und Databricks konzipierst, implementierst und betreibst Du robuste Datenintegrationsprozesse – von der Rohdatenaufnahme bis zur Bereitstellung für Analytics.
Entwicklung zukunftssicherer Datenmodelle: Du entwirfst, verwaltest und optimierst Datenmodelle für analytische Anwendungen und nachgelagerte Systeme und stellst deren Konsistenz und Wartbarkeit sicher.
Qualität und Stabilität der Datenplattform: Du überwachst und verbesserst kontinuierlich Datenqualität, Performance und Stabilität über die gesamte Plattform hinweg und etablierst geeignete Monitoring- und Testing-Strategien.
Enge Zusammenarbeit mit Team und Fachbereichen: Du arbeitest eng mit dem Entwicklungsteam zusammen und stimmst Dich mit den Fachbereichen zu datenbezogenen Anforderungen ab, um fachlich und technisch optimale Lösungen zu schaffen.
Was wir uns von Dir wünschen…
Python-Kenntnisse im Data Engineering: Du verfügst über sehr gute Kenntnisse in Python und setzt diese sicher für die Entwicklung von Datenpipelines ein.
Erfahrung mit modernen Datenplattformen: Du hast praktische Erfahrung mit Technologien wie Databricks, Apache Airflow, Apache Spark, Google BigQuery, Microsoft Fabric oder vergleichbaren Plattformen und weißt, wie man sie effizient einsetzt.
Sicherer Umgang mit SQL und Datenmodellierung: Du beherrschst SQL auf fortgeschrittenem Niveau und bringst fundierte Kenntnisse in relationaler Datenmodellierung mit.
Know-how in ETL-/ELT-Architekturen: Du kennst gängige Architekturmuster für Datenintegration und hast Erfahrung in der Orchestrierung komplexer Daten-Workflows.
Cloud- und Storage-Verständnis: Du bist vertraut mit Cloud-basierten Datenplattformen sowie Speicherlösungen wie Data Lakes oder Object Storage und verstehst deren architektonische Besonderheiten.
Erfahrung im ML/AI-Umfeld: Idealerweise hast du bereits Erfahrung mit Machine-Learning- oder AI-Projekten gesammelt, z. B. beim Aufbau und Betrieb von AI-Workflows oder auch beim Training und der Integration von Modellen in produktive Datenprozesse.
Qualitätsbewusstsein und Performance-Fokus: Best Practices in Datenanalyse, Datenqualität, Monitoring und Performance-Optimierung sind für Dich selbstverständlicher Bestandteil deiner Arbeit.
Versionierung und CI/CD im Datenumfeld: Du hast Erfahrung im Umgang mit Git sowie mit CI/CD-Prozessen für Daten-Workflows und trägst so zu stabilen, reproduzierbaren Deployments bei.
Deine Benefits bei uns:
Flexible Arbeitszeiten
Flexibler Arbeitsort (Homeoffice)
Dynamisches, innovatives Team
Viel Freiraum für eigene Ideen und Kreativität
Attraktive Vergütung mit der Möglichkeit eigener Anteile