Skip to main content

(Senior) Site Reliability Engineer / Distributed Cloud - STACKIT (m/w/d) in Heilbronn

Job Description

Du hast ein abgeschlossenes Studium in Informatik oder einem verwandten Fachgebiet.\n\nMindestens 2 Jahre aktive Erfahrung als SRE/DevOps Engineer, wo du gelernt hast, dass 'Works on my machine' keine Antwort ist.\n\nFundierte Erfahrung im Betrieb von Cloud-Infrastrukturen mit Kubernetes und/oder Virtualisierungstechnologien.\n\nDu hast gute Kenntnisse in der Softwareentwicklung mit Golang oder einer vergleichbaren Systemsprache und nutzt diese, um Abläufe zu automatisieren und eigene Tools zu bauen.\n\nEinleitungstext\n\nSchwarz Digits schafft das technologische Fundament für digitale Entscheidungsfreiheit in Europa. Als IT- und Digitalsparte der Schwarz Gruppe entwickeln und verantworten wir einerseits die IT-Infrastrukturen für die Handelssparten Lidl und Kaufland sowie die Schwarz Produktion und PreZero. Gleichzeitig agieren wir als unabhängiger Anbieter am externen Markt, um Unternehmen in ganz Europa bei ihrer digitalen Transformation zu unterstützen.

Unsere Kernleistungen bündeln wir in den Bereichen Cloud, Cyber Security, Data & AI, Communication und Workspace. Trage auch du zur digitalen Entscheidungsfreiheit in Europa bei.\n\nBei uns arbeitest du an der Schnittstelle zwischen Agilität und Sicherheit: Du profitierst von den schnellen Entscheidungswegen, genießt echte Gestaltungsspielräume in deinen Projekten und baust dabei auf das stabile Fundament der Schwarz Gruppe.\n\nDeine Aufgaben\n\nDu betreibst und optimierst unsere hochkomplexen Plattformen (Kubernetes, KubeVirt, Cilium, Ceph, Talos) sowie die zugrundeliegende Infrastruktur mit dem Fokus auf End-to-End-Stabilität, Skalierbarkeit und Kosten.\n\nDu entwickelst und pflegst unsere Monitoring- und Logging-Systeme (Metrics, Logs, Traces), um jederzeit tiefgreifende Einblicke in den Systemzustand zu gewährleisten und proaktiv Engpässe zu erkennen.\n\nDu implementierst konsequentes Synthetic Monitoring und Tracetests, um die End-to-End-Funktionalität kritischer Services kontinuierlich zu validieren.\n\nDu definierst und überwachst klare Service Level Objectives (SLOs) und reduzierst 'Toil' konsequent durch Code. Runbooks sind für dich nur die letzte Verteidigungslinie.\n\nDu dokumentierst deine Arbeit nachvollziehbar, denn das beste System ist wertlos ohne ein gutes Markdown.

(Senior) Site Reliability Engineer / Distributed Cloud - STACKIT (m/w/d) in Heilbronn

Heilbronn
Full time

Published on 05/11/2026

Share this job now