Senior Site Reliability Engineer (SRE) | SRE Senior

remote
Montreal, Quebec, Canada .
full-time . January 30, 2026

Description

Own production reliability at scale

Clinia builds the search, data, and cloud infrastructure that digital health enterprises across North America rely on to deliver trusted, connected care experiences. As a ~40-person post-Series A scale-up, we operate in a regulated healthcare environment where system reliability, security, and correctness are critical.

We are hiring a Senior Site Reliability Engineer (SRE) to strengthen the reliability, observability, and scalability of our production systems as the company grows. This is a senior, hands-on role with real ownership. You will operate production cloud infrastructure, participate in an on-call rotation, and drive systemic improvements that reduce incidents, operational risk, and long-term toil.

What you will do

Own production reliability through participation in an on-call rotation, incident response, and post-incident reviews that result in durable system improvements
Design, build, and evolve cloud infrastructure using Terraform and infrastructure-as-code practices, primarily on AWS, with exposure to GCP and Azure
Operate, scale, and improve Kubernetes platforms, including Amazon EKS, Bottlerocket, and Cilium / eBPF-based networking
Deploy and manage services using Helm and FluxCD, with a strong emphasis on GitOps workflows and automation
Establish and maintain end-to-end observability across distributed systems using OpenTelemetry, Prometheus, and Grafana LGTM (Loki, Tempo, Mimir)
Partner closely with software engineering and product teams to embed reliability, operability, and failure-mode thinking into system design
Identify recurring operational issues and replace them with clear automation, platform improvements, or architectural changes

What we are looking for

Proven experience as a Site Reliability Engineer, DevOps Engineer, or Infrastructure Engineer supporting production systems at scale
Hands-on experience with on-call rotations, incident management, and operating systems under real uptime and SLA expectations
Strong experience managing AWS cloud environments using Terraform. Experience with GCP or Azure is a plus
Deep understanding of Kubernetes internals and cluster operations, including Helm, GitOps tools such as Flux, and community operators (for example, CNPG)
Solid foundations in Linux systems and TCP/IP networking, including security, compliance, and modern networking technologies such as eBPF and Cilium
Working knowledge of modern monitoring and observability practices, including OpenTelemetry and Prometheus
Clear, direct communication during incidents and disciplined follow-through on remediation work

If you bring additional experience in platform security, performance optimisation, cost optimisation (FinOps), or internal tooling, we’d be glad to hear about it.

Why You Will Love Working Here

💰 Equity via our global ESOP, you share in what you build

🌴 4 weeks vacation plus summer hours

🏥 Group insurance from day one

🌍 Remote-friendly culture means you can work from anywhere

👩‍⚕️ 24/7 online doctor access for you and your family

🧑‍🤝‍🧑 Human first: whether it’s flexible schedules to fit life’s curveballs, a listening ear when challenges come up, or celebrating wins big and small, you’re more than just your role here

🏃 Movement matters: we believe in a balanced, active lifestyle. That’s why we offer a bonus ($) for every hour of physical activity you do. Hiking, yoga, climbing or whatever sport you do, we encourage you to keep moving at your own pace

💻 High-performance equipment including MacBook Pro with Apple Silicon

🐶 Office dog therapy sessions

🎉 Team events, 5@7s, and celebrations when we ship big

🌱 We are proudly B Corp certified and committed to building tools that actually make healthcare better

Let’s Build Something That Matters

This is an opportunity to build something from the ground up, with a team that moves fast, supports one another deeply, and cares about making a lasting impact in health. Ready to make a difference? Apply now.

We care about motivation as much as qualifications. Please answer the pre-screening questions thoughtfully, incomplete applications will not be considered.

*By submitting your application, you consent to share your personal information with Clinia, which will use it to process your application for this job position. Clinia will not use this information for any other purposes than stated above. See our Privacy Policy for more information.

Compensation: $130,000 - $150,000 CAD

SRE Senior

Assumer la fiabilité des systèmes de production à grande échelle

Clinia développe l’infrastructure de recherche, de données et infonuagique sur laquelle s’appuient des organisations de santé numérique en Amérique du Nord pour offrir des expériences de soins connectées et fiables. En tant qu’entreprise d’environ 40 personnes, post-série A, nous évoluons dans un environnement de santé réglementé où la fiabilité, la sécurité et l’exactitude des systèmes sont essentielles.

Nous recrutons un·e ingénieur·e principal·e en fiabilité des sites (SRE) afin de renforcer la fiabilité, l’observabilité et la capacité de mise à l’échelle de nos systèmes de production à mesure que l’entreprise grandit. Il s’agit d’un rôle senior, très concret, avec une réelle prise en charge. Vous exploiterez des infrastructures infonuagiques en production, participerez à une rotation de garde et piloterez des améliorations systémiques visant à réduire les incidents, les risques opérationnels et la charge opérationnelle à long terme.

Vos responsabilités

Assumer la fiabilité des systèmes de production par votre participation à la rotation de garde, à la gestion d’incidents et aux revues post-incident menant à des améliorations durables
Concevoir, déployer et faire évoluer l’infrastructure infonuagique à l’aide de Terraform et de pratiques d’infrastructure en tant que code, principalement sur AWS, avec une exposition à GCP et Azure
Exploiter, mettre à l’échelle et améliorer des plateformes Kubernetes, incluant Amazon EKS, Bottlerocket et des réseaux basés sur Cilium / eBPF
Déployer et gérer des services à l’aide de Helm et FluxCD, avec un fort accent sur les flux GitOps et l’automatisation
Mettre en place et maintenir une observabilité de bout en bout des systèmes distribués à l’aide d’OpenTelemetry, Prometheus et Grafana LGTM (Loki, Tempo, Mimir)
Collaborer étroitement avec les équipes de développement logiciel et de produit afin d’intégrer la fiabilité, l’opérabilité et l’analyse des modes de défaillance dès la conception des systèmes
Identifier les problèmes opérationnels récurrents et les remplacer par de l’automatisation claire, des améliorations de plateforme ou des changements architecturaux

Profil recherché

Expérience démontrée en tant qu’ingénieur·e SRE, DevOps ou infrastructure, avec des systèmes de production à grande échelle
Expérience concrète des rotations de garde, de la gestion d’incidents et de l’exploitation de systèmes avec de réelles exigences de disponibilité et d’ANS
Solide expérience dans la gestion d’environnements AWS à l’aide de Terraform Une expérience avec GCP ou Azure est un atout
Excellente compréhension des composantes internes de Kubernetes et de l’exploitation de clusters, incluant Helm, des outils GitOps comme Flux et des opérateurs communautaires (par exemple CNPG)
Bases solides en systèmes Linux et en réseaux TCP/IP, incluant les considérations de sécurité, de conformité et des technologies modernes comme eBPF et Cilium
Connaissance pratique des outils et pratiques modernes d’observabilité et de surveillance, incluant OpenTelemetry et Prometheus
Communication claire et directe lors des incidents, avec une discipline rigoureuse dans le suivi des actions correctives

Si vous apportez une expérience additionnelle en sécurité de plateforme, en optimisation de performance, en optimisation des coûts (FinOps) ou en outils internes, nous serons heureux d’en discuter.

Pourquoi tu aimeras travailler ici

💰 Équité grâce à notre programme global d’options d’achat d’actions; tu profiteras directement de ce que tu contribues à bâtir

🌴 4 semaines de vacances dès l’entrée en poste + horaires d’été

🏥 Assurance collective dès le premier jour

🌍 Culture Remote - travaillez de n’importe où

👩‍⚕️ Médecin en ligne 24/7 pour toi et ta famille

🧑‍🤝‍🧑 « People-First » : horaires flexibles,« care days », célébration des réussites grandes et petites

🏃 Bouger, c’est important: nous offrons une prime ($) pour chaque heure d’activité physique : randonnée, yoga, escalade ou toute autre activité, à votre rythme

💻 Équipement haut de gamme, incluant MacBook Pro avec Apple Silicon

🐶 Zoothérapie avec chiens au bureau

🎉 Événements d’équipe, 5@7 et célébrations lors des grands déploiements

🌱 Fièrement certifiés B Corp et engagés à créer des outils qui améliorent réellement les soins de santé

Un mot avant de postuler

Prêt à façonner l’avenir des technologies de la santé, à traduire des produits complexes en valeur claire et à être la voix qui propulsera notre plateforme vers l’avant? Postule dès aujourd’hui.

Nous accordons autant d’importance à la motivation qu’aux compétences. Merci de répondre soigneusement aux questions de présélection: les candidatures incomplètes ne seront pas considérées.

En soumettant votre candidature, vous consentez à partager vos renseignements personnels avec Clinia, qui les utilisera pour traiter votre demande dans le cadre de ce poste. Clinia n’utilisera pas ces renseignements à d’autres fins que celles énoncées ci-dessus. Consultez notre Politique de confidentialité pour en savoir plus.

Compensation

$130,000.00 - $150,000.00 per year

Know someone who would be a perfect fit? Let them know!